Palavras-chave:Agente de IA, Robô humanoide, Modelo de grande escala, AIGC (Inteligência Artificial Geradora de Conteúdo), Microsoft 365 Copilot, Modelo virtual de mosca-da-fruta da DeepMind, Abuso de artigos acadêmicos de IA, Modelo de código aberto da OpenAI, Comercialização de IA na indústria farmacêutica, Cabine inteligente com modelo de grande escala no dispositivo, Ecossistema de IA do protocolo MCP, Técnicas de pintura com IA

🔥 Foco

Microsoft lança agentes de IA e relatório de tendências de trabalho para 2025: A Microsoft introduziu atualizações significativas no Microsoft 365 Copilot, apresentando agentes de IA como Researcher e Analyst, com o objetivo de elevar a IA de ferramenta para “colega de IA”. Novas funcionalidades incluem Notebook (integrando Web+Work+Pages), pesquisa abrangente (entre aplicações e fontes de terceiros) e Create (integrado com geração de imagens GPT-4o). O relatório de tendências de trabalho para 2025, lançado simultaneamente, prevê o surgimento de “empresas de vanguarda”, construídas em torno de “inteligência sob demanda”, apoiadas por equipas “híbridas humano-máquina”, onde os funcionários precisarão ter uma “mentalidade de ‘chefe de agente’“. O relatório indica que a IA remodelará profundamente os modelos de trabalho e as estruturas organizacionais nos próximos anos, enfatizando que os agentes de IA se tornarão a produtividade central. (Fonte: 新智元)

Microsoft lança agentes de IA e relatório de tendências de trabalho para 2025

DeepMind simula mosca-da-fruta e chega à capa da Nature: O Google DeepMind, em colaboração com o HHMI Janelia Research Campus, criou um modelo virtual altamente realista de uma mosca-da-fruta usando IA e técnicas de simulação física. O modelo, baseado em dados de varredura de alta resolução, foi construído no motor de física MuJoCo e incluiu simulações de dinâmica de fluidos e adesão dos pés. Através de deep reinforcement learning e imitation learning (utilizando vídeos de comportamento real de moscas-da-fruta), uma rede neural de IA conseguiu conduzir a mosca virtual a simular comportamentos complexos de voo e caminhada, incluindo navegação visual. A pesquisa não só revela os mecanismos complexos por trás do movimento biológico, mas também fornece uma plataforma de pesquisa poderosa para a neurociência e a robótica. O modelo e o código foram disponibilizados em open source, impulsionando a pesquisa em áreas relacionadas. (Fonte: 新智元)

DeepMind simula mosca-da-fruta e chega à capa da Nature

Nature expõe o abuso de IA em artigos acadêmicos: Um artigo de capa da Nature aponta que um grande número de artigos acadêmicos (o rastreador Academ-AI já registrou mais de 700) usaram IA (como o ChatGPT) para escrita sem declaração, contendo até mesmo traços óbvios como “Eu sou um modelo de linguagem de IA”. Mais preocupante ainda, descobriu-se que algumas editoras (como a Elsevier) removeram silenciosamente esses traços de IA sem publicar erratas, levantando preocupações sobre a integridade científica. Pesquisadores pedem que os autores divulguem claramente o uso específico da IA, e que as editoras estabeleçam mecanismos de revisão mais rigorosos e publiquem registros de correção para manter a transparência e a credibilidade da pesquisa acadêmica. (Fonte: 新智元)

Nature expõe o abuso de IA em artigos acadêmicos

OpenAI prevê rápido crescimento de receita e planeja reestruturação, gerando controvérsia: A OpenAI prevê que a receita total atinja 125 bilhões de dólares até 2029, com a receita de novos negócios, como agentes inteligentes, superando a do ChatGPT. Ao mesmo tempo, a empresa planeja se reestruturar como uma Public Benefit Corporation (PBC), uma medida que gerou oposição pública do “padrinho da IA” Hinton e de 10 ex-funcionários, entre outros. Os opositores argumentam que a reestruturação enfraquecerá o controle da organização sem fins lucrativos, violando o objetivo original de garantir o desenvolvimento seguro da AGI e beneficiar a humanidade, colocando os interesses comerciais acima da missão filantrópica. Eles pedem que a OpenAI explique como a reestruturação se alinha com sua missão e exigem a manutenção das garantias de governança da organização sem fins lucrativos. (Fonte: 智东西, 腾讯科技, 学术头条)

OpenAI prevê rápido crescimento de receita e planeja reestruturação, gerando controvérsia

🎯 Tendências

Robôs humanoides são destaque no Salão do Automóvel de Xangai, montadoras aceleram implementação: No Salão do Automóvel de Xangai 2025, os robôs humanoides se tornaram um novo destaque. A XPeng exibiu o robô IRON, capaz de interagir com humanos, e planeja a produção em massa para uso em fábricas em 2026; a Chery apresentou seu Mornine gen-1 de desenvolvimento próprio, com capacidade de percepção multimodal e resposta a perguntas; SAIC Roewe, Changan Deepal e outras também exibiram robôs de parceiros ou introduzidos para atrair público. Tesla, GAC, BYD (com desenvolvimento próprio e investimento na ZY Robotics e Pasibot) e outras montadoras também estão acelerando a P&D e aplicação de robôs humanoides, otimistas quanto ao seu potencial na manufatura industrial, serviços e outros campos. Apesar das perspectivas promissoras, o setor ainda está em estágio inicial, com incertezas de mercado e risco de bolha. (Fonte: NBD汽车)

Robôs humanoides são destaque no Salão do Automóvel de Xangai, montadoras aceleram implementação

Província de Jilin investe na indústria de robótica, impulsionando a fusão de tecnologias automotivas e robóticas: Jilin, uma província com forte tradição na indústria automobilística, está investindo ativamente na indústria de robótica. StarNeto, FAW Fuwei e o Centro de Inovação em Robótica Biônica da Província de Jilin assinaram acordos de cooperação estratégica para desenvolver conjuntamente inteligência incorporada, modelos grandes, etc. O centro de inovação, liderado pela Universidade de Jilin, visa construir uma cadeia completa da indústria de robótica. A iniciativa aproveita a base madura da cadeia de suprimentos automotivos de Jilin (alta sobreposição entre componentes e tecnologia robótica) e está alinhada com as políticas de forte apoio à indústria de inteligência incorporada em níveis nacional e local (Shenzhen, Pequim). A tecnologia robótica, especialmente as partes relacionadas à condução autônoma, é vista como uma nova oportunidade após a inteligência da indústria automotiva. (Fonte: 科创板日报)

Província de Jilin investe na indústria de robótica, impulsionando a fusão de tecnologias automotivas e robóticas

Primeiro longa-metragem AIGC do mundo, “Rainha do Mar Zheng Yi Sao”, chega aos cinemas: Este filme de 70 minutos, produzido inteiramente com IA, conta a história da lendária pirata Zheng Yi Sao e estreou em Singapura. A produção enfrentou muitos desafios: a IA tem dificuldade em lidar com diálogos longos e movimentos de câmera complexos, tendendo a gerar imagens repetitivas ou incoerentes; a consistência da aparência dos personagens é difícil de garantir, resultando em problemas de “rostos parecidos” ou “mudança de rosto”, exigindo correção manual na pós-produção. A criação do roteiro, storyboard e edição ainda precisam ser lideradas por humanos, pois a IA ainda não consegue compreender completamente detalhes históricos e intenções criativas. Apesar das limitações, o AIGC reduziu significativamente as barreiras de entrada e os custos de produção, beneficiando especialmente novas equipes e demonstrando o potencial e a direção futura da colaboração humano-máquina na produção cinematográfica. (Fonte: 深响)

Primeiro longa-metragem AIGC do mundo, "Rainha do Mar Zheng Yi Sao", chega aos cinemas

OpenAI lança versão leve da funcionalidade Deep Research e a disponibiliza para usuários gratuitos: A OpenAI anunciou o lançamento de uma versão leve da funcionalidade Deep Research, alimentada pelo o4-mini, projetada para oferecer um nível de inteligência próximo à versão completa, mas com respostas mais concisas e custo menor. A funcionalidade já está disponível para usuários Plus, Team, Enterprise, Edu e gratuitos. Usuários pagos mudarão automaticamente para a versão leve após esgotarem sua cota da versão completa. Testes mostram que a versão leve é rápida, mas a profundidade da informação e a citação de fontes são inferiores à versão completa, com desempenho insatisfatório em tarefas complexas, agindo mais como um fornecedor de ideias do que um relatório completo. A versão completa, por outro lado, pode realizar pesquisas e análises aprofundadas, gerando relatórios estruturados, mas ainda há espaço para melhorias. (Fonte: APPSO, 量子位, gdb)

OpenAI lança versão leve da funcionalidade Deep Research e a disponibiliza para usuários gratuitos

Prévia do Google I/O 2025: IA nativa e fusão com XR: O Google I/O 2025, que ocorrerá em 20 de maio, deve destacar a IA e a colaboração entre múltiplos dispositivos. O Android 16 integrará profundamente o modelo grande Gemini, tornando-o uma capacidade nativa do sistema e abrindo mais APIs para desenvolvedores. Visualmente, adotará a linguagem de design Material 3 Expressive e reforçará a adaptação para tablets, wearables e dispositivos XR. O aguardado sistema operacional Android XR fará sua estreia, também com o Gemini como motor de interação principal, visando conectar o real e o virtual. Espera-se que os óculos Google AI e o dispositivo MR Project Moohan, em colaboração com a Samsung, também sejam apresentados, mostrando os planos do Google para assistentes de IA e um ecossistema XR aberto. (Fonte: 雷科技)

Prévia do Google I/O 2025: IA nativa e fusão com XR

Kimi da Moonshot AI testa funcionalidade de comunidade de conteúdo para enfrentar concorrência: Diante do impacto de modelos como o DeepSeek, a Moonshot AI está testando internamente uma funcionalidade de comunidade de conteúdo para seu assistente de IA Kimi. A comunidade está atualmente em fase de teste A/B (gray testing), com conteúdo gerado principalmente por IA e convites para canais de nicho se juntarem, oferecendo funcionalidades interativas como curtir e comentar. Esta medida é vista como uma inovação da Moonshot AI na camada de aplicação, visando construir uma vantagem competitiva através de um ecossistema de conteúdo para lidar com a pressão competitiva trazida pelo DeepSeek no nível técnico. Anteriormente, Kimi se tornou um produto estrela no mercado de IA para consumidores devido à sua capacidade de processamento de texto longo e marketing, mas foi posteriormente superado em número de usuários pelo DeepSeek e Tencent Yuanbao, entre outros. (Fonte: 司库财经)

Kimi da Moonshot AI testa funcionalidade de comunidade de conteúdo para enfrentar concorrência

OpenAI planeja lançar novo modelo open source neste verão: Segundo o TechCrunch, a OpenAI planeja lançar um novo modelo de linguagem grande open source neste verão, com uma licença permissiva que permite download gratuito e uso comercial. O modelo visa superar o desempenho dos modelos open source existentes da Meta (Llama) e DeepSeek, e pode incluir uma funcionalidade de “handoff”, onde o modelo open source pode chamar o modelo grande na nuvem da OpenAI para ajudar a lidar com problemas difíceis. Esta medida é vista como uma mudança significativa na estratégia open source da OpenAI, visando atrair desenvolvedores, aumentar a competitividade e aperfeiçoar seu ecossistema de IA. (Fonte: 智东西)

OpenAI planeja lançar novo modelo open source neste verão

Protocolo MCP impulsiona ecossistema de AI Agent, mas enfrenta desafios comerciais: O protocolo MCP (Model Communication Protocol) visa padronizar a interação entre modelos de IA e ferramentas/serviços externos, simplificando a complexidade da integração (de M×N para M+N), sendo aclamado como a “interface USB-C” das aplicações de IA. A demonstração bem-sucedida do Manus Agent e o apoio de gigantes como a OpenAI (fabricantes chineses como Alibaba, Tencent, Baidu também seguiram) ao MCP impulsionaram enormemente sua popularização e o desenvolvimento do ecossistema de Agent. No entanto, ao abraçar o MCP, muitos fabricantes tendem a construir ecossistemas “totalmente fechados” (como a integração do Alibaba Cloud com o Amap, ou o Tencent Cloud acessando o WeChat Read), protegendo seus próprios dados e vantagens de ecossistema, o que pode levar à fragmentação do ecossistema e limitar o MCP de se tornar um padrão verdadeiramente universal. O futuro ecossistema de Agent pode apresentar um cenário de “abertura limitada”, com o MCP atuando como um “conector de ecossistema” em vez de um padrão único. (Fonte: 产业家)

Protocolo MCP impulsiona ecossistema de AI Agent, mas enfrenta desafios comerciais

Guerra de preços de modelos grandes continua, Li Yanhong da Baidu afirma que DeepSeek é “lento e caro”: A Baidu lançou os modelos Wenxin 4.5 Turbo e X1 Turbo, enfatizando sua relação custo-benefício superior à do DeepSeek. Li Yanhong apontou que o DeepSeek não só tem capacidades limitadas (principalmente processamento de texto), mas também tem alto custo de chamada e baixa velocidade. O preço do Wenxin 4.5 Turbo é inferior ao período promocional do DeepSeek V3, e o preço do X1 Turbo é comparável ao período promocional do DeepSeek R1, mas muito inferior ao seu preço padrão. Novos modelos como o Doubao da ByteDance e o Gemini Flash do Google também adotaram estratégias de baixo preço. No entanto, o artigo aponta que apenas o custo-benefício não é suficiente para vencer, o sucesso do DeepSeek reside em inovações técnicas como sua cadeia de pensamento (chain of thought), que proporcionam uma experiência única. Os modelos chineses têm vias de monetização comercial relativamente limitadas (cobrança por API), enquanto no exterior (como a OpenAI) existem modelos mais diversificados (como assinaturas para consumidores). (Fonte: 直面AI)

Guerra de preços de modelos grandes continua, Li Yanhong da Baidu afirma que DeepSeek é "lento e caro"

Dez anos de altos e baixos na indústria farmacêutica de IA, enfrentando desafios comerciais e técnicos: A indústria farmacêutica de IA desenvolveu-se por mais de dez anos, visando aumentar a eficiência e reduzir os custos da pesquisa e desenvolvimento de medicamentos através da IA. A recente eliminação da exigência de testes em animais pela FDA favorece métodos alternativos como a modelagem por IA. A indústria passou por um boom de capital (pico em 2021), mas entrou em um período de ajuste com o fracasso de alguns pipelines em fase clínica (como o da BenevolentAI) e a retração do capital. Empresas de destaque como a XtalPi (IA+CRO), após o IPO, expandiram para áreas como IA+novos materiais em busca de retornos comerciais mais rápidos; a Insilico Medicine persiste no modelo “pipeline próprio + License Out”, já tendo fechado vários acordos de licenciamento. A indústria ainda enfrenta desafios como dificuldade na obtenção de dados (empresas farmacêuticas não compartilham dados essenciais), longos ciclos de validação de algoritmos e falta de medicamentos aprovados. No entanto, avanços tecnológicos como AlphaFold e IA generativa trazem novas esperanças, e a indústria aguarda o “ponto de singularidade” do primeiro medicamento desenvolvido por IA a ser aprovado com sucesso. (Fonte: 亿欧网)

Dez anos de altos e baixos na indústria farmacêutica de IA, enfrentando desafios comerciais e técnicos

Modelo grande de ponta da Mianbi Intelligence impulsiona cockpit inteligente, alcançando produção em massa em dez meses: A Mianbi Intelligence lançou o assistente de cockpit inteligente cpmGO, impulsionado por seu modelo grande de ponta MiniCPM, que já alcançou a produção em massa em novos carros da Changan Mazda em apenas 10 meses. O cpmGO opera puramente localmente, garantindo a privacidade dos dados, alcançando resposta em milissegundos e não sendo limitado pela rede. Possui capacidades de percepção multimodal (visual, voz, UI) e interação, suportando operação “o que se vê é o que se diz”, com um GUI Agent puramente de ponta integrado que pode entender e executar operações na tela. A Mianbi Intelligence já colaborou com várias empresas de chips e Tier1, como Qualcomm, MediaTek, Intel e ThunderSoft, para promover a aplicação de IA de ponta no setor automotivo, visando resolver os problemas de custo, latência e privacidade das soluções em nuvem, e alcançar uma experiência de cockpit inteligente mais fluida e segura. (Fonte: 量子位)

Modelo grande de ponta da Mianbi Intelligence impulsiona cockpit inteligente, alcançando produção em massa em dez meses

Instituto de Inteligência Científica de Xangai usa IA para impulsionar a mudança de paradigma de pesquisa em múltiplos domínios: O SAII (Shanghai Artificial Intelligence Laboratory for Science) colabora com a Universidade Fudan e outras instituições, apoiado pela plataforma de computação CFFF (40 PFlop/s de poder computacional), usando IA para impulsionar pesquisas em ciências da vida, meteorologia, materiais, medicina, clima, humanidades e ciências sociais. Os resultados incluem: o modelo grande meteorológico “Fuyao” que alcança previsão do tempo urbana em nível de quilômetro e segundo; o modelo grande de ciências da vida “Nuwa” que acelera a P&D de medicamentos siRNA; o modelo grande de materiais “Suiren” que explora novos materiais e descoberta de medicamentos; o desenvolvimento do modelo grande especializado em cardiologia “Guanxin CardioMind” em colaboração com o Hospital Zhongshan; o modelo grande climático PI@Climate que integra conhecimento multidisciplinar para enfrentar as mudanças climáticas; o algoritmo VI-CNOPs que otimiza a previsão probabilística da trajetória de tufões; o modelo grande da Civilização Chinesa que auxilia na arqueologia e pesquisa de escrita antiga; e avanços em tecnologias básicas de IA como aprendizado federado, multimodalidade e aprendizado de grafos, construindo conjuntamente um ecossistema de inteligência científica aberto e colaborativo. (Fonte: 量子位)

Instituto de Inteligência Científica de Xangai usa IA para impulsionar a mudança de paradigma de pesquisa em múltiplos domínios

🧰 Ferramentas

Universidade de Stanford lança ferramenta open source de geração de relatórios de IA, Storm: Storm é uma ferramenta de IA que pode realizar pesquisas na web automaticamente, integrar informações e gerar relatórios estruturados no estilo da Wikipédia. O usuário insere um tópico e o Storm simula o fluxo de trabalho de um pesquisador: planeja o esboço da pesquisa, encontra fontes de informação relevantes, integra informações e escreve o relatório. Isso é muito útil para usuários que precisam redigir rapidamente relatórios de antecedentes, revisões de literatura ou análises aprofundadas. O projeto está open source no GitHub e oferece uma versão de teste online. (Fonte: karminski3)

Universidade de Stanford lança ferramenta open source de geração de relatórios de IA, Storm

Framework open source de grafo de conhecimento Graphiti lançado: Graphiti é um framework capaz de integrar continuamente interações do usuário, dados estruturados/não estruturados e informações externas em um grafo de conhecimento consultável. Sua característica é suportar atualizações incrementais e recuperação eficiente, sem a necessidade de recalcular todo o grafo, sendo especialmente adequado para o desenvolvimento de aplicações de IA interativas que exigem consciência de contexto e rastreamento histórico. O projeto já ganhou atenção considerável no GitHub (4.4K Star). (Fonte: karminski3)

Framework open source de grafo de conhecimento Graphiti lançado

Lovable 2.0 atualizado, melhora a experiência de construção de sites com IA: A ferramenta de construção de sites com IA Lovable lançou a versão 2.0, adicionando edição colaborativa multiusuário, varredura de segurança automática, agente de chat com inteligência 10x aprimorada, modo de desenvolvimento para editar código diretamente no aplicativo e suporte a domínio personalizado. Também atualizou a identidade visual e o design da UI, visando fornecer uma experiência de desenvolvimento de sites orientada por IA mais poderosa, segura e colaborativa. (Fonte: op7418)

Modelo de vídeo “Dreamina” da ByteDance atualizado, melhora consistência multi-cena: A ferramenta de geração de vídeo “Dreamina” (即梦) da ByteDance lançou a atualização do modelo 3.0. De acordo com casos compartilhados por usuários, o novo modelo demonstra excelente consistência de personagem e cenário ao gerar vídeos com múltiplas cenas em uma única vez, e esse efeito de consistência pode ser reproduzido de forma estável. O modelo suporta os modos texto-para-vídeo e imagem-para-vídeo, melhorando significativamente a praticidade e a qualidade da criação de vídeos com IA. (Fonte: op7418)

WAN Video entra em fase de comercialização, mas continua oferecendo serviço gratuito: A plataforma de geração de vídeo por IA WAN Video anunciou sua entrada na fase de comercialização, mas ao mesmo tempo lançou o “Relax mode” gratuito, oferecendo gerações gratuitas ilimitadas. Casos compartilhados por usuários mostram seu efeito na geração de cenas de guerra com soldados de Lego; embora os prompts exijam um nível mais alto, os resultados são aceitáveis. Isso oferece aos usuários a oportunidade de experimentar e usar gratuitamente as capacidades de geração de vídeo por IA. (Fonte: dotey)

WAN Video entra em fase de comercialização, mas continua oferecendo serviço gratuito

MiniMax TTS integra-se ao MCP-Server, simplificando o desenvolvimento de aplicações multimodais: A MiniMax disponibilizou suas poderosas capacidades de TTS (Text-to-Speech) em chinês e clonagem de voz, juntamente com ferramentas de texto-para-imagem/vídeo, imagem-para-vídeo, etc., através do MCP-Server (Model Communication Protocol Server) open source. Usuários podem chamar facilmente essas ferramentas em clientes que suportam MCP, como o Cursor, para realizar aplicações criativas como geração de audiolivros com diferentes personagens ou clonagem da voz de Elon Musk para contar histórias. O protocolo MCP simplifica a integração de modelos e ferramentas de IA, reduzindo as barreiras de desenvolvimento. (Fonte: 袋鼠帝AI客栈)

MiniMax TTS integra-se ao MCP-Server, simplificando o desenvolvimento de aplicações multimodais

EasyDoc: Motor inteligente de análise de documentos otimizado para RAG: EasyDoc oferece um serviço de API para analisar documentos como PDF, Word, PPT, etc., gerando saída em formato JSON adequada para processamento por LLMs. Sua vantagem reside na capacidade de identificar inteligentemente blocos de conteúdo, analisar a estrutura hierárquica do documento (preservando relações pai-filho) e interpretar profundamente o conteúdo de tabelas e imagens (fornecendo dados estruturados e compreensão semântica), resolvendo eficazmente os pontos problemáticos do pré-processamento de documentos em aplicações RAG, como layout complexo de texto e imagem misturados, extração imprecisa de tabelas, etc. Oferece três modos (Lite, Pro, Premium) e cota de teste gratuita, com suporte para implantação privada (on-premise). (Fonte: AI进修生)

EasyDoc: Motor inteligente de análise de documentos otimizado para RAG

Dyad: Construtor de aplicações de IA localizado e open source: Dyad é uma ferramenta de construção de aplicações de IA gratuita, open source e que pode ser executada localmente, posicionada como uma alternativa a plataformas como v0, Lovable, Bolt, etc. Permite que os usuários desenvolvam em seus computadores locais, facilitando a integração com IDEs (como Cursor). A versão mais recente adicionou integração com Ollama, suportando a construção com modelos de linguagem grandes locais. Os usuários podem utilizar chaves de API gratuitas (como Gemini) para desenvolvimento. (Fonte: Reddit r/LocalLLaMA)

Dyad: Construtor de aplicações de IA localizado e open source

📚 Aprendizado

Infra Wisdom compartilha tendências e práticas de AI Infra: Liu Chuanlin, Arquiteto Chefe de Soluções da Infra Wisdom (无问芯穹), compartilhou tendências e práticas de infraestrutura de IA na AI Partner Conference. Ele apontou que, com os dados de pré-treinamento se esgotando, o reinforcement learning (como o paradigma DeepSeek R1) se torna crucial para a melhoria do desempenho do modelo, o que apresenta novos desafios para a Infra. A Infra Wisdom, contando com sua capacidade de otimização combinada de software e hardware, construiu uma plataforma de poder computacional que suporta diversos chips domésticos heterogêneos e, através de framework de treinamento auto-desenvolvido, otimização da eficiência de comunicação, alocação dinâmica de recursos, etc., adapta-se às necessidades de treinamento de LLM e modelos MoE, fornecendo suporte para treinamento de modelos multimodais como os da ShengShu Technology. Ao mesmo tempo, para cenários de inferência, otimizou a implantação do DeepSeek R1 e, através de serviços baseados em interface como o ComfyUI, resolve o problema de flutuação de tráfego AIGC, reduzindo o custo das aplicações de IA. (Fonte: 36氪)

Infra Wisdom compartilha tendências e práticas de AI Infra

DAMO Academy lança arquitetura DyDiT open source: metade do poder computacional, qualidade de geração visual sem perdas: A DAMO Academy e outras instituições propuseram a arquitetura dinâmica DyDiT na ICLR 2025, visando otimizar a eficiência de inferência dos modelos DiT (Diffusion Transformer). O DyDiT pode ajustar dinamicamente a alocação de recursos computacionais com base no passo de tempo do processo de geração e na região espacial da imagem, reduzindo a computação em passos simples ou regiões de fundo. Experimentos mostram que, com um pequeno custo de fine-tuning, o DyDiT pode reduzir os FLOPs de inferência do modelo DiT-XL em 51%, aumentar a velocidade em 1.73x, mantendo a qualidade da imagem gerada (métrica FID) quase inalterada. O método já está open source e planeja-se adaptá-lo para mais modelos de texto-para-imagem/vídeo. (Fonte: 量子位)

DAMO Academy lança arquitetura DyDiT open source: metade do poder computacional, qualidade de geração visual sem perdas

UniToken: Solução unificada de codificação visual que funde compreensão e geração: A Universidade Fudan e a Meituan propuseram o framework UniToken, visando resolver o problema da representação dividida e da interferência de treinamento entre tarefas de compreensão de imagem-texto e geração de imagem em modelos grandes multimodais. O UniToken, através da fusão de codificadores visuais contínuos (SigLIP) e discretos (VQ-GAN), fornece um conjunto unificado de representação visual com semântica de alto nível e detalhes de baixo nível para tarefas downstream. Adotando uma estratégia de treinamento multi-estágio (alinhamento semântico visual, treinamento conjunto multi-tarefa, fine-tuning de instrução) e combinando técnicas de aprimoramento visual de granularidade fina (AnyRes, fine-tuning de ViT), o UniToken alcançou desempenho SOTA ou próximo de SOTA em vários benchmarks. Código e modelo estão open source. (Fonte: 量子位)

UniToken: Solução unificada de codificação visual que funde compreensão e geração

Tsinghua e outros propõem Test-Time Reinforcement Learning (TTRL): Em resposta à capacidade limitada de generalização das técnicas existentes de Test-Time Scaling (TTS) ao enfrentar novas distribuições de dados e à falta de sinais de recompensa no Test-Time Training (TTT), a Universidade Tsinghua e o Shanghai AI Lab propuseram o TTRL. Este método pode, na ausência de dados rotulados, utilizar o conhecimento prévio do próprio modelo para gerar pseudo-rótulos e sinais de recompensa através de votação majoritária, etc., e realizar reinforcement learning no LLM. Experimentos mostram que o TTRL pode melhorar continuamente o desempenho do modelo em várias tarefas, como aumentar a métrica pass@1 do Qwen-2.5-Math-7B no AIME 2024 em 159%, com desempenho próximo ao de modelos treinados com supervisão. (Fonte: AINLPer)

Tsinghua e outros propõem Test-Time Reinforcement Learning (TTRL)

SJTU & Ant Group propõem mecanismo de atenção híbrida Rodimus: Para resolver o problema da alta complexidade espaço-temporal causada pelo cache KV na inferência do Transformer, a Shanghai Jiao Tong University e o Ant Group propuseram a série de modelos Rodimus. Esta arquitetura melhora a atualização de estado da atenção linear através de um mecanismo de seleção termocontrolado orientado por dados (DDTS) e combina-o com atenção de chave compartilhada em janela deslizante (SW-SKA), fundindo eficazmente a compressão semântica, de Token e de Head. O Rodimus* pode alcançar complexidade espacial O(1) durante a inferência. Modelos de código leves treinados com base nesta arquitetura, Rodimus+-Coder (1.6B e 4B), alcançaram desempenho SOTA em sua escala. O artigo foi aceito na ICLR 2025 e o código está open source. (Fonte: AINLPer)

SJTU & Ant Group propõem mecanismo de atenção híbrida Rodimus*

Dez lições aprendidas na implantação de RAG Agent: Douwe Kiela, fundador da Contextual AI, compartilhou experiências na implantação de RAG Agents: 1. A capacidade do sistema tem prioridade sobre o desempenho do modelo; 2. O conhecimento especializado interno é o combustível de valor central; 3. A capacidade de lidar com dados em grande escala e ruidosos é um fosso competitivo; 4. A implementação em produção é muito mais difícil do que o piloto; 5. Velocidade supera a perfeição, itere rapidamente; 6. O tempo do engenheiro é precioso, evite armadilhas de otimização de baixo nível; 7. Reduza a barreira de uso, incorpore em sistemas existentes; 8. Crie “momentos de admiração” para aumentar a aderência do usuário; 9. Observabilidade (atribuição, auditoria) é mais importante que a precisão; 10. Mire alto, ouse desafiar o negócio principal. (Fonte: AI觉醒)

Dez lições aprendidas na implantação de RAG Agent

💼 Negócios

Nvidia adquire Lepton AI e encerra suas operações: Após adquirir a Lepton AI, empresa de plataforma de nuvem de IA fundada por Jia Yangqing e Bai Junjie, a Nvidia anunciou que encerrará as operações da plataforma Lepton AI em 20 de maio de 2025 e já parou de aceitar novos registros de usuários. Jia Yangqing respondeu que a transação “não foi uma aquisição de talentos”, mas não forneceu mais detalhes. A Lepton AI focava em fornecer serviços de nuvem para desenvolvimento, treinamento e implantação de modelos de IA, além de aluguel de poder computacional, competindo com alguns clientes da Nvidia (como CoreWeave). Esta aquisição e as ações subsequentes podem refletir a tentativa da Nvidia de fortalecer a integração vertical da cadeia de suprimentos de IA (de chips a serviços), aumentando seu domínio no campo da computação de IA. (Fonte: AI前线)

Nvidia adquire Lepton AI e encerra suas operações

Mesa redonda de investidores na AI Partner Conference: Buscando a certeza nas superaplicações de IA: Na AI Partner Conference da 36Kr, investidores como Wu Nan da GSR United Capital, Zou Zejiong da Shanghai Industrial Investment e Ren Bobing da Sinovation Ventures discutiram a lógica de investimento em superaplicações de IA. Os investidores acreditam que, apesar das incertezas na tecnologia subjacente e no cenário de mercado, oportunidades certas existem em aplicações verticais que podem resolver problemas reais, encontrar Product-Market Fit (PMF) e gerar receita, como IA+Saúde, IA+Educação, condução autônoma, etc. Empresas iniciantes enfrentando a concorrência de grandes empresas devem se aprofundar em nichos verticais, utilizando cenários específicos e know-how profundo que as grandes empresas têm dificuldade em cobrir para construir barreiras. Ao mesmo tempo, os empreendedores precisam ter capacidades interdisciplinares e de tomada de decisão eficiente, focando na construção de equipes e validação de modelos de negócios. O sucesso do DeepSeek inspira os investidores a focar em equipes orientadas pela tecnologia, com determinação e capazes de explorar o potencial de talentos. (Fonte: 36氪)

Mesa redonda de investidores na AI Partner Conference: Buscando a certeza nas superaplicações de IA

Quadro de Mensagens de Capital: Informações sobre transações de ativos nos setores de IA e Robótica: O Quadro de Mensagens de Capital da 36Kr publicou sua 160ª edição, contendo várias informações de compra e venda de ativos relacionados a IA e robótica. As informações de transferência incluem cotas de LP de fundos que detêm ações da ZY Robotics, Unitree Robotics, Wofei Changkong (relacionado a eVTOL). As informações de aquisição incluem ações de empresas como ByteDance, Galaxy General, Unitree Robotics, YunShen Technology, ZY Robotics, Moore Threads, Star Era, etc. Além disso, há uma demanda geral de aquisição no campo de robôs humanoides. Essas pistas de transação refletem o forte interesse atual do mercado de capitais em empresas líderes nos campos de IA, robôs humanoides, condução autônoma, semicondutores e outras tecnologias de ponta. (Fonte: 36氪)

Empresa chinesa de Agent Manus AI levanta mais de 500 milhões de RMB, avaliação quintuplica: Segundo a Bloomberg, a Butterfly Effect, empresa-mãe do produto de AI Agent geral Manus, concluiu uma nova rodada de financiamento de 75 milhões de dólares (aproximadamente 550 milhões de RMB), liderada pela empresa de capital de risco do Vale do Silício Benchmark, com uma avaliação pós-investimento de quase 500 milhões de dólares. O Manus Agent pode executar autonomamente tarefas na web como reserva de passagens e análise de ações, tendo anteriormente chamado a atenção por seus códigos de teste beta de alto preço. O novo financiamento será usado para expandir os serviços para mercados como EUA, Japão e Oriente Médio, com planos de abrir um escritório no Japão. Apesar da popularidade do produto, sua dependência do modelo Anthropic Claude resulta em altos custos (média de 2 dólares por tarefa) e enfrenta limitações de capacidade do servidor. (Fonte: 智东西, 硅兔君)

Empresa chinesa de Agent Manus AI levanta mais de 500 milhões de RMB, avaliação quintuplica

Tuya Smart transforma-se em plataforma de AI Agent, entrando no mercado de hardware de IA: A plataforma de nuvem AIoT Tuya Smart lançou o framework open source TuyaOpen, a plataforma de computação de ponta Haidewei, Tuya.AI e uma versão atualizada da plataforma de desenvolvimento AI Agent, abraçando totalmente a IA. A empresa acredita que os modelos grandes de IA (especialmente interação multimodal, eficiência de nível especialista, capacidade de decisão distribuída) podem reduzir significativamente a barreira de uso de hardware inteligente, impulsionando a popularização da indústria. A plataforma Tuya AI Agent já integrou os principais modelos grandes globais, ajudando clientes a desenvolver produtos populares como anéis inteligentes e bonecos de IA, e colaborando com empresas como Kidswant para promover hardware inteligente pessoal de IA. A empresa prevê que 2025 será o ano de explosão de novo hardware de IA, e sua estratégia de AI Agent entrará na fase de colheita em 2-3 anos. (Fonte: 36氪)

🌟 Comunidade

Caos nos cursos de treinamento de IA: propaganda enganosa e eficácia duvidosa: As redes sociais estão repletas de anúncios de cursos de treinamento “enriquecimento rápido com IA”, alegando que pessoas comuns podem monetizar rapidamente aprendendo pintura com IA, fine-tuning de modelos, etc. No entanto, experiências reais e feedback de consumidores revelam muitos problemas: qualificações de instrutores vagas ou até falsas (como a identidade não comprovada do fundador da Coverhero); conteúdo do curso inconsistente com as promessas publicitárias, dificultando o alcance do efeito de “conseguir trabalhos e monetizar”; uso de marketing de escassez e casos falsos para induzir ao consumo; dificuldade em obter reembolso. Especialistas do setor apontam que o conteúdo desses cursos costuma ser excessivamente teórico ou superficial, sendo difícil para pessoas comuns adquirirem, através de treinamento de curto prazo, habilidades de IA suficientes para mudar de carreira ou gerar renda estável. Recomenda-se que os usuários utilizem recursos gratuitos e comunidades para aprender, e fiquem alertas a armadilhas de cursos caros de rápido aprendizado. (Fonte: 新周刊)

Caos nos cursos de treinamento de IA: propaganda enganosa e eficácia duvidosa

Desenvolvedor compara experiência de programação com Claude vs. Gemini 2.5 + Cursor: Um desenvolvedor compartilhou sua experiência usando Claude e Gemini 2.5 Pro + Cursor para desenvolver um jogo de palavras cruzadas. Usar a API do Claude custou 417 dólares e a experiência foi ruim: a janela de contexto era facilmente perdida, fazendo o modelo “esquecer” frequentemente; a correção de bugs muitas vezes introduzia novos problemas; não era possível verificar a correção do código. Em comparação, usar o Gemini 2.5 Pro gratuito (integrado via Cursor) melhorou significativamente a experiência: custo zero; melhor capacidade de compreensão de contexto (graças à transmissão da estrutura de arquivos pelo Cursor); fluxo de interação mais parecido com programação em par; processo de depuração mais racional. A conclusão é que a combinação Gemini 2.5 + Cursor ofereceu uma experiência de programação assistida por IA mais prática e eficiente. (Fonte: CSDN)

Desenvolvedor compara experiência de programação com Claude vs. Gemini 2.5 + Cursor

Assistente Perplexity para iOS recebe elogios iniciais: O CEO da Perplexity compartilhou comentários de usuários mostrando que seu assistente de IA para iOS teve um bom desempenho nas primeiras avaliações. Os comentários apontam que o desempenho do assistente dentro do ecossistema da Apple supera até mesmo o da Siri, por exemplo, sendo mais preciso em tarefas como reproduzir vídeos específicos do YouTube com base em comandos de voz. Isso indica que o assistente Perplexity tem certas vantagens na compreensão da intenção da linguagem natural e na execução de operações entre aplicativos. (Fonte: AravSrinivas)

Assistente Perplexity para iOS recebe elogios iniciais

Debate acalorado no Reddit: Discernindo entre fotos geradas por IA e reais: Um usuário do Reddit iniciou uma discussão, mostrando 5 fotos semelhantes de mulheres, uma das quais era real e as outras geradas por IA, pedindo aos outros para identificar a real. A seção de comentários ficou acalorada, com usuários analisando ângulos como iluminação e sombra, textura da pele, detalhes de acessórios (como a corrente de um colar), mas as opiniões divergiram. Isso reflete o alto nível atual da tecnologia de geração de imagens por IA e a dificuldade em discernir o real do falso. (Fonte: Reddit r/ChatGPT)

Debate acalorado no Reddit: ChatGPT gera imagens estranhas: Vários usuários compartilharam no Reddit que, ao pedir ao ChatGPT para gerar imagens específicas (como “mapa dos EUA”), receberam inesperadamente imagens de explosões nucleares (nuvens de cogumelo) ou outras imagens não relacionadas (como R2D2). Isso gerou discussões sobre a estabilidade do modelo e possíveis vieses, não estando claro se foi um erro aleatório do modelo ou se um prompt específico desencadeou a anomalia. (Fonte: Reddit r/ChatGPT)

Debate acalorado no Reddit: ChatGPT gera imagens estranhas

Discussão no Reddit: A IA viciará engenheiros de software?: Um engenheiro de software postou no Reddit, afirmando que ferramentas de IA (como assistentes de programação) aumentaram muito sua eficiência e qualidade no trabalho, e que após usá-las, é difícil parar, sentindo-se um pouco “viciado”. A seção de comentários debateu o assunto, com alguns argumentando que isso é mais uma dependência de ferramentas eficientes, semelhante a depender de compiladores em vez de assembly, sendo um resultado natural do aumento da produtividade; outros concordaram que pode haver um risco de “vício” e expressaram preocupação de que a dependência excessiva possa levar à degradação de habilidades, sugerindo fazer conscientemente um “detox de IA” ou manter o treinamento de habilidades básicas. (Fonte: Reddit r/ArtificialInteligence)

Discussão no Reddit: Religião de IA e fenômeno de culto: Usuários discutem se a IA pode se tornar um objeto de religião ou culto. Argumentos incluem: já existe um “AI Jesus”; discussões sobre a consciência da IA podem levar à fé; ideologias como Longtermism têm tons quase religiosos; LLMs podem fornecer consolo e orientação espiritual personalizados. Comentários mencionam casos reais (como o Protocolo Nova de jrprudence.com) e discutem o potencial e os riscos da IA em satisfazer as necessidades espirituais humanas, bem como preocupações sobre “cultos de IA”. (Fonte: Reddit r/ArtificialInteligence)

Discussão no Reddit: Geração de imagens por IA não consegue “restaurar” fotos antigas: Usuários provaram experimentalmente que, ao usar ferramentas de IA como o ChatGPT para processar fotos antigas, a IA não está realmente restaurando ou aumentando a resolução, mas sim gerando uma imagem totalmente nova e semelhante com base na original. Ao testar com fotos de celebridades (como Samuel L Jackson), o resultado gerado era claramente outra pessoa, apenas com estilo e pose semelhantes. Isso alerta os usuários para entenderem corretamente os limites da capacidade de processamento de imagem da IA, que é mais hábil em “criar” do que em “restaurar”. (Fonte: Reddit r/ChatGPT)

💡 Outros

Compilação de Citações da AI Partner Conference: A 36Kr compilou e publicou um resumo das visões brilhantes dos palestrantes da AI Partner Conference 2025. Essas visões giram em torno da evolução futura das superaplicações de IA, mudanças na indústria e reconstrução da lógica de negócios, refletindo o pensamento atual de especialistas e pioneiros da indústria de IA. (Fonte: 36氪)

Compilação de Citações da AI Partner Conference

Emirados Árabes Unidos tornam-se o primeiro país a usar IA para redigir leis: Segundo o The Hill, os Emirados Árabes Unidos começaram a utilizar inteligência artificial para auxiliar na redação de textos legais. Esta iniciativa marca a aplicação inicial da IA no campo legislativo, possivelmente visando aumentar a eficiência legislativa ou analisar regulamentações complexas. A notícia gerou discussões sobre o papel da IA na governança, como por exemplo, se pode reduzir a dependência de papéis políticos tradicionais. (Fonte: Reddit r/ArtificialInteligence)

Emirados Árabes Unidos tornam-se o primeiro país a usar IA para redigir leis

Anthropic lança projeto de pesquisa sobre “Bem-Estar de Modelos de IA”: A Anthropic anunciou o lançamento de uma nova iniciativa para estudar o “bem-estar” (model welfare) dos modelos de IA. Embora a área seja controversa (alguns especialistas acreditam que modelos não têm sentimentos ou valores subjetivos), a medida da Anthropic pode visar explorar formas mais responsáveis e éticas de desenvolvimento e interação de modelos, ou pesquisar como avaliar e mitigar possíveis estados ou comportamentos “indesejáveis” que os modelos podem desenvolver durante o treinamento ou interação. (Fonte: Reddit r/ClaudeAI)

Anthropic lança projeto de pesquisa sobre "Bem-Estar de Modelos de IA"

IA precisa de grandes quantidades de água, gerando preocupação: Relatórios do governo dos EUA e da mídia (404media) apontam que treinar e operar grandes modelos de IA consome grandes quantidades de recursos hídricos, principalmente para o resfriamento de data centers. Isso gerou preocupações sobre os custos ambientais do desenvolvimento da IA, especialmente em regiões com escassez de água. (Fonte: Reddit r/artificial)

IA precisa de grandes quantidades de água, gerando preocupação

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *