Palavras-chave:Transformer de difusão de átomos completos, Modelo de recompensa de processo auto-supervisionado, Geração de vídeo autoregressivo, Dinâmica baseada em posição, Conferência acadêmica de autores de IA, Técnica de amnésia de IA, Renderização neural, Geração 3D, Estrutura ADiT, MetaStone-S1 SPRM, Lumos-1 MM-RoPE, Simulação de tecido Roblox AVBD, Difusão de percepção parcial CoPart

🔥 Em Destaque

Meta/Cambridge/MIT propõem estrutura Transformer de difusão totalmente atômica: Uma equipe de pesquisa conjunta da Meta FAIR, Universidade de Cambridge e MIT propôs o ADiT (Atomic Diffusion Transformer), quebrando as barreiras de modelagem entre sistemas periódicos e não periódicos. Através de duas grandes inovações – representação latente atômica unificada e difusão latente Transformer – alcançou um avanço na geração de moléculas e cristais usando um único modelo. A principal vantagem do ADiT reside em quebrar as barreiras de modelagem entre sistemas periódicos e não periódicos, permitindo a geração de moléculas e cristais com um único modelo. Seu design quase não introduz viés indutivo, tornando o autoencoder e o modelo de difusão muito mais eficientes em treinamento e inferência do que os modelos de difusão equivariantes tradicionais. Sob as mesmas condições de hardware, o tempo para gerar 10.000 amostras foi reduzido de 2,5 horas para menos de 20 minutos. (Fonte: HuggingFace Daily Papers)

Escalonamento em Tempo de Teste com Modelo Gerador Reflexivo: MetaStone-S1 atinge o desempenho do OpenAI o3 através do Self-Supervised Process Reward Model (SPRM). O SPRM integra com sucesso o modelo de política e o Process Reward Model (PRM) em uma interface unificada, compartilhando a rede principal e usando cabeças específicas da tarefa para previsão do próximo token e pontuação do processo, respectivamente, sem anotações de processo adicionais, reduzindo assim mais de 99% dos parâmetros do PRM para inferência eficiente. Equipado com SPRM, o MetaStone-S1 é naturalmente adequado para Test-Time Scaling (TTS) e oferece três modos de operação de inferência (baixo, médio e alto) com base no comprimento de pensamento controlável. (Fonte: HuggingFace Daily Papers)

Lumos-1: Geração de Vídeo Autoregressiva Baseada em uma Perspectiva de Modelo Unificado: Lumos-1 é um gerador de vídeo autoregressivo que preserva a arquitetura LLM com modificações mínimas na arquitetura. Para injetar correlações espaço-temporais em LLMs, identificamos a eficácia da incorporação de 3D RoPE e diagnosticamos seu alcance espectral desequilibrado. Consequentemente, propomos o MM-RoPE, um esquema RoPE que preserva o RoPE de texto original, fornecendo simultaneamente um espectro abrangente e posições 3D escaladas para modelar dados multimodais espaço-temporais. Além disso, o Lumos-1 emprega uma estratégia de dependência de token que segue a bidirecionalidade intra-quadro e a causalidade temporal inter-quadro. Com base nessa estratégia de dependência, identificamos o problema de desequilíbrio de perda no nível do quadro causado pela redundância de informações espaciais e o resolvemos propondo a Autoregressive Discrete Diffusion Forcing (AR-DF). (Fonte: HuggingFace Daily Papers)

Roblox resolveu o problema da física que incomodava a todos!: Roblox resolveu o problema de longa data da simulação de tecido em mecanismos de física combinando Position Based Dynamics e Projective Dynamics. O novo método, chamado “Average-Based Cloth Dynamics” (AVBD), consegue simular tecidos de forma altamente realista, mantendo o desempenho em tempo real, e já está sendo aplicado na plataforma Roblox. (Fonte: )

🎯 Tendências

O primeiro autor deve ser IA, a primeira conferência acadêmica para autores de IA chegou: A Universidade de Stanford lançou a primeira conferência acadêmica para autores de IA – Agents4Science 2025 Open Conference, exigindo que o primeiro autor dos artigos submetidos seja um sistema de IA, com pesquisadores humanos apenas como coautores. A conferência visa explorar o futuro da descoberta científica impulsionada por IA e estabelecer padrões e considerações éticas para a participação da IA na pesquisa científica. Todos os artigos e avaliações submetidos serão tornados públicos para investigar de forma transparente as vantagens e limitações da IA na pesquisa científica. (Fonte: 36氪)

Amnésia de IA, apenas 3 cabeças de atenção podem fazer o modelo grande esquecer que “cachorros latem”: Meta e NYU propuseram conjuntamente um método para manipular cabeças de atenção de Transformers escalados, que pode localizar e controlar com precisão os módulos cognitivos da IA, permitindo que grandes modelos “esqueçam” seletivamente certos fatos ou senso comum. Este método vetoriza conceitos, calcula a similaridade com as cabeças de atenção, constrói módulos conceituais e amplia ou apaga a influência dos conceitos por meio de fatores de escala. Isso fornece novas ideias para ajuste fino personalizado de grandes modelos, melhorando habilidades específicas, controlando a segurança e compreendendo como os modelos armazenam conhecimento. (Fonte: 36氪)

🧰 Ferramentas

CLiFT: Tokens de Campo de Luz Compactados para Renderização Neural Computacionalmente Eficiente e Adaptável: Este artigo propõe um método de renderização neural que representa cenas como “Compressed Light Field Tokens (CLiFTs)”, preservando ricas informações de aparência e geometria da cena. O CLiFT permite renderização computacionalmente eficiente por meio de tokens compactados, ao mesmo tempo que permite alterar o número de tokens para representar a cena ou renderizar novas visualizações usando uma única rede treinada. (Fonte: HuggingFace Daily Papers)

De Um para Mais: Representações Latentes de Partes Contextuais para Geração 3D: Inspirados no fluxo de trabalho de design 3D humano, propomos o CoPart – uma estrutura de difusão consciente de partes que decompõe objetos 3D em representações latentes de partes contextuais para geração coerente de múltiplas partes. Este paradigma tem três vantagens: i) reduz a complexidade da codificação por meio da decomposição de partes; ii) permite a modelagem explícita das relações entre as partes; iii) suporta condicionamento no nível das partes. (Fonte: HuggingFace Daily Papers)

🌟 Comunidade

jerryjliu0 discute extração de formulários e aplicação LLM: jerryjliu0 compartilhou um esquema para extração adaptável de formulários usando LlamaParse, que analisa páginas de formulários em pares chave-valor padronizados e os gera como uma tabela bidimensional para processamento posterior. Ele também recomendou o artigo de Clelia Bertelli sobre Pydantic, enfatizando a importância da validação e legibilidade nos fluxos de trabalho de agentes e observando que Pydantic é um bloco de construção eficaz para saídas estruturadas. Além disso, ele retuitou sobre configurações de múltiplos agentes e pesquisa profunda, bem como a aplicação do LlamaIndex. (Fonte: jerryjliu0, jerryjliu0, jerryjliu0, jerryjliu0)

Alibaba_Qwen lembra os desenvolvedores para adicionar tokens especiais ao usar Qwen3-embedding: Alibaba_Qwen observou que os desenvolvedores costumam esquecer de adicionar o token especial <|endoftext|> no final do contexto ao usar o modelo GGUF do Qwen3-embedding, o que afetará significativamente a precisão do modelo. Eles recomendam o uso do llama.cpp para adicionar este token automaticamente e planejam lançar um pacote de modelo GGUF atualizado para simplificar a operação. (Fonte: Alibaba_Qwen)

Ronald_vanLoon compartilha notícias e tecnologias relacionadas à IA: Ronald_vanLoon compartilhou várias notícias e avanços tecnológicos relacionados à IA, incluindo aplicações de IA em saúde, bifes vegetarianos impressos em 3D, uma estrutura para avaliar a adequação de LLMs, o recurso de áudio nativo do Gemini 2.5, patrulha colaborativa automatizada de robôs e drones, aprendizado por reforço para controle, exoesqueletos robóticos, autonomia de agentes de IA, estrutura de design em nuvem, robôs dando cambalhotas para frente, métodos de transporte de medicamentos em hospitais, carros do futuro e outras inovações tecnológicas. (Fonte: Vários de Ronald_vanLoon)

Discussão da comunidade sobre modelos e ferramentas de IA: A comunidade discutiu vários modelos e ferramentas de IA, incluindo o desempenho, preço e aplicações do Kimi K2, a compressibilidade do modelo DeepSeek, o ajuste do prompt do sistema do modelo Grok e os resultados de avaliação e casos de uso de outros modelos. A discussão também cobriu autonomia de agentes de IA, RLHF, RAG, configurações de múltiplos agentes e aplicações de IA em diferentes campos, como pesquisa profunda, escrita criativa, geração de código e extração de formulários. (Fonte: Vários de diferentes usuários)

Discussão sobre IA e questões sociais: A comunidade discutiu o impacto da IA na sociedade, incluindo seus efeitos no emprego, desigualdade econômica e saúde mental. A discussão também abordou questões éticas da IA, questões regulatórias e o futuro desenvolvimento da IA. (Fonte: Vários de diferentes usuários)

📚 Aprendizado

Livro RLHF adiciona derivação do algoritmo de gradiente de política: O Capítulo 11 (sobre algoritmos de gradiente de política) do livro RLHF de Natolambert adicionou uma derivação completa do objetivo do gradiente de política. (Fonte: natolambert)

💼 Negócios

SpaceX investirá US$ 2 bilhões na xAI: A SpaceX investirá US$ 2 bilhões na xAI, como parte do financiamento de capital de US$ 5 bilhões da xAI, e é um dos maiores investimentos da SpaceX até hoje. A SpaceX já havia apoiado a Tesla e a The Boring Company. Após este investimento, o modelo Grok pode ser enviado a Marte, e pode haver mais cooperação comercial entre a SpaceX e a xAI no futuro. (Fonte: 36氪)

Yarbo, da Hanyang Technology, recebe mais 100 milhões de yuans em financiamento: A Hanyang Technology, empresa de robôs de remoção de neve para quintais de nível de consumo, concluiu uma rodada de financiamento Série B+ de mais de 100 milhões de yuans, investida pela Guoke Investment, CICC Capital e Joyoung Venture Capital. O financiamento será usado para pesquisa e desenvolvimento de tecnologia, iteração de produtos, melhoria da cadeia de suprimentos e entrega em massa. A Hanyang Technology é atualmente a única empresa do mundo que realiza entrega comercial em grande escala de robôs de remoção de neve de nível de consumo, e seu produto Yarbo S1 superou os principais problemas técnicos, como tecnologia de bateria em ambientes de temperatura ultrabaixa e algoritmos de navegação em terrenos complexos. (Fonte: 36氪)

Equipe de 12 pessoas cria um artefato de companhia de IA, recebendo US$ 30 milhões em investimento em meio ano: O aplicativo de companhia de IA Tolan, da Portola, concluiu uma rodada de financiamento Série A de US$ 20 milhões. Combinado com os US$ 10 milhões anteriores da rodada de financiamento semente, o Tolan recebeu US$ 30 milhões em investimento em meio ano. O Tolan fornece personagens alienígenas de IA para acompanhar os usuários e lucra por meio de um modelo de assinatura. (Fonte: 36氪)

💡 Outros

Zuckerberg se prepara para atacar Musk de surpresa, talentos técnicos sino-americanos se tornam a chave para vencer na IA: A Meta está investindo pesadamente no campo da IA e contratando talentos sino-americanos de IA da OpenAI, Google, Apple e outras empresas com altos salários, com o objetivo de aumentar sua competitividade no campo da IA. (Fonte: 36氪)

DeepSeek esfriou? Identificado como estudante de jornalismo: O artigo refuta os rumores de que o DeepSeek está esfriando, apontando que o declínio no uso do DeepSeek não se deve ao produto ser ruim, mas sim à sua estratégia de código aberto e à experiência de API oficial deliberadamente degradada, incentivando os usuários a usar modelos DeepSeek hospedados por terceiros. O objetivo principal do DeepSeek é alcançar a AGI, não ganhar dinheiro vendendo serviços de grandes modelos. (Fonte: 36氪)

“Receita anual de dezenas de milhões de dólares americanos” é a maior mentira desta pista de aplicativos de IA: O artigo expõe o fenômeno da receita inflada na pista de aplicativos de companhia emocional de IA, apontando que muitas empresas dependem de altos gastos com publicidade para manter o crescimento, mas a taxa de pagamento do usuário e a taxa de retenção são baixas, e a receita real é muito menor do que os dados divulgados. Ao mesmo tempo, os problemas regulatórios também têm um grande impacto no desenvolvimento desta pista. (Fonte: 36氪)