Palavras-chave:OpenAI GDPval benchmark, Claude Opus 4.1, GPT-5, Avaliação de IA, Desempenho em tarefas econômicas, Avaliação de impacto econômico de modelos de IA, Claude Opus 4.1 vs GPT-5, Teste de benchmark GDPval, Capacidade de aplicação prática de IA, Comparação de desempenho de IA em múltiplos setores

🔥 Foco

OpenAI lança o benchmark GDPval: Claude Opus 4.1 supera GPT-5 : A OpenAI lançou o novo benchmark GDPval para avaliar o desempenho de modelos de IA em tarefas econômicas reais em 9 setores e 44 profissões. Os resultados iniciais mostram que o Claude Opus 4.1 da Anthropic atingiu ou superou o nível de especialistas humanos em quase metade das tarefas, superando o GPT-5. A OpenAI reconhece que o Claude se destaca na expressão estética, enquanto o GPT-5 lidera em precisão. Isso marca uma mudança na avaliação da IA para medir o impacto econômico real e revela o rápido progresso das capacidades da IA. (Fonte: OpenAI, menhguin, MillionInt, _sholtodouglas, polynoamial, menhguin, aidan_mclau, sammcallister, menhguin, andy_l_jones, tokenbender, scaling01, scaling01, scaling01, scaling01, scaling01, scaling01, alexwei_, scaling01, scaling01, scaling01, gdb, teortaxesTex, snsf, dilipkay, scaling01, scaling01, jachiam0, jachiam0, sama, ClementDelangue, AymericRoucher, shxf0072, Reddit r/artificial, 36氪, 36氪, 36氪)

OpenAI GDPval基准发布:Claude Opus 4.1表现优于GPT-5

A “espiral da perdição” da IA e da Wikipédia para línguas vulneráveis : Modelos de IA aprendem línguas ao rastrear textos da internet, e a Wikipédia é frequentemente a maior fonte de dados online para línguas vulneráveis. No entanto, uma grande quantidade de conteúdo de baixa qualidade traduzido por IA está a inundar estas pequenas versões da Wikipédia, levando a uma proliferação de erros. Isso cria um ciclo vicioso de “lixo entra, lixo sai”, que pode tornar as traduções de IA para essas línguas ainda menos confiáveis, acelerando o declínio das línguas vulneráveis. A Wikipédia em groenlandês foi proposta para encerramento devido a problemas de “disparates” causados por ferramentas de IA. Isso destaca o potencial impacto negativo da IA na diversidade cultural e na proteção linguística. (Fonte: MIT Technology Review, MIT Technology Review)

AI与维基百科对弱势语言的“厄运螺旋”

Song Yang, pesquisador sênior da OpenAI, muda-se para a Meta : Song Yang, chefe da equipe de exploração estratégica da OpenAI e um dos principais contribuidores para os diffusion models, mudou-se para a equipe MSL da Meta, reportando-se ao cientista-chefe Zhao Shengjia. Song Yang é um prodígio que entrou na Universidade Tsinghua aos 16 anos e, durante seu tempo na OpenAI, ficou conhecido por suas contribuições, como os consistency models, sendo considerado um dos “cérebros mais poderosos” da indústria. Essa mudança é mais um evento significativo na contínua busca da Meta por talentos da OpenAI, levantando preocupações na indústria sobre a competição por talentos em IA e as direções de pesquisa. (Fonte: 36氪, dotey, jeremyphoward, teortaxesTex)

OpenAI顶尖研究员宋飏跳槽Meta

China Telecom Tianyi AI lança dataset de alta qualidade com mais de 10 trilhões de Tokens : A China Telecom Tianyi AI lançou dados de corpus de modelo de grande escala geral com um armazenamento total de 350TB e mais de 10 trilhões de tokens, juntamente com datasets especializados cobrindo 14 indústrias chave. Este dataset foi cuidadosamente anotado e otimizado, incluindo dados multimodais da indústria, com o objetivo de melhorar o desempenho e a capacidade de generalização dos modelos de IA. A China Telecom enfatiza que datasets de alta qualidade são o combustível central para o desenvolvimento da IA e, contando com a plataforma Xingchen MaaS, construiu um ciclo fechado de “dados-modelo-serviço”, comprometendo-se a promover o desenvolvimento inclusivo da IA e a inovação nacional, tendo já treinado com sucesso um modelo de grande escala com trilhões de parâmetros. (Fonte: 量子位)

中国电信天翼AI发布超10万亿Tokens高质量数据集

Guoxing Yuhang da China alcança a primeira constelação de computação espacial comercialmente operacional do mundo : A Guoxing Yuhang da China lançou com sucesso e alcançou a operação comercial regular de uma constelação de computação espacial, marcando a transição da computação espacial de “possível” para “utilizável”. A constelação é composta pelo primeiro lote de satélites “Xingsuan”, com o objetivo de construir uma infraestrutura de poder de computação baseada no espaço de 2800 satélites de computação, com uma capacidade total superior a 100.000 P, suportando a execução de modelos com bilhões de parâmetros. Este sucesso envolveu a implantação de um modelo de reconhecimento de estradas em satélites em órbita, completando todo o processo desde a aquisição de imagens, inferência do modelo até o retorno dos resultados, realizando a primeira execução de algoritmos da indústria de transporte no espaço e fornecendo um novo paradigma para a extensão espacial da infraestrutura global de IA. (Fonte: 量子位)

中国团队重新定义“星际之门”!全球首个太空计算星座已实现常态化商用

China restringe a compra de chips Nvidia, acelerando a autossuficiência em semicondutores : A China proibiu as principais empresas de tecnologia de comprar chips Nvidia, um movimento que indica que a China fez progressos suficientes no setor de semicondutores para se libertar da dependência de chips projetados nos EUA. Isso destaca a vulnerabilidade dos EUA na fabricação de semicondutores em Taiwan e o aumento da capacidade de autossuficiência da China. Por exemplo, o modelo DeepSeek-R1-Safe foi treinado em 1000 chips Huawei Ascend. Jensen Huang, da Nvidia, também observou que 50% dos pesquisadores de IA do mundo vêm da China. (Fonte: AndrewYNg, Plinz)

中国限制Nvidia芯片采购,加速半导体自给自足


🎯 Tendências

ChatGPT Pulse lançado, inaugurando a era da inteligência proativa : A OpenAI lançou a pré-visualização do ChatGPT Pulse para usuários Pro. Este recurso transforma o ChatGPT de uma ferramenta de perguntas e respostas passiva em um assistente inteligente proativo. O Pulse gera resumos diários personalizados em segundo plano, com base no histórico de conversas do usuário, feedback e aplicativos conectados (como calendário, Gmail), apresentados em formato de cartões, com o objetivo de fornecer uma experiência de informação focada e não viciante. Sam Altman o descreveu como seu “recurso favorito”, indicando que o ChatGPT se tornará mais personalizado e proativo no futuro. (Fonte: Teknium1, openai, dejavucoder, natolambert, gdb, jam3scampbell, jam3scampbell, scaling01, sama, sama, scaling01, nickaturley, kevinweil, dotey, raizamrtn, BlackHC, op7418, 36氪, 36氪, 36氪, 36氪, 量子位)

ChatGPT Pulse上线,开启主动智能时代

Google lança a série Gemini Robotics 1.5, permitindo que robôs aprendam “entre espécies” : O Google DeepMind lançou a série de modelos Gemini Robotics 1.5 (incluindo Gemini Robotics 1.5 e Gemini Robotics-ER 1.5), com o objetivo de capacitar robôs com maior capacidade de “pensar antes de agir” e habilidades de aprendizagem entre formas corporais. O Gemini Robotics-ER 1.5 atua como o “cérebro” responsável pelo planejamento e tomada de decisões, enquanto o Gemini Robotics 1.5 atua como o “cerebelo” para executar ações, trabalhando em colaboração. Esta série de modelos demonstra excelente desempenho em raciocínio encarnado e aprendizagem entre formas corporais, sendo capaz de transferir ações aprendidas de um robô para outro, o que promete impulsionar o desenvolvimento de robôs gerais. (Fonte: Teknium1, nin_artificial, dejavucoder, crystalsssup, scaling01, jon_lee0, BlackHC, Google, demishassabis, shaneguML, demishassabis, JeffDean, 36氪, 36氪)

谷歌发布机器人最新「大脑」模型,思考能力SOTA,还能「跨物种」学习

Google lança atualizações para a série de modelos Gemini 2.5 Flash : O Google lançou as últimas atualizações para os modelos Gemini 2.5 Flash e Flash-Lite, que apresentam melhorias em inteligência, custo-benefício e eficiência de tokens. O Flash-Lite aumentou seu índice de inteligência em 8 pontos no modo de inferência e em 12 pontos no modo não inferência, além de ter maior eficiência de tokens e velocidade de inferência mais rápida. Essas atualizações resultam em um melhor desempenho do modelo na execução de instruções, compreensão multimodal e tradução, e o modelo Flash é mais eficiente no uso de ferramentas de Agent. (Fonte: scaling01, osanseviero, Google, osanseviero, andrew_n_carr)

谷歌发布Gemini 2.5 Flash系列模型更新

A capacidade da IA aumenta a um ritmo surpreendente, com as capacidades dos LLM a duplicar a cada 7 meses : Um estudo de benchmark de LLM publicado pela METR mostra que, ao medir o tempo que os LLM levam para completar tarefas humanas, as capacidades dos LLM duplicam a cada 7 meses. O GPT-5 já consegue completar de forma estável tarefas complexas que levariam horas a um humano. Seguindo esta tendência, até 2030, os LLM poderão processar trabalho que levaria um ano a um humano, como fundar uma nova empresa. Isto prevê um impacto disruptivo da IA no mercado de trabalho nos próximos anos. (Fonte: karminski3)

AI能力提升速度惊人,LLM能力每7个月翻一番

Modelos de vídeo demonstram potencial para inteligência visual geral : Os modelos de vídeo estão a passar por um “momento GPT”, exibindo capacidades gerais que vão desde a perceção simples ao raciocínio visual. Modelos como o Veo3 já possuem capacidades de zero-shot, capazes de resolver tarefas complexas na pilha visual. A investigação sugere que os modelos de vídeo são “raciocinadores espaço-temporais” gerais e, no futuro, poderão tornar-se um caminho crucial para a inteligência visual geral, especialmente no campo da robótica, onde podem resolver os problemas “mais difíceis” de semântica, planeamento e senso comum. (Fonte: shaneguML, BlackHC, AndrewLampinen, teortaxesTex)

视频模型展现通用视觉智能潜力

Agentes de IA transitam de “assistentes” para “mordomos”, aprofundando-se no mundo físico : O renomado futurista Bernard Marr prevê que, até 2026, os agentes de IA passarão de assistentes passivos para mordomos proativos, capazes de gerenciar autonomamente tarefas diárias e coordenar projetos complexos. A IA não se limitará mais ao mundo digital, mas se integrará profundamente ao mundo físico por meio de veículos autônomos, robôs humanoides, IoT e outras formas, mudando a maneira como as pessoas interagem com o ambiente. Grandes empresas chinesas como Tencent, Alibaba e Baidu também estão ativamente a implementar agentes de IA de nível empresarial, enfatizando suas capacidades de execução e entrega de tarefas, em vez de apenas habilidades de conversação, com o objetivo de transformá-los em novos pontos de crescimento comercial. (Fonte: 36氪, 36氪, omarsar0)

AI智能体从“助手”走向“管家”,深入物理世界

Robôs industriais transitam de “operação individual” para “equipes de superprodução” : Robôs industriais de inteligência encarnada estão a expandir-se de processos únicos para a colaboração de fluxo completo, formando “equipes de superprodução”. Por exemplo, uma linha de produção composta por 8 robôs industriais de inteligência encarnada da Weiyi Zhizao pode produzir 4 produtos diferentes, com comutação em minutos e ajustes em horas. Esses robôs podem pensar como humanos, assumir tarefas, melhorando a eficiência da produção e a flexibilidade. A tecnologia de visão de IA tornou-se a força motriz central, impulsionando a evolução dos robôs industriais de “ferramentas de execução” para “inteligência encarnada”, fornecendo uma solução chinesa para a transformação digital e inteligente da indústria manufatureira. (Fonte: 36氪)

工业机器人从“单兵作战”转向“超级生产团队”

A melhoria de eficiência do Grok-4-fast pode estar relacionada ao algoritmo NVIDIA Jet-Nemotron : O desempenho surpreendente do Grok-4-fast na redução de custos e aumento de eficiência pode estar relacionado ao algoritmo Jet-Nemotron da NVIDIA. Este algoritmo, através da estrutura PortNAS, otimiza o mecanismo de atenção a partir de um modelo de atenção completa pré-treinado, alcançando um aumento de cerca de 53 vezes na velocidade de inferência de LLM, mantendo um desempenho comparável aos principais modelos de código aberto. O Jet-Nemotron-2B tem maior precisão no MMLU-Pro do que o Qwen3-1.7B-Base, é 47 vezes mais rápido e requer menos memória, o que deverá reduzir significativamente os custos do modelo. (Fonte: 36氪)

马斯克新模型背后算法来自英伟达???

O modelo NVIDIA Cosmos Reason ultrapassa 1 milhão de downloads : O modelo NVIDIA Cosmos Reason ultrapassou 1 milhão de downloads no HuggingFace e está no topo do ranking de raciocínio físico. Este modelo visa ensinar agentes de IA e robôs a pensar como humanos, sendo fornecido na forma de microsserviços de fácil implantação, e é um resultado importante da NVIDIA na promoção do desenvolvimento de AI Agents e tecnologia robótica. (Fonte: huggingface, ClementDelangue)

NVIDIA Cosmos Reason模型下载量突破100万

Meta lança Code World Model (CWM) para impulsionar a pesquisa em geração de código : A Meta FAIR lançou o Code World Model (CWM), um modelo de pesquisa com 32 bilhões de parâmetros, projetado para explorar como os world models podem transformar a geração e o raciocínio de código. O CWM está disponível sob uma licença de pesquisa, incentivando a comunidade a desenvolver sobre ele, o que aponta para novas direções de pesquisa no campo da geração de código. (Fonte: ylecun)

Google lança EmbeddingGemma, um modelo leve de embedding de texto : O Google lançou o EmbeddingGemma, um modelo de embedding de texto leve e aberto, com apenas 300M de parâmetros, mas que alcançou desempenho SOTA nos benchmarks MTEB. Ele superou modelos com o dobro do tamanho, sendo ideal para aplicações de IA rápidas e eficientes em dispositivos. (Fonte: _akhaliq)

谷歌发布EmbeddingGemma轻量级文本嵌入模型

Alibaba Tongyi Qianwen revela roteiro para modelos multimodais e expansão em larga escala : O Alibaba Tongyi Qianwen revelou um roteiro ambicioso, focando em modelos multimodais unificados e expansão em escala extrema. Os objetivos incluem estender o comprimento do contexto de 1M para 100M tokens, atingir trilhões ou até dezenas de trilhões de parâmetros, expandir a computação em tempo de teste para 1M e alcançar 100 trilhões de tokens de dados. Além disso, a empresa impulsionará a geração de dados sintéticos em escala ilimitada e a expansão das capacidades de Agent, refletindo a filosofia de que “escala é tudo”. (Fonte: menhguin, karminski3)

阿里通义千问公布多模态与大规模扩展路线图

IA na saúde entra em fase de aplicação clínica : A aplicação da IA na área médica está a transitar de protótipos de ponta para ferramentas de uso rotineiro. Por exemplo, a JD Health lançou o “AI Hospital 1.0” e atualizou o modelo médico de grande escala “Jingyi Qianxun 2.0”, realizando um serviço de ciclo fechado “médico-exame-diagnóstico-medicamento” impulsionado por IA, cobrindo orientação, consulta, exames, compra de medicamentos e gestão de saúde. Estetoscópios inteligentes de IA já podem auxiliar no diagnóstico de doenças cardíacas, e a leitura de imagens por IA alcançou avanços em áreas como nódulos pulmonares e hemorragias cerebrais, com uma taxa de precisão de diagnóstico superior a 96%. A IA está a entrar plenamente na aplicação clínica, melhorando a eficiência e a precisão dos serviços de saúde. (Fonte: 36氪, 36氪, 量子位, Ronald_vanLoon, Reddit r/ArtificialInteligence)

AI辅助医疗进入临床应用阶段

Meta AI App lança Vibes, vídeos curtos gerados por IA : O Meta AI App lançou um novo recurso chamado “Vibes”, um feed de notícias focado em vídeos curtos gerados por IA. Este movimento marca um novo passo da Meta no campo da criação de conteúdo de IA, com o objetivo de oferecer aos usuários uma nova experiência de vídeo curto impulsionada por IA. (Fonte: dejavucoder, _tim_brooks, EigenGender)

Genomas gerados por IA alcançam um avanço : O Arc Institute anunciou três novas descobertas, incluindo o primeiro genoma funcional gerado por IA do mundo. Este avanço utiliza o modelo de bio-ML Evo 2, lançado em colaboração entre Arc e NVIDIA, permitindo que cientistas projetem e escrevam mudanças em larga escala no genoma humano, corrigindo repetições de DNA que causam doenças genéticas, com o potencial de acelerar a terapia genética e a pesquisa de biomateriais. (Fonte: dwarkesh_sp, riemannzeta, zachtratar, kevinweil, Reddit r/artificial)

AI-generated genomes实现突破

Apple lança SimpleFold, IA leve para previsão de dobramento de proteínas : Pesquisadores da Apple desenvolveram o SimpleFold, uma nova IA baseada em modelos de flow matching para previsão de dobramento de proteínas. Ele dispensa componentes computacionalmente caros dos métodos de difusão tradicionais, usando apenas blocos Transformer genéricos, e pode converter ruído aleatório diretamente em previsões de estrutura proteica. O SimpleFold-3B teve um desempenho excelente em benchmarks padrão, atingindo 95% do desempenho dos modelos líderes, com maior eficiência de implantação e inferência, o que deve reduzir o limiar computacional para a previsão de estrutura proteica e acelerar a descoberta de medicamentos. (Fonte: Reddit r/ArtificialInteligence, HuggingFace Daily Papers)

Apple推出SimpleFold,轻量级AI预测蛋白质折叠

Fusão profunda de IA industrial e IA física : Alibaba e NVIDIA colaboraram para integrar a pilha completa de software NVIDIA Physical AI na plataforma Alibaba Cloud. A Physical AI visa levar a inteligência artificial da tela para o mundo físico, otimizando o conteúdo gerado por IA através da integração de leis físicas para torná-lo mais consistente com a lógica da realidade. Suas tecnologias centrais incluem world models, motores de simulação física e controladores de inteligência encarnada, com o objetivo de permitir que a IA compreenda completamente o espaço tridimensional, realize cálculos físicos em tempo real e execute ações concretas. Esta colaboração promete impulsionar a ampla aplicação da IA em indústrias como robótica, logística, automotiva e manufatura, transformando a IA de uma ferramenta de processamento de informações em um sistema inteligente capaz de compreender e operar o mundo físico. (Fonte: 36氪)

工业AI与物理AI的深度融合

Lançado o framework Hunyuan3D-Omni para geração de ativos 3D por IA : Hunyuan3D-Omni é um framework unificado para geração controlável de ativos 3D, baseado no Hunyuan3D 2.1. Ele não só suporta condições de imagem e texto, mas também aceita point clouds, voxels, bounding boxes e skeletal poses como sinais condicionais, permitindo um controle preciso sobre geometria, topologia e pose. O modelo utiliza uma única arquitetura cross-modal para unificar todos os sinais e é treinado com uma estratégia de amostragem progressiva e consciente da dificuldade, melhorando a precisão e a robustez da geração. (Fonte: HuggingFace Daily Papers)

Tencent lança Hunyuan Image 3.0, afirmando ser o modelo de texto para imagem de código aberto mais poderoso : A Tencent anunciou que lançará o Hunyuan Image 3.0 em 28 de setembro, afirmando ser o modelo de texto para imagem de código aberto mais poderoso do mundo. Este lançamento gerou ampla atenção e expectativa na comunidade, especialmente em relação às suas perspectivas de aplicação em ferramentas como o ComfyUI. (Fonte: ostrisai, Reddit r/LocalLLaMA)

腾讯发布Hunyuan Image 3.0,号称最强开源文生图模型

Llama.cpp adiciona suporte para Qwen3 reranker : O Llama.cpp incorporou o suporte para o Qwen3 reranker. Este recurso, através de um modelo de reranking (cross-encoder), gera pontuações de similaridade para pares de consulta e documento, melhorando significativamente o desempenho de recall em pipelines de recuperação como RAG. Os usuários precisam usar os novos arquivos GGUF para obter resultados corretos. (Fonte: Reddit r/LocalLLaMA)![Llama.cpp新增Qwen3 reranker支持](https://external-preview.redd.it/gjtn51bKTEhntL8tK6567mzxkqg8KV6qsi2OUMPMyfI.png?auto=webp&s