Palavras-chave:Modelo de Linguagem de Grande Escala (LLM), Aprendizado por Reforço, Infraestrutura de IA, IA Multimodal, Ética em IA, Computação Quântica, Agentes de IA, As críticas de Richard Sutton sobre LLMs, Projeto Stargate da OpenAI, Modelo de Mundo de Código (CWM) da Meta, Otimização de desempenho do Flash Attention 4, Vulnerabilidades de segurança do robô Unitree G1

🔥 Destaque

Richard Sutton questiona os LLMs: Richard Sutton, o pai da Aprendizagem por Reforço, questiona as “lições amargas” dos Large Language Models (LLMs), argumentando que a arquitetura atual dos LLMs não é o caminho final para a Inteligência Artificial Geral (AGI). Ele defende a necessidade de novas arquiteturas para permitir a aprendizagem contínua e em serviço, capacitando os agentes de IA a aprender como humanos e animais, o que pode tornar os métodos atuais de LLM obsoletos. Esta perspetiva gerou uma ampla discussão na comunidade de IA, levando a uma reavaliação dos paradigmas de aprendizagem de IA. (Fonte: dwarkesh_sp, finbarrtimbers, scaling01, dejavucoder, teortaxesTex, jpt401)

A aposta trilionária da OpenAI em infraestrutura de IA: A OpenAI anunciou uma parceria com a NVIDIA, Oracle e SoftBank, planeando investir biliões de dólares num projeto de super data center chamado “Stargate”. O projeto deverá exigir uma capacidade de energia de 17 gigawatts, o equivalente à produção de 17 centrais nucleares. Este investimento de capital sem precedentes visa satisfazer as necessidades de infraestrutura do crescimento exponencial da IA e prevê atingir 125 mil milhões de dólares em receitas anuais até 2029, marcando uma nova fase na corrida armamentista da IA, que enfatiza a escala de poder computacional em vez de avanços algorítmicos únicos. (Fonte: Reddit r/ArtificialInteligence, cnbc.com, atroyn, jonst0kes, scaling01)

OpenAI aprimora o suporte a chamadas de função para ficheiros e imagens: A OpenAI atualizou a sua funcionalidade de chamada de função, que agora suporta ficheiros e imagens como saída para chamadas de ferramentas. Isto significa que os modelos podem interagir diretamente com dados visuais e de ficheiros, por exemplo, chamando funções como “gerar gráfico” ou “carregar imagem”, e devolvendo esses ficheiros ao modelo para processamento posterior, expandindo significativamente as capacidades de aplicação do modelo em tarefas complexas. (Fonte: OpenAIDevs)

Análise pós-mortem dos problemas de qualidade do modelo Anthropic Claude: A Anthropic publicou um relatório detalhado de análise pós-mortem, revelando três erros de infraestrutura complexos e sobrepostos que levaram à degradação intermitente da qualidade das respostas do Claude. Este relatório destaca os desafios enfrentados na manutenção da fiabilidade de sistemas de IA em larga escala, sublinhando que mesmo as principais empresas de IA precisam de lidar continuamente com problemas de estabilidade e degradação de desempenho do sistema. (Fonte: dl_weekly)

🎯 Tendências

Atualização do modelo Gemini Flash melhora eficiência e fiabilidade: Os desenvolvedores do Google AI anunciaram atualizações para os modelos Gemini 2.5 Flash e Flash-Lite, focando na melhoria do uso de ferramentas, fiabilidade do sistema e eficiência geral. As novas versões fornecem rapidamente as funcionalidades mais recentes aos utilizadores através de modelos de pré-visualização e suportam a omissão de atualizações de código através do alias -latest. Utilizadores relataram que os modelos atualizados apresentam uma ligeira melhoria no desempenho, enquanto os custos foram reduzidos em quase 30%, aumentando significativamente a eficiência dos tokens. (Fonte: nin_artificial, scaling01)

Meta lança o Code World Model (CWM): A Meta AI lançou o Code World Model (CWM), um modelo de código aberto com 32B parâmetros, focado na geração e inferência de código. O CWM é treinado combinando código estático, trajetórias de execução e interações de agentes, sendo capaz de compreender a sintaxe e semântica do código, simular a execução de Python e suportar tarefas de engenharia de software de várias rondas. Também possui a capacidade de lidar com contextos longos (131k tokens) e demonstrou excelente desempenho em benchmarks de código como SWE-bench Verified e LiveCodeBench. (Fonte: TheTuringPost, awnihannun, ImazAngel)

Tencent Hunyuan lança Hunyuan3D-Part para geração 3D a nível de parte: A Tencent Hunyuan lançou o Hunyuan3D-Part, um modelo de código aberto para geração de formas 3D a nível de parte. Este modelo alcança alta controlabilidade e geração de alta qualidade de formas de objetos 3D através da introdução de duas grandes inovações: P3-SAM (um modelo nativo de segmentação de partes 3D) e X-Part (um modelo de geração de partes). O seu processo de treino evita o uso de 2D SAM e utiliza um grande conjunto de dados contendo 3,7 milhões de formas, alcançando resultados líderes no campo da geração 3D. (Fonte: ImazAngel)

Modelo NVIDIA Jet-Nemotron melhora drasticamente a velocidade de inferência: A equipa de pesquisa da NVIDIA lançou o Jet-Nemotron, um novo modelo de “estrutura híbrida”, que é 53 vezes mais rápido na inferência do que os modelos de código aberto de ponta existentes (como Qwen3, Gemma3, Llama3.2), mantendo uma precisão comparável. Este avanço é atribuído à estrutura PortNAS, que reduz os custos de treino ao congelar os pesos MLP e otimizar os mecanismos de atenção. A inovação central, JetBlock, utiliza convoluções dinâmicas para melhorar ainda mais a precisão em tarefas de raciocínio matemático e recuperação. (Fonte: 量子位)

OpenLens AI da Universidade de Tsinghua automatiza todo o processo de pesquisa médica: O grupo de pesquisa de Suo Jinli, do Departamento de Automação da Universidade de Tsinghua, lançou o OpenLens AI, a primeira estrutura de pesquisa de IA totalmente autónoma projetada especificamente para a informática médica. Este sistema é capaz de automatizar todo o ciclo de pesquisa, desde a mineração de literatura, design experimental, análise de dados, geração de código até a produção de artigos publicáveis, reduzindo o ciclo de pesquisa de meses para horas. O OpenLens AI, através da colaboração de agentes modulares e mecanismos de controlo de qualidade específicos para a medicina, garante o rigor, a rastreabilidade e a produção de alta qualidade da pesquisa, anunciando uma era de “zero intervenção humana” na investigação médica. (Fonte: 量子位)

Alibaba Tongyi Qianwen lança o modelo multimodal nativo Qwen3-Omni: A Alibaba Tongyi Qianwen lançou oficialmente o Qwen3-Omni, um modelo multimodal nativo de nova geração. Este modelo é capaz de processar sem problemas várias formas de entrada, como texto, imagem, áudio e vídeo, e pode gerar simultaneamente texto e saída de voz natural através de respostas de streaming em tempo real, expandindo ainda mais os limites de aplicação e a experiência de interação da IA multimodal. (Fonte: 36氪)

🧰 Ferramentas

Aprendizagem por Reforço Unsloth GPT-OSS melhora a eficiência da inferência: A Unsloth AI lançou uma atualização de aprendizagem por reforço para o GPT-OSS, melhorando significativamente a velocidade de inferência e a eficiência da VRAM. A nova versão alcança uma melhoria de 3x na velocidade de inferência do GPT-OSS RL (cerca de 21 tokens/segundo), uma velocidade de inferência BF16 de aproximadamente 30 tokens/segundo, uma redução de 50% no uso de VRAM e suporta um comprimento de contexto 8x maior, permitindo que o modelo GPT-OSS 20B seja executado com 15GB de VRAM. Além disso, a atualização inclui estratégias para combater a manipulação de recompensas e suporta Vision RL. (Fonte: danielhanchen, Reddit r/LocalLLaMA)

vLLM suporta modelos híbridos para melhorar o desempenho: O projeto vLLM anunciou que a sua versão v1 agora suporta oficialmente modelos híbridos, incluindo Mamba, Mamba2 e mecanismos de atenção linear, tratando-os como cidadãos de primeira classe. Esta atualização visa melhorar ainda mais o desempenho e a eficiência da inferência através da integração de diferentes tipos de arquiteturas de modelo. (Fonte: vllm_project)

Tecnologia de compressão CompLLM otimiza Q&A de contexto longo: CompLLM é uma técnica de compressão suave projetada para LLMs, com o objetivo de resolver os desafios computacionais no processamento de contextos longos. Esta técnica divide o contexto em segmentos independentes para compressão, alcançando escalabilidade linear, capacidade de generalização de sequências curtas para 100k tokens e reutilização de segmentos entre consultas. Com uma taxa de compressão de 2x, o CompLLM pode acelerar o tempo de geração do primeiro token (TTFT) em 4x e reduzir o tamanho do cache KV em 50%, mantendo ou superando o desempenho de contextos não comprimidos. (Fonte: HuggingFace Daily Papers, gabriberton)

Extensão de código aberto LMCache melhora a eficiência da inferência de LLM: LMCache é uma extensão de motor de serviço LLM de código aberto, que atua como uma camada de cache para inferência em larga escala. Ele reduz os custos de RAG (4-10x), encurta o tempo de geração do primeiro token (TTFT) e aumenta o throughput sob carga, gerindo inteligentemente o cache KV e reutilizando os estados de chave-valor de textos anteriores entre GPU, CPU e disco local. A NVIDIA já o integrou no seu projeto de inferência Dynamo. (Fonte: TheTuringPost)

Modelo Qwen3 Coder melhora as capacidades de codificação local: O modelo Qwen3 Coder tem recebido atenção pela sua “estabilidade surpreendente” em tarefas de codificação local, especialmente quando usado em conjunto com ferramentas como Cline e LM Studio, sendo capaz de proporcionar uma experiência de codificação de alta qualidade em hardware de consumo. Isto oferece um forte suporte para desenvolvedores que realizam codificação assistida por LLM em ambientes locais. (Fonte: ImazAngel)

Atualizações das bibliotecas mlx-lm e oLLM aprimoram a inferência local de LLM: A biblioteca mlx-lm foi atualizada, adicionando modelos como o Code World Model da Meta e melhorando as funcionalidades de inferência em lote para SSM híbrido e atenção de janela deslizante. Simultaneamente, oLLM, uma biblioteca Python leve, também suporta a execução de LLMs como Qwen3-next-80B, GPT-OSS e Llama3 em hardware de consumo, oferecendo uma gama mais ampla de opções e maior eficiência para a inferência de modelos locais. (Fonte: awnihannun, ImazAngel, huggingface)

Replit melhora as funcionalidades de agentes de IA e automação: A Replit está a fortalecer as suas capacidades de agentes de IA e construção de automação na plataforma, permitindo agora que os desenvolvedores testem e rastreiem automações programadas em tempo real diretamente no painel de controlo, melhorando significativamente a eficiência e conveniência do desenvolvimento. (Fonte: amasad)

Utilizadores do OpenWebUI relatam problemas de streaming com o modelo GPT-OSS: Utilizadores do OpenWebUI relataram um “502: Erro de upstream” ao usar a plataforma para transmitir o modelo de nuvem GPT-OSS 20B, embora o mesmo modelo funcione normalmente na CLI e na Ollama Web UI. Isto sugere que o OpenWebUI pode ter problemas na integração ou nos mecanismos de streaming com modelos LLM específicos, afetando a experiência do utilizador. (Fonte: Reddit r/OpenWebUI)

DeepAgent Desktop lança agente de codificação agnóstico ao modelo: O DeepAgent Desktop foi lançado, alegando que o seu agente de codificação supera o Claude Code e o GPT-5 (Codex) em desempenho. Esta ferramenta oferece poderosas funcionalidades de agente de codificação tanto na CLI quanto no editor, e lida com tarefas complexas através da utilização inteligente de múltiplos modelos de ponta. Isto sugere que uma abordagem de integração agnóstica ao modelo pode ser mais eficiente no campo dos agentes de codificação. (Fonte: matanSF)

Rumores de navegadores nativos de IA podem remodelar o mercado: Há rumores de que a OpenAI e o Google estão prestes a lançar navegadores “nativos de IA”. Este movimento é visto como uma estratégia das gigantes da tecnologia para distribuição, recolha de dados e automação de IA sem falhas, o que poderá ter um enorme impacto nas startups que oferecem plugins e extensões de navegador de IA, pressagiando uma integração mais profunda da IA na experiência computacional diária dos utilizadores. (Fonte: dotey)

📚 Aprendizagem

Recomendação de livro gratuito sobre Estruturas de Dados em Python: “A First Course on Data Structures in Python” de Donald R. Sheehy é recomendado como um excelente recurso gratuito para aprender estruturas de dados, pensamento algorítmico, análise de complexidade, recursão/programação dinâmica e métodos de pesquisa. Estas competências são fundamentais nos campos da IA e Machine Learning, sendo muito valiosas para quem deseja aprofundar-se nestas áreas. (Fonte: TheTuringPost, huggingface)

Pedido de recursos de aprendizagem sobre Deep Learning e LLMs: Um utilizador no Reddit procurou os melhores recursos de aprendizagem sobre a arquitetura interna de LLMs e Deep Learning, mencionando especificamente “Deep Learning with Python, Third Edition” de François Chollet e Matthew Watson. Isto reflete a necessidade da comunidade de IA por conteúdo educacional de alta qualidade e aprofundado sobre LLMs e Deep Learning. (Fonte: Reddit r/deeplearning)

Roteiro de proficiência em IA e breve história da IA partilhados: Um roteiro para a proficiência em IA foi partilhado nas redes sociais, fornecendo um caminho de aprendizagem e orientação sobre competências-chave para aqueles que aspiram a trabalhar na área da IA. Simultaneamente, foram partilhados recursos sobre a breve história da inteligência artificial, ajudando as pessoas a compreender o percurso de desenvolvimento e os marcos importantes da tecnologia de IA. (Fonte: Ronald_vanLoon, Ronald_vanLoon)

Guia de introdução e tutoriais de DSPy partilhados: Um guia de introdução ao DSPy foi partilhado nas redes sociais, cobrindo como executar os exemplos da sua página inicial, bem como tutoriais detalhados sobre RAG, raciocínio matemático e construção de agentes de IA. Além disso, foram fornecidos recursos de vídeo para ajudar os utilizadores a compreender conceptualmente os problemas que o DSPy resolve e os métodos de aplicação prática. (Fonte: lateinteraction)

💼 Negócios

Applied Compute recebe nova ronda de financiamento de 500 milhões de dólares: A Applied Compute, uma startup fundada por três ex-pesquisadores da OpenAI, focada em fornecer Aprendizagem por Reforço como Serviço (RL as a service), está alegadamente a levantar uma nova ronda de financiamento com uma avaliação de 500 milhões de dólares, liderada pela Lux Capital. Isto ocorre apenas três meses após a sua última ronda de financiamento, demonstrando o alto reconhecimento do mercado pelo modelo RLaaS e pela sua equipa. (Fonte: steph_palazzolo)

Mistral AI conclui ronda de financiamento Série C de 1,7 mil milhões de euros, liderada pela ASML: A Mistral AI, unicórnio europeu de IA, concluiu uma ronda de financiamento Série C de 1,7 mil milhões de euros (aproximadamente 14,2 mil milhões de RMB), atingindo uma avaliação pós-investimento de 11,7 mil milhões de euros. A ASML liderou o investimento com 1,3 mil milhões de euros, adquirindo uma participação de 11%. Este movimento é visto como uma aliança estratégica entre uma gigante tecnológica europeia e uma promissora startup de IA, com o objetivo de explorar o valor da IA no setor da manufatura industrial, impulsionar o desenvolvimento autónomo da Europa no campo da IA e focar-se em aplicações verticais de IA. (Fonte: 36氪)

Hengwei Technology adquire Shuxing Information, pioneira em AIRaaS: A Hengwei Technology anunciou a aquisição de 75% das ações da Shanghai Shuxing Information, tornando-se o primeiro caso de uma empresa listada no mercado de ações A a adquirir um alvo de AIRaaS (AI Result as a Service). Isto marca uma transição na indústria de IA de um modelo de negócio de “vender poder computacional” para “vender resultados”. A Shuxing Information, com a sua capacidade de combinar a tecnologia de Large Models com cenários industriais, já alcançou lucratividade em setores como bens de consumo rápido, automóvel e finanças, proporcionando à Hengwei Technology uma oportunidade de transitar da venda de hardware para serviços de alto valor acrescentado. (Fonte: 36氪)

🌟 Comunidade

Degradação do desempenho do ChatGPT 4o causa forte insatisfação dos utilizadores: Utilizadores do ChatGPT Plus relataram uma degradação significativa no desempenho e na “personalidade” do modelo GPT-4o. Muitos utilizadores afirmam que, mesmo ao selecionar o 4o, as conversas são secretamente encaminhadas para o GPT-5, especialmente ao lidar com prompts “sensíveis” ou “emocionais”, resultando em respostas “frias, preguiçosas e desprovidas de inteligência emocional”. Os utilizadores sentem-se “enganados” e traídos, questionando a transparência e integridade da OpenAI, e expressando insatisfação com o produto pago. (Fonte: Reddit r/ChatGPT, Reddit r/ChatGPT, Reddit r/ChatGPT, Reddit r/ChatGPT, Reddit r/ChatGPT, Reddit r/ChatGPT, Reddit r/ChatGPT, menhguin)

Agentes de IA: a lacuna entre o hype e a realidade: As discussões nas redes sociais sobre os agentes de IA revelam a lacuna entre a sua visão ambiciosa e as suas capacidades reais atuais. Eric Schmidt, ex-CEO do Google, afirmou que “não há evidências de que a IA possa melhorar a si mesma”. Os desenvolvedores relatam que dar mais liberdade aos agentes de IA geralmente leva a resultados piores, e que os agentes verdadeiramente bem-sucedidos são aqueles que são estritamente controlados e focados em tarefas específicas como ferramentas de assistência. Isto indica que a maturidade dos agentes de IA está longe do esperado, exigindo ainda uma intervenção humana significativa e gestão refinada. (Fonte: Reddit r/ArtificialInteligence, dotey)

Análise aprofundada do desempenho do Flash Attention 4 gera debate: Um artigo de análise técnica aprofundada de 4000 palavras sobre o Flash Attention 4 gerou ampla discussão, detalhando como a tecnologia alcança um aumento de desempenho de 20%. O artigo revela que as suas otimizações centrais incluem um pipeline assíncrono mais complexo e especializado em warp, uma função exponencial de aproximação cúbica inovadora para “software softmax”, e uma reescalagem eficiente para estabilidade numérica. Estes detalhes técnicos proporcionaram à comunidade de IA uma compreensão aprofundada dos mecanismos de atenção eficientes. (Fonte: charles_irl, akshat_b, TheZachMueller, jonst0kes, atroyn, swyx, dejavucoder)

Discussão aprofundada sobre o impacto da IA no emprego e na sociedade: Sam Altman prevê que 30-40% das tarefas económicas serão realizadas por IA no futuro, o que acelerará a transição profissional. Ele enfatiza que “aprender a aprender”, adaptabilidade, resiliência, compreensão das necessidades humanas e interação interpessoal são as competências-chave para o futuro. As discussões também abordam o impacto ético da IA na sociedade, como as preocupações com “drogas mentais” e a poluição da internet por conteúdo gerado por IA, bem como o equilíbrio entre a IA a substituir tarefas de trabalho e a criar novas oportunidades. (Fonte: dotey, Ronald_vanLoon, TheEthanDing, swyx, cloneofsimo, MillionInt, glennko, Reddit r/ArtificialInteligence)

Ética da IA: desafios de confiança, privacidade e controlo: As discussões nas redes sociais focam-se nos desafios éticos da IA, incluindo a privacidade dos dados, o financiamento de publicidade e questões de confiança dos agentes de IA, bem como o impacto generalizado do poder crescente da IA na sociedade. A comunidade apela a uma maior transparência nos sistemas de IA e debate se a IA deve servir “a inteligência pela inteligência” ou priorizar o bem-estar humano. Estas discussões refletem a profunda preocupação do público com a direção do desenvolvimento da IA. (Fonte: Ronald_vanLoon, pmddomingos, Reddit r/ChatGPT, Reddit r/ArtificialInteligence)

💡 Outros

Vulnerabilidade de segurança Bluetooth exposta no robô Unitree G1: O robô humanoide Unitree G1 (e possivelmente os modelos Go2, H1, B2) foi exposto por ter uma grave vulnerabilidade de segurança Bluetooth. Qualquer dispositivo dentro do alcance Bluetooth pode explorar uma chave AES codificada para executar comandos de root, controlando assim o robô ou implantando um backdoor. Embora as vulnerabilidades em algumas versões de firmware mais antigas possam ter sido corrigidas, a falha de segurança fundamental da chave codificada permanece, levantando preocupações sobre a segurança dos robôs de IA. (Fonte: Sentdex, teortaxesTex)

Desenvolvimento sinérgico de IA e computação quântica: As discussões sociais destacaram o potencial transformador da computação quântica no campo da cibersegurança e notaram que a NVIDIA está a investir ativamente em startups quânticas, desenvolvendo plataformas como CUDA-Q e DGX Quantum para suportar a programação híbrida quântica-clássica. Isto indica um reconhecimento crescente na indústria das sinergias entre a tecnologia quântica e a IA, bem como as suas perspetivas em aplicações comerciais. (Fonte: Ronald_vanLoon, TheTuringPost)

Modular Manifolds: nova teoria para otimização de redes neurais: A Thinking Machines propôs a teoria dos “Modular Manifolds”, um método para co-projetar otimizadores através da imposição de restrições de manifold nas matrizes de peso, a fim de alcançar um treino de redes neurais mais estável e de alto desempenho. Esta teoria explora profundamente as propriedades geométricas da otimização de redes neurais, visando superar métodos de otimização tradicionais como Adam, e oferece novas direções para a pesquisa em IA. (Fonte: thinkymachines, dejavucoder, johnschulman2, giffmana, menhguin, jeremyphoward, rown, suchenzang, teortaxesTex, zacharynado)