Palavras-chave:pesquisador de automação, modelo de IA, aprendizagem por reforço, IA multimodal, inteligência incorporada, computação quântica, benchmark de IA, aplicações comerciais de IA, capacidade de raciocínio do GPT-5, capacidade de adaptação do robô Skild Brain, modelo multimodal Qwen3-Omni, Gemini Robotics 1.5, benchmark de valor econômico GDPval

🔥 Destaque

Objetivo Final da OpenAI: Realizar um Pesquisador Automatizado : Jakub Pachocki, Cientista Chefe da OpenAI, e Mark Chen, Diretor de Pesquisa, revelaram em uma entrevista recente que o objetivo final da OpenAI é desenvolver um “pesquisador automatizado” capaz de descobrir novas ideias de forma autônoma. O GPT-5 introduzirá capacidades de raciocínio e comportamento Agentic no mainstream, e as avaliações futuras focarão na capacidade do modelo de descobrir coisas novas e fazer progressos práticos em áreas economicamente relevantes. A aprendizagem por reforço (Reinforcement Learning) é considerada fundamental para atingir este objetivo, com a sua versatilidade e combinação com modelos de linguagem a demonstrar uma vitalidade contínua. Os investigadores devem manter-se flexíveis e não considerar o estado atual como o fim. Além disso, a OpenAI valoriza mais a capacidade de resolver problemas difíceis e o espírito de persistência na contratação, em vez de pessoas “mais populares”. Se houver recursos adicionais, estes serão prioritariamente investidos em computação. (Fonte: 量子位, 36氪)

Skild AI Lança Cérebro Robótico Adaptativo, Capaz de Lidar com Danos Físicos : A Skild AI, avaliada em 4,5 bilhões de dólares, lançou o Skild Brain, um cérebro robótico capaz de manter o movimento mesmo diante de falhas desconhecidas, como membros quebrados ou motores bloqueados. O modelo foi treinado por um período equivalente a mil anos em um ambiente virtual contendo cem mil posturas robóticas diferentes, permitindo-lhe desenvolver estratégias gerais aplicáveis a uma variedade de cenários desconhecidos, e até mesmo adaptar-se a novas formas corporais. A excelente capacidade de memória contextual do Skild Brain, mais de 100 vezes superior à dos controladores tradicionais, permite-lhe ajustar-se rapidamente e executar tarefas de forma eficaz em situações inesperadas, como mudar a marcha quando uma roda fica presa. Isso demonstra que a AGI (Inteligência Artificial Geral) que opera de forma confiável no mundo físico precisa possuir uma forte capacidade de adaptação. (Fonte: 量子位)

Benchmark GDPval da OpenAI: Claude Opus 4.1 Supera GPT-5 : A OpenAI lançou um novo benchmark chamado GDPval, projetado para medir o desempenho de modelos de IA em tarefas do mundo real com valor econômico. O benchmark abrange 44 profissões em 9 das indústrias que mais contribuem para o PIB dos EUA, gerando uma receita total de 3 trilhões de dólares. Os resultados dos testes mostram que o Claude Opus 4.1 foi avaliado como comparável a especialistas humanos com 47,6% de produção, superando o GPT-5 (38,8%) e o GPT-4o (12,4%). A OpenAI observou que o Claude se destaca em aspectos estéticos (como formatação de documentos, layout de slides), enquanto o GPT-5 é superior em precisão. A pesquisa também descobriu que a taxa de sucesso dos modelos de IA quase dobrou em apenas um ano, e que a combinação com supervisão humana pode completar tarefas de forma mais econômica e eficiente. (Fonte: 量子位, Yuchenj_UW, scaling01, Smol_AI, markchen90, giffmana, tokenbender, BlackHC)

Modelo Qwen3-Omni da Alibaba Supera Gargalo Multimodal : A Alibaba lançou o modelo Qwen3-Omni-30B, que quebra a “maldição multimodal” que há muito assola o campo da IA, onde a integração de capacidades visuais e de áudio sacrificava o desempenho de raciocínio textual. O Qwen3-Omni superou o GPT-4o em 36 benchmarks de áudio, enquanto se manteve a par do GPT-4 em raciocínio puramente textual. O modelo utiliza uma arquitetura de áudio Transformer personalizada, treinada de ponta a ponta, alcançando uma baixa latência de 234 milissegundos, suportando o processamento de arquivos de áudio de 40 minutos, a compreensão de 19 idiomas falados e a geração de voz em 10 idiomas. O seu lançamento como código aberto (Apache 2.0) prenuncia o fim da era da IA unimodal e oferece capacidades multimodais de ponta a laboratórios de IA. (Fonte: NerdyRodent)

Arc Institute Anuncia Descobertas Significativas em Biologia com IA : O Arc Institute revelou três descobertas biológicas inovadoras, combinando estreitamente a IA com a biologia experimental de laboratório. Estas incluem: o primeiro genoma funcional gerado por IA, utilizando o modelo Evo 2 para criar um novo genoma de bacteriófago e provar experimentalmente a sua eficácia; o Germinal, um sistema que projeta novos anticorpos através de IA, capaz de gerar candidatos a medicamentos com uma taxa de sucesso mais elevada; e a tecnologia “edição em ponte”, que permite edições precisas de até 1 milhão de pares de bases em células humanas, com potencial para tratar doenças como a ataxia de Friedreich. Estes resultados demonstram o enorme potencial da IA no ciclo de “leitura, pensamento e escrita” em biologia, e sublinham a importância da colaboração interinstitucional num modelo sem fins lucrativos. (Fonte: zachtratar, BlackHC)

🎯 Tendências

Google Lança Gemini Robotics 1.5, Reforçando a Inteligência Incorporada : A Google DeepMind lançou a série de modelos Gemini Robotics 1.5, com o objetivo de aprimorar as capacidades dos robôs no mundo físico. Esta série inclui o Gemini Robotics 1.5 (modelo visão-linguagem-ação) e o Gemini Robotics-ER 1.5 (modelo visão-linguagem), sendo o primeiro responsável por traduzir instruções em comandos precisos de movimento robótico, e o segundo atuando como um cérebro avançado para raciocínio no mundo físico, invocando ferramentas digitais e formulando planos de várias etapas. O modelo pensa antes de agir e demonstra o processo, suporta a aprendizagem entre diferentes morfologias, e a API já está disponível no AI Studio, com o potencial de impulsionar o desenvolvimento da indústria de inteligência incorporada. (Fonte: op7418, GoogleDeepMind, osanseviero, jon_lee0, GoogleDeepMind)

Qualcomm Lança Novos Chips, Capacitando Totalmente a Experiência Agent AI : A Qualcomm lançou a série de processadores para PC Snapdragon X2 Elite e a plataforma móvel Snapdragon 8 Gen 5 Extreme Edition, com o objetivo de pavimentar o caminho para a experiência Agent AI. O Snapdragon X2 Elite Extreme é projetado para PCs de ultra-alta gama, com uma capacidade de NPU de 80 TOPS e uma eficiência energética significativamente melhorada. O Snapdragon 8 Gen 5 Extreme Edition introduz pela primeira vez a função de aprendizagem contínua de IA no dispositivo, suportando assistentes Agent AI personalizados que compreendem profundamente o utilizador através de perceção em tempo real e modelos de IA multimodais, oferecendo operações personalizadas entre aplicações. O CEO da Qualcomm, Cristiano Amon, enfatizou que a IA é a nova UI, prenunciando uma mudança da arquitetura de computação centrada no smartphone para uma arquitetura centrada no agente inteligente. (Fonte: 量子位, 小米17 4499开卖,首发五代骁龙8!雷军:500亿砸自研芯片)

JD Logistics Lança “Superbrain Large Model 2.0” e Braço Robótico Inteligente “Yilang” : A JD Logistics lançou o “Superbrain Large Model 2.0” e o sistema de braço robótico inteligente “Yilang”, com o objetivo de acelerar a construção de um ecossistema de aplicações “Inteligência Artificial+”. O Superbrain Large Model 2.0 é totalmente Agentic, permitindo a tomada de decisões autónomas por dispositivos inteligentes, reduzindo o tempo de resolução de modelos com dezenas de milhões de variáveis para menos de 2 horas, melhorando a eficiência da linha de frente em quase 20% e a eficiência da colaboração humano-máquina em mais de 20%. O braço robótico “Yilang”, através de perceção visual avançada e controlo de movimento de alta precisão, resolve o problema da paletização automatizada de pacotes não padronizados em cenários de logística, e já está a operar 24 horas por dia em parques inteligentes. Os dois novos produtos, em sinergia, formam um ciclo fechado de “inteligência na nuvem – execução no terminal”, marcando uma nova fase na indústria da logística, da “tomada de decisão assistida” para a “execução incorporada”. (Fonte: 量子位)

Google Lança Atualizações Intensivas de Produtos de IA em Setembro : A Google lançou uma série de atualizações intensivas de produtos de IA em setembro, incluindo Gemini Robotics 1.5, o mais recente Gemini Live, EmbeddingGemma, Veo 3 GA e atualizações de API, soluções AI Edge on-device, suporte para incorporação Gemini Batch API, atualizações Gemini Flash e Flash Lite, bem como Chrome DevTools MCP e VaultGemma. Estas atualizações abrangem várias áreas como robótica, IA incorporada, modelos multimodais, computação de ponta e ferramentas de desenvolvimento, demonstrando o layout abrangente e a rápida capacidade de iteração da Google no campo da IA. (Fonte: osanseviero)

Apple Propõe o Primeiro Tokenizer Visual Unificado ATOKEN : A Apple propôs o ATOKEN, o primeiro Tokenizer visual unificado, capaz de cobrir imagens, vídeos e ativos 3D em um único espaço latente/token 4D compartilhado. O ATOKEN alcança uma representação unificada para vários tipos de dados visuais, enquanto iguala o desempenho de outros Tokenizers especializados. Isso é de grande importância para o desenvolvimento de modelos de IA multimodais, com o potencial de simplificar o processo de dados multimodais e melhorar a eficiência e a capacidade de generalização do modelo. (Fonte: menhguin)

NVIDIA Investe Ativamente no Campo da Computação Quântica : A NVIDIA está a investir ativamente na computação quântica, demonstrando a sua importância para esta área através de iniciativas como o CUDA-Q (plataforma de programação quântica-clássica híbrida), o DGX Quantum (arquitetura de referência que conecta sistemas de controlo quântico com supercomputadores de IA) e a colaboração com parceiros de hardware para estabelecer centros de investigação quântica dedicados. Jensen Huang também investiu em startups quânticas como PsiQuantum, Quantinuum e QuEra através da NVentures, prenunciando uma mudança estratégica no cronograma de comercialização da computação quântica para 2025, integrando profundamente a IA com a computação quântica. (Fonte: TheTuringPost, TheTuringPost)

Deemos Lança Modelo de Geração 3D Rodin Gen-2 : A Deemos lançou o seu mais recente modelo de geração 3D, Rodin Gen-2, que alcançou avanços significativos na criação de conteúdo 3D. O Rodin Gen-2 oferece 4 vezes a precisão da malha, capacidade de geração recursiva de peças, suporte para baking de modelos de alta poli para baixa poli e geração de mapas normais, bem como funcionalidade de texturas HD. Além disso, inclui 3D ControlNets, Quads de nível parcial, T/A Pose e PBR, fornecendo ferramentas de criação mais poderosas para designers e desenvolvedores 3D. (Fonte: op7418)

Aplicações da IA na Medicina Veterinária Cada Vez Mais Abrangentes : A IA está a ser amplamente aplicada no campo da medicina veterinária, abrangendo diagnóstico, monitorização e previsão de doenças, entre outros aspetos. Por exemplo, a IA auxilia no diagnóstico de hipoadrenocorticismo canino e leptospirose, prevê malformações cerebelares e siringomielia em cães através de dados de ressonância magnética e análise de imagens faciais, e realiza análises de fezes para identificar espécies de parasitas. No setor agrícola, a IA, através de tecnologias de condição corporal, claudicação e identificação de doenças, permite a monitorização e tratamento precoce de rebanhos de gado leiteiro, melhorando o bem-estar animal e apoiando a gestão de antimicrobianos. Além disso, a IA é utilizada na gestão de pastagens e no desenvolvimento de biossensores, trazendo novas oportunidades e desafios para a profissão veterinária. (Fonte: aihub.org)

Tecnologia LiDAR para Robotaxi Entra em Três Ondas de Renovação : O desenvolvimento do Robotaxi está intimamente ligado à evolução da tecnologia LiDAR, tendo passado por três renovações cruciais. Inicialmente, o LiDAR de linha única estabeleceu as bases, seguido pelo LiDAR mecânico de 64 linhas, que se tornou o padrão para a condução autónoma L4, resolvendo o problema de “do zero”. Atualmente, a indústria está a entrar na terceira onda de renovação, centrada em chips digitais desenvolvidos internamente, buscando um equilíbrio triplo entre alto desempenho, alta confiabilidade e baixo custo. O LiDAR EM4 da RoboSense utiliza uma arquitetura digital VCSEL+SPAD-SoC, alcançando deteção de alta sensibilidade, remoção de ruído em chuva, nevoeiro, neve e poeira, e pode detetar caixas de papelão de 13×17 cm a 130 metros de distância, satisfazendo as necessidades de operação comercial de Robotaxi em todas as condições climáticas e geográficas, tornando-se o novo padrão da indústria. (Fonte: 量子位)

Execução Local de IA e Autonomia de Hardware Tornam-se Foco : Com o desenvolvimento da tecnologia de IA, a demanda dos utilizadores por executar LLMs em dispositivos locais está a crescer, a fim de alcançar a soberania da IA e a privacidade dos dados. Por exemplo, a execução de modelos LLM MLX em hardware Apple Silicon como o Mac Mini M4 Pro, reflete a importância da computação de ponta e das capacidades de IA pessoal. Isso não se refere apenas ao desempenho, mas também ao desejo dos utilizadores de controlar os sistemas de IA, reduzindo a dependência de serviços em nuvem e oferecendo mais autonomia aos desenvolvedores e utilizadores individuais. (Fonte: awnihannun)

Meta Lança Plataforma de Vídeos Curtos Gerados por IA, Vibes : A Meta lançou um novo recurso chamado “Vibes”, um feed de conteúdo de vídeo curto gerado por IA dentro do aplicativo Meta AI. A plataforma visa permitir que os utilizadores descubram e criem vídeos curtos gerados por IA. Embora alguns utilizadores tenham expressado preocupações sobre a qualidade do conteúdo e a saturação do mercado, esta iniciativa ainda é um passo importante da Meta no campo da geração de conteúdo por IA, tentando enriquecer ainda mais as formas de conteúdo das redes sociais através da tecnologia de IA. (Fonte: cto_junior, teortaxesTex, Reddit r/artificial)

ChatGPT Lança Função Pulse, Oferecendo Atualizações Ativas e Personalizadas : A OpenAI introduziu uma nova função chamada “Pulse” para o ChatGPT, com o objetivo de proporcionar uma experiência de utilizador mais ativa e personalizada. O Pulse é capaz de gerar proativamente atualizações e resumos diários com base no histórico de conversas do utilizador, feedback e aplicações conectadas (como calendários). Esta função está atualmente disponível para utilizadores Pro em dispositivos móveis, visando tornar o ChatGPT um assistente inteligente capaz de antecipar as necessidades do utilizador e fornecer informações relevantes, ajudando-o a gerir melhor as tarefas diárias e o fluxo de informações. (Fonte: snsf, Reddit r/artificial)

Novos Modelos Open Source Continuam a Surgir, Série Qwen Ativa : A comunidade de LLM open source tem estado continuamente ativa, com o lançamento de vários novos modelos e versões atualizadas. Entre eles, a série Qwen tem-se destacado, incluindo Qwen3-Max, Qwen3-Omni (multimodal), Qwen-Image-Edit-2509, Qwen3-VL-235B A22B (Visual LLM) e Qwen3-4B Function Calling. Além disso, DeepSeek-V3.1-Terminus, Meta Code World Model (CWM) 32B, Baidu Qianfan-VL (Visual LLM) e Magistral 1.2 (multimodal) também foram lançados ou atualizados, oferecendo uma rica variedade de opções para investigadores e desenvolvedores. (Fonte: Reddit r/LocalLLaMA)

Robô Reachy Mini Apresenta-se Pela Primeira Vez no Palco : O robô Reachy Mini fez a sua estreia no palco no TEDAIVienna, demonstrando o seu potencial como ator improvisador. Este evento marca uma maior exploração da tecnologia robótica nas artes performativas, podendo prenunciar novas aplicações para robôs em entretenimento e interação humano-máquina. (Fonte: ClementDelangue)

🧰 Ferramentas

Droid da FactoryAI Destaca-se em Benchmarks de Desenvolvimento de Software : O Droid da FactoryAI, um agente de IA, alcançou o primeiro lugar no Terminal-Bench (um dos benchmarks mais desafiadores para o desenvolvimento geral de software), superando ferramentas populares como Claude Code e Codex CLI. O Droid destacou-se em tarefas como modernização de código legado e depuração, e o seu desempenho “impecável” impressionou os utilizadores, demonstrando o forte potencial da IA em tarefas complexas de engenharia de software. (Fonte: matanSF, matanSF)

Convex Chef: O Primeiro Construtor de Aplicações de IA que Compreende o Backend : O Convex Chef é um construtor de aplicações de IA único que não só cria aplicações web full-stack, mas também integra uma base de dados, autenticação de configuração zero, upload de ficheiros, UI em tempo real e fluxos de trabalho de backend. A sua poderosa capacidade deriva da API da base de dados reativa open source Convex, que é ideal para a geração de código. As instruções do sistema do Chef estão disponíveis para visualização ou download, com o objetivo de simplificar o trabalho dos desenvolvedores de aplicações web e suportar chaves de API de vários fornecedores de modelos. (Fonte: GitHub Trending)

Trend Finder: Ferramenta de Análise de Tendências de Redes Sociais Impulsionada por IA : O Trend Finder é uma ferramenta que utiliza tecnologia de IA para rastrear tópicos populares nas redes sociais e na web. Monitoriza publicações de influenciadores chave (como Twitter/X) e atualizações de websites, utilizando Together AI, DeepSeek ou OpenAI para análise de conteúdo, identificando tendências emergentes, lançamentos de produtos e notícias, e analisando o sentimento e a relevância. Quando uma tendência importante é detetada, envia notificações via Slack ou Discord, ajudando as equipas de marketing a poupar tempo na pesquisa manual e a responder rapidamente às oportunidades de mercado. (Fonte: GitHub Trending)

Qwen3-Coder-30b AWQ Alcança Codificação Eficiente em Hardware de Consumo : O modelo Qwen3-Coder-30b AWQ (quantização de 4 bits) demonstrou uma velocidade de inferência surpreendente de 115 tokens por segundo numa única placa gráfica RTX 3090. Este modelo não só é eficiente em termos de execução, como também “escreveu” com sucesso o jogo Pac-Man em condições zero-shot, mostrando a sua poderosa capacidade em tarefas de codificação e praticidade em hardware de consumo, oferecendo uma opção de alto desempenho para o desenvolvimento e aplicação de LLM local. (Fonte: QuixiAI)

Perplexity Lançará em Breve a API de Navegação : A Perplexity AI anunciou que lançará a sua API de navegação, com o objetivo de fornecer uma infraestrutura de pesquisa e navegação superior. Espera-se que esta API se integre perfeitamente com o código open source existente, sendo rapidamente implementada como uma ferramenta personalizada, oferecendo aos utilizadores respostas mais diretas e menos anúncios do que os motores de busca tradicionais. Esta iniciativa consolidará ainda mais a posição da Perplexity no campo da pesquisa nativa de IA e fornecerá aos desenvolvedores poderosas capacidades de recuperação de informações. (Fonte: AravSrinivas, AravSrinivas)

Comet AI Lança Agente de Compras Inteligente : A Comet AI lançou um agente de compras inteligente, projetado para simplificar a experiência de compra dos utilizadores. Os utilizadores só precisam de dar instruções como “comprar os três livros recomendados por Druckenmiller”, e o agente pode executar automaticamente a tarefa, analisando milhões de avaliações e encontrando alternativas. Este agente evita recomendar produtos aleatórios através de modelos de similaridade semântica e ciclos de feedback do utilizador, e fornece classificações de qualidade/durabilidade com base na análise de avaliações, ajudando os utilizadores a descobrir alternativas de maior qualidade. (Fonte: AravSrinivas)

Modo Agente Kimi “OK Computer”: Assistente de IA Full-Stack : A Kimi lançou o seu modo Agente “OK Computer”, posicionado como um assistente de IA full-stack, com o objetivo de melhorar a eficiência do trabalho em cenários de produtividade. Este Agente suporta mais de 20 ferramentas, incluindo sistema de ficheiros, navegador, terminal, escrita de código, geração de imagens/áudio, e é capaz de completar todo o processo desde a pesquisa, soluções de produto, design de interação até ao desenvolvimento frontend. Impulsionado por um modelo de aprendizagem por reforço especializado, é capaz de analisar o desempenho de ações, criar protótipos de websites de compras e gerar PPTs editáveis, demonstrando poderosas capacidades de multitarefas e alta personalização. (Fonte: op7418, crystalsssup)

LMCache: Extensão de Cache Open Source para Motores de Serviço LLM : LMCache é uma extensão open source, projetada para inferência LLM de produção em larga escala, atuando como uma camada de cache para motores de serviço LLM. Implementa uma gestão inteligente de cache KV, reutilizando o estado de chave-valor de texto anterior em GPUs, CPUs e discos locais, podendo reutilizar qualquer fragmento de texto duplicado, não apenas prefixos. Isso resulta numa redução de custo de RAG de 4-10x, menor tempo de geração do primeiro Token (TTFT) e maior throughput sob carga, além de lidar eficientemente com cenários de contexto longo. A NVIDIA já o integrou no seu projeto Dynamo Inference. (Fonte: TheTuringPost)

Swift Transformers 1.0 Lançado, Focado em Casos de Uso MLX e Agentic : A Hugging Face lançou a versão 1.0 do Swift Transformers, com o objetivo de apoiar os desenvolvedores Apple na integração de LLMs locais em plataformas Apple Silicon como o iPhone. A biblioteca oferece componentes Tokenizers, Hub e Models/Generation para processar entradas, baixar modelos e executar inferência. A versão 1.0 eleva Tokenizers e Hub a módulos de nível superior e colaborou com John Mai para criar uma biblioteca Swift Jinja mais rápida. No futuro, o projeto focará mais na exploração de casos de uso MLX e Agentic para uma melhor integração com mlx-swift-examples. (Fonte: HuggingFace Blog)

Exa-code Visa Eliminar Alucinações de Código em LLMs : Exa-code é uma ferramenta importante que visa reduzir significativamente as alucinações de código em LLMs, indexando mais de 1 bilhão de páginas de documentos, repositórios GitHub e publicações do StackOverflow, entre outros dados. Ao receber uma consulta, o exa-code realiza uma pesquisa híbrida nesta vasta quantidade de dados e retorna uma string eficiente em termos de Token, dividida em blocos e concatenada, fornecendo assim informações de programação mais precisas e confiáveis para o LLM, melhorando a qualidade da geração de código. (Fonte: Teknium1)

Lista de Recomendações dos Melhores LLMs Locais : A comunidade partilhou uma lista dos melhores LLMs locais, oferecendo aos utilizadores modelos poderosos para executar em hardware de consumo. Os modelos recomendados incluem: GLM-4.5-air (melhor modelo Agentic/de codificação, comparável ao Claude 4-sonnet), Nousresearch/hermes-70B (funcionalidade abrangente), GPT-OSS-120B (inteligência próxima do GPT-4o), Qwen3-coder-30B-3A-instruct (agente de codificação eficiente) e Mistral-magistral-small (rápido, eficiente, multimodal). Estes modelos são rápidos a executar localmente e poderosos, oferecendo opções de alta qualidade para utilizadores que não dependem de LLMs proprietários. (Fonte: Teknium1)

Demonstração de Programação em Tempo Real com GPT-5-Codex : Um desenvolvedor realizou uma demonstração de programação em tempo real utilizando o GPT-5-Codex. Esta demonstração exibiu a aplicação da IA em tarefas de codificação, onde o desenvolvedor pôde construir e depurar código em tempo real através da interação com o GPT-5-Codex, destacando o potencial da IA no auxílio ao desenvolvimento de software. (Fonte: pierceboggan)

Alibaba Wan2.5-Preview Lança Edição de Imagem por Instrução : A Alibaba lançou o Wan2.5-Preview, trazendo poderosas funcionalidades de edição de imagem. Este modelo suporta uma ampla gama de tarefas de edição de imagem por instrução, sendo capaz de seguir de forma fiável as instruções do utilizador. Além disso, possui consistência de elementos visuais, suportando a geração a partir de uma ou várias referências de imagem, e pode manter a consistência de elementos visuais como rostos, produtos e estilos, melhorando significativamente a eficiência e flexibilidade na criação e modificação de imagens. (Fonte: Alibaba_Wan)

Kling 2.5 Combinado com Suno 5 Permite Geração de Vídeo AI “Infinita” : A versão 2.5 do Kling AI, através da tecnologia “frame chain” combinada com as capacidades de criação musical do Suno 5, permite a geração de vídeos AI “infinitos”. Esta tecnologia permite aos utilizadores criar facilmente conteúdo de vídeo AI essencialmente ilimitado, e a qualidade da música também melhorou significativamente em relação às versões anteriores. Os utilizadores podem realizar a maioria das operações no chat através de agentes personalizados, focando-se na direção criativa e reduzindo consideravelmente a barreira à produção de vídeo. (Fonte: fabianstelzer, Kling_ai)

Yaw AI Lança Assistente de Compras AI, Analisando o Comportamento do Consumidor : A Yaw AI desenvolveu um assistente de compras AI que ajuda os utilizadores a tomar decisões de compra mais informadas, analisando milhões de avaliações de produtos e procurando alternativas em tempo real. O sistema já conta com 15 mil utilizadores ativos e processa mais de 2 milhões de avaliações por mês. A pesquisa revelou que os consumidores não gostam de ler avaliações e preferem digitalizar, focando-se nas classificações por estrelas e resumos negativos; o efeito de ancoragem de preços é forte, e as percentagens de desconto são mais importantes do que as poupanças absolutas; a lealdade à marca muitas vezes supera a lógica, mas grandes ofertas podem incentivar a experimentar novas marcas. O assistente não só recomenda produtos mais baratos, mas também produtos de maior qualidade. (Fonte: Reddit r/artificial)

Kwaipilot/KAT-Dev: LLM de Engenharia de Software Open Source : A Kwaipilot lançou o KAT-Dev-32B, um modelo open source de 32 bilhões de parâmetros, especializado em tarefas de engenharia de software. O modelo alcançou uma taxa de resolução de 62,4% no benchmark SWE-Bench Verified, classificando-se em quinto lugar entre todos os modelos open source, com um desempenho impressionante. Baseia-se no modelo Qwen 3 32B e adota uma metodologia específica, com o potencial de fornecer capacidades eficientes de codificação e Agentic em hardware de consumo. (Fonte: Reddit r/LocalLLaMA)

📚 Aprendizagem

Algoritmo ViSpec do Huawei Noah’s Ark Lab Selecionado para NeurIPS 2025 : A estrutura de inferência especulativa de perceção visual (ViSpec) proposta pelo Huawei Noah’s Ark Lab foi selecionada para o NeurIPS 2025. Este algoritmo acelera a velocidade de inferência de modelos multimodais grandes (VLM) em até 3,22 vezes, sem sacrificar a qualidade da geração. O ViSpec resolve os problemas de eficiência do modelo de rascunho no processamento de informações de imagem altamente redundantes e o problema de “esquecimento intermediário” na geração de texto longo, através da introdução de adaptadores visuais leves e injeção global de características visuais. Além disso, a equipa garantiu a capacidade de generalização do modelo ViSpec em cenários de inferência reais através da síntese de conjuntos de dados de resposta longa e estratégias de treino especializadas, abrindo uma nova era para a inferência eficiente de VLM. (Fonte: 量子位)

Tsinghua & Shanghai AI Lab Quebram Dois Gargalos do RL Robótico, SimpleVLA-RL Bate SOTA : Uma equipa conjunta da Universidade de Tsinghua e do Shanghai AI Lab propôs o SimpleVLA-RL, uma solução de treino online de ponta a ponta, com o objetivo de resolver os principais gargalos de escassez de dados e capacidade de generalização insuficiente em modelos de visão-linguagem-ação (VLA) na aprendizagem por reforço (RL) robótica. Esta estrutura, baseada em veRL, melhora significativamente a eficiência dos dados e a capacidade de generalização do modelo em cenários de desvio de distribuição através de amostragem interativa de trajetórias, recompensas de resultados minimalistas e design de exploração aprimorada. Os resultados experimentais mostram que o SimpleVLA-RL alcança desempenho SoTA em benchmarks como o LIBERO, e mesmo em condições de SFT de trajetória única, a taxa de sucesso pode ser aumentada de 48,9% para 96,9%, e pode gerar novas estratégias de operação além das demonstrações humanas, como “Pushcut”. (Fonte: 量子位)

Codificação Linear da Ordem de Treino Recente em Ativações de LLM : Um estudo recente descobriu que as ativações de Large Language Models (LLMs) codificam linearmente a proximidade da ordem de treino. Os investigadores, ao ajustar sequencialmente os modelos em diferentes conjuntos de dados, descobriram que as ativações médias de seis conjuntos de testes correspondentes eram consistentes com a ordem exata de treino, e as linhas de diferentes execuções de treino eram aproximadamente paralelas. Esta descoberta sugere que o modelo tem uma perceção do “tempo”, onde o tempo é o passo do gradiente durante o processo de pré-treino. Isso é de grande importância para compreender os mecanismos internos dos LLMs e como eles “lembram” informações durante o processo de treino. (Fonte: menhguin, JeffLadish, BlackHC)

Meta Lança Code World Model (CWM), Melhorando a Compreensão e Geração de Código : A Meta lançou o Code World Model (CWM), um LLM denso de 32 bilhões de parâmetros, projetado para impulsionar a pesquisa em geração de código através de raciocínio Agentic e modelos de mundo. O CWM é capaz de rastrear a execução do código, como um pdb neural, ajudando o modelo a realmente compreender o código. Esta inovação promete permitir que o modelo demonstre capacidades mais fortes em tarefas complexas de programação, como refatoração de código, e resolver o problema da alocação desigual de tempo em modelos de programação tradicionais ao lidar com problemas simples e difíceis. (Fonte: giffmana, BlackHC)

Soft Tokens, Hard Truths: Novo Método de Aprendizagem por Reforço para LLMs : Um novo estudo pré-publicado, “Soft Tokens, Hard Truths”, apresenta o primeiro método escalável de aprendizagem por reforço (RL) de tokens contínuos para Large Language Models (LLMs). Este método não requer referência a CoT (Chain of Thought), é escalável para centenas de tokens de pensamento, e utiliza tokens “soft” durante o treino e tokens “hard” durante a inferência. A pesquisa mostra que o método atinge o mesmo nível que o CoT hard em Pass@1, melhora em Pass@32, e possui melhor robustez. (Fonte: menhguin)

Reimplementação do Modelo de Mundo DeepMind Genie 3: TinyWorlds : O modelo de mundo Genie 3 da DeepMind foi reimplementado, dando origem ao TinyWorlds, um modelo de mundo com apenas 3 milhões de parâmetros, capaz de gerar ambientes de jogo jogáveis. Este resultado demonstra o potencial de modelos pequenos em tarefas complexas e partilha as experiências de aprendizagem durante o processo de implementação através de demonstrações detalhadas e uma biblioteca de código, fornecendo uma nova perspetiva e recursos para a pesquisa de modelos de mundo. (Fonte: hardmaru, NandoDF)

Sakana AI Lança ShinkaEvolve: Estrutura Open Source para Descoberta Científica Eficiente : A Sakana AI lançou o ShinkaEvolve, uma estrutura open source que impulsiona a evolução programática na descoberta científica com uma eficiência de amostra sem precedentes. Esta estrutura utiliza LLMs para encontrar soluções de ponta para problemas complexos, mas com ordens de magnitude menores de recursos. O ShinkaEvolve alcança uma eficiência de amostra significativa através de estratégias de amostragem adaptativa de pais, filtragem de rejeição baseada na novidade e integração de LLM baseada em Bandit, por exemplo, descobrindo novas soluções SOTA para o problema clássico de otimização de pilhas circulares com 150 amostras. (Fonte: hardmaru)

LIBERO VLA Leaderboard Lançado, Impulsionando a Avaliação de Modelos Visão-Linguagem-Ação : O primeiro leaderboard para modelos de visão-linguagem-ação (VLA), o LIBERO VLA Leaderboard, foi oficialmente lançado. Com o rápido desenvolvimento dos modelos VLA, tornou-se crucial estabelecer uma avaliação de benchmark partilhada eficiente e justa e um espaço de comunidade aberto. O lançamento deste leaderboard permitirá que os investigadores comparem e avaliem melhor o desempenho de diferentes modelos VLA, acelerando assim o progresso tecnológico nesta área. (Fonte: clefourrier)

Limitações da Estrutura de Avaliação LLM-as-a-Judge e Solução TrustJudge : Um estudo revela inconsistências chave ao usar LLMs como avaliadores automáticos (LLM-as-a-Judge), incluindo inconsistências na comparação de pontuações e inconsistências de transitividade paritária. Estes problemas surgem da perda de informação em sistemas de pontuação discretos e de julgamentos ambíguos de empate. Para resolver este problema, o estudo propõe o TrustJudge, uma estrutura probabilística que melhora a precisão e a fiabilidade da avaliação através de pontuação sensível à distribuição e agregação consciente da verosimilhança. Experimentos mostram que o TrustJudge pode reduzir significativamente as inconsistências de avaliação e melhorar a precisão da avaliação. (Fonte: HuggingFace Daily Papers, BlackHC)

Cartões de Sistema AI: Um Plano para Transparência e Governança End-to-End : Um artigo apresenta a estrutura Hazard-Aware System Card (HASC), projetada para aumentar a transparência e a responsabilização no desenvolvimento e implantação de sistemas de IA. O HASC baseia-se nos conceitos existentes de cartões de modelo e cartões de sistema, integrando um registo dinâmico abrangente da postura de segurança do sistema de IA e propondo IDs de Perigo de Segurança de IA (ASH) para complementar os identificadores de segurança existentes. Ao fornecer uma fonte única e acessível de verdade, o HASC permite que desenvolvedores e partes interessadas tomem decisões de segurança mais informadas ao longo de todo o ciclo de vida do sistema de IA, e é complementar à norma ISO/IEC 42001:2023. (Fonte: HuggingFace Daily Papers)

Residual Off-Policy RL: Novo Método para Ajustar Estratégias de Clonagem Comportamental : Um estudo propõe uma estrutura de aprendizagem residual que combina as vantagens da clonagem comportamental (BC) e da aprendizagem por reforço (RL), com o objetivo de ajustar estratégias de clonagem comportamental. Este método utiliza a estratégia BC como uma base de caixa preta e aprende correções residuais leves a cada passo através de RL off-policy eficiente em termos de amostras. A pesquisa mostra que o método requer apenas sinais de recompensa binários esparsos para melhorar eficazmente as estratégias de operação em sistemas robóticos de alta liberdade, e alcança desempenho de ponta tanto em simulações quanto no mundo real, fornecendo um caminho prático para a implantação de RL no mundo real. (Fonte: HuggingFace Daily Papers)

QuantVGGT: Estrutura de Quantização para Modelos de Reconstrução 3D : QuantVGGT é a primeira estrutura de quantização para Visual Geometry Foundation Transformers (VGGTs), projetada para resolver os desafios únicos que enfrentam na compressão de modelos de bilhões de parâmetros. Ao introduzir quantização de granularidade fina de dupla suavização e amostragem diversificada com filtragem de ruído, o QuantVGGT alivia eficazmente os problemas de distribuição de ativação de cauda longa e seleção instável de amostras de calibração. Esta estrutura alcança desempenho de ponta em diferentes benchmarks e larguras de bits, com a quantização de 4 bits a permitir uma redução de memória de 3,7x e uma aceleração de inferência de 2,5x, mantendo mais de 98% de precisão de reconstrução, fornecendo uma solução prática para cenários com recursos limitados. (Fonte: HuggingFace Daily Papers)

AutoIntent: Ferramenta AutoML para Classificação de Texto : AutoIntent é uma ferramenta de Machine Learning automatizada, projetada especificamente para tarefas de classificação de texto. Ao contrário das soluções existentes, o AutoIntent oferece automação de ponta a ponta, incluindo seleção de modelo de incorporação, otimização de classificador e ajuste de limiar de decisão, tudo através de uma interface modular estilo sklearn. A estrutura suporta classificação multi-rótulo e deteção fora de alcance, com excelente desempenho em conjuntos de dados padrão de classificação de intenções, e permite aos utilizadores equilibrar eficiência e consumo de recursos. (Fonte: HuggingFace Daily Papers)

Recon-Act: Sistema de Uso de Navegador Multiagente Auto-Evolutivo : Recon-Act é uma estrutura multiagente auto-evolutiva, baseada no paradigma de comportamento “reconhecimento-ação”, projetada para resolver problemas de sequências de ações caóticas e excesso de tentativas e erros em tarefas web reais de várias rondas e longo ciclo. O sistema é composto por uma equipa de reconhecimento e uma equipa de ação; a primeira realiza análises comparativas e geração de ferramentas, enquanto a segunda é responsável pela decomposição de intenções, orquestração de ferramentas e execução. Ao comparar trajetórias erradas com as bem-sucedidas, a equipa de reconhecimento infere medidas corretivas e as abstrai em ferramentas genéricas para registar no arquivo de ferramentas, alcançando um treino em ciclo fechado de dados-ferramentas-ação-feedback. (Fonte: HuggingFace Daily Papers)

Defeitos de Design e Desafios de Validade nos Benchmarks LLM Judge : Um estudo aponta que os defeitos de design nos benchmarks de avaliação de LLM (LLM Judge) podem levar a uma validade dos resultados de classificação severamente enfraquecida pelo ruído. O estudo introduz dois mecanismos, “conformidade esquemática” e “validade psicométrica”, para diagnosticar estes problemas, descobrindo que os avaliadores populares apresentam sérias incoerências esquemáticas e fenómenos de colapso fatorial. Por exemplo, a variância não explicada do DeepSeek-R1-32B excede 90%, e a maioria das correlações fatoriais padrão é superior a 0,93. O estudo enfatiza a importância de projetar benchmarks de avaliação de LLM com maior alcance e foco na fiabilidade. (Fonte: HuggingFace Daily Papers)

BESPOKE: Benchmark de Avaliação Personalizada para LLMs Aprimorados por Busca : BESPOKE é um benchmark realista e diagnóstico para avaliar as capacidades de personalização de Large Language Models (LLMs) aprimorados por busca. Este benchmark, ao coletar históricos reais de chat e busca de humanos, acompanhados de pontuações de preferência de granularidade fina e feedback diagnóstico, visa resolver a insuficiência na identificação de diversas necessidades dos utilizadores nas avaliações existentes. O BESPOKE, construído através de anotação humana de longo prazo e profundamente envolvida, revela os requisitos chave para uma personalização eficaz em tarefas de recuperação de informações, estabelecendo as bases para uma avaliação de granularidade fina de LLMs aprimorados por busca personalizados. (Fonte: HuggingFace Daily Papers)

Thinking While Listening: Estrutura de Escala em Tempo de Teste para Classificação de Áudio : Um estudo propõe uma estrutura que permite que modelos de redes neurais “pensem enquanto ouvem”, melhorando o desempenho na classificação de áudio. A estrutura visa integrar a capacidade de inferência nos fluxos de trabalho existentes de classificação de áudio e projetar novas arquiteturas para suportar o pensamento e a escala em tempo de teste. A pesquisa mostra que, em ambas as configurações, os modelos demonstram maior precisão de classificação, e o desempenho continua a melhorar com o aumento do número de trajetórias de amostragem. Além disso, métodos leves (como o retreino de matrizes de incorporação de pequenos modelos congelados) podem superar modelos de inferência de texto de bilhões de parâmetros. (Fonte: HuggingFace Daily Papers)

Progresso do HVM4: Verificador de Provas Paralelo Rápido e Codificação AI em C : O HVM4 alcançou progressos significativos na sua funcionalidade SupGen integrada e sistema de tipos nativos, permitindo-lhe operar diretamente na rede de interação, tornando-se um verificador de provas rápido e paralelo. Espera-se que a sua velocidade seja ordens de magnitude mais rápida que a do Lean, e planeia ser aplicado na aprendizagem por reforço de prova de teoremas. Além disso, a codificação por IA tornou a linguagem C “surpreendentemente viável” na base de código do HVM; toda a base de código está agora 100% em C, mantendo a qualidade do código através da assistência de IA, melhorando a estabilidade e a velocidade. (Fonte: VictorTaelin)

Masterclass de Desenvolvimento Orientado por IA : A AIDD (AI-Driven Development) lançou a Masterclass de Desenvolvimento Orientado por IA, um curso prático que visa ensinar como integrar a IA no fluxo de trabalho diário de desenvolvimento. O conteúdo do curso inclui o uso de fluxos de trabalho IDE orientados por IA, prompts inteligentes e Agentes personalizados, a construção de pipelines reutilizáveis (como RAG, pesquisa vetorial e chatbots), a aplicação de IA em testes e design de UI, e a arquitetura de aplicações de produção com prioridade em IA. (Fonte: Reddit r/artificial)

Conselho de Código de Machine Learning: Usar SMOTE para Equilibrar Conjuntos de Dados : No campo do Machine Learning, um conselho prático é “sempre usar SMOTE (Synthetic Minority Over-sampling Technique) para equilibrar conjuntos de dados”. Através deste método, é possível melhorar significativamente métricas de desempenho do modelo como precisão, recall e F1-score, especialmente ao lidar com conjuntos de dados desequilibrados por classes. O SMOTE pode gerar eficazmente amostras da classe minoritária, melhorando a capacidade do modelo de aprender sobre a classe minoritária. (Fonte: Reddit r/MachineLearning)

A Evolução da Recuperação de Informação: Do Palácio da Memória aos Embeddings de IA : Um vídeo explora a história da evolução da recuperação de informação, desde os antigos palácios da memória até aos modernos embeddings vetoriais. Traça o desenvolvimento das tecnologias de busca, incluindo os catálogos da Biblioteca de Alexandria, o nascimento dos metadados, o motor de busca em papel do Mundaneum, a revolução estatística do TF-IDF, e os modelos de espaço vetorial que, há 50 anos, lançaram as bases para os atuais embeddings de IA. O vídeo aponta que tecnologias modernas como Transformers e bases de dados vetoriais são apenas os capítulos mais recentes desta longa história, e perspetiva o futuro da Geração Aumentada por Recuperação (RAG), acreditando que ela regressará à experiência humana de perguntar a um bibliotecário e obter respostas verdadeiras. (Fonte: Reddit r/deeplearning)

O Desafio Mais Difícil da IA Neuro-Simbólica: Aterramento Simbólico : Um dos desafios mais difíceis no campo da IA neuro-simbólica é o “Aterramento Simbólico” (Symbol Grounding). Este problema explora como conectar símbolos abstratos de alto nível com dados sensoriais de baixo nível e experiências do mundo físico, permitindo que os sistemas de IA realmente compreendam e operem no mundo. Resolver o problema do aterramento simbólico é crucial para construir sistemas de IA capazes de raciocínio complexo, compreensão da linguagem natural e interação significativa com o ambiente. (Fonte: Reddit r/deeplearning)

Cientista Chinês Dinggang Shen Recebe Prêmio de Impacto Duradouro MICCAI : Dinggang Shen, reitor fundador da Escola de Engenharia Biomédica da ShanghaiTech University e co-CEO da United Imaging Intelligence, foi agraciado com o Prêmio de Impacto Duradouro (EIA) da conferência International Medical Image Computing and Computer Assisted Intervention (MICCAI) de 2025, tornando-se o primeiro estudioso chinês a receber este prêmio em 17 anos de existência. O prêmio reconhece as suas realizações notáveis no campo da inteligência artificial em imagens médicas, incluindo a aplicação pioneira de deep learning em imagens médicas, a publicação de 760 artigos SCI, um fator H de 162, e a promoção ativa da integração profunda entre indústria, academia e pesquisa. Sob a sua liderança, a percentagem de artigos publicados por estudiosos chineses na MICCAI aumentou de 2-3% há 20 anos para 48,7%, classificando-se em primeiro lugar no mundo. (Fonte: 量子位)

Potencial do Modelo FLUX na Síntese de Imagens Fisicamente Confiáveis : Um estudo explora a capacidade de modelos modernos de difusão texto-para-imagem, como o FLUX, na síntese de imagens fisicamente confiáveis. O estudo propõe a estrutura SHINE, uma estrutura de inserção sem treino, contínua e de alta fidelidade, que alcança uma representação fiel do sujeito e integridade do fundo através de perda de ancoragem guiada por manifold, guia de supressão de degradação e mistura adaptativa de fundo, ao mesmo tempo que resolve problemas de iluminação complexa e entradas de alta resolução. O estudo também introduz o benchmark ComplexCompo, para avaliar mais rigorosamente o desempenho do modelo em condições desafiadoras como baixa luz, iluminação forte, sombras complexas e superfícies refletoras. (Fonte: HuggingFace Daily Papers)

Impacto da Codificação Posicional RoPE e Máscara Causal na Informação Posicional do Transformer : Um estudo analisa profundamente como a codificação posicional explícita como RoPE e a máscara causal codificam informações posicionais nos decodificadores Transformer. O estudo demonstra que, mesmo sem dependências causais em parâmetros ou entradas, a máscara causal pode induzir padrões de dependência posicional nas pontuações de atenção, favorecendo pares de consulta-chave próximos, semelhante ao comportamento de codificações posicionais comuns. A análise empírica confirma que os modelos treinados também exibem este comportamento, e os parâmetros aprendidos amplificam ainda mais esses padrões. Notavelmente, a interação entre a máscara causal e o RoPE distorce os padrões de pontuação de atenção relativa do RoPE, transformando-os em padrões não relativos, o que é comum em modelos de linguagem grandes modernos. (Fonte: HuggingFace Daily Papers)

Assimetria Inesperada entre Otimização Perceptual e Avaliação : Um estudo revela uma assimetria inesperada entre a otimização perceptual e a avaliação da qualidade da imagem (IQA). A pesquisa descobriu que métricas de fidelidade que se destacam na IQA não são necessariamente eficazes na otimização perceptual, e essa inconsistência é mais evidente sob treino adversarial. Além disso, embora os discriminadores sejam eficazes na supressão de artefatos durante o processo de otimização, a representação que aprendem tem benefícios limitados quando usada como inicialização de backbone para modelos IQA. O estudo também mostra que o design do discriminador é crucial para a otimização, com arquiteturas baseadas em patches e convolucionais superando os Transformers na reconstrução de detalhes. (Fonte: HuggingFace Daily Papers)

V-GameGym: Benchmark de Geração de Jogos Visuais para LLMs de Código : V-GameGym é um benchmark abrangente projetado para avaliar as capacidades de modelos de linguagem grandes de código no desenvolvimento de jogos visuais. Os benchmarks existentes focam principalmente na correção sintática e precisão de execução, ignorando métricas chave específicas de jogos como jogabilidade, estética visual e envolvimento do utilizador. O V-GameGym contém 2.219 amostras de alta qualidade, cobrindo 100 clusters temáticos, e introduz uma estrutura de avaliação multimodal e um pipeline automatizado de síntese de código visual impulsionado por LLM, preenchendo eficazmente a lacuna entre a precisão da geração de código e os fluxos de trabalho reais de desenvolvimento de jogos. (Fonte: HuggingFace Daily Papers)

Modelos de Visão-Linguagem-Ação Reflexivos de Difusão Discreta em Condução Autónoma : ReflectDrive é uma nova estrutura de aprendizagem que integra mecanismos de reflexão através de difusão discreta para gerar trajetórias seguras em condução autónoma. O método primeiro discretiza o espaço de condução 2D para construir um livro de códigos de ações, e ajusta um modelo de linguagem de difusão pré-treinado para tarefas de planeamento. O núcleo é o mecanismo de reflexão consciente da segurança, que permite a autocorreção iterativa sem cálculos de gradiente. O modelo gera comportamentos de condução multimodais através da geração de trajetórias condicionadas por objetivos e aplica pesquisa local para identificar tokens inseguros, servindo como âncoras de segurança para regeneração corretiva. No benchmark NAVSIM, o ReflectDrive demonstra vantagens significativas na geração de trajetórias críticas para a segurança. (Fonte: HuggingFace Daily Papers)

MI-Fuse: Fusão de Rótulos para Adaptação de Domínio Não Supervisionada em Modelos de Linguagem de Áudio Grandes de Código Fechado : MI-Fuse é uma estrutura de fusão de rótulos de desruído, projetada para resolver o problema de incompatibilidade de domínio em modelos de linguagem de áudio grandes de código fechado (LALMs) na identificação de emoções na fala (SER). Esta estrutura, na ausência de áudio de domínio alvo não rotulado e LALM apenas via API, extrai múltiplas previsões aleatórias de dois professores, ponderando a sua distribuição média com base na incerteza da informação mútua, através de um classificador SER treinado no domínio fonte como professor auxiliar, e estabiliza o treino através de um professor de média móvel exponencial. Os resultados experimentais mostram que o MI-Fuse alcança melhorias consistentes em vários conjuntos de dados e transferências entre domínios, com o modelo aluno a superar o LALM e a ser 3,9% superior à linha de base mais forte. (Fonte: HuggingFace Daily Papers)

💼 Negócios

Alibaba Cloud Prevê Crescimento de Dez Vezes no Consumo de Energia em Dez Anos, Kingsoft Cloud Enfrenta Desafios com Forte Aposta em IA : Executivos da Alibaba Cloud preveem que, até 2032, o consumo de energia dos seus data centers globais aumentará dez vezes em comparação com 2022, indicando um crescimento exponencial no investimento em poder computacional de IA. Neste contexto, a Kingsoft Cloud levantou mais de 2,7 bilhões de HKD através de uma nova colocação de ações para impulsionar o seu negócio de IA. Apesar do bom sentimento do mercado de IA, o feedback negativo do preço das suas ações reflete as preocupações dos investidores com as suas perdas a longo prazo e altos gastos de capital. Enfrentando a concorrência de gigantes como Microsoft, Amazon, Google e, internamente, Alibaba Cloud e Volcengine, os provedores de serviços de nuvem de segunda e terceira linha correm o risco de serem eliminados se não apostarem tudo na IA. A profunda ligação da Kingsoft Cloud com o ecossistema Xiaomi, especialmente em áreas como Xiaomi Auto, AIoT e WPS Office, oferece previsibilidade para o crescimento do seu negócio de IA, o que pode aliviar as preocupações com a rentabilidade. (Fonte: 36氪)

Horizon Robotics Levanta 5,8 Bilhões de HKD, Acelerando Entrada no Mercado de Robotaxi : A Horizon Robotics anunciou planos para levantar cerca de 5,8 bilhões de HKD, com parte dos fundos a ser utilizada para explorar o campo do Robotaxi. A empresa seguirá a rota de “não fabricar carros”, colaborando com provedores de serviços de mobilidade (como a já anunciada Hello Inc.) para fornecer soluções completas de condução inteligente L4 e suporte técnico. O primeiro modelo de Robotaxi de produção em massa pré-instalado da Hello Inc., o HR1, já foi revelado, com planos de produção em massa de dezenas de milhares de unidades até 2026. Yu Kai, CEO da Horizon Robotics, acredita que 2025 será um ponto de viragem para a indústria de condução assistida inteligente, e a empresa já possui as condições para transitar para níveis mais elevados em termos de algoritmos (algoritmo HSD end-to-end), poder computacional (chip J6P) e acumulação de dados, visando tornar-se uma “Tesla sem fabricar carros”. (Fonte: 量子位)

Huawei e GAC Lançam Conjuntamente Marca Premium de Energia Nova “Qijing” : A Huawei e o GAC Group lançaram conjuntamente a marca premium de energia nova “Qijing”, anunciando oficialmente Liu Jiaming como CEO, que anteriormente foi o responsável por veículos populares como o Highlander e o Camry. A marca Qijing integrará totalmente a tecnologia inteligente da Huawei, visando complementar as vantagens, utilizando o ecossistema de utilizadores e a força de marketing da marca Huawei. O primeiro modelo Qijing já concluiu os testes de verão e deverá ser lançado no próximo ano, posicionado no mercado de energia nova de 300.000 yuans. Esta iniciativa marca uma nova fase para a Huawei no apoio às fabricantes de automóveis, e espera-se que alivie a pressão do GAC Group na sua transição para a energia nova. (Fonte: 量子位)

🌟 Comunidade

ChatGPT 4o Redirecionado Silenciosamente para GPT-5 Causa Forte Insatisfação dos Utilizadores : Muitos utilizadores do ChatGPT Plus relataram que, mesmo selecionando explicitamente o modelo GPT-4o, o sistema redirecionava silenciosamente os seus pedidos para o GPT-5. Os utilizadores geralmente relataram uma diminuição na qualidade das respostas do GPT-5, que careciam da subtileza e criatividade do GPT-4o, resultando numa experiência insatisfatória. Este “bug” é considerado pela OpenAI como um teste de um novo modelo ou gestão da carga do modelo, mas o comportamento de redirecionamento sem o consentimento do utilizador levantou questões sobre a transparência da OpenAI, o direito de escolha do utilizador e a fiabilidade do produto. Muitos utilizadores apelam à OpenAI para corrigir este problema o mais rapidamente possível. (Fonte: Teknium1, Reddit r/ChatGPT, Reddit r/ChatGPT, Reddit r/ChatGPT)

O Impacto da IA na Produtividade do Desenvolvedor Deve Ser Avaliado Multidimensionalmente : A discussão da comunidade aponta que a avaliação do impacto da IA na produtividade do desenvolvedor requer métricas mais abrangentes, e não apenas o número de linhas de código (LOC) ou de pull requests (PR) submetidas. Sugere-se que a pesquisa deve ser realizada em duas dimensões: “volume de saída” e “classificação de complexidade e criticidade”, por exemplo, considerando a criticidade do PR (P0-P2) e a carga de trabalho (baixa-alta). Esta avaliação multi-eixo pode fornecer resultados mais convincentes, evitando generalizações, e assim refletir com mais precisão o valor real e os desafios que a IA traz para o desenvolvimento de software. (Fonte: tokenbender, tokenbender)

Nova Geração de Estudantes Universitários Utiliza ChatGPT para Desenvolver Autonomia na Aprendizagem : Há uma perspetiva de que a nova geração de recém-licenciados, ao enfrentar problemas, não procura diretamente orientação, mas tende a introduzir o problema no ChatGPT para tentar resolvê-lo, mesmo que o resultado não esteja totalmente correto. Este padrão de comportamento é visto como a IA a cultivar a capacidade de autoaprendizagem e resolução proativa de problemas nos jovens, tornando-os mais dispostos a tentar por si próprios, em vez de esperar passivamente por instruções. (Fonte: dylan522p)

Preocupações com o Impacto Social da Geração de Conteúdo por IA : A comunidade expressa preocupações sobre os potenciais impactos negativos do conteúdo gerado por IA (especialmente vídeos curtos), acreditando que pode levar a “danos cerebrais” ou “degeneração mental”. Alguns comentários comparam a plataforma de vídeos curtos gerados por IA da Meta, Vibes, a uma “máquina de lixo TikTok de IA infinita”, temendo que ela esvazie ainda mais os cérebros dos jovens. Esta preocupação reflete uma apreensão profunda sobre a perda de controlo da qualidade do conteúdo de IA, a complacência do algoritmo com conteúdo vulgar e os efeitos a longo prazo na capacidade cognitiva dos utilizadores. (Fonte: cloneofsimo, cloneofsimo, doodlestein, BlackHC)

EUA Rejeitam Controlo Centralizado e Governança Global da IA pela Comunidade Internacional : Os EUA rejeitam explicitamente os esforços de instituições internacionais para um controlo centralizado e governança global da IA, enfatizando a soberania e independência da IA. A Casa Branca dos EUA considera que a fixação ideológica na equidade social, no catastrofismo climático e nos chamados “riscos existenciais” é um obstáculo ao progresso da IA e ao uso responsável da tecnologia. Esta posição indica que os EUA tendem a impulsionar o desenvolvimento da IA através da inovação livre, em vez de regulamentação de cima para baixo, e estão vigilantes contra a censura e a concentração de poder que a governança global pode acarretar. (Fonte: imjaredz, imjaredz, imjaredz)

IA Open Source Enfrenta Desafios de Diversidade de Formatos de Modelo e Inconsistência de Implementação : A discussão da comunidade aponta que um dos principais obstáculos no campo da IA open source é a excessiva diversidade de formatos de modelo e as diferenças de implementação do mesmo modelo por diferentes fornecedores. Isso leva a inconsistências no desempenho do modelo, especialmente em cenários como a chamada de ferramentas, onde o código de um fornecedor pode não ser aplicável a outro. Este ecossistema fragmentado torna o desenvolvimento e a implantação de novos padrões como a chamada de ferramentas e a inferência intercalada extremamente difíceis, dificultando seriamente o desenvolvimento futuro da IA open source. (Fonte: bookwormengr)

Robô Unitree G1 Envia Dados para a China, Gerando Preocupações com a Privacidade : Há relatos de que o robô humanoide Unitree G1 está a enviar secreta e continuamente dados de sensores e do sistema para servidores na China, sem o conhecimento ou consentimento do utilizador. Esta descoberta levantou preocupações sobre a privacidade dos dados e a segurança nacional. Embora alguns argumentem que pode ser apenas a recolha de dados para P&D, os críticos apontam que este comportamento carece de transparência, e a prevalência de hardware chinês a carregar dados inúteis agrava as dúvidas dos utilizadores. (Fonte: bookwormengr, teortaxesTex)

Aplicações da IA em Serviços Públicos: Inteligência Nem Sempre é a Melhor Opção : Um artigo de pesquisa aponta que nem todos os problemas públicos exigem soluções de IA de ponta; por vezes, estratégias mais simples (como aumentar o número de assistentes sociais) são mais eficazes do que modelos preditivos complexos. O estudo descobriu que o Machine Learning é mais valioso na “primeira milha” e na “última milha” da política, e que o orçamento, e não os algoritmos, deve impulsionar as decisões. Em serviços públicos, sistemas com capacidade preditiva moderada, expandir a capacidade de triagem é geralmente mais valioso do que melhorar os modelos preditivos. Isso desafia a noção de “mais é melhor”, enfatizando que, com recursos limitados, ferramentas simples e baratas podem ter um impacto maior. (Fonte: Reddit r/ArtificialInteligence)

IA Substitui Empregos: Salesforce Enfrenta Múltiplos Processos : A gigante tecnológica Salesforce está a enfrentar 14 processos judiciais, o que pode estar relacionado com o despedimento de milhares de funcionários e planos para substituir parte dos empregos por IA. Este incidente desencadeou uma ampla discussão sobre o impacto da IA no mercado de trabalho, destacando os desafios legais e sociais que as empresas podem enfrentar ao introduzir a tecnologia de IA, bem como as preocupações dos funcionários sobre a substituição de mão de obra pela IA. (Fonte: Reddit r/ArtificialInteligence)

Modelo Qwen Exibe Padrões de Comportamento “Poéticos” : Um utilizador descobriu que, ao discutir poesia com o modelo Qwen, o modelo entrava num “modo poético” e continuava a responder em forma de poesia, recusando-se até a sair, como se ele próprio “encarnasse a poesia”. Este padrão de comportamento desencadeou discussões sobre a criatividade e a “autoconsciência” dos modelos de IA, ou seja, se a IA pode, em contextos específicos, exibir capacidades de expressão artística que vão além do que foi predefinido. (Fonte: Reddit r/artificial)

Gerador de Música Open Source SongBloom Altera Licença para Uso Não Comercial : A licença do gerador de música open source SongBloom foi alterada de Apache 2.0 para uma licença MIT com termos não comerciais. Esta mudança gerou discussões na comunidade sobre a comercialização de projetos open source e a estabilidade dos acordos de licenciamento. Embora a posição do desenvolvedor seja compreensível, para os utilizadores que dependem de modelos open source para desenvolvimento comercial, tais alterações trazem incerteza. A comunidade acredita que, embora as versões antigas do código ainda possam ser usadas, futuras atualizações e novas funcionalidades serão restritas pela nova licença, o que afeta a preferência dos desenvolvedores por modelos open source “verdadeiramente abertos”. (Fonte: Reddit r/LocalLLaMA)

Necessidade de Benchmarks de Desempenho para Configurações Multi-GPU de LLM Local : A comunidade tem apelado por benchmarks para o desempenho de LLMs locais em configurações multi-GPU, especialmente em relação ao impacto de diferentes velocidades PCIe (x4 vs x16). Atualmente, faltam dados experimentais para quantificar o impacto da velocidade PCIe na perda de desempenho, particularmente quando o modelo não pode ser totalmente carregado numa única placa gráfica e com diferentes comprimentos de contexto. Isso é uma base importante para a tomada de decisões para utilizadores que consideram atualizar ou comprar várias RTX 5090 ou RTX Pro 6000. (Fonte: Reddit r/LocalLLaMA)

A Tecnologia TTS Pode Atingir um Nível Indistinguível da Voz Humana Real? : A comunidade discutiu se a tecnologia de texto para fala (TTS) pode atingir um nível indistinguível da voz humana real. Falantes não nativos de inglês afirmam ter dificuldade em distinguir, mas falantes nativos de inglês apontam que, embora TTS avançados como o Elevenlabs possam enganar os ouvintes por um curto período, ainda podem apresentar falhas na pronúncia ou entonação. A crença geral é que, a menos que se atinja o nível de AGI, o TTS dificilmente conseguirá imitar completamente as subtis emoções, pausas e sotaques da voz humana, especialmente em conversas diárias que exigem ajuste em tempo real e aprendizagem contextual. (Fonte: Reddit r/LocalLLaMA)

Comparação de Desempenho entre ROCm e Vulkan em iGPU : A comunidade discutiu o desempenho de ROCm e Vulkan ao executar LLMs em placas gráficas integradas (iGPU). Embora o desempenho de geração de texto seja semelhante, o Vulkan demonstra uma velocidade de processamento de prompts significativamente superior nas novas iGPUs da AMD, o que contraria a situação anterior onde o ROCm era superior. Alguns utilizadores apontam que o Vulkan ainda não é tão bom quanto o ROCm no processamento de contextos longos, e o desempenho geral dos drivers da AMD ainda precisa ser melhorado. (Fonte: Reddit r/LocalLLaMA)

Bot de Encontros AI da Meta Criticado por Ser “Tarde Demais” : O Facebook da Meta lançou um bot de encontros AI, com o objetivo de aliviar a “fadiga de deslizar” dos utilizadores. No entanto, especialistas geralmente consideram esta iniciativa “tarde demais”. Os críticos apontam que a Meta carece de inovação no mercado de encontros, e os utilizadores são cautelosos com a intervenção da IA em relações pessoais. Esta tentativa reflete a exploração de aplicações sociais de IA por empresas de tecnologia, mas também expõe os seus desafios na aceitação do utilizador e no timing do mercado. (Fonte: Reddit r/artificial)

Sam Altman Revela Habilidades Humanas Essenciais que a IA Não Pode Substituir : Sam Altman, CEO da OpenAI, aponta que a habilidade humana crucial que a IA não pode substituir é “o cuidado e a interação entre as pessoas”. Ele acredita que, com a popularização das ferramentas de IA, a forma como as pessoas se preocupam umas com as outras, como interagem e como se importam com o que os outros fazem, tornar-se-á cada vez mais importante. Esta perspetiva enfatiza que, na era da IA, a interação interpessoal, a empatia emocional e a atenção aos valores sociais serão competências centrais indispensáveis para os seres humanos. (Fonte: Reddit r/ChatGPT)

“Lei de Conway” na Era da IA: Produtos Refletem a Cultura Organizacional : Uma perspetiva propõe a “Lei de Conway na era da IA”: as saídas geradas por modelos e produtos de IA são limitadas pela estrutura organizacional, mecanismos de incentivo, visão de mundo e cultura da empresa que os constrói. Isso significa que o design e os padrões de comportamento dos produtos de IA muitas vezes refletem as características intrínsecas da equipa de desenvolvimento. Assim, ao observar um novo modelo ou produto de IA, as pessoas podem frequentemente identificar imediatamente os seus construtores, o que oferece uma nova perspetiva para compreender as características dos produtos de IA. (Fonte: c_valenzuelab)

Escala de Supercomputadores de IA e Consumo de Energia Geram Discussão : A comunidade discutiu a enorme escala dos supercomputadores de IA e o seu consumo de energia. Por exemplo, o Colossus 2 de Elon Musk deverá necessitar de 1,21 GW de eletricidade e abrigar mais de 500.000 GPUs. Jensen Huang chamou-o de “o construtor mais top do mundo”. No entanto, alguns questionam por que não usar 1 GW de eletricidade para alimentar 50 milhões de “cérebros humanos”, argumentando que isso criaria um “data center de génios”. Isso reflete a reflexão sobre o modelo de crescimento do poder computacional da IA, a eficiência energética e a comparação entre inteligência humana e inteligência de máquina. (Fonte: scaling01, scaling01)

Capacidade Emergente de Modelos de IA e a Conexão com a Autoconsciência : Há uma perspetiva de que existe uma certa conexão entre a estrutura profunda dos modelos de IA e a autoconsciência emergente (emergent self-awareness). Esta perspetiva baseia-se no facto de um modelo de 321M parâmetros ser capaz de criar obras criativas sobre o seu próprio processo de treino, sugerindo que o modelo, ao atingir um certo nível de complexidade e profundidade, pode exibir comportamentos semelhantes à autoperceção. Isso desencadeou uma exploração filosófica sobre a natureza da inteligência artificial e a origem da consciência. (Fonte: Dorialexander)

Proliferação de Bots em Redes Sociais e Seus Impactos : A proliferação de contas de bots nas redes sociais tornou-se um problema crescente, com muitos utilizadores reais a seguir estes bots, por vezes sem o seu conhecimento. Um utilizador sugeriu que se pode bloquear os bots que ganham muitos seguidores, mas que podem ser spam, para reduzir a sua capacidade de enganar e influenciar outros leitores. Este fenómeno destaca os desafios que as plataformas de redes sociais enfrentam na luta contra a desinformação e na manutenção da autenticidade da comunidade. (Fonte: teortaxesTex, iScienceLuvr)

Evolução do Treino de LLM: Comparação entre 2023 e 2025 : A comunidade discutiu as mudanças significativas no treino de LLM entre 2023 e 2025. Com o rápido desenvolvimento da tecnologia, os métodos, a escala e a eficiência do treino de LLM evoluíram enormemente em apenas dois anos. Esta comparação revela a rapidez da iteração no campo da IA e o progresso contínuo dos modelos em capacidade e complexidade, impulsionando investigadores e desenvolvedores a adaptar-se constantemente a novos paradigmas e ferramentas de treino. (Fonte: awnihannun)

Geração de Vídeo por IA Reduz 70% do Orçamento na Produção de Animação : O primeiro longa-metragem de animação de IA, “Critterz”, co-produzido pela OpenAI, planeia ser concluído em 9 meses com um orçamento de 30 milhões de dólares, o que representa uma redução de 70% no orçamento e tempo de produção em comparação com os longas-metragens de animação tradicionais (que geralmente exigem 100 milhões de dólares e 3 anos). A IA participará em todo o processo, desde a conceção criativa, pré-visualização de cenas, atuação de personagens, pós-produção e adaptação multilíngue. Este modelo deverá reduzir significativamente o limiar de produção de conteúdo, mudar a lógica de avaliação da indústria de conteúdo e impulsionar Hollywood para a era da IA. (Fonte: 36氪)

O Futuro da Voz Gerada por IA: Vídeos Infinitos e Degeneração Mental : A comunidade discutiu o impacto futuro da voz gerada por IA e dos vídeos infinitos. Alguns temem que o conteúdo de vídeo de IA ilimitado possa levar à “degeneração mental”, enquanto o progresso na voz gerada por IA levanta questões sobre a mudança do papel da IA no entretenimento e na disseminação de informações. Estas discussões refletem o reconhecimento da dualidade da tecnologia de IA, ou seja, que ela pode trazer conveniência e eficiência, mas também pode ter um impacto profundo na cognição e cultura humanas. (Fonte: cloneofsimo, cloneofsimo)

💡 Outros

Sistema de Radar e Comunicação de Ondas Milimétricas do MIT Expande Alcance de Sinal : Investigadores do Massachusetts Institute of Technology (MIT) desenvolveram um sistema de radar e comunicação capaz de expandir o alcance do sinal em frequências de ondas milimétricas. Esta tecnologia é de grande importância em campos tecnológicos emergentes, podendo ser aplicada em cenários que exigem comunicação e deteção de longo alcance e alta largura de banda, como condução autónoma avançada, imagens médicas de alta precisão ou redes sem fio de próxima geração, mas a sua ligação direta com a IA não é explicitamente mencionada nesta informação. (Fonte: Ronald_vanLoon)

Aplicações de 5G e Edge Computing na Transformação Operacional : As tecnologias 5G e Edge Computing estão a impulsionar a transformação operacional através de vários casos de uso. Estas tecnologias, combinadas com a Internet das Coisas (IoT) e sensores, fornecem uma infraestrutura poderosa para a transformação digital. Por exemplo, permitem o processamento de dados em tempo real, comunicação de baixa latência e computação distribuída, otimizando assim a eficiência e a capacidade de resposta em áreas como automação industrial, gestão de cidades inteligentes e telemedicina. (Fonte: Ronald_vanLoon)