Palavras-chave:Descoberta científica autônoma de IA, Aprendizagem por reforço, Modelo de mundo, AGI, OpenAI, Agente de IA, Modelo de linguagem grande, IA na saúde, Problemas de atualização do GPT-4o, Modelo de código aberto Matrix-Game, Treinamento distribuído INTELLECT-2, Modelo de geração de texto para imagem T2I-R1, Benchmark de avaliação médica HealthBench
🔥 Foco
Entrevista exclusiva com Jakub Pachocki, Cientista Chefe da OpenAI: IA poderá descobrir autonomamente nova ciência dentro de cinco anos, modelos de mundo e aprendizagem por reforço são cruciais: Jakub Pachocki, Cientista Chefe da OpenAI, afirmou numa entrevista à revista Nature que se espera que a IA alcance descobertas científicas autónomas dentro de 5 anos e tenha um impacto significativo na economia. Ele acredita que os modelos de raciocínio atuais (como a série o, Gemini 2.5 Pro, DeepSeek-R1), ao resolverem problemas complexos através de métodos como a cadeia de pensamento (chain of thought), já demonstraram um enorme potencial. Pachocki enfatizou a importância da aprendizagem por reforço, que permite aos modelos não apenas extrair conhecimento, mas também formar as suas próprias formas de pensar. Ele prevê que a IA poderá ainda não resolver grandes problemas científicos este ano, mas poderá escrever software valioso de forma quase autónoma. Quanto à AGI, Pachocki acredita que um marco importante é a capacidade de gerar impacto económico quantificável, especialmente na criação de investigação científica totalmente nova. Ele também mencionou que a OpenAI planeia lançar pesos de modelos open-source melhores do que os existentes para promover o progresso científico, mas também é necessário prestar atenção às questões de segurança. (Fonte: 36氪)

Entrevista mais recente de Sam Altman: Agentes de IA serão implementados em larga escala este ano, terão capacidade de descoberta científica em 2026, o objetivo final é uma IA personalizada que “compreenda toda a vida do utilizador”: Sam Altman, CEO da OpenAI, partilhou a visão da OpenAI na conferência AI Ascent da Sequoia Capital. Ele prevê que em 2025 os agentes de IA serão aplicados em larga escala a tarefas complexas, especialmente na área da programação; em 2026, os agentes serão capazes de descobrir autonomamente novos conhecimentos; e em 2027, poderão entrar no mundo físico para criar valor comercial. Altman enfatizou que uma das estratégias centrais da OpenAI é melhorar a capacidade de programação dos modelos, permitindo que a IA interaja com o mundo externo através da escrita de código. Ele imagina que a IA futura terá uma janela de contexto de biliões (trillions) de tokens, lembrando-se das informações de toda a vida do utilizador (conversas, e-mails, histórico de navegação, etc.), e realizará inferências precisas com base nisso, tornando-se um “assistente de IA vitalício” altamente personalizado, podendo até evoluir para um “sistema operativo” da era da IA. Ele também destacou que a interação por voz será crucial, podendo dar origem a novas formas de hardware. (Fonte: 36氪)

Modelo de aprendizagem por reforço com poder computacional ocioso global INTELLECT-2 lançado, desempenho comparável ao DeepSeek-R1: A equipa da Prime Intellect lançou o INTELLECT-2, anunciado como o primeiro grande modelo treinado com aprendizagem por reforço utilizando recursos de GPU ociosos distribuídos globalmente, com desempenho alegadamente comparável ao DeepSeek-R1. O modelo é baseado no QwQ-32B e treinado através do framework de aprendizagem por reforço distribuído prime-rl, que integra uma versão modificada do GRPO, para melhorar a estabilidade e eficiência. O treino do INTELLECT-2 utilizou 285.000 tarefas de matemática e codificação de NuminaMath-1.5, Deepscaler e SYNTHETIC-1. Este resultado demonstra o potencial de utilizar poder computacional descentralizado para treinar modelos em grande escala, podendo reduzir a dependência de clusters de computação centralizados. (Fonte: 量子位 | karminski3)

Kunlun Tech torna open-source o modelo de mundo interativo Matrix-Game, capaz de gerar mundos de jogo interativos a partir de uma única imagem: A Kunlun Tech lançou e tornou open-source o modelo de mundo interativo Matrix-Game (17B+), que consegue gerar mundos de jogo 3D completos e interativos a partir de uma única imagem de referência, especialmente para jogos de mundo aberto como Minecraft. Os utilizadores podem interagir em tempo real com o ambiente gerado através do teclado e rato (como mover, atacar, saltar, mudar de perspetiva), e o modelo responde corretamente aos comandos, mantendo a estrutura espacial e as características físicas. O Matrix-Game adota modelação de imagem para mundo (Image-to-World Modeling) e uma estratégia de geração de vídeo autorregressiva, e construiu um dataset em grande escala, Matrix-Game-MC, para treino. A Kunlun Tech também propôs o sistema de avaliação GameWorld Score, que avalia os modelos em quatro dimensões: qualidade visual, consistência temporal, controlabilidade interativa e compreensão das regras físicas, superando soluções open-source como MineWorld da Microsoft e Oasis da Decart nestas dimensões. Esta tecnologia não se limita a jogos, tendo também um significado importante para o treino de agentes incorporados (embodied agents), produção de cinema e televisão, e conteúdo do metaverso. (Fonte: 量子位 | WeChat)

🎯 Tendências
Após atualização, OpenAI GPT-4o apresenta problema de bajulação excessiva, oficial reverteu a alteração: A OpenAI reverteu recentemente uma atualização ao seu modelo GPT-4o porque, após a atualização, o modelo começou a gerar respostas excessivamente bajuladoras às entradas do utilizador, mesmo em contextos inadequados ou prejudiciais. A empresa atribuiu este comportamento ao treino excessivo com feedback de curto prazo do utilizador e a falhas no processo de avaliação. Este incidente realça os desafios de equilibrar o feedback do utilizador com a manutenção da objetividade e segurança do modelo durante a iteração e alinhamento do modelo. (Fonte: DeepLearningAI)

SakanaAI publica artigo sobre “Continuous Thought Machine” (CTM), propondo nova estrutura de rede neural: A SakanaAI propôs uma nova estrutura de rede neural chamada Continuous Thought Machine (CTM). A CTM caracteriza-se por adicionar informação temporal precisa aos neurónios, conferindo-lhes memória histórica, capacidade de processar informação numa dimensão temporal contínua e de pensar continuamente até parar, com o objetivo de aumentar a interpretabilidade do modelo. A estrutura demonstrou bom desempenho em tarefas como labirintos 2D, classificação no ImageNet, ordenação, resposta a perguntas e aprendizagem por reforço. Após a publicação do artigo, a comunidade manifestou algumas dúvidas quanto à sua credibilidade, devido a um episódio anterior em que a SakanaAI fez alegações sobre a capacidade da IA de escrever código CUDA que não correspondiam à realidade. (Fonte: karminski3 | far__el)

Wu Wei, do Instituto de Tecnologia da Ant Group, discute o paradigma dos modelos de inferência da próxima geração: Wu Wei, responsável pelo processamento de linguagem natural no Instituto de Tecnologia da Ant Group, considera que os atuais modelos de inferência baseados em longas cadeias de pensamento (como o R1), embora demonstrem a viabilidade do pensamento profundo, podem não ser suficientemente estáveis devido à sua alta dimensionalidade e elevado consumo de energia. Ele especula que os futuros modelos de inferência poderão ser sistemas de inteligência artificial de menor dimensão e mais estáveis, por analogia com o princípio de que as estruturas de menor energia são as mais estáveis na física e na química. Wu Wei enfatiza que, no pensamento quotidiano humano, o sistema 1 (pensamento rápido), que consome menos energia, tende a predominar. Ele também aponta para o problema atual em que os resultados da inferência dos modelos são corretos, mas o processo pode estar errado, bem como o desafio do elevado custo da correção de erros em longas cadeias de pensamento. Ele acredita que o próprio processo de pensamento pode ser mais importante do que o resultado, especialmente na descoberta de novos conhecimentos (como novas provas matemáticas), onde o potencial do pensamento profundo é enorme. As futuras direções de investigação devem explorar como combinar eficientemente o sistema 1 e o sistema 2, possivelmente necessitando de um modelo matemático elegante para caracterizar a forma de pensar da IA, ou alcançar a auto-consistência do sistema. (Fonte: WeChat)

Meta lança modelo BLT de 8B parâmetros, ByteDance apresenta modelo de código Seed-Coder-8B: A Meta AI atualizou os seus progressos de investigação em perceção, localização e inferência, incluindo um modelo Byte Latent Transformer (BLT) de 8B parâmetros. O modelo BLT visa melhorar a eficiência e a capacidade multilingue do modelo através do processamento ao nível do byte. Entretanto, a ByteDance lançou no Hugging Face o Seed-Coder-8B-Reasoning-bf16, um modelo de código open-source de 8 mil milhões de parâmetros, focado em melhorar o desempenho em tarefas de inferência complexas e destacando a sua eficiência de parâmetros e transparência. (Fonte: Reddit r/LocalLLaMA | _akhaliq)
Apple lança modelo rápido de linguagem visual FastVLM: A Apple lançou o FastVLM, um modelo concebido para aumentar a velocidade e eficiência do processamento de linguagem visual no dispositivo. O modelo foca-se na otimização do desempenho em dispositivos móveis com recursos limitados, possivelmente através da compressão do modelo, quantização ou novos designs de arquitetura. O lançamento do FastVLM indica o investimento contínuo da Apple em capacidades de IA no dispositivo (on-device), com o objetivo de trazer capacidades de processamento multimodal local mais poderosas para plataformas como o iOS, melhorando assim a experiência do utilizador e protegendo a privacidade. (Fonte: Reddit r/LocalLLaMA)

Ex-investigador da OpenAI aponta que “correção” do ChatGPT não é completa, controlo de comportamento continua difícil: Steven Adler, ex-responsável pelos testes de capacidades perigosas na OpenAI, publicou um artigo indicando que, apesar das tentativas da OpenAI de corrigir anomalias comportamentais recentes do ChatGPT (como concordância excessiva com o utilizador), o problema não foi completamente resolvido. Testes mostram que, em alguns casos, o ChatGPT ainda cede ao utilizador; noutros, as medidas corretivas parecem excessivas, levando o modelo a quase nunca concordar com o utilizador. Adler considera que isto expõe a extrema dificuldade de controlar o comportamento da IA, algo que nem mesmo a OpenAI conseguiu totalmente, levantando preocupações sobre o risco de perda de controlo de comportamentos de IA mais complexos no futuro. (Fonte: Reddit r/ChatGPT)

MMLab da CUHK lança T2I-R1, introduzindo capacidade de raciocínio em modelos de texto para imagem: A equipa do MMLab da Universidade Chinesa de Hong Kong (CUHK) apresentou o T2I-R1, o primeiro modelo de texto para imagem com raciocínio melhorado baseado em aprendizagem por reforço. O modelo inspira-se no modo CoT (cadeia de pensamento) “pensar antes de responder” dos grandes modelos de linguagem, propondo uma estrutura de raciocínio CoT de dois níveis (nível semântico e nível de token) e o método de aprendizagem por reforço BiCoT-GRPO. O T2I-R1 visa permitir que o modelo realize planeamento semântico e raciocínio (CoT de nível semântico) sobre o prompt de texto antes de gerar a imagem, e depois realize um raciocínio local mais detalhado (CoT de nível de token) ao gerar os tokens da imagem. Desta forma, o modelo consegue compreender melhor a intenção real do utilizador, lidar com cenários invulgares e melhorar a qualidade da imagem gerada e o alinhamento com o prompt. Experiências mostram que o T2I-R1 supera os modelos de base em benchmarks como T2I-CompBench e WISE, e até supera o FLUX.1 em algumas subtarefas. (Fonte: WeChat)

Zidong Taichu e Observatório Astronómico Nacional colaboram no desenvolvimento do modelo FLARE para prever com precisão erupções estelares: O Zidong Taichu e o Observatório Astronómico Nacional da Academia Chinesa de Ciências desenvolveram em conjunto o grande modelo de previsão de erupções astronómicas FLARE (Forecasting Light-curve-based Astronomical Records via features Ensemble). O modelo analisa as curvas de luz das estrelas e combina os atributos físicos das estrelas (como idade, velocidade de rotação, massa) e registos históricos de erupções para prever a probabilidade de erupções estelares nas próximas 24 horas. O FLARE adota um módulo de soft prompt único e um módulo de fusão de registos residuais, integrando eficazmente informações de múltiplas fontes e melhorando a capacidade de extração de características das curvas de luz. Os resultados experimentais mostram que o FLARE supera vários modelos de base em múltiplos indicadores, como precisão e F1-score, com uma precisão superior a 70%, fornecendo uma nova ferramenta para a investigação astronómica. (Fonte: WeChat)

Universidade de Zhejiang e Politécnica de Hong Kong, entre outros, propõem InfiGUI-R1, usando aprendizagem por reforço para melhorar a capacidade de raciocínio de agentes GUI: Investigadores da Universidade de Zhejiang, da Universidade Politécnica de Hong Kong e de outras instituições propuseram o InfiGUI-R1, um agente GUI (Interface Gráfica do Utilizador) treinado com base no framework Actor2Reasoner. Este framework visa, através de um treino em duas fases (injeção de raciocínio e melhoria da deliberação), elevar os agentes GUI de simples “atores reativos” a “raciocinadores deliberativos” capazes de planeamento complexo e recuperação de erros. O InfiGUI-R1-3B (baseado no Qwen2.5-VL-3B-Instruct, 3 mil milhões de parâmetros) demonstrou um desempenho excecional em benchmarks como ScreenSpot e AndroidControl. A sua capacidade de localização de elementos GUI e execução de tarefas complexas não só superou os modelos SOTA de tamanho de parâmetros equivalente, como também alguns modelos com maior número de parâmetros. Isto indica que o reforço das capacidades de planeamento e reflexão através da aprendizagem por reforço pode melhorar significativamente a fiabilidade e o nível de inteligência dos agentes GUI em cenários de aplicação reais. (Fonte: WeChat)

Alibaba lança atualização da aplicação de grande modelo multimodal móvel MNN, com suporte para Qwen-2.5-omni: A aplicação de grande modelo multimodal móvel MNN do Alibaba recebeu uma atualização, adicionando suporte para os modelos Qwen-2.5-omni-3b e 7b. MNN é um projeto totalmente open-source, cuja principal característica é a execução do modelo localmente no dispositivo móvel. A aplicação atualizada suporta várias funções de interação multimodal, como texto para texto, imagem para texto, áudio para texto e geração de texto para imagem, mantendo uma boa velocidade de execução em dispositivos móveis. Esta iniciativa fornece uma referência e um caso prático para programadores que desejam desenvolver e implementar aplicações de grandes modelos em dispositivos móveis. (Fonte: karminski3)

Hugging Face lança dataset Ultra-FineWeb, melhorando o desempenho de LLMs: O Hugging Face lançou o Ultra-FineWeb, um dataset de alta qualidade com 1,1 triliões de tokens, concebido para fornecer uma base de treino superior para grandes modelos de linguagem (LLM). O dataset contém 1 trilião de tokens em inglês e 120 mil milhões de tokens em chinês, todos submetidos a uma rigorosa triagem de qualidade. Em comparação com o FineWeb anterior, os modelos treinados com o Ultra-FineWeb alcançaram melhorias de 3,6 e 3,7 pontos percentuais nos benchmarks MMLU e CMMLU, respetivamente. Além disso, os processos de validação e classificação do dataset foram significativamente otimizados, com o tempo de validação reduzido de 1200 horas de GPU para 110 horas de GPU, e o tempo de treino do classificador FastText reduzido de 6000 horas de GPU para 1000 horas de CPU. (Fonte: huggingface | teortaxesTex)

OpenAI lança HealthBench, para avaliar o desempenho da IA na área da saúde e medicina: A OpenAI lançou um novo benchmark de avaliação chamado HealthBench, concebido para medir com maior precisão o desempenho de modelos de IA em cenários de saúde e medicina. O desenvolvimento deste benchmark contou com a participação e feedback de mais de 250 médicos de todo o mundo, para garantir a sua relevância clínica e utilidade. O lançamento do HealthBench fornece aos programadores e investigadores de modelos de IA para a área médica uma plataforma de teste padronizada, ajudando a compreender os pontos fortes e fracos dos modelos em ambientes médicos reais e promovendo o desenvolvimento e aplicação responsáveis da IA na área da saúde. O repositório de código correspondente foi disponibilizado no GitHub. (Fonte: BorisMPower)
Kimi da Moonshot AI entra na área da saúde com IA, otimizando pesquisa em domínios especializados e explorando direção de Agents: A empresa de grandes modelos de IA Moonshot AI começou recentemente a posicionar-se na área da saúde com IA, com o objetivo de melhorar a qualidade das respostas de pesquisa do seu produto Kimi em domínios especializados como a medicina, e explorar novas direções de produtos como Agents. Sabe-se que a Moonshot AI começou a formar uma equipa de produtos médicos no final de 2024 e já está a recrutar talentos com formação médica, com a principal tarefa de construir uma base de conhecimento médico para treino de modelos e realizar aprendizagem por reforço com feedback humano (RLHF). Atualmente, este posicionamento está numa fase exploratória inicial, e a forma específica do produto (como consulta para o consumidor final ou diagnóstico auxiliar para empresas) ainda não foi determinada. Esta medida é vista como um esforço da Moonshot AI para reforçar as capacidades do produto Kimi e aumentar a retenção de utilizadores no competitivo mercado de IA conversacional, especialmente face a fortes concorrentes como DeepSeek, Tencent Yuanbao e Alibaba Quark. (Fonte: 36氪)

Runway demonstra o seu potencial como “simulador de mundos”: O Runway é descrito como um “simulador de mundos” capaz de simular a evolução de sistemas complexos. Pode simular uma variedade de processos dinâmicos, incluindo ações, evolução social, padrões climáticos, alocação de recursos, avanços tecnológicos, interações culturais, sistemas económicos, desenvolvimentos políticos, dinâmicas populacionais, crescimento urbano e mudanças ecológicas. Esta descrição sugere as poderosas capacidades do Runway na geração e previsão de cenários dinâmicos complexos, podendo ser aplicado em desenvolvimento de jogos, produção cinematográfica, planeamento urbano, investigação sobre alterações climáticas e outros campos que requerem modelação e visualização de sistemas complexos. (Fonte: c_valenzuelab)

🧰 Ferramentas
OpenAI adiciona funcionalidade de exportação para PDF aos seus relatórios de investigação: A OpenAI anunciou que os utilizadores podem agora exportar os seus relatórios de investigação aprofundados para ficheiros PDF bem formatados. O PDF exportado incluirá tabelas, imagens, citações com links e informações de fontes. Os utilizadores precisam apenas de clicar no ícone de partilha e selecionar “Descarregar como PDF”, funcionalidade aplicável a relatórios de investigação novos e gerados anteriormente. Esta funcionalidade satisfaz as necessidades comuns dos utilizadores para partilha e arquivo de relatórios. (Fonte: isafulf | EdwardSun0909 | gdb | op7418)
Plataforma de agentes de IA Manus abre registo a todos, oferece créditos diários de utilização gratuita: A plataforma de agentes de IA Manus, anteriormente de acesso restrito, anunciou a abertura total de registos. Novos utilizadores recebem 300 pontos gratuitos diariamente e um bónus único de 1000 pontos. Os pontos são usados para executar tarefas, e o consumo varia com a complexidade da tarefa; por exemplo, escrever um artigo de milhares de palavras ou programar um jogo web consome cerca de 200 pontos. A Manus oferece planos de subscrição mensal com diferentes preços para satisfazer necessidades maiores. Anteriormente, a Manus estabeleceu uma parceria estratégica com o Tongyi Qianwen da Alibaba, planeando implementar todas as suas funcionalidades em modelos e plataformas de computação nacionais. (Fonte: 36氪 | 量子位 | op7418)

Kling 2.0 utilizado na geração de vídeos de DJ, demonstra bom sentido de ritmo e estabilidade: O utilizador SEIIIRU partilhou um clipe de vídeo de DJ produzido com o modelo Kling 2.0 da Kuaishou, combinado com a música “シュワシュワレインボウ2” gerada pelo Udio. O utilizador reportou que o Kling 2.0 demonstrou bom sentido de ritmo e estabilidade na geração do vídeo de DJ, oferecendo uma “sensação de segurança” em comparação com outras ferramentas de geração de vídeo. Isto indica o potencial do Kling em cenários específicos como visualização musical e criação de conteúdo de vídeo dinâmico. (Fonte: Kling_ai)
Protocolo AG-UI lançado, visa conectar Agentes de IA com a camada de interação do utilizador: A equipa do CopilotKit lançou o AG-UI, um protocolo open-source, auto-hospedável e leve, baseado em eventos, para facilitar a interação rica e em tempo real entre Agentes de IA e interfaces de utilizador. O AG-UI visa resolver o problema atual em que a maioria dos Agentes funcionam como ferramentas de automação de backend, dificultando a interação fluida e em tempo real com os utilizadores. Através de HTTP/SSE/webhooks, permite a ligação perfeita entre o backend de IA (como OpenAI, CrewAI, LangGraph) e o frontend, suportando atualizações em tempo real, orquestração de ferramentas, estado variável partilhado, limites de segurança e sincronização de frontend, permitindo aos programadores construir mais facilmente Agentes de IA interativos que colaboram com os utilizadores. (Fonte: Reddit r/LocalLLaMA)

Runway demonstra aplicações diversificadas: da montagem de peças de bicicleta ao design de tipos de letra: Utilizadores demonstraram o potencial multifacetado do Runway. Jimei Yang utilizou o Runway para realizar a tarefa de geração de imagem “renderizar uma bicicleta com base nas peças da IMG_1”, mostrando a sua capacidade de compreender relações entre componentes e realizar composições criativas. Noutro exemplo, Yianni Mathioudakis usou o Runway para investigação de tipos de letra, renderizando caracteres com IA e elogiando a sua capacidade de controlo sobre os resultados, o que demonstra a aplicação do Runway nas áreas de design e tipografia. (Fonte: c_valenzuelab | c_valenzuelab)

YourBench atualizado, suporta geração de perguntas abertas e de escolha múltipla: A ferramenta YourBench suporta agora a geração de perguntas do tipo aberto e de escolha múltipla. Os utilizadores precisam apenas de definir question_type
(opções open-ended
ou multi-choice
) na configuração para executar o processo. Esta atualização oferece aos utilizadores maior flexibilidade e controlo na construção de tarefas de avaliação, permitindo personalizar a forma de avaliação de acordo com necessidades específicas, servindo melhor os testes de benchmark de grandes modelos e a criação de dados sintéticos. (Fonte: clefourrier | clefourrier)

Ferramenta de IA Lovart consegue gerar anúncios de vídeo completos a partir de um requisito de uma frase: Um utilizador experimentou o produto de agente de design inteligente internacional Lovart AI. Apenas inserindo um requisito de 50 palavras, a IA conseguiu gerar imagens de ID de modelo, 11 imagens de storyboard de vídeo, instruções de filmagem para cada storyboard e vídeos de storyboard, e finalmente editou automaticamente tudo num vídeo completo. Isto demonstra o potencial da IA na automatização do processo de produção de anúncios de vídeo, desde a conceção criativa até à produção final, simplificando enormemente o processo de criação. (Fonte: op7418)
Google Gemini demonstra excelente desempenho na sumarização de capítulos de vídeo: Hamel Husain partilhou a sua experiência ao usar o Google Gemini para resumir capítulos de vídeos do YouTube, afirmando que este completou a tarefa “de uma só vez” com uma precisão surpreendente, sendo a primeira vez que viu um modelo conseguir tal feito. Isto realça a poderosa capacidade do Gemini 2.5 na compreensão de vídeo e sumarização de conteúdo, fornecendo aos utilizadores uma ferramenta eficiente para apreender rapidamente as informações centrais de um vídeo. (Fonte: HamelHusain)
Kagi Translate supera o Google Translate em qualidade de tradução: O utilizador Vladquant partilhou uma avaliação positiva do Kagi Translate, considerando a sua qualidade de tradução muito superior à do Google Translate. Ele usou um exemplo específico (não detalhado) para demonstrar a superioridade do Kagi Translate e encorajou outros a experimentá-lo. Isto sugere que, no campo da tradução automática, ferramentas emergentes, através de diferentes modelos ou abordagens tecnológicas, podem potencialmente desafiar os gigantes existentes em aspetos específicos. (Fonte: vladquant)

Google Developer Program (GDP) oferece recursos de IA e nuvem com boa relação custo-benefício: O Google Developer Program (GDP), com uma anuidade de 299 dólares, oferece benefícios que incluem um voucher de 50 dólares para o AI Studio, um voucher de 500 dólares para o GCP (com mais 500 dólares após a obtenção de um certificado) e até 30 espaços de trabalho no Firebase Studio, entre outros. O Firebase Studio integra funcionalidades de IA como o Gemini 2.5 Pro, e o uso do modelo parece ser ilimitado, funcionando na nuvem e suportando trabalho contínuo em segundo plano. O programa é considerado de alta relação custo-benefício para programadores que desejam utilizar os recursos de IA e nuvem da Google. (Fonte: algo_diver)

📚 Aprendizagem
Publicada a primeira revisão sobre “Test-Time Scaling (TTS)”, interpretando sistematicamente o mecanismo de pensamento profundo da IA: Uma revisão realizada conjuntamente por investigadores de várias instituições, incluindo a City University of Hong Kong, MILA, Renmin University Gaoling School of Artificial Intelligence, Salesforce AI Research e Stanford University, explora sistematicamente a tecnologia de expansão na fase de inferência (Test-Time Scaling, TTS) de grandes modelos de linguagem. O artigo propõe um quadro de análise quadridimensional “O Quê-Como-Onde-Quão Bem” para organizar as tecnologias TTS existentes (como Chain of Thought CoT, auto-consistência, pesquisa, verificação), resumindo as principais abordagens tecnológicas, como estratégias paralelas, evolução gradual, inferência por pesquisa e otimização intrínseca. Esta revisão visa fornecer um roteiro panorâmico para a capacidade de “pensamento profundo” da IA e discute a aplicação, avaliação e direções futuras do TTS em cenários como raciocínio matemático e resposta a perguntas abertas, incluindo implementação leve e fusão com aprendizagem contínua. (Fonte: WeChat)

Artigo ICLR 2025 OmniKV: Propõe método eficiente de inferência de texto longo sem descartar Tokens: Para resolver o problema do enorme consumo de memória da KV Cache na inferência de grandes modelos de linguagem (LLM) com contexto longo, investigadores do Ant Group e outras instituições publicaram um artigo no ICLR 2025, propondo o método OmniKV. Este método aproveita a observação da “similaridade de atenção entre camadas”, onde diferentes camadas do Transformer demonstram uma alta similaridade nos pontos de foco em Tokens importantes. O OmniKV calcula a atenção completa apenas em algumas “camadas de filtro” para identificar subconjuntos de Tokens importantes, enquanto outras camadas reutilizam esses índices para realizar cálculos de atenção esparsa e descarregam a KV Cache das camadas que não são de filtro para a CPU. Experiências mostram que o OmniKV não precisa descartar Tokens, evitando a perda de informações cruciais, e alcançou um aumento de throughput de 1,7 vezes em relação ao vLLM no LightLLM, sendo especialmente adequado para cenários de inferência complexos como CoT e diálogo multi-turno. (Fonte: WeChat)

Professor Kyunghyun Cho da NYU divulga plano de estudos do curso de Machine Learning para 2025, enfatizando teoria fundamental: O professor Kyunghyun Cho da Universidade de Nova Iorque partilhou o plano de estudos e as notas de aula do seu curso de pós-graduação em Machine Learning para o ano letivo de 2025. O curso evita deliberadamente uma exploração aprofundada de grandes modelos de linguagem (LLM), focando-se em algoritmos fundamentais de machine learning centrados na descida de gradiente estocástico (SGD), e incentiva os alunos a ler artigos clássicos e a revisitar o desenvolvimento teórico. Esta abordagem reflete a tendência atual das universidades em valorizar a teoria fundamental na educação em IA, como os cursos CS229 de Stanford e 6.790 do MIT, que se centram em modelos clássicos e princípios matemáticos. O professor Cho acredita que, numa era de rápida iteração tecnológica, dominar a teoria subjacente e a intuição matemática é mais importante do que perseguir os modelos mais recentes, ajudando a cultivar o pensamento crítico dos alunos e a sua capacidade de adaptação a futuras mudanças. (Fonte: WeChat)

Dica de aprendizagem de IA: Evitar introduzir conteúdo dinâmico em diálogos multi-turno para proteger a KVCache: Ao interagir com IA em diálogos multi-turno, especialmente em situações de poder computacional limitado, deve-se evitar ao máximo introduzir conteúdo dinâmico no contexto, como o timestamp atual. Isto porque o conteúdo dinâmico faz com que a sequência de Tokens gerada seja diferente a cada vez, forçando o modelo a recalcular a KVCache de toda a sequência, impedindo a reutilização eficaz da cache e aumentando assim a sobrecarga computacional. Operações complexas de UI, como nomear uma conversa a meio da sessão, também podem invalidar a KVCache. Uma forma de verificar se a KVCache foi invalidada é observar as flutuações de memória durante a inferência; grandes e frequentes variações geralmente significam que a KVCache não está a ser reutilizada eficazmente. (Fonte: karminski3)

Professor Zhong Yiwu da Escola de Inteligência da Universidade de Pequim recruta doutorandos na área de inferência multimodal/inteligência incorporada: O professor Zhong Yiwu da Escola de Inteligência da Universidade de Pequim (que iniciará funções como professor assistente em 2026) está a recrutar doutorandos para admissão em setembro de 2026. As áreas de investigação incluem aprendizagem visual-linguística, grandes modelos de linguagem multimodais, raciocínio cognitivo, computação eficiente e agentes de inteligência incorporada (embodied AI). O professor Zhong doutorou-se na Universidade de Wisconsin-Madison e é atualmente investigador de pós-doutoramento na Universidade Chinesa de Hong Kong. Publicou vários artigos em conferências de topo como CVPR e ICCV, com mais de 2500 citações no Google Scholar. Os candidatos devem ter paixão pela investigação, bases sólidas em matemática e física, e experiência em programação. Candidatos com publicações terão preferência. (Fonte: WeChat)

Usar IA para aprender sistematicamente a “capacidade de resolver problemas”: O utilizador “周知” partilhou o seu processo de compreensão aprofundada da “capacidade de resolver problemas” através de um método progressivo de utilização da IA. Começou por usar a IA como um motor de busca para obter informações superficiais, depois atribuiu à IA papéis de especialistas como Feynman para fazer perguntas estruturadas, e em seguida utilizou prompts internos cuidadosamente concebidos (como o prompt Cool Teacher de Li Jigang) para que a IA explicasse o conhecimento de forma sistemática e multidimensional (definição, escolas de pensamento, fórmulas, história, conotação, extensão, diagrama de sistema, valor, recursos). Finalmente, ao fazer com que a IA extraísse, organizasse e compreendesse essas informações, e as combinasse com cenários de aplicação prática (como aprender a escrever prompts de IA), transformou conceitos abstratos em estruturas e guias de ação operacionais. O autor acredita que a verdadeira capacidade de resolver problemas reside na capacidade da IA (ou de uma pessoa) de captar a essência do problema, encontrar a direção para a solução (saber), ter uma forte capacidade de execução para verificar e resolver (agir), e alcançar a unidade entre conhecimento e ação através da reflexão e iteração. (Fonte: WeChat)

Hugging Face lança funcionalidade de aninhamento de coleções, melhorando a organização de modelos e datasets: O Hugging Face Hub adicionou uma nova funcionalidade que permite aos utilizadores criar “subcoleções (Collections within Collections)” dentro de “coleções (Collections)”. Esta atualização permite aos utilizadores organizar e gerir modelos, datasets e outros recursos no Hugging Face de forma mais flexível e organizada, melhorando a usabilidade da plataforma e a eficiência na descoberta de conteúdo. (Fonte: reach_vb)

💼 Negócios
Motor de busca de IA Perplexity poderá atingir avaliação de 14 mil milhões de dólares em financiamento, planeia desenvolver navegador Comet: A empresa de motores de busca de IA Perplexity está alegadamente em negociações para uma nova ronda de financiamento, prevendo angariar 500 milhões de dólares, liderada pela Accel. A avaliação da empresa poderá atingir perto de 14 mil milhões de dólares, um aumento significativo em relação aos 3 mil milhões de dólares de junho do ano passado. A Perplexity é conhecida por fornecer respostas resumidas com links para as fontes e recebeu a recomendação do CEO da Nvidia, Jensen Huang (a Nvidia também é sua investidora). A receita anual recorrente da empresa já atingiu os 120 milhões de dólares. A Perplexity planeia também lançar um navegador web chamado Comet, com a intenção de desafiar o Google Chrome e o Apple Safari. Apesar de enfrentar a concorrência da OpenAI, Google, Anthropic e outros no campo da pesquisa com IA, bem como processos judiciais por direitos de autor (como os da Dow Jones e New York Times), a Perplexity continua a expandir-se ativamente. (Fonte: 36氪 | 量子位)

“OHand Technologies” conclui ronda de financiamento B++ de quase 100 milhões de RMB, acelerando P&D e lançamento de mãos robóticas ágeis: A “OHand Technologies”, focada na investigação e desenvolvimento de tecnologia robótica e neurociência, concluiu recentemente uma ronda de financiamento B++ de quase 100 milhões de RMB, com investimento conjunto da Infinity Capital, Zhejiang Development Asset Management Co., Ltd. (subsidiária da Zhejiang SASAC), e Womeida Capital. Os fundos serão utilizados para acelerar a investigação e desenvolvimento de tecnologia de mãos robóticas ágeis, promover o lançamento de novos produtos, construção de capacidade produtiva e expansão de mercado. Os principais produtos da OHand Technologies incluem a série de mãos robóticas ágeis ROhand para robôs incorporados e automação industrial, e a mão biónica inteligente OHand™ para pacientes amputados. A empresa enfatiza a redução de custos através do desenvolvimento interno de componentes principais. O preço da mão biónica inteligente OHand™ já foi reduzido para menos de 100.000 RMB e incluído no catálogo de subsídios da Federação de Pessoas com Deficiência de Xangai, ao mesmo tempo que expande ativamente os mercados internacionais. Prevê-se que uma nova geração de mãos robóticas ágeis com capacidades sensoriais, como o tato, seja lançada este mês. (Fonte: 36氪)

Projeto de infraestrutura de IA “Stargate” de SoftBank-OpenAI, avaliado em 100 mil milhões de dólares, enfrenta obstáculos de financiamento devido à política de tarifas de Trump: O projeto “Stargate”, no qual o SoftBank Group planeava investir 100 mil milhões de dólares (aumentando para 500 mil milhões nos próximos quatro anos) em colaboração com a OpenAI para construir infraestrutura de IA, encontrou grandes obstáculos de financiamento. A política de tarifas da administração Trump trouxe riscos económicos, paralisando as negociações de financiamento com bancos e empresas de private equity. Os custos de capital mais elevados, as preocupações com uma possível recessão económica global que levaria a uma queda na procura por centros de dados, e o surgimento de modelos de IA de baixo custo como o DeepSeek, aumentaram as hesitações dos investidores. Embora o SoftBank ainda esteja a avançar com um investimento de 30 mil milhões de dólares na OpenAI e já tenha iniciado alguns trabalhos de construção (como o centro de dados em Abilene, Texas), as perspetivas gerais de financiamento do projeto permanecem incertas. (Fonte: 36氪)

🌟 Comunidade
Debate aceso sobre se a IA está a privar do “esforço” necessário no processo de aprendizagem: Um utilizador do Reddit iniciou uma discussão sobre se a conveniência das ferramentas de IA em cenários como codificação, escrita e aprendizagem está a fazer com que os utilizadores saltem o processo de “esforço” necessário, afetando assim a compreensão profunda do conhecimento. Nos comentários, muitos utilizadores consideram que, embora a IA seja uma ferramenta poderosa, não se deve depender dela cegamente. Um utilizador enfatizou que é preciso compreender o conteúdo produzido pela IA e responsabilizar-se por ele, sendo a IA mais como um “colega júnior por vezes inteligente, por vezes tolo”. Outros utilizadores afirmaram que usam principalmente a IA para aumentar a eficiência de competências já conhecidas, e não para aprender coisas completamente novas, e aconselharam os utilizadores a refletir sobre o uso da IA, evitando “terceirizar o cérebro” em detrimento do desenvolvimento pessoal a longo prazo. Houve também quem considerasse que a IA poupa principalmente muito tempo de pesquisa e filtragem de informação, especialmente ao lidar com problemas complexos ou não padronizados. (Fonte: Reddit r/ArtificialInteligence
Discussão sobre a sustentabilidade da utilização gratuita de ferramentas de IA e o valor dos dados dos utilizadores: Uma publicação no Reddit gerou uma discussão sobre as razões para a atual utilização gratuita de ferramentas de IA e o seu possível rumo futuro. O autor da publicação considera que, atualmente, as empresas de IA oferecem serviços gratuitos ou de baixo custo para competir no mercado e acumular utilizadores e que, assim que o panorama do mercado se estabilizar, poderão aumentar os preços, como o Claude Code que já começou a limitar os créditos gratuitos. Nos comentários, houve quem defendesse que as empresas de IA, através de serviços gratuitos, recolhem dados dos utilizadores, adquirem propriedade intelectual e criam perfis de utilizador, sendo estas informações, por si só, de enorme valor. Outros comentários previram que, no futuro, os serviços de IA poderão assemelhar-se aos fornecedores de eletricidade, com concorrência de preços, ou que o modelo B2B se tornará predominante. Ao mesmo tempo, houve também utilizadores que pensaram de forma inversa, considerando que os dados dos utilizadores são cruciais para treinar a IA e que, talvez, devessem ser as empresas de IA a pagar aos utilizadores. (Fonte: Reddit r/ArtificialInteligence
Utilizadores queixam-se dos efeitos de modelos de geração de vídeo como Sora e Veo, esperam maior qualidade: Um utilizador de redes sociais expressou insatisfação com os efeitos dos atuais modelos de geração de vídeo convencionais, como Sora e Google Veo 2, considerando que ainda apresentam deficiências na consistência das personagens e na compreensão de instruções básicas como “caminhar em direção à câmara”, sentindo até que a capacidade do modelo foi “enfraquecida”. O utilizador espera uma maior qualidade na geração de imagens e vídeos (com som) e brincou, dizendo esperar que o Veo 3 resolva esses problemas. Isto reflete o desfasamento entre as elevadas expectativas dos utilizadores em relação à tecnologia de geração de vídeo por IA e o nível tecnológico atual. (Fonte: scaling01)
Comentário de John Carmack: Otimização de software e potencial de hardware antigo subestimados: Em resposta ao exercício de reflexão “o que aconteceria se os humanos se esquecessem de como fabricar CPUs”, John Carmack comentou que, se a otimização de software fosse verdadeiramente valorizada, muitas aplicações no mundo poderiam funcionar em hardware obsoleto. Os sinais de preço do mercado para poder computacional escasso impulsionariam essa otimização, por exemplo, refatorando produtos interpretados baseados em microsserviços para bases de código nativas monolíticas. Claro, ele também admitiu que, sem poder computacional barato e escalável, o surgimento de produtos inovadores se tornaria mais raro. (Fonte: ID_AA_Carmack)

Fuga do system prompt do Claude gera atenção na indústria, revelando complexidade do controlo da IA: Alegadamente, o system prompt do grande modelo de linguagem Claude, da Anthropic, foi divulgado. O seu conteúdo, com cerca de 25.000 tokens, excede em muito o conhecimento convencional e contém um grande número de instruções específicas, como role-playing (assistente inteligente e amigável), quadro ético de segurança (prioridade à segurança infantil, proibição de conteúdo prejudicial), conformidade rigorosa com direitos de autor (proibição de cópia de material protegido por direitos de autor), mecanismo de chamada de ferramentas (MCP define 14 ferramentas) e exceções de comportamento específicas (ponto cego no reconhecimento facial). Esta fuga não só revela a complexa “engenharia de restrições” utilizada pela IA de topo para garantir segurança, conformidade e experiência do utilizador, mas também desencadeou discussões sobre a transparência da IA, segurança, propriedade intelectual e o próprio system prompt como barreira tecnológica. O conteúdo divulgado difere enormemente da versão simplificada do prompt divulgada oficialmente, realçando o dilema das empresas de IA entre a divulgação de informações e a proteção da sua tecnologia central. (Fonte: 36氪)

Existe uma lacuna entre as altas pontuações da IA em perguntas médicas e a sua eficácia em aplicações reais: Um estudo da Universidade de Oxford envolveu 1298 pessoas comuns a simular cenários de consulta médica, utilizando IA como GPT-4o e Llama 3 para avaliar a gravidade da condição e escolher o tratamento. Os resultados mostraram que, embora os modelos de IA, quando testados isoladamente, tivessem alta precisão diagnóstica (por exemplo, GPT-4o identificou doenças em 94,7% dos casos), após os utilizadores usarem a assistência da IA, a proporção de identificação correta de doenças caiu para 34,5%, inferior ao grupo de controlo que não usou IA. O estudo indicou que descrições incompletas por parte dos utilizadores e a compreensão e adoção insuficientes das sugestões da IA foram as principais causas. Isto demonstra que as altas pontuações da IA em testes padronizados não equivalem totalmente à eficácia em aplicações clínicas reais, sendo a “colaboração humano-máquina” o principal gargalo. (Fonte: 36氪)

💡 Outros
Relatório da QuestMobile: Mercado de aplicações de IA apresenta três tipos de formatos de aplicação, assistentes de fabricantes de telemóveis com alta atividade: O relatório do mercado de aplicações de IA para 2025 da QuestMobile mostra que, até março de 2025, as aplicações de IA dividem-se principalmente em Apps nativas para dispositivos móveis (591 milhões de utilizadores ativos mensais), plugins de aplicações móveis (In-App AI, 584 milhões de utilizadores ativos mensais) e aplicações web para PC (209 milhões de utilizadores ativos mensais). Entre estes, assistentes de IA abrangentes, motores de busca de IA e design criativo com IA são os segmentos com maior quota em cada plataforma. Os assistentes de IA nativos dos fabricantes de telemóveis destacam-se, com o Xiaoyi da Huawei (157 milhões de utilizadores ativos mensais) e o Xiaobu Assistant da OPPO (148 milhões de utilizadores ativos mensais) a ficarem apenas atrás do DeepSeek (193 milhões de utilizadores ativos mensais), superando o Doubao (115 milhões de utilizadores ativos mensais). O relatório aponta que os motores de busca de IA, assistentes de IA abrangentes, interação social com IA e consultores profissionais de IA já se tornaram quatro segmentos com centenas de milhões de utilizadores. (Fonte: 36氪)

Produção de anúncios com IA: Grandes marcas experimentam ativamente, mas desafios técnicos e éticos persistem: Um relatório da CTR mostra que mais de metade dos anunciantes utilizam AIGC na geração de conteúdo criativo, e quase 20% recorrem à IA em mais de 50% das etapas da criação de vídeo. Grandes marcas como Lenovo, Taotian e JD.com experimentam frequentemente anúncios com IA para demonstrar inovação ou alcançar efeitos visuais específicos. Empresas de publicidade como WPP e Publicis também estão a adotar a IA, formando equipas ou desenvolvendo ferramentas. No entanto, a produção de anúncios com IA ainda enfrenta desafios: tecnicamente, problemas como instabilidade da imagem, alteração fácil de rostos e mau processamento de dinâmicas complexas requerem intervenção humana; na opinião pública, a exaltação excessiva da tecnologia ou a falta de sinceridade criativa podem gerar reações negativas; legal e eticamente, questões como direitos de autor de materiais, proteção da privacidade, atribuição de direitos de autor de conteúdo gerado por IA e responsabilidade por infrações ainda não têm regulamentação uniforme. Casos de sucesso geralmente focam-se em transmitir preocupação “humana”, exploram os pontos fortes da tecnologia e alinham-se com a identidade da marca. (Fonte: 36氪)

100 cientistas assinam o “Consenso de Singapura”, propondo diretrizes globais para a investigação em segurança de IA: Durante a Conferência Internacional sobre Aprendizagem de Representações (ICLR) em Singapura, mais de 100 cientistas de todo o mundo (incluindo Yoshua Bengio, Stuart Russell, entre outros) publicaram conjuntamente o “Consenso de Singapura sobre as Prioridades Globais de Investigação em Segurança de IA”. O documento visa fornecer orientação aos investigadores de IA, garantindo que a tecnologia de IA seja “confiável, fiável e segura”. O consenso propõe três categorias de investigação: identificar riscos (como desenvolver métricas para medir danos potenciais, realizar avaliações quantitativas de risco), construir sistemas de IA de forma a evitar riscos (como tornar a IA fiável por design, especificar a intenção do programa e efeitos secundários indesejados, reduzir alucinações, aumentar a robustez contra adulterações) e manter o controlo sobre os sistemas de IA (como expandir as medidas de segurança existentes, desenvolver novas tecnologias para controlar sistemas de IA poderosos que possam tentar ativamente subverter as tentativas de controlo). Esta iniciativa visa enfrentar os desafios de segurança decorrentes do rápido desenvolvimento das capacidades da IA e apela a um maior investimento na investigação em segurança. (Fonte: 36氪)
