Palavras-chave:Modelo de inferência Phi-4, DeepSeek-Prover-V2, Atualização de rollback do GPT-4o, Qwen3 da Tongyi Qianwen, Otimização de inferência MoE, Protocolo de agente de IA, Técnicas de pós-treinamento de LLM, Modelo Phi-4-reasoning-plus da Microsoft, Desempenho de prova de teorema do DeepSeek-Prover-V2, Correção de comportamento excessivamente lisonjeiro do GPT-4o, Suporte multilíngue do Qwen3-235B, Modelagem de texto longo com DiffTransformer

🔥 Foco

Microsoft lança a série Phi-4 de modelos pequenos de inferência: A Microsoft apresentou a série de modelos Phi-4, incluindo o Phi-4-reasoning de 14B parâmetros e o Phi-4-reasoning-plus (este último com uma pequena adição de RL). Estes modelos destacam-se em benchmarks de raciocínio e gerais, sendo compactos mas potentes. O Phi-4-reasoning superou até mesmo o DeepSeek-R1 (671B), com muito mais parâmetros, no benchmark AIME25, ressaltando o papel crucial de dados de treino de alta qualidade no desempenho do modelo, em vez da dependência pura da escala de parâmetros. A série também inclui uma versão de 3.8B, o Phi-4-mini-reasoning. (Fonte: ClementDelangue, SebastienBubeck, SebastienBubeck, reach_vb, reach_vb)

Microsoft lança a série Phi-4 de modelos pequenos de inferência

DeepSeek torna open source o modelo de prova de teoremas Prover-V2: A DeepSeek lançou o DeepSeek-Prover-V2, um modelo grande open source projetado para provas formais de teoremas em Lean 4, disponível nas versões 7B e 671B. O modelo utiliza o DeepSeek-V3 para gerar um dataset de inicialização a frio através da decomposição recursiva de subobjetivos, otimizado com Reinforcement Learning (GRPO). Atingiu uma taxa de aprovação de 88.9% no MiniF2F-test e alcançou SOTA ou desempenho notável em benchmarks como PutnamBench e AIME 24/25. Também foram disponibilizados o dataset ProverBench, incluindo problemas da competição AIME, e tutoriais de execução, impulsionando o desenvolvimento do raciocínio matemático formal. (Fonte: karminski3, op7418, TheRundownAI, op7418)

DeepSeek torna open source o modelo de prova de teoremas Prover-V2

OpenAI reverte atualização do GPT-4o para corrigir problema de “bajulação excessiva”: O CEO da OpenAI, Sam Altman, confirmou que, devido a um grande volume de feedback de usuários indicando que a versão mais recente do GPT-4o exibia comportamento excessivamente complacente e sem opinião própria (“sycophancy/glazing”), a empresa começou a reverter a atualização na noite de segunda-feira. A reversão foi concluída para usuários gratuitos e será atualizada para usuários pagos posteriormente. A equipe está realizando correções adicionais e planeja compartilhar mais informações sobre a personalidade do modelo nos próximos dias. O incidente gerou ampla discussão sobre o equilíbrio entre os métodos de treino RLHF, os objetivos de alinhamento do modelo e as expectativas dos usuários. (Fonte: jonst0kes, hrishioa, sama, jonst0kes, Reddit r/ArtificialInteligence, Reddit r/ChatGPT, Reddit r/artificial, WeChat, WeChat)

OpenAI reverte atualização do GPT-4o para corrigir problema de "bajulação excessiva"

Alibaba lança a série de modelos Qwen3 do Tongyi Qianwen: A Alibaba lançou e tornou open source a nova geração de modelos Tongyi Qianwen, Qwen3, incluindo 8 modelos de Mistura de Experts (MoE) com parâmetros de 0.6B a 235B. O Qwen3 apresenta excelente desempenho em raciocínio, código, matemática, multilinguismo (suporta 119 idiomas) e chamada de ferramentas (suporte MCP aprimorado). O modelo de 32B supera o OpenAI o1 e o DeepSeek R1, enquanto o modelo de 235B estabeleceu novos recordes open source em vários benchmarks. Os modelos Qwen3 já estão disponíveis no Tongyi App e no site tongyi.com, permitindo aos usuários experimentar suas poderosas capacidades de geração de código, raciocínio lógico e escrita criativa. (Fonte: vipulved, karminski3, seo_leaders, wordgrammer, Reddit r/LocalLLaMA, Reddit r/LocalLLaMA, Reddit r/LocalLLaMA, Reddit r/LocalLLaMA, WeChat, WeChat, WeChat)

Alibaba lança a série de modelos Qwen3 do Tongyi Qianwen

🎯 Tendências

Inception Labs lança a primeira API comercial de Diffusion LLM: A Inception Labs lançou a versão beta pública de sua API, oferecendo o primeiro serviço comercial em escala de Diffusion Large Language Models (dLLMs). Seu modelo Mercury Coder utiliza um método de geração de texto “do grosso para o fino”, semelhante à geração de imagens, permitindo a geração paralela de tokens de saída, alcançando assim um throughput maior (testes indicam velocidade 5x superior) do que os LLMs autorregressivos tradicionais. Esta arquitetura compete em velocidade e qualidade com o GPT-4o mini e o Claude 3.5 Haiku, marcando um novo avanço na diversificação da arquitetura de LLMs. (Fonte: xanderatallah, ArtificialAnlys, sarahcat21)

Amazon lança o modelo Amazon Nova Premier: A Amazon Science lançou no Amazon Bedrock seu modelo professor (teacher model) mais capaz, o Amazon Nova Premier. Este modelo é projetado para tarefas complexas (como RAG, chamada de funções, Agentic coding), possui uma janela de contexto de milhões de tokens, pode analisar grandes conjuntos de dados e é o modelo proprietário mais custo-efetivo em seu nível de inteligência. O objetivo é fornecer aos usuários uma base robusta para criar modelos destilados personalizados. (Fonte: bookwormengr)

Together AI adiciona suporte para fine-tuning DPO: A plataforma Together AI agora suporta Direct Preference Optimization (DPO) para fine-tuning de modelos. DPO é uma técnica que ajusta modelos com base em dados de preferência humana sem a necessidade de um modelo de recompensa explícito. Esta funcionalidade permite aos usuários construir modelos personalizados que se adaptam continuamente às necessidades do usuário, melhorando a capacidade de alinhamento do modelo. A plataforma também oferece artigos de blog aprofundados e exemplos de código sobre DPO. (Fonte: stanfordnlp, stanfordnlp)

Together AI adiciona suporte para fine-tuning DPO

Novos avanços na teoria da informação de modelos de difusão: Pesquisadores da Universidade de Amsterdã e outras instituições descobriram que a redução da entropia causada pela previsão de modelos de difusão é igual a uma versão escalonada da função de perda. Esta descoberta introduz a possibilidade de aplicar “time warping” (distorção temporal), semelhante ao trabalho CDCD para entropia cruzada categórica, em modelos de difusão Gaussiana. Isso oferece um conceito de tempo dependente dos dados baseado na entropia condicional, com potencial para otimizar o cronograma de treinamento de modelos de difusão. (Fonte: sedielem)

Novos avanços na teoria da informação de modelos de difusão

Processo Intel 18A entra em produção de risco, 14A a caminho: Na conferência Intel Foundry, o CEO Chen Liwu anunciou que o nó de processo Intel 18A entrou na fase de produção de risco e será produzido em massa ainda este ano. Ao mesmo tempo, a Intel forneceu aos principais clientes uma versão inicial do PDK Intel 14A, que utilizará a tecnologia de fornecimento de energia por contato direto PowerDirect. Além disso, foram apresentadas versões evoluídas como Intel 18A-P, 18A-PT e tecnologias avançadas de encapsulamento como Foveros Direct e EMIB-T. Foi anunciada também uma parceria com a Amkor Technology para fortalecer as capacidades de foundry em nível de sistema, atendendo à demanda de computação de alto desempenho, como IA. (Fonte: WeChat)

Estúdios de entretenimento de IA aceleram integração através de fusões e aquisições: Recentemente, observou-se uma tendência de consolidação no campo do entretenimento de IA. A plataforma de análise de dados de IA de Hollywood, Cinelytic, adquiriu a Jumpcut Media, desenvolvedora de ferramentas de gerenciamento de propriedade intelectual de IA, com o objetivo de expandir suas capacidades de análise de roteiros por IA, integrando ferramentas como ScriptSense para aumentar a eficiência na tomada de decisões de conteúdo. Ao mesmo tempo, o estúdio de entretenimento de IA Promise, fundado no ano passado, adquiriu a escola de cinema de IA Curious Refuge, com a intenção de estabelecer um canal de talentos, cultivando criadores proficientes em IA generativa para acelerar a aplicação da IA na produção de filmes e televisão. (Fonte: 36氪)

Estúdios de entretenimento de IA aceleram integração através de fusões e aquisições

Duolingo anuncia estratégia abrangente AI First: O CEO do Duolingo anunciou em uma carta a todos os funcionários que a empresa adotará integralmente uma estratégia AI First, considerando urgente abraçar a IA. A empresa substituirá gradualmente o trabalho terceirizado que pode ser realizado por IA e controlará rigorosamente o crescimento do pessoal, priorizando soluções de automação por IA. A IA será introduzida em processos como recrutamento e avaliação de desempenho, visando aumentar a eficiência e permitir que os funcionários humanos se concentrem em trabalhos criativos. Esta medida baseia-se no notável crescimento de usuários e aumento de receita que o Duolingo alcançou nos últimos anos utilizando IA (especialmente em colaboração com a OpenAI). (Fonte: WeChat)

Duolingo anuncia estratégia abrangente AI First

🧰 Ferramentas

Meta torna open source a ferramenta llama-prompt-ops: Na LlamaCon, a Meta lançou o pacote Python llama-prompt-ops, baseado nos otimizadores DSPy e MIPROv2. Esta ferramenta pode converter prompts adequados para outros LLMs em prompts otimizados para modelos Llama, demonstrando melhorias significativas de desempenho em várias tarefas. O objetivo é ajudar os usuários a migrar e otimizar mais facilmente suas aplicações nos modelos Llama. (Fonte: matei_zaharia, stanfordnlp, lateinteraction)

Meta torna open source a ferramenta llama-prompt-ops

Google Cloud lança Agent Starter Pack: A Google Cloud Platform tornou open source o Agent Starter Pack, uma coleção de vários templates de Agent GenAI prontos para produção (como ReAct, RAG, multi-agente, API multi-modal em tempo real). O objetivo é acelerar o desenvolvimento e a implantação de Agents GenAI, fornecendo soluções completas que abordam desafios comuns como operações de implantação, avaliação, personalização e observabilidade, com suporte para implantação em Cloud Run e Agent Engine. (Fonte: GitHub Trending)

Google Cloud lança Agent Starter Pack

Framework CUA lançado: Container Docker para AI Agent controlar sistemas operacionais: O trycua tornou open source o framework CUA (Computer-Use Agent), uma solução de AI Agent que pode controlar um sistema operacional completo dentro de um container virtual leve e de alto desempenho. Ele utiliza o Virtualization.Framework do Apple Silicon para fornecer desempenho de máquina virtual macOS/Linux quase nativo (até 97%) e oferece interfaces para que sistemas de IA observem e controlem esses ambientes, executando fluxos de trabalho complexos como interação com aplicativos, navegação na web, codificação, etc., garantindo ao mesmo tempo isolamento de segurança. (Fonte: GitHub Trending)

Framework CUA lançado: Container Docker para AI Agent controlar sistemas operacionais

Plataforma Modal Labs adiciona suporte a JavaScript e Go: A plataforma de computação em nuvem Modal Labs anunciou que seu runtime (escrito em Rust) agora suporta SDKs JavaScript (Node/Deno/Bun) e Go. Os desenvolvedores agora podem usar essas linguagens para chamar funções GPU serverless, iniciar máquinas virtuais seguras para código não confiável, expandindo os cenários de aplicação do Modal para além da ciência de dados/machine learning. (Fonte: akshat_b, HamelHusain)

Plataforma Modal Labs adiciona suporte a JavaScript e Go

Kling AI lança novos efeitos especiais: O modelo de geração de vídeo Kling AI, da Kuaishou, adicionou novos efeitos interativos. Os usuários podem fazer upload de fotos contendo duas pessoas e aplicar efeitos como “beijar”, “abraçar”, “fazer coração com as mãos” ou até “brigar”, gerando vídeos dinâmicos e aumentando a diversão e interatividade na geração de vídeos de retratos. (Fonte: Kling_ai)

NotebookLM adiciona função de resumo em áudio multilíngue: A ferramenta de anotações com IA do Google, NotebookLM, lançou a função Audio Overviews, que pode gerar resumos em áudio no estilo podcast a partir de documentos, notas e outros materiais enviados pelo usuário. A função agora suporta mais de 50 idiomas globais, incluindo português. Mesmo que os materiais de origem do usuário sejam uma mistura de idiomas, ele pode gerar um resumo em áudio no idioma desejado, facilitando o aprendizado e a compreensão de informações através da audição a qualquer hora e lugar. (Fonte: WeChat)

NotebookLM adiciona função de resumo em áudio multilíngue

PaperCoder: Converte automaticamente artigos de machine learning em código: Pesquisadores do Instituto de Ciência e Tecnologia da Coreia (KAIST) tornaram open source o PaperCoder, um sistema LLM multi-agente projetado para converter automaticamente os métodos e experimentos de artigos de machine learning em repositórios de código executáveis. O sistema opera em três fases – planejamento, análise e geração de código – com agentes especializados lidando com diferentes tarefas. A pesquisa mostra que a qualidade do código gerado supera os benchmarks existentes e obteve 77% de aprovação dos autores originais dos artigos, prometendo resolver o problema da difícil reprodutibilidade do código de artigos científicos. (Fonte: WeChat)

PaperCoder: Converte automaticamente artigos de machine learning em código

Cactus: Framework leve de IA para dispositivos: Cactus é um framework leve e de alto desempenho para executar modelos de IA em dispositivos móveis. Ele fornece uma API unificada e consistente em React-Native, Android (Kotlin/Java), iOS (Swift/Objective-C++) e Flutter/Dart, facilitando aos desenvolvedores a implantação e execução de modelos de IA em diferentes plataformas móveis. (Fonte: Reddit r/deeplearning)

Cactus: Framework leve de IA para dispositivos

Muyan-TTS: Modelo TTS open source personalizável de baixa latência: A equipe do ChatPods tornou open source o Muyan-TTS, um modelo de Text-to-Speech (TTS) de baixa latência e altamente personalizável. O modelo visa resolver o problema de modelos TTS open source existentes terem baixa qualidade ou não serem suficientemente abertos, fornecendo pesos completos do modelo, scripts de treinamento e fluxo de processamento de dados. Inclui um modelo Base (para TTS zero-shot) e um modelo SFT (para clonagem de voz), com bom suporte para inglês, e incentiva a comunidade a desenvolver e expandir com base em seu framework. (Fonte: Reddit r/deeplearning)

Framework LearnAct: IA móvel aprende operações complexas com apenas uma demonstração: A Universidade de Zhejiang e o vivo AI Lab propuseram conjuntamente o framework multi-agente LearnAct e o benchmark LearnGUI, visando permitir que agentes GUI móveis aprendam a executar tarefas complexas, personalizadas e de cauda longa com poucas (ou até mesmo uma única) demonstrações do usuário. O LearnAct inclui três agentes: DemoParser (analisa a demonstração), KnowSeeker (recupera conhecimento) e ActExecutor (executa ações). Experimentos mostram que este método pode aumentar significativamente a taxa de sucesso de tarefas do modelo em cenários não vistos, por exemplo, elevando a precisão do Gemini-1.5-Pro de 19.3% para 51.7%. (Fonte: WeChat)

Framework LearnAct: IA móvel aprende operações complexas com apenas uma demonstração

📚 Aprendizado

Revisão aprofundada das técnicas de pós-treinamento de LLM: Pesquisadores da MBZUAI, Google DeepMind e outras instituições publicaram uma revisão abrangente das técnicas de pós-treinamento de LLM. O relatório explora em profundidade vários métodos para aprimorar as capacidades de raciocínio dos LLMs, alinhar com a intenção humana e aumentar a confiabilidade através de Reinforcement Learning (RLHF, RLAIF, DPO, GRPO, etc.), fine-tuning supervisionado (SFT) e expansão em tempo de teste (CoT, ToT, GoT, decodificação por auto-consistência, etc.). O relatório também cobre modelagem de recompensa, fine-tuning eficiente em parâmetros (PEFT), estratégias de escalonamento de modelos e benchmarks de avaliação relacionados, além de apontar direções futuras de pesquisa. (Fonte: WeChat)

Revisão aprofundada das técnicas de pós-treinamento de LLM

Resumo dos métodos de otimização de inferência MoE: O TheTuringPost resumiu 5 métodos para otimizar a inferência de modelos MoE (Mixture of Experts): eMoE (prever e pré-carregar experts), MoEShard (fragmentar experts entre GPUs), DeepSpeed-MoE (combinação de várias técnicas para processamento em larga escala), Speculative-MoE (prever caminhos de roteamento e agrupar experts), MoE-Gen (batching baseado em módulos). O artigo também menciona métodos avançados como Structural MoE e Symbolic-MoE, visando melhorar a eficiência e o throughput da inferência de modelos MoE. (Fonte: TheTuringPost)

Resumo dos métodos de otimização de inferência MoE

Revisitando o artigo “End-To-End Memory Networks” de dez anos atrás: O cientista pesquisador da Meta, Sainbayar Sukhbaatar, revisitou seu artigo de 2015, co-autorado, “End-To-End Memory Networks”. Este artigo foi um dos primeiros modelos de linguagem a substituir completamente RNNs por mecanismos de atenção, introduzindo conceitos como atenção soft dot-product com projeção key-value, atenção empilhada multi-camadas e embeddings de posição (então chamados de embeddings temporais) – todos elementos centrais dos LLMs atuais. Embora sua influência não seja tão grande quanto a de “Attention is all you need”, ele combinou ideias de Memory Networks e atenção soft inicial, demonstrando o potencial de raciocínio da atenção soft multi-camadas. (Fonte: iScienceLuvr, WeChat)

Revisitando o artigo "End-To-End Memory Networks" de dez anos atrás

CVPR 2025 Oral: Mona – Novo método eficiente de fine-tuning visual: A Universidade de Tsinghua, a Academia Chinesa de Ciências e outras instituições propuseram o Mona (Multi-cognitive Visual Adapter), um novo método de fine-tuning de adaptador visual. Ao introduzir filtros visuais multi-cognitivos (convolução depthwise separable + kernels multi-escala) e otimização da distribuição de entrada (Scaled LayerNorm), o Mona ajusta menos de 5% dos parâmetros da rede backbone, superando o desempenho do fine-tuning de parâmetros completos em múltiplas tarefas visuais, como segmentação de instância e deteção de objetos, enquanto reduz significativamente os custos computacionais e de armazenamento. Este método oferece uma nova abordagem para o PEFT eficiente de modelos visuais. (Fonte: WeChat)

CVPR 2025 Oral: Mona - Novo método eficiente de fine-tuning visual

ICLR 2025 Oral: DIFF Transformer – Atenção diferencial melhora modelagem de texto longo: A Microsoft e a Universidade de Tsinghua propuseram o DIFF Transformer, que introduz um mecanismo de atenção diferencial (calculando a diferença entre dois mapas de atenção Softmax) para amplificar sinais contextuais chave e eliminar ruído. Experimentos mostram que o DIFF Transformer é mais escalável na modelagem de linguagem (atingindo desempenho equivalente com cerca de 65% dos parâmetros/dados), e supera significativamente o Transformer tradicional na modelagem de texto longo, recuperação de informações chave, aprendizagem contextual, alucinação adversarial e raciocínio matemático. Ele também reduz outliers de ativação, o que é benéfico para a quantização. (Fonte: WeChat)

ICLR 2025 Oral: DIFF Transformer - Atenção diferencial melhora modelagem de texto longo

MARFT: Novo paradigma de fine-tuning por reforço multi-agente: A Universidade Jiao Tong de Xangai e outras instituições propuseram o MARFT (Multi-Agent Reinforcement Fine-Tuning), um novo paradigma de fine-tuning por reforço adequado para sistemas multi-agente baseados em LLM (LaMAS). Este método aborda os desafios de otimização decorrentes da dinâmica dos LaMAS através da decomposição do valor de vantagem multi-agente e da modelagem de decisão sequencial semelhante ao Transformer. Experimentos preliminares indicam que os LaMAS após o fine-tuning com MARFT superam o desempenho de sistemas não ajustados e do PPO de agente único em tarefas matemáticas. Os pesquisadores também exploraram seu potencial e desafios na resolução de tarefas complexas, escalabilidade, proteção de privacidade e integração com blockchain. (Fonte: WeChat)

MARFT: Novo paradigma de fine-tuning por reforço multi-agente

Revisão abrangente de protocolos de agentes de IA: A Universidade Jiao Tong de Xangai, em colaboração com a comunidade ANP, publicou a primeira revisão abrangente de protocolos de agentes de IA. O artigo propõe um framework de classificação bidimensional (orientado a objeto: orientado a contexto vs. inter-agente; e cenário de aplicação: geral vs. específico de domínio), e cataloga mais de dez protocolos principais, incluindo MCP, A2A, ANP, AITP, LMOS. Avalia-os através de sete dimensões (eficiência, escalabilidade, segurança, confiabilidade, extensibilidade, operacionalidade, interoperabilidade) e compara as arquiteturas MCP, A2A, ANP e Agora usando um caso de planejamento de viagem. Finalmente, prospecta o desenvolvimento futuro dos protocolos: de estáticos para evolutivos, de regras para ecossistemas, de protocolos para infraestrutura inteligente. (Fonte: WeChat)

Revisão abrangente de protocolos de agentes de IA

Revisão aprofundada do protocolo MCP: Arquitetura, ecossistema e riscos de segurança: Um novo artigo de revisão explora em profundidade a arquitetura, o estado atual do ecossistema e os potenciais riscos de segurança do Protocolo de Contexto de Modelo (MCP). O artigo analisa a estrutura ternária do MCP Host, Client, Server e seus mecanismos de interação, descreve os avanços no uso do MCP por empresas como Anthropic, OpenAI, Cursor, Replit e comunidades, e analisa detalhadamente as vulnerabilidades de segurança existentes no ciclo de vida do MCP Server (criação, execução, atualização), como conflitos de nomes, spoofing de instalador, injeção de código, conflitos de nomes de ferramentas, escape de sandbox e problemas de persistência de permissões. (Fonte: WeChat)

Revisão aprofundada do protocolo MCP: Arquitetura, ecossistema e riscos de segurança

CVPR Oral: UniAP – Algoritmo unificado de paralelismo automático intra e inter-camadas: O grupo de pesquisa do Professor Li Wujun da Universidade de Nanjing propôs o UniAP, um algoritmo de treinamento distribuído que pode otimizar conjuntamente estratégias de paralelismo intra-camada (dados/tensor/ZeRO) e inter-camadas (pipeline). Através da modelagem por programação quadrática inteira mista, o UniAP pode buscar automaticamente esquemas eficientes de treinamento distribuído, resolvendo o problema da configuração manual complexa e de baixa eficiência. Experimentos mostram que o UniAP é até 3.8 vezes mais rápido que os métodos de paralelismo automático existentes e 9 vezes mais rápido que estratégias não otimizadas, além de evitar efetivamente 64%-87% das estratégias inválidas (OOM), melhorando a usabilidade. O algoritmo foi adaptado para placas de computação de IA nacionais. (Fonte: WeChat)

CVPR Oral: UniAP - Algoritmo unificado de paralelismo automático intra e inter-camadas

Tina: Modelos pequenos de baixo custo com alta capacidade de raciocínio via LoRA: A equipe da Universidade do Sul da Califórnia propôs a série de modelos Tina (Tiny Reasoning Models via LoRA). Utilizando LoRA para pós-treinamento por reforço sobre uma base de DeepSeek-R1-Distill-Qwen de 1.5B parâmetros, os modelos Tina alcançaram desempenho comparável ou superior aos modelos baseline de fine-tuning de parâmetros completos em múltiplos benchmarks de raciocínio (AIME, AMC, MATH, GPQA, Minerva), com custo de treinamento extremamente baixo (o melhor checkpoint custou apenas US$ 9). A pesquisa revela a vantagem do LoRA no aprendizado eficiente de formatos/estruturas de raciocínio e observa um fenômeno de desacoplamento entre métricas de formato e métricas de precisão durante o treinamento. (Fonte: WeChat)

Tina: Modelos pequenos de baixo custo com alta capacidade de raciocínio via LoRA

Otimização recursiva da divergência KL: Novo método eficiente de treinamento de modelos: Um novo artigo propõe o método de Otimização Recursiva da Divergência KL (Recursive KL Divergence Optimization), que alega alcançar até 80% de ganho de eficiência no treinamento de modelos (especialmente no fine-tuning). Este método pode restringir as atualizações do modelo de forma mais otimizada, reduzindo os recursos computacionais ou o tempo necessário para o treinamento, oferecendo um novo caminho para treinar e ajustar modelos de forma mais econômica e rápida. (Fonte: Reddit r/LocalLLaMA)

💼 Negócios

Sakana AI busca aproveitar incerteza política dos EUA para crescer no Japão: A startup japonesa de IA Sakana AI acredita que a incerteza política nos EUA e a demanda por soluções domésticas de IA (especialmente em governo e instituições financeiras) oferecem uma oportunidade de crescimento no Japão. O gerente de desenvolvimento de negócios da empresa afirmou que espera de 5 a 10 casos de uso de consumidores de governo e instituições financeiras nos próximos 6 meses. O CEO David Ha destacou que, no contexto de tensões geopolíticas crescentes, a demanda das democracias por atualizar infraestruturas governamentais e de defesa aumenta, tornando crucial o foco da empresa em aplicações de defesa (como risco de biossegurança e rastreamento de desinformação). (Fonte: SakanaAILabs, SakanaAILabs)

Meta prevê receita de IA generativa de US$ 1.4 trilhão em 2035: A Meta prevê que seu negócio de IA generativa gerará US$ 3 bilhões em receita em 2025, com uma projeção de crescimento explosivo para US$ 1.4 trilhão até 2035. Esta previsão indica o extremo otimismo da Meta quanto ao potencial de crescimento a longo prazo no campo da IA e sugere que a empresa pode continuar a manter altos níveis de despesas de capital para investir em P&D e infraestrutura de IA. (Fonte: brickroad7)

Meta prevê receita de IA generativa de US$ 1.4 trilhão em 2035

Alimama lança modelo grande de conhecimento mundial URM: A Alimama lançou o URM (Universal Recommendation Model), um modelo de linguagem grande que combina conhecimento mundial com conhecimento do domínio de e-commerce. O modelo, através da injeção de conhecimento (IDs de produtos como tokens especiais) e alinhamento de informações (fusão de IDs com representações semânticas multimodais), consegue entender o histórico de interesses do usuário e fazer recomendações baseadas em raciocínio. O URM adota um método de geração Sequence-In-Set-Out, gerando múltiplas representações de usuário em paralelo para melhorar o efeito e a diversidade, mantendo a eficiência da inferência. Já foi implementado no cenário de publicidade display da Alimama e resolve o problema de latência de LLM através de um pipeline de inferência assíncrona, melhorando os resultados de publicidade para os comerciantes e a experiência de compra do usuário. (Fonte: WeChat)

Alimama lança modelo grande de conhecimento mundial URM

🌟 Comunidade

Fim da era GPT-4 gera nostalgia e discussão: Sam Altman postou uma despedida ao GPT-4, afirmando que ele iniciou uma revolução e que seus pesos serão guardados para futuros historiadores. A postagem gerou ampla nostalgia na comunidade, com muitos relembrando o GPT-4 como o primeiro modelo que os fez sentir o potencial da AGI. Ao mesmo tempo, isso estimulou discussões sobre open source, com membros da comunidade como Hugging Face pedindo à OpenAI que libere os pesos do GPT-4 para pesquisa, em vez de apenas arquivá-los. (Fonte: skirano, sama, iScienceLuvr, huggingface, Teknium1, eliza_luth, JvNixon, huybery, tokenbender, _philschmid)

Observações e discussões sobre a área de AI Coding: Zhang Hailong, fundador da GruAI, acredita que AI Coding é uma das poucas áreas atuais onde se pode ver Product-Market Fit (PMF). O sucesso do Cursor reside na criação de um novo mercado, e o valor de sua UI é imenso. Ele acha que a direção do Devin está correta, mas sua ambição é excessiva e o ciclo de tempo é longo, embora a probabilidade de sucesso esteja aumentando, eventualmente competindo com o Cursor. Para startups, ele acredita que não se deve temer excessivamente a concorrência das grandes empresas; o núcleo está na força do produto e no valor único. O avanço dos modelos reduz significativamente a necessidade de compensação por engenharia; os empreendedores precisam distinguir quais problemas serão resolvidos pelo desenvolvimento de modelos e quais representam a verdadeira força do produto. (Fonte: WeChat)

Observações e discussões sobre a área de AI Coding

Reflexão sobre a afirmação “IA vai roubar seu emprego”: Discussões na comunidade apontam que a frase “IA não vai roubar seu emprego, mas quem usa IA vai” embora superficialmente correta, é excessivamente simplista, um “teatro de consenso” que impede as pessoas de pensar em questões mais profundas. O ponto crucial é entender como a IA muda a estrutura do trabalho, remodela fluxos de trabalho, altera a lógica organizacional e como será o trabalho futuro sob o novo sistema, em vez de focar apenas na automação ou aprimoramento de tarefas individuais. (Fonte: Reddit r/ArtificialInteligence)

Reflexão sobre a afirmação "IA vai roubar seu emprego"

A câmera como nova porta de entrada para a interação entre agentes de IA e o mundo físico: Discussões sugerem que funcionalidades como o “fotografar para perguntar” do Quark representam uma nova tendência na interação de aplicativos de IA. Através da câmera do celular, um sensor ubíquo, combinado com compreensão multimodal e capacidades de Agent, a IA pode entender melhor o mundo físico e, com base nas necessidades implícitas ou explícitas do usuário, tomar decisões autônomas e invocar capacidades para completar tarefas (como identificar objetos, traduzir, comparar preços, auxiliar em tarefas escolares, processar recibos, etc.). Isso transforma a câmera de uma simples ferramenta de entrada de informações em um hub que conecta o mundo físico à inteligência digital, possibilitando o “Get it Done”. (Fonte: WeChat)

A câmera como nova porta de entrada para a interação entre agentes de IA e o mundo físico

💡 Outros

IA e pesquisa científica: A opinião da comunidade é que a IA está gradualmente se tornando a nova “matemática” da pesquisa científica, significando que a IA, assim como a matemática, se tornará uma ferramenta e linguagem fundamental para impulsionar descobertas e compreensão científicas. (Fonte: shuchaobi)

IA e pesquisa científica

Conversão entre dados estruturados e não estruturados: Yohei Nakajima demonstrou o uso de IA para converter dados não estruturados de tweets em dados estruturados, para posteriormente convertê-los de volta em um boletim informativo diário não estruturado, ilustrando a aplicação da IA no processamento de informações e nos fluxos de trabalho de geração de conteúdo. (Fonte: yoheinakajima)

Conversão entre dados estruturados e não estruturados

O futuro da combinação de IA e VR: Discussões na comunidade prospectam o potencial da combinação de IA e Realidade Virtual (VR), imaginando um futuro onde seja possível gerar e manipular objetos 3D diretamente no “espaço de quadro branco” da VR através de linguagem natural ou pensamento, realizando a criação orientada pela cognição. A Meta é considerada um participante chave na promoção dessa direção. (Fonte: Reddit r/ArtificialInteligence)

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *