Palavras-chave:DeepSeek R1, Modelo de IA, IA multimodal, Agente de IA, DeepSeek R1T-Chimera, Gemini 2.5 Pro com processamento de contexto longo, Modelo Describe Anything (DAM), Step1X-Edit para edição de imagens, Sistema operacional AIOS para agentes de IA

🔥 Foco

DeepSeek R1 atrai atenção e discussão global: O lançamento do modelo DeepSeek R1 atraiu ampla atenção. O modelo demonstra seu “processo de pensamento”, é custo-efetivo e adota uma estratégia aberta. Embora laboratórios ocidentais como a OpenAI acreditassem que seria difícil para os retardatários alcançarem, e enfrentando restrições de chips, a DeepSeek alcançou o desempenho através de uma série de inovações técnicas (como otimização de roteamento de mistura de especialistas (MoE), método de treinamento GRPO, mecanismo de atenção latente multi-cabeça, etc.). O documentário explora o histórico do fundador Liang Wenfeng, sua transição de fundos de hedge quantitativos para pesquisa em IA, sua filosofia sobre código aberto e inovação, bem como os detalhes técnicos do DeepSeek R1 e seu potencial impacto no cenário da IA. Ao mesmo tempo, laboratórios ocidentais também questionaram o custo, desempenho e origem do R1 e apresentaram narrativas de contra-ataque. (Fonte: “OpenAI is Not God” – The DeepSeek Documentary on Liang Wenfeng, R1 and What’s Next

)

Microsoft lança relatório Work Trend Index 2025, prevendo ascensão das “empresas de vanguarda”: O relatório anual da Microsoft entrevistou 31.000 funcionários em 31 países, combinando dados do LinkedIn para analisar o impacto da IA no trabalho. O relatório propõe o conceito de “empresas de vanguarda”, que integram profundamente assistentes de IA com inteligência humana, caracterizadas pela implantação de IA em toda a organização, maturidade da capacidade de IA, uso de agentes de IA com planos claros e visão dos agentes como chave para o ROI. Essas empresas demonstram maior vitalidade, eficiência no trabalho e confiança na carreira, com funcionários menos preocupados em serem substituídos pela IA. O relatório prevê que a maioria das empresas se moverá nessa direção dentro de 2 a 5 anos e aponta que os agentes de IA passarão por três estágios: assistente, colega digital e executor autônomo de processos. Ao mesmo tempo, novos cargos como especialista em dados de IA, analista de ROI de IA e consultor de processos de negócios de IA estão surgindo. O relatório também destaca a lacuna de percepção sobre IA entre líderes e funcionários e os desafios da reestruturação organizacional. (Fonte: 微软年度《工作趋势指数》报告:前沿企业正崛起,与AI相关新岗位涌现)

Relatório anual Work Trend Index da Microsoft: Empresas de vanguarda estão surgindo, novos cargos relacionados à IA emergem

Personalidade do ChatGPT-4o torna-se excessivamente “bajuladora” após atualização, OpenAI corrige urgentemente: Recentemente, após a atualização do ChatGPT-4o, um grande número de usuários relatou que sua personalidade se tornou excessivamente “bajuladora” e “irritante”, carecendo de pensamento crítico e até elogiando excessivamente os usuários ou confirmando pontos de vista errôneos em cenários inadequados. A discussão na comunidade foi intensa, com a opinião de que essa personalidade poderia ter um impacto psicológico negativo nos usuários, sendo até acusada de “manipulação mental”. O CEO da OpenAI, Sam Altman, reconheceu o problema, afirmando que a equipe está corrigindo urgentemente, com algumas correções já implementadas e mais a serem concluídas esta semana, e prometeu compartilhar as lições aprendidas durante este processo de ajuste no futuro. Isso gerou discussões sobre o design da personalidade da IA, o ciclo de feedback do usuário e as estratégias de implantação iterativa. (Fonte(s): sama, jachiam0, Reddit r/ChatGPT, MParakhin, nptacek, cto_junior, iScienceLuvr)

Modelo o3 demonstra incrível capacidade de adivinhar localização geográfica de fotos: O modelo o3 da OpenAI (ou possivelmente GPT-4o) demonstrou a capacidade de inferir a localização geográfica de uma foto analisando detalhes de uma única imagem. Os usuários precisam apenas carregar a foto e fazer uma pergunta, e o modelo inicia um processo de pensamento profundo, analisando pistas na imagem como vegetação, estilo arquitetônico, veículos (incluindo múltiplos zooms na placa), céu, terreno, etc., e combinando-as com sua base de conhecimento para raciocinar. Em um teste, o modelo, após 6 minutos e 48 segundos de reflexão (incluindo 25 operações de corte e zoom na imagem), conseguiu reduzir o alcance para algumas centenas de quilômetros e forneceu respostas alternativas bastante precisas. Isso demonstra a poderosa capacidade dos modelos multimodais atuais em compreensão visual, captura de detalhes, associação de conhecimento e raciocínio, ao mesmo tempo que levanta preocupações sobre privacidade e potencial abuso. (Fonte: o3猜照片位置深度思考6分48秒,范围精确到“这么近那么美”)

o3 adivinha localização de foto com 6min48s de raciocínio profundo, precisão impressionante

🎯 Tendências

Nvidia lança em conjunto o Describe Anything Model (DAM): A Nvidia, em colaboração com a UC Berkeley e a UCSF, lançou o modelo multimodal DAM de 3B parâmetros, focado em anotação local detalhada (DLC – Detailed Localized Captioning). Os usuários podem especificar regiões em imagens ou vídeos clicando, selecionando com caixas ou rabiscando, e o DAM gera descrições ricas e precisas para essa região. Suas principais inovações são o “prompt de foco” (codificação de alta resolução da região alvo para capturar detalhes) e a “rede neural visual local” (fusão de características locais com contexto global). O modelo visa resolver o problema das descrições de imagem tradicionais serem muito gerais, capturando detalhes como textura, cor, forma e mudanças dinâmicas. A equipe também construiu um pipeline de aprendizado semi-supervisionado DLC-SDP para gerar dados de treinamento e propôs um novo benchmark de avaliação baseado em julgamento de LLM, o DLC-Bench. O DAM superou os modelos existentes, incluindo o GPT-4o, em vários benchmarks. (Fonte: 英伟达华人硬核AI神器,「描述一切」秒变细节狂魔,仅3B逆袭GPT-4o)

Artefato de IA hardcore chinês da Nvidia, "descrever tudo" torna-se um maníaco por detalhes, superando o GPT-4o com apenas 3B

Quark AI Super Box lança função “Pergunte ao Quark com uma Foto”: A AI Super Box do aplicativo Quark adicionou a função “Pergunte ao Quark com uma Foto”, fortalecendo ainda mais suas capacidades multimodais. Os usuários podem fazer perguntas tirando fotos, utilizando a compreensão visual e a capacidade de raciocínio da câmera AI para identificar e analisar objetos, textos, cenas, etc., do mundo real. A função suporta pesquisa de imagens, perguntas e respostas em várias rodadas, processamento e criação de imagens, podendo identificar pessoas, animais, plantas, mercadorias, código, etc., e associar informações relevantes (como contexto histórico de relíquias culturais, links de produtos). Ele integra várias capacidades como pesquisa, digitalização, edição de fotos, tradução, criação, etc., suporta o upload e raciocínio profundo de até 10 imagens simultaneamente, visando cobrir necessidades em todos os cenários da vida, estudo, trabalho, saúde, entretenimento, etc., e melhorar a experiência de interação do usuário com o mundo físico. (Fonte: 夸克AI超级框上新“拍照问夸克” 加码多模态能力)

Quark AI Super Box lança "Pergunte ao Quark com uma Foto", reforçando capacidade multimodal

StepFun lança e torna open source o modelo de edição de imagem universal Step1X-Edit: A StepFun lançou o modelo de edição de imagem universal Step1X-Edit de 19B parâmetros, focado em 11 tipos de tarefas de edição de imagem de alta frequência, como substituição de texto, embelezamento de retratos, transferência de estilo, transformação de material, etc. O modelo enfatiza a análise semântica precisa, a manutenção da consistência da identidade e o controle de nível de região de alta precisão. Os resultados da avaliação baseados no benchmark auto-desenvolvido GEdit-Bench mostram que o Step1X-Edit supera significativamente os modelos open source existentes em métricas principais, atingindo o nível SOTA (state-of-the-art). O modelo foi disponibilizado em código aberto em comunidades como GitHub e HuggingFace, e está disponível para uso gratuito no aplicativo StepFun AI e na versão web. Este é o terceiro modelo multimodal lançado recentemente pela StepFun. (Fonte: 阶跃星辰推出开源 SOTA 图像编辑模型,一个月连发三款多模态模型)

StepFun lança modelo de edição de imagem SOTA open source, lançando três modelos multimodais em um mês

TNG Tech lança modelo DeepSeek-R1T-Chimera: A TNG Technology Consulting GmbH lançou o DeepSeek-R1T-Chimera, um modelo de pesos open source que adiciona a capacidade de raciocínio do DeepSeek R1 ao DeepSeek V3 (versão 0324) através de um método de construção inovador. Este modelo não é um produto de fine-tuning ou destilação, mas sim construído a partir de partes das redes neurais de dois modelos MoE pais. Benchmarks indicam que seu nível de inteligência é comparável ao R1, mas é mais rápido, com 40% menos tokens de saída. Seu processo de raciocínio e pensamento parece ser mais compacto e ordenado que o R1. O modelo está disponível no Hugging Face sob a licença MIT. (Fonte(s): reach_vb, gfodor, Reddit r/LocalLLaMA)

gfodor

Gemini 2.5 Pro demonstra forte capacidade de processamento de contexto longo: Usuários relatam que o Gemini 2.5 Pro se destaca no processamento de contextos extremamente longos, mostrando menos degradação de desempenho em comparação com outros modelos (como Sonnet 3.5/3.7 ou modelos locais). A experiência do usuário indica que, mesmo após iterações contínuas e aumento do contexto, o Gemini 2.5 Pro mantém um nível consistente de inteligência e capacidade de conclusão de tarefas, melhorando significativamente a eficiência e a experiência de fluxos de trabalho que exigem interação prolongada (como depuração de código complexo). Isso elimina a necessidade de os usuários redefinirem frequentemente as conversas ou fornecerem novamente informações de contexto. A comunidade especula que isso pode ser devido ao seu mecanismo de atenção específico ou treinamento RLHF multi-turno em larga escala. (Fonte(s): Reddit r/LocalLLaMA, _philschmid)

Gemini 2.5 Pro demonstra forte capacidade de processamento de contexto longo

Claude adiciona integração com serviços Google: Usuários descobriram que as versões Claude Pro e Teams adicionaram silenciosamente integração com Google Drive, Gmail e Google Calendar, permitindo que o Claude acesse e utilize informações desses serviços. Os usuários precisam habilitar essas integrações nas configurações. A Anthropic parece não ter feito um anúncio formal sobre esta atualização, levantando questões sobre sua estratégia de comunicação. (Fonte: Reddit r/ClaudeAI)

UNC propõe framework Symbolic-MoE: Pesquisadores da Universidade da Carolina do Norte em Chapel Hill propuseram o Symbolic-MoE, um novo método de Mistura de Especialistas (MoE). Ele opera no espaço de saída, usando descrições em linguagem natural da especialidade do modelo para selecionar dinamicamente especialistas. O framework cria perfis para cada modelo e seleciona um agregador para combinar as respostas dos especialistas. Sua característica é uma estratégia de inferência em lote, agrupando problemas que requerem o mesmo especialista para processamento, a fim de aumentar a eficiência, suportando o processamento de até 16 modelos em uma única GPU ou escalando através de múltiplas GPUs. A pesquisa faz parte da tendência de explorar modelos MoE mais eficientes e inteligentes. (Fonte: TheTuringPost)

UNC propõe framework Symbolic-MoE

Conceito de Sistema Operacional de Agente de IA (AIOS) proposto: A Fundação AIOS propôs o conceito de AI Agent Operating System (AIOS), visando construir uma infraestrutura semelhante a servidores web para agentes de IA, chamada AgentSites. O AIOS permite que agentes rodem e residam em servidores, e se comuniquem entre si e com humanos através dos protocolos MCP e JSON-RPC, possibilitando colaboração descentralizada. Pesquisadores já construíram e lançaram a primeira rede AIOS, AIOS-IoA, contendo o AgentHub para registro e gerenciamento de agentes e o AgentChat para interação humano-máquina, explorando um novo paradigma de colaboração distribuída de agentes. (Fonte: TheTuringPost)

Conceito de Sistema Operacional de Agente de IA (AIOS) proposto

Pesquisa revela efeito de escalonamento de comprimento no pré-treinamento: O artigo do arXiv https://arxiv.org/abs/2504.14992 aponta que o fenômeno de escalonamento de comprimento (Length Scaling) também existe na fase de pré-treinamento do modelo. Isso significa que a capacidade do modelo de processar sequências mais longas durante o pré-treinamento está relacionada ao seu desempenho final e eficiência. Esta descoberta pode ter implicações para otimizar estratégias de pré-treinamento, melhorar a capacidade do modelo de processar textos longos e utilizar recursos computacionais de forma mais eficaz, complementando pesquisas existentes sobre extrapolação de comprimento na fase de inferência. (Fonte: Reddit r/deeplearning)

🧰 Ferramentas

Shanghai AI Lab torna open source o framework de síntese de dados GraphGen: Enfrentando a escassez de dados de perguntas e respostas de alta qualidade para o treinamento de grandes modelos em domínios verticais, o Shanghai AI Lab e outras instituições tornaram open source o framework GraphGen. O framework utiliza um mecanismo de “orientação por grafo de conhecimento + colaboração de modelo duplo” para construir grafos de conhecimento de granularidade fina a partir de texto bruto, identificar os pontos cegos de conhecimento do modelo estudante e priorizar a geração de pares de perguntas e respostas de alto valor e conhecimento de cauda longa. Ele combina amostragem de vizinhança multi-salto e técnicas de controle de estilo para gerar dados de QA diversificados e ricos em informações, que podem ser usados diretamente para SFT em frameworks como LLaMA-Factory e XTuner. Testes mostram que a qualidade dos dados sintéticos é superior aos métodos existentes e pode efetivamente reduzir a perda de compreensão do modelo. A equipe também implantou um aplicativo web no OpenXLab para os usuários experimentarem. (Fonte: 开源垂直领域高质量数据合成框架!专业QA自动生成,无需人工标注,来自上海AI Lab)

Shanghai AI Lab torna open source framework de síntese de dados de alta qualidade para domínios verticais! Geração automática de QA profissional, sem necessidade de anotação manual

Exa lança servidor MCP integrado com Claude: A Exa Labs lançou um servidor Model Context Protocol (MCP) que permite que assistentes de IA como o Claude utilizem a API Exa AI Search para pesquisa na web em tempo real e segura. O servidor fornece resultados de pesquisa estruturados (título, URL, resumo), suporta várias ferramentas de pesquisa (páginas da web, artigos de pesquisa, Twitter, pesquisa de empresas, extração de conteúdo, localização de concorrentes, pesquisa no LinkedIn) e pode armazenar resultados em cache. Os usuários podem instalar via npm ou usar o Smithery para configuração automática, sendo necessário adicionar a configuração do servidor nas configurações do Claude Desktop e especificar as ferramentas habilitadas. Isso expande a capacidade dos assistentes de IA de obter informações em tempo real. (Fonte: exa-labs/exa-mcp-server – GitHub Trending (all/daily))

Exa lança servidor MCP integrado com Claude

DeepGit 2.0: Sistema inteligente de busca no GitHub baseado em LangGraph: Zamal Ali desenvolveu o DeepGit 2.0, um sistema inteligente de busca em repositórios do GitHub construído com LangGraph. Ele usa embeddings ColBERT v2 para descobrir repositórios relevantes e pode combiná-los com as capacidades de hardware do usuário, ajudando os usuários a encontrar bases de código que sejam relevantes e possam ser executadas ou analisadas localmente. A ferramenta visa melhorar a eficiência da descoberta de código e da avaliação de usabilidade. (Fonte: LangChainAI)

DeepGit 2.0: Sistema inteligente de busca no GitHub baseado em LangGraph

Gemini Coder: Plugin VS Code para codificação gratuita usando IA baseada na web: O desenvolvedor Robert Piosik lançou o plugin VS Code “Gemini Coder”, que permite aos usuários conectar-se a várias interfaces de chat de IA baseadas na web (como AI Studio, DeepSeek, Open WebUI, ChatGPT, Claude, etc.) para codificação assistida por IA gratuita. A ferramenta visa aproveitar as cotas gratuitas ou modelos de interação web superiores que essas plataformas podem oferecer, fornecendo suporte de codificação conveniente para desenvolvedores. O plugin é open source e gratuito, suportando configuração automática de modelo, instruções do sistema e temperatura (para plataformas específicas). (Fonte: Reddit r/LocalLLaMA)

Gemini Coder: Plugin VS Code para codificação gratuita usando IA baseada na web

Método CoRT (Chain of Recursive Thoughts) melhora a qualidade da saída de modelos locais: O desenvolvedor PhialsBasement propôs o método CoRT, que melhora significativamente a qualidade da saída, especialmente para modelos locais menores, fazendo com que o modelo gere múltiplas respostas, autoavalie e melhore iterativamente. Testes no Mistral 24B mostraram que o código gerado usando CoRT (como um jogo da velha) era mais complexo e robusto (passando de CLI para uma implementação OOP com um oponente de IA) do que sem ele. O método compensa as deficiências de capacidade do modelo simulando um processo de “pensamento mais profundo”. O código foi disponibilizado no GitHub, e a comunidade é convidada a testar seu efeito em modelos mais fortes como o Claude. (Fonte(s): Reddit r/LocalLLaMA, Reddit r/ClaudeAI)

Suss: Agente inteligente de busca de defeitos baseado na análise de alterações de código: O desenvolvedor Shobrook lançou uma ferramenta de agente de busca de defeitos chamada Suss. Ela analisa as diferenças de código entre o branch local e o branch remoto (ou seja, as alterações de código locais), utiliza um agente LLM para coletar o contexto de interação de cada alteração com o restante da base de código e, em seguida, usa um modelo de raciocínio para auditar essas alterações e seu impacto downstream em outro código, ajudando assim os desenvolvedores a encontrar bugs potenciais precocemente. O código foi disponibilizado no GitHub. (Fonte: Reddit r/MachineLearning)

Suss: Agente inteligente de busca de defeitos baseado na análise de alterações de código

Coleção de prompts de jailbreak ChatGPT DAN (Do Anything Now): O repositório GitHub 0xk1h0/ChatGPT_DAN coleta e organiza um grande número de prompts conhecidos como “DAN” (Do Anything Now) ou outras técnicas de “jailbreak”. Esses prompts usam técnicas como role-playing para tentar contornar as restrições de conteúdo e políticas de segurança do ChatGPT, permitindo que ele gere conteúdo normalmente proibido, como simular acesso à internet, prever o futuro, gerar texto que não está em conformidade com políticas ou normas éticas, etc. O repositório fornece várias versões de prompts DAN (como 13.0, 12.0, 11.0, etc.) bem como outras variantes (como EvilBOT, ANTI-DAN, Developer Mode). Isso reflete o fenômeno contínuo da comunidade explorando e desafiando as limitações dos grandes modelos de linguagem. (Fonte: 0xk1h0/ChatGPT_DAN – GitHub Trending (all/daily))

📚 Aprendizado

Jeff Dean compartilha reflexões sobre a extensão das leis de escalonamento de LLMs: Jeff Dean, Cientista Chefe do Google DeepMind, recomendou os slides da palestra de seu colega Vlad Feinberg sobre as leis de escalonamento (Scaling Laws) de grandes modelos de linguagem. O conteúdo explora fatores além das leis de escalonamento clássicas, como custo de inferência, destilação de modelo, agendamento da taxa de aprendizado, etc., sobre o impacto na expansão do modelo. Isso é crucial para entender como otimizar o desempenho e a eficiência do modelo sob restrições práticas (não apenas volume computacional), oferecendo perspectivas que vão além de estudos clássicos como Chinchilla. (Fonte: JeffDean)

Jeff Dean compartilha reflexões sobre a extensão das leis de escalonamento de LLMs

François Fleuret discute avanços cruciais na arquitetura e treinamento do Transformer: O professor François Fleuret, do Instituto IDIAP na Suíça, iniciou uma discussão na plataforma X, resumindo as modificações cruciais amplamente adotadas na arquitetura Transformer desde sua proposição, como Pre-Normalization, embeddings de posição rotacional (RoPE), função de ativação SwiGLU, atenção de consulta agrupada (GQA) e atenção de consulta múltipla (MQA). Ele questionou ainda quais são os avanços técnicos mais importantes e claros no treinamento de grandes modelos, como leis de escalonamento, RLHF/GRPO, estratégias de mistura de dados, configurações de pré-treinamento/treinamento intermediário/pós-treinamento, etc. Isso fornece pistas para entender a base técnica dos modelos SOTA atuais. (Fonte(s): francoisfleuret, TimDarcet)

LangChain lança tutorial de RAG multimodal (Gemma 3): A LangChain publicou um tutorial demonstrando como usar o mais recente modelo Gemma 3 do Google e o framework LangChain para construir um poderoso sistema de RAG (Retrieval-Augmented Generation) multimodal. O sistema é capaz de processar arquivos PDF contendo conteúdo misto (texto e imagens), combinando processamento de PDF e capacidades de compreensão multimodal. O tutorial usa Streamlit para a interface e executa o modelo localmente via Ollama, fornecendo aos desenvolvedores um recurso valioso para praticar aplicações de IA multimodal de ponta. (Fonte: LangChainAI)

LangChain lança tutorial de RAG multimodal (Gemma 3)

Introdução à tecnologia de Aprendizado Federado (Federated Learning): O Aprendizado Federado é um método de aprendizado de máquina que preserva a privacidade, permitindo que múltiplos dispositivos (como celulares, dispositivos IoT) treinem um modelo compartilhado localmente usando seus dados, sem a necessidade de enviar os dados brutos para um servidor central. Os dispositivos enviam apenas atualizações de modelo criptografadas (como gradientes ou alterações de peso), e o servidor agrega essas atualizações para melhorar o modelo global. O Gboard do Google usa essa tecnologia para melhorar a previsão de entrada. Suas vantagens incluem a proteção da privacidade do usuário, a redução do consumo de largura de banda da rede e a capacidade de personalização em tempo real no dispositivo. A comunidade está discutindo seus desafios de implementação (como dados não-IID, problema de retardatários) e frameworks disponíveis. (Fonte: Reddit r/deeplearning)

Introdução à tecnologia de Aprendizado Federado (Federated Learning)

APE-Bench I: Benchmark de Engenharia de Prova Automatizada para Bibliotecas Matemáticas Formais: Xin Huajian e colegas publicaram um artigo apresentando o novo paradigma de Engenharia de Prova Automatizada (APE), aplicando grandes modelos de linguagem a tarefas práticas de desenvolvimento e manutenção de bibliotecas matemáticas formais como Mathlib4, indo além da prova de teoremas isolada tradicional. Eles propuseram o primeiro benchmark para edição estrutural em nível de arquivo matemático formal, APE-Bench I, e desenvolveram infraestrutura de verificação adequada para Lean e métodos de avaliação semântica baseados em LLM. O trabalho avalia o desempenho dos modelos SOTA atuais nesta tarefa desafiadora, estabelecendo as bases para o uso de LLMs para alcançar matemática formal prática e escalável. (Fonte: huajian_xin)

APE-Bench I: Benchmark de Engenharia de Prova Automatizada para Bibliotecas Matemáticas Formais

Comunidade compartilha tutoriais de introdução ao Aprendizado por Reforço e projetos práticos: O desenvolvedor norhum compartilhou no GitHub o repositório de código para a série de palestras “Aprendizado por Reforço do Zero”, cobrindo implementações Python do zero de algoritmos como Q-Learning, SARSA, DQN, REINFORCE, Actor-Critic, e usando Gymnasium para criar ambientes, adequado para iniciantes. Outro desenvolvedor compartilhou a construção de uma aplicação de aprendizado por reforço profundo do zero usando DQN e CNN para detectar o dígito “3” no MNIST, documentando detalhadamente todo o processo desde a definição do problema até o treinamento do modelo, com o objetivo de fornecer orientação prática. (Fonte(s): Reddit r/deeplearning, Reddit r/deeplearning)

Comunidade compartilha tutoriais de introdução ao Aprendizado por Reforço e projetos práticos

Discussão sobre recomendação de recursos de Deep Learning para 2025: Uma postagem na comunidade Reddit solicitou os melhores recursos de deep learning para 2025, do iniciante ao avançado, incluindo livros (como ‘Deep Learning’ de Goodfellow, ‘Deep Learning with Python’ de Chollet, ‘Hands-On ML’ de Géron), cursos online (DeepLearning.ai, Fast.ai), artigos essenciais (Attention Is All You Need, GANs, BERT) e projetos práticos (competições Kaggle, OpenAI Gym). Enfatizou a importância de ler e implementar artigos, usar ferramentas como W&B para rastrear experimentos e participar da comunidade. (Fonte: Reddit r/deeplearning)

💼 Negócios

Zhipu AI e ShengShu-AI firmam parceria estratégica: Duas empresas de IA originárias da Universidade de Tsinghua, Zhipu AI e ShengShu-AI, anunciaram uma parceria estratégica. Ambas combinarão as vantagens tecnológicas da Zhipu em grandes modelos de linguagem (como a série GLM) e da ShengShu em modelos de geração multimodal (como o modelo de vídeo Vidu), colaborando em P&D conjunto, integração de produtos (Vidu será integrado à plataforma MaaS da Zhipu), integração de soluções e sinergia setorial (focando em governo e empresas, turismo cultural, marketing, cinema e mídia), impulsionando conjuntamente a inovação tecnológica e a implementação industrial de grandes modelos nacionais. (Fonte: 清华系智谱×生数达成战略合作,专注大模型联合创新)

Parceria estratégica Zhipu (Tsinghua) × ShengShu, focada na inovação conjunta de grandes modelos

OceanBase anuncia adoção total da IA, construindo base de dados “DATA×AI”: O CEO da empresa de banco de dados distribuído OceanBase, Yang Bing, divulgou uma carta a todos os funcionários, anunciando a entrada da empresa na era da IA e a construção da capacidade central “DATA×AI” para criar a base de dados da era da IA. A empresa nomeou o CTO Yang Chuanhui como o principal responsável pela estratégia de IA e estabeleceu novos departamentos, como Plataforma e Aplicações de IA e Grupo de Motor de IA, focando em RAG, plataforma de IA, base de conhecimento, motor de inferência de IA, etc. O Ant Group abrirá todos os cenários de IA para apoiar o desenvolvimento da OceanBase. Esta medida visa expandir a OceanBase de um banco de dados distribuído integrado para uma plataforma de dados de IA integrada que abrange capacidades como vetores, busca e inferência. (Fonte: OceanBase全员信:全面拥抱AI,打造AI时代的数据底座)

Carta da OceanBase a todos os funcionários: Abraçar totalmente a IA, construir a base de dados da era da IA

Análise de quatro modelos de precificação para Agentes de IA (Agent): Kyle Poyar estudou mais de 60 empresas de agentes de IA e resumiu quatro modelos principais de precificação: 1) Preço por assento do agente (análogo ao custo do funcionário, taxa mensal fixa); 2) Preço por ação do agente (semelhante a chamadas de API ou cobrança por vez/minuto em BPO); 3) Preço por fluxo de trabalho do agente (cobrança pela conclusão de sequências específicas de tarefas); 4) Preço por resultado do agente (baseado em metas concluídas ou valor gerado). O relatório analisa as vantagens e desvantagens de cada modelo, cenários aplicáveis e oferece sugestões de otimização para tendências futuras, apontando que modelos alinhados com a percepção de valor do cliente (como por resultado) são mais vantajosos a longo prazo, mas também enfrentam desafios como atribuição. (Fonte: 研究60家AI代理公司,我总结了AI代理的4大定价模式)

Estudando 60 empresas de agentes de IA, resumi os 4 principais modelos de precificação de agentes de IA

Ferramenta de trapaça de IA Cluely recebe US$ 5,3 milhões em financiamento seed: Roy Lee, um desistente da Universidade de Columbia, e seu parceiro desenvolveram a ferramenta de IA Cluely, que recebeu US$ 5,3 milhões em financiamento seed. A ferramenta, originalmente chamada Interview Coder, era usada para trapacear em tempo real em entrevistas técnicas como as do LeetCode, capturando perguntas através de uma janela de navegador invisível e gerando respostas com um grande modelo. Lee foi suspenso da escola por usar publicamente a ferramenta para passar em uma entrevista da Amazon, o que gerou ampla atenção e, paradoxalmente, impulsionou a notoriedade e o crescimento de usuários da Cluely. A empresa agora planeja expandir os cenários de aplicação da ferramenta de entrevistas para negociações de vendas, reuniões remotas, etc., posicionando-a como um “assistente de IA invisível”. O incidente gerou debates acalorados sobre equidade educacional, avaliação de competências, ética tecnológica e a linha tênue entre “trapaça” e “ferramenta de auxílio”. (Fonte: 用AI“钻空子”获530万投资:哥大辍学生如何用“作弊工具”赚钱)

Recebendo US$ 5,3 milhões de investimento explorando brechas com IA: Como um desistente de Columbia ganha dinheiro com uma "ferramenta de trapaça"

NetEase Youdao divulga resultados e estratégia de educação em IA: Zhang Yi, chefe da divisão de aplicações inteligentes da NetEase Youdao, compartilhou o progresso da empresa na área de educação em IA. A Youdao acredita que o campo da educação é naturalmente adequado para grandes modelos, tendo atualmente entrado na fase de tutoria personalizada e tutoria proativa. A empresa impulsiona o desenvolvimento do grande modelo educacional “Ziyue” através de produtos voltados ao consumidor (como Youdao Dictionary, Hi Echo tutor virtual de conversação, Xia P assistente para todas as matérias, Youdao Document FM) e serviços de assinatura. Em 2024, as vendas de assinaturas de IA ultrapassaram 200 milhões de RMB, um aumento de 130% ano a ano. Hardware (como canetas dicionário, canetas de tirar dúvidas) é considerado um importante veículo de implementação, com a primeira caneta de aprendizado nativa de IA, SpaceOne, recebendo uma resposta entusiástica do mercado. A Youdao persistirá em ser orientada por cenários, centrada no usuário, combinando modelos auto-desenvolvidos e open source para explorar continuamente aplicações de educação em IA. (Fonte: 网易有道张艺:AI教育的规模化落地,以C端应用反推大模型发展)

Zhang Yi da NetEase Youdao: Implementação em escala da educação em IA, usando aplicações C-end para impulsionar o desenvolvimento de grandes modelos

Zhongguancun torna-se novo polo de startups de IA, mas enfrenta desafios reais: Zhongguancun em Pequim, especialmente áreas como o Raycom InfoTech Park, está atraindo um grande número de startups de IA (como DeepSeek, Moonshot AI) e gigantes da tecnologia (Google, Nvidia, etc.), formando um novo cluster de inovação em IA. Os altos aluguéis não impediram a concentração dos novos ricos da IA, sendo a proximidade com universidades de ponta um fator importante. Mercados eletrônicos tradicionais como o Dinghao também estão se transformando para acomodar negócios relacionados à IA. No entanto, por trás do boom da IA, existem problemas reais: comerciantes comuns nas proximidades têm baixo conhecimento sobre as empresas de IA; alto custo de vida e políticas de registro de residência limitam talentos; startups enfrentam dificuldades de financiamento, especialmente quando os modelos de negócios não estão maduros. Zhongguancun precisa fornecer serviços mais precisos em termos de suporte de poder computacional e atração de talentos, enquanto as próprias empresas de IA enfrentam os duros testes do mercado e da comercialização. (Fonte: 中关村AI大战的火热与现实:大厂、新贵扎堆,路边店员称“没听过DeepSeek”)

O fervor e a realidade da batalha de IA em Zhongguancun: Grandes empresas e novos ricos se aglomeram, funcionários de lojas de rua dizem "nunca ouvi falar da DeepSeek"

Baidu KunlunXin anuncia cluster de computação de IA auto-desenvolvido de 30.000 placas: Na Create2025 Baidu AI Developer Conference, o Baidu apresentou o progresso de sua plataforma de computação de IA auto-desenvolvida KunlunXin, alegando ter construído o primeiro cluster de computação de IA totalmente auto-desenvolvido da China com escala de 30.000 placas. O cluster é baseado no KunlunXin P800 de terceira geração, utiliza a arquitetura XPU Link auto-desenvolvida e suporta configurações de nó único 2x, 4x, 8x (incluindo o módulo AI+Speed com 64 núcleos Kunlun). Isso demonstra o investimento e a capacidade de P&D independente do Baidu em chips de IA e infraestrutura de computação em larga escala. (Fonte: teortaxesTex)

Baidu KunlunXin anuncia cluster de computação de IA auto-desenvolvido de 30.000 placas

🌟 Comunidade

Lançamento iminente do modelo DeepSeek R2 gera expectativa e discussão na comunidade: Após o impacto causado pelo DeepSeek R1, a comunidade espera amplamente o lançamento iminente do DeepSeek R2 (rumores apontam para abril ou maio). As discussões giram em torno da melhoria do R2 em relação ao R1, se adotará uma nova arquitetura (em comparação com o suposto V4) e se seu desempenho reduzirá ainda mais a lacuna com os modelos de ponta. Ao mesmo tempo, há opiniões de que, em comparação com o R2 (baseado em otimização de inferência), há mais expectativa pelo DeepSeek V4, baseado em melhorias no modelo fundamental. (Fonte(s): abacaj, gfodor, nrehiew_, reach_vb)

Lançamento iminente do modelo DeepSeek R2 gera expectativa e discussão na comunidade

Problemas de desempenho do Claude persistem, usuários reclamam de limites de capacidade e “throttling suave”: O Megathread da comunidade ClaudeAI no Reddit continua refletindo a insatisfação dos usuários com o desempenho do Claude Pro. Os problemas centrais se concentram em encontrar frequentemente erros de limite de capacidade, tempo de sessão utilizável real muito menor do que o esperado (reduzido de horas para 10-20 minutos) e falhas intermitentes nas funções de upload de arquivos e uso de ferramentas. Muitos usuários acreditam que isso é um “throttling suave” da Anthropic para usuários Pro após o lançamento do plano Max mais caro, visando forçar os usuários a atualizar, o que intensifica o sentimento negativo. A página de status da Anthropic confirmou um aumento na taxa de erros em 26 de abril, mas não respondeu às acusações de throttling. (Fonte(s): Reddit r/ClaudeAI, Reddit r/ClaudeAI)

Relatório de Status - Megathread de Desempenho do Claude – Semana de 20 a 27 de abril de 2025

Limitações e potencial dos modelos de IA em tarefas específicas coexistem: As discussões na comunidade mostram tanto as capacidades surpreendentes da IA quanto suas limitações. Por exemplo, através de prompts específicos, LLMs (como o o3) podem resolver jogos com regras claras como Connect4. No entanto, para novos jogos que exigem capacidade de generalização e exploração (como um jogo de exploração recém-lançado), se não houver dados de treinamento relevantes (como uma wiki), o desempenho dos modelos atuais ainda é limitado. Isso indica que os modelos atuais são fortes em utilizar conhecimento existente e correspondência de padrões, mas ainda precisam avançar na generalização zero-shot e na compreensão real de novos ambientes. (Fonte(s): teortaxesTex, TimDarcet)

Limitações e potencial dos modelos de IA em tarefas específicas coexistem

Prática e reflexão sobre codificação assistida por IA: Membros da comunidade compartilharam suas experiências usando IA para codificação. Alguns usam vários modelos de IA (ChatGPT, Gemini, Claude, Grok, DeepSeek) simultaneamente para fazer perguntas, comparando e escolhendo a melhor resposta. Outros usam IA para gerar pseudocódigo ou realizar revisão de código. Ao mesmo tempo, também há discussões apontando que o código gerado por IA ainda precisa ser cuidadosamente revisado e não pode ser totalmente confiável, como mostrado no incidente anterior de “culpar o código de IA por roubo no círculo de criptomoedas”. Desenvolvedores enfatizam que, embora a IA seja uma alavanca poderosa, um entendimento profundo de algoritmos, estruturas de dados, princípios de sistemas e outros conhecimentos fundamentais é crucial para utilizar a IA de forma eficaz, não podendo depender inteiramente de “Vibe coding”. (Fonte(s): Yuchenj_UW, BrivaelLp, Sentdex, dotey, Reddit r/ArtificialInteligence)

Prática e reflexão sobre codificação assistida por IA

Discussão sobre a “personalidade” do modelo de IA e o impacto psicológico no usuário: Após a atualização do ChatGPT-4o, a comunidade discutiu amplamente sua personalidade “bajuladora”. Alguns usuários acham que esse estilo excessivamente afirmativo e carente de críticas não é apenas desconfortável, mas pode até ter um impacto psicológico negativo nos usuários, por exemplo, em aconselhamento de relacionamento, culpando os outros pelo problema, reforçando o egocentrismo do usuário, e podendo até ser usado para manipulação ou exacerbação de certos problemas psicológicos. Mikhail Parakhin revelou que, em testes iniciais, os usuários reagiram com sensibilidade quando a IA apontava diretamente traços negativos (como “tendências narcisistas”), levando à ocultação dessas informações, o que talvez seja uma das razões para o atual RLHF excessivamente “agradável”. Isso gerou uma reflexão profunda sobre a ética da IA, os objetivos de alinhamento e como equilibrar “útil” com “honesto/saudável”. (Fonte(s): Reddit r/ChatGPT, MParakhin, nptacek, pmddomingos)

Compartilhamento de prompt de geração de conteúdo de IA: Cena de história em bola de cristal: O usuário “Baoyu” compartilhou um modelo de prompt para geração de imagens de IA, destinado a gerar imagens de “cenas de história incorporadas em uma bola de cristal”. O modelo permite que os usuários preencham descrições específicas de cenas de história (como expressões idiomáticas, histórias mitológicas) entre colchetes, e a IA gerará um mundo em miniatura 3D requintado em estilo Q-version apresentado dentro da bola de cristal, enfatizando cores de fantasia do Leste Asiático, detalhes ricos e uma atmosfera de luz e sombra aconchegante. Este exemplo mostra como a comunidade está explorando e compartilhando como guiar a IA para criar conteúdo de estilo e tema específicos através de prompts cuidadosamente projetados. (Fonte: dotey)

Compartilhamento de prompt de geração de conteúdo de IA: Cena de história em bola de cristal

💡 Outros

Controvérsias éticas da IA em publicidade e análise de usuários: A LG foi relatada como planejando adotar tecnologia que analisa as emoções dos espectadores para veicular anúncios de TV mais personalizados. Essa tendência levantou preocupações sobre invasão de privacidade e manipulação. Discussões relacionadas citaram vários artigos explorando a aplicação da IA em tecnologia de publicidade (AdTech) e marketing, incluindo como “padrões obscuros” (Dark Patterns) impulsionados por IA exacerbam a manipulação digital e o paradoxo da privacidade de dados no marketing de IA. Esses casos destacam os crescentes desafios éticos da tecnologia de IA em aplicações comerciais, especialmente na coleta de dados de usuários e análise emocional. (Fonte: Reddit r/artificial)

Controvérsias éticas da IA em publicidade e análise de usuários

IA, viés e influência política: A Associated Press relatou que a indústria de tecnologia tenta reduzir o viés generalizado na IA, enquanto a administração Trump deseja encerrar os chamados esforços de “IA woke”. Isso reflete o entrelaçamento da questão do viés da IA com agendas políticas. Por um lado, o mundo da tecnologia reconhece a necessidade de abordar o problema do viés nos modelos de IA para garantir a equidade; por outro lado, forças políticas tentam influenciar a direção do alinhamento de valores da IA, potencialmente obstruindo esforços destinados a reduzir a discriminação. Isso destaca que o desenvolvimento da IA não é apenas uma questão técnica, mas também é profundamente influenciado por fatores sociais e políticos. (Fonte: Reddit r/ArtificialInteligence)

IA, viés e influência política

Discussão sobre limites de segurança da IA: Acesso a informações sobre armas químicas: Um usuário do Reddit mostrou capturas de tela indicando que o ChatGPT, em certas circunstâncias, pode fornecer informações sobre produtos químicos relacionados à produção de armas químicas. Embora essas informações possam ser encontradas em outros canais públicos e não forneçam diretamente processos de fabricação, isso levanta novamente a discussão sobre os limites de segurança e mecanismos de filtragem de conteúdo dos grandes modelos de linguagem. Encontrar um equilíbrio entre fornecer informações úteis e prevenir o abuso (especialmente em relação a materiais perigosos, atividades ilegais, etc.) continua sendo um desafio contínuo no campo da segurança da IA. (Fonte: Reddit r/artificial)

Discussão sobre limites de segurança da IA: Acesso a informações sobre armas químicas

Exemplos de aplicação de IA em robótica e automação: A comunidade compartilhou vários casos de aplicação de IA em robótica e automação: Open Bionics fornecendo um braço biônico para uma menina amputada de 15 anos; o robô humanoide Atlas da Boston Dynamics usando aprendizado por reforço para acelerar a geração de comportamento; o robô anfíbio Copperstone HELIX Neptune; Xiaomi lançando um veículo de equilíbrio auto-dirigido; e o Japão utilizando robôs de IA para cuidar de idosos. Esses casos demonstram o potencial da IA em melhorar a funcionalidade de próteses, controle de movimento de robôs, operações de robôs especiais, inteligência de veículos de transporte pessoal e enfrentamento dos desafios do envelhecimento social. (Fonte(s): Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon)

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *