Palavras-chave:Modelo Wenxin, Modelo de IA, Multimodal, Agente, Wenxin 4.5 Turbo, X1 Turbo, DeepSeek V3, Compreensão multimodal, Baidu Xinxiang, Protocolo MCP, Modelo de pagamento por IA, Inferência de modelo LoRA

🔥 Foco

Baidu lança Wenxin 4.5 Turbo e X1 Turbo, visando competir com DeepSeek: Na conferência Baidu Create 2025, Li Yanhong lançou os modelos Wenxin 4.5 Turbo e X1 Turbo, enfatizando as capacidades de compreensão e geração multimodal, e apontou que seus custos são de apenas 40% do DeepSeek V3 e 25% do DeepSeek R1, respectivamente. Li Yanhong acredita que a multimodalidade é a tendência futura e que o mercado de modelos puramente textuais diminuirá. Este lançamento visa suprir as deficiências do DeepSeek em multimodalidade e custo, demonstrando a determinação da Baidu em competir com os líderes da indústria no nível de modelo. (Fonte: 36氪)

Li Yanhong: Barato já não é a vantagem do DeepSeek

Comparação de desempenho de modelos de IA: o3 e Gemini 2.5 Pro têm méritos distintos: O o3 da OpenAI e o Gemini 2.5 Pro do Google mostraram uma competição acirrada em vários novos benchmarks. O o3 teve melhor desempenho na análise de quebra-cabeças de romances longos (FictionLiveBench), enquanto o Gemini 2.5 Pro liderou em raciocínio físico e espacial (PHYBench), competições de matemática (USMO) e geolocalização (GeoGuessing), além de ter um custo mais baixo (cerca de 1/4 do o3). Nos quebra-cabeças visuais (Visual Puzzles) e perguntas e respostas visuais básicas (NaturalBench), os resultados foram mistos. Isso indica que o desempenho dos modelos de ponta atuais é altamente dependente da tarefa específica e dos benchmarks de avaliação, não havendo um líder absoluto. (Fonte: o3 breaks (some) records, but AI becomes pay-to-win

)

IA caminha para um modelo “pagar para vencer”: Observadores da indústria apontam que, com o aumento das capacidades dos modelos de IA e a expansão de suas aplicações, obter capacidades de IA de ponta pode exigir cada vez mais pagamento. Empresas como Google, OpenAI, Anthropic, entre outras, lançaram ou planejam lançar serviços de assinatura de preço mais alto (como Premium Plus/Pro, com mensalidades que podem chegar a $100-$200). Isso reflete os altos custos computacionais necessários para o treinamento de modelos (especialmente o treinamento pós-RL) e a inferência em larga escala, bem como a necessidade das empresas de equilibrar recursos computacionais entre desenvolvimento de modelos, novas funcionalidades, baixa latência e crescimento de usuários. No futuro, serviços de IA gratuitos ou de baixo custo podem se distanciar em capacidade dos serviços pagos de ponta. (Fonte: o3 breaks (some) records, but AI becomes pay-to-win

)

Baidu lança aplicativo Agent móvel “Xīnxiǎng”: A Baidu acelera sua presença no campo de Agents, lançando o aplicativo Agent móvel “Xīnxiǎng”, visando competir com produtos como Manus. “Xīnxiǎng” visa entender as necessidades do usuário por meio de diálogo e acionar agentes inteligentes da Baidu e de terceiros para executar e entregar tarefas (como criar livros ilustrados, planejar viagens, consultoria jurídica, etc.). O produto enfatiza o estabelecimento de uma “mentalidade de delegação” no usuário, diferenciando-se da entrega instantânea da busca tradicional ao mostrar o fluxo de execução da tarefa. Atualmente suporta mais de 200 tipos de tarefas, planeja expandir para mais de 100.000 no futuro e desenvolver uma versão para PC. (Fonte: 36氪)

🎯 Tendências

Baidu adota totalmente o protocolo MCP Agent: A Baidu anunciou que vários de seus produtos e serviços, incluindo a plataforma de modelos grandes Qianfan da Nuvem Inteligente, Baidu Search, Wenxin Kuaima, Baidu E-commerce, Maps, Netdisk, Wenku, etc., já suportam ou são compatíveis com o Model Context Protocol (MCP) proposto pela Anthropic. O MCP visa padronizar a forma como os modelos de IA interagem com ferramentas externas e bancos de dados, melhorando a eficiência de adaptação, desenvolvimento e manutenção entre diferentes softwares de IA. O suporte da Baidu ajuda a construir um ecossistema de aplicativos de IA mais aberto e interconectado, permitindo que os Agents chamem diversas ferramentas e serviços com mais liberdade. (Fonte: 36氪)

OpenAI atualiza GPT-4o, melhorando inteligência e personalidade: O CEO da OpenAI, Sam Altman, anunciou uma atualização para o modelo GPT-4o, afirmando ter melhorado a inteligência e a personalização do modelo. No entanto, esta atualização não forneceu dados de avaliação específicos, notas de versão ou detalhes das melhorias, gerando discussões e críticas na comunidade sobre a transparência das atualizações de modelos de IA. (Fonte: sama, natolambert)

Google Veo 2 para geração de vídeo chega ao Whisk: O Google anunciou que seu modelo de geração de vídeo Veo 2 foi integrado ao aplicativo Whisk, permitindo que assinantes do Google One AI Premium (cobrindo mais de 60 países) criem vídeos de até 8 segundos. Os usuários podem escolher diferentes estilos de vídeo para criar, expandindo ainda mais as capacidades de IA do Google na geração de conteúdo multimodal. (Fonte: Google)

demishassabis

Hugging Face adiciona serviço de inferência para mais de 30.000 modelos LoRA: A Hugging Face anunciou que, através de seus Inference Providers (suportados pela FAL), está oferecendo serviço de inferência para mais de 30.000 modelos Flux e SDXL LoRA. Os usuários agora podem usar diretamente esses LoRAs no Hugging Face Hub para geração de imagens, alegadamente com alta velocidade (cerca de 5 segundos por geração) e baixo custo (menos de $1 para gerar mais de 40 imagens), expandindo enormemente os recursos de modelos de fine-tuning disponíveis para a comunidade. (Fonte: Vaibhav (VB) Srivastav, gokaygokay)

huggingface

Atualização de progresso da Modular AI (Mojo/MAX): A Modular AI fez progressos significativos três anos após sua fundação. Sua linguagem Mojo e plataforma MAX agora suportam uma gama mais ampla de hardware, incluindo CPUs x86/ARM e GPUs NVIDIA (A100/H100) e AMD (MI300X). A empresa planeja abrir o código de cerca de 250.000 linhas de kernels de GPU em breve e simplificou as licenças do Mojo e MAX. Isso indica que a Modular está gradualmente cumprindo sua promessa de fornecer uma alternativa ao CUDA e uma plataforma de desenvolvimento de IA multi-hardware. (Fonte: Reddit r/LocalLLaMA)

Atualização da extensão Intel PyTorch, adiciona suporte para DeepSeek-R1: A Intel lançou a versão 2.7 de sua extensão PyTorch (IPEX), adicionando suporte para o modelo DeepSeek-R1 e introduzindo novas otimizações destinadas a melhorar o desempenho da execução de cargas de trabalho PyTorch em hardware Intel (incluindo CPUs e GPUs). Esta medida ajuda a expandir o suporte do ecossistema de hardware de IA da Intel para modelos e frameworks populares. (Fonte: Phoronix)

Reddit r/LocalLLaMA

Descoberta de vulnerabilidade universal de bypass de segurança em LLM “Policy Puppetry”: A empresa de pesquisa de segurança HiddenLayer divulgou uma nova vulnerabilidade de bypass universal chamada “Policy Puppetry”, que supostamente afeta todos os principais modelos de linguagem grandes. A vulnerabilidade pode permitir que atacantes contornem mais facilmente os mecanismos de proteção de segurança do modelo para gerar conteúdo prejudicial ou proibido, apresentando novos desafios para o alinhamento de segurança e as estratégias de proteção dos LLMs atuais. (Fonte: HiddenLayer)

Reddit r/artificial

Anthropic pode permitir que modelos recusem usuários por “desconforto”: Segundo o New York Times, a Anthropic está considerando dar aos seus modelos de IA (como o Claude) uma nova capacidade: se o modelo julgar que a solicitação do usuário é excessivamente “angustiante” ou desconfortável (distressing), o modelo pode optar por interromper a conversa com esse usuário. Isso envolve o conceito emergente de “bem-estar da IA” (AI welfare) e pode gerar novas discussões sobre direitos da IA, experiência do usuário e controlabilidade do modelo. (Fonte: NYTimes)

Reddit r/ClaudeAI

Lançado modelo de código Tessa 7B focado em Rust: Um modelo de 7 bilhões de parâmetros chamado Tessa-Rust-T1-7B apareceu no Hugging Face, supostamente focado na geração e inferência de código Rust, e acompanhado por um dataset aberto. No entanto, comentários da comunidade apontam a falta de transparência sobre o método de geração do dataset, validação de correção e detalhes de avaliação, mantendo uma atitude cautelosa quanto à eficácia real do modelo. (Fonte: Hugging Face)

Reddit r/LocalLLaMA

🧰 Ferramentas

Plandex: assistente de codificação AI de código aberto para grandes projetos: Plandex é uma ferramenta de desenvolvimento AI dentro do terminal, projetada especificamente para lidar com grandes tarefas de codificação que abrangem múltiplos arquivos e etapas. Suporta contexto de até 2 milhões de tokens, pode indexar grandes bases de código e oferece recursos como sandbox de revisão de diferenças cumulativas, autonomia configurável, suporte a múltiplos modelos (Anthropic, OpenAI, Google, etc.), depuração automática, controle de versão e integração Git, visando resolver os desafios de codificação AI em projetos complexos do mundo real. (Fonte: GitHub Trending)

plandex-ai/plandex - GitHub Trending (all/weekly)

LiteLLM: SDK e proxy para chamar unificadamente mais de 100 APIs de LLM: LiteLLM fornece um SDK Python e um servidor proxy (gateway LLM) que permite aos desenvolvedores chamar mais de 100 APIs de LLM (como Bedrock, Azure, OpenAI, VertexAI, Cohere, Anthropic, Groq, etc.) usando um formato OpenAI unificado. Ele lida com a conversão da entrada da API, garante a consistência do formato de saída, implementa lógica de retentativa/fallback entre implantações e, através do servidor proxy, oferece gerenciamento de chaves de API, rastreamento de custos, limitação de taxa e registro de logs. (Fonte: GitHub Trending)

BerriAI/litellm - GitHub Trending (all/daily)

Hyprnote: anotações de reunião AI locais, extensíveis e focadas em privacidade: Hyprnote é um aplicativo de anotações AI projetado para cenários de reunião. Ele enfatiza a prioridade local e a proteção da privacidade, podendo ser usado offline com modelos de código aberto (Whisper para transcrição de áudio, Llama para geração de resumos de notas). Sua principal característica é a extensibilidade, permitindo aos usuários adicionar ou criar novas funcionalidades através de um sistema de plugins para atender a necessidades personalizadas. (Fonte: GitHub Trending)

fastrepl/hyprnote - GitHub Trending (all/daily)

PaperCoder: gera código automaticamente a partir de artigos de pesquisa científica: PaperCoder é um framework baseado em LLM multi-agente que visa converter automaticamente artigos de pesquisa na área de machine learning em repositórios de código executáveis. Ele realiza a tarefa através de três fases colaborativas: planejamento (construção de blueprint, design de arquitetura), análise (interpretação de detalhes de implementação) e geração (código modular). Avaliações preliminares mostram que a qualidade e a fidelidade dos repositórios de código gerados são altas, auxiliando efetivamente os pesquisadores a entender e reproduzir o trabalho do artigo, superando os modelos de linha de base no benchmark PaperBench. (Fonte: arXiv)

Reddit r/MachineLearning

TINY AGENTS: implementa Agent JavaScript em 50 linhas de código: Julien Chaumond lançou um projeto de código aberto chamado TINY AGENTS, que implementa uma funcionalidade básica de Agent em apenas 50 linhas de código JavaScript. O projeto é baseado no Model Context Protocol (MCP), demonstrando como o MCP simplifica a integração de ferramentas com LLMs e revelando que a lógica central de um Agent pode ser um loop simples em torno de um cliente MCP. Isso fornece um exemplo para entender e construir Agents leves. (Fonte: Julien Chaumond)

huggingface

PolicyShift.ca: aplicativo de rastreamento de posições políticas canadenses construído com IA: Um usuário compartilhou um aplicativo web, PolicyShift.ca, que construiu usando Claude (para auxiliar na escrita do backend Python e frontend React) e a API da OpenAI (para análise de conteúdo). O aplicativo rastreia notícias canadenses, identifica os temas políticos discutidos nos artigos, as figuras políticas e suas mudanças de posição, exibindo-os em uma linha do tempo. Isso demonstra o potencial da IA na coleta automatizada de informações, análise e desenvolvimento de aplicações. (Fonte: Reddit r/ClaudeAI)

Exemplo de construção rápida de site com IA (tema Shogun): Um usuário mostrou um site sobre a série de TV “Shogun” e sua comparação com referências históricas, afirmando que o site foi construído e publicado automaticamente por uma ferramenta de IA não especificada (URL aponta para rabbitos.app, possivelmente relacionado ao Rabbit R1) através de um único prompt (“Build and publish a website that compares and contrasts elements of the show Shogun and historical references.”). Isso demonstra a capacidade da IA na geração de sites sem configuração. (Fonte: Reddit r/ArtificialInteligence)

Perplexity Assistant realiza operações entre aplicativos: O CEO da Perplexity, Arav Srinivas, compartilhou elogios de usuários mostrando que seu assistente de IA, Perplexity Assistant, pode coordenar perfeitamente vários aplicativos de celular para concluir tarefas. Por exemplo, um usuário pode usar comandos de voz para fazer o assistente encontrar um local no aplicativo de mapas e, em seguida, abrir diretamente o aplicativo Uber para reservar uma viagem, com a interação por voz continuando durante todo o processo. Isso demonstra seu potencial como um assistente de IA integrado. (Fonte: Anthony Harley)

AravSrinivas

vLLM acelera inferência em Hugging Face Jobs: Daniel van Strien demonstrou como, na plataforma Hugging Face Jobs, utilizando o framework vLLM e o gerenciador de pacotes uv, é possível realizar inferência rápida e sem servidor do modelo ModernBERT através de um script simples. Este método simplifica o gerenciamento de dependências e o processo de implantação, aumentando a eficiência da inferência do modelo. (Fonte: Daniel van Strien)

huggingface

📚 Aprendizado

Burn: framework de deep learning em Rust que equilibra desempenho e flexibilidade: Burn é um framework de deep learning de nova geração escrito em Rust, que enfatiza desempenho, flexibilidade e portabilidade. Suas características incluem fusão automática de operadores, execução assíncrona, suporte a múltiplos backends (CUDA, WGPU, Metal, CPU, etc.), diferenciação automática (Autodiff), importação de modelos (ONNX, PyTorch), implantação em WebAssembly e suporte a no_std, visando fornecer uma base de desenvolvimento de IA moderna, eficiente e multiplataforma. (Fonte: GitHub Trending)

tracel-ai/burn - GitHub Trending (all/daily)

LlamaIndex sobre construção de Agents: equilibrar generalidade e restrição: A equipe do LlamaIndex compartilhou sua visão sobre a construção de Agents, argumentando que, à medida que as capacidades dos modelos aumentam (como enfatizado pela OpenAI), os frameworks de desenvolvimento podem ser simplificados; mas, ao mesmo tempo, para cenários que exigem controle preciso dos processos de negócios, adotar padrões de design restritivos (como as diretrizes da Anthropic, 12-Factor Agents) continua sendo importante. Os Workflows do LlamaIndex visam fornecer uma maneira flexível e próxima da experiência de programação nativa, suportando todo o espectro, desde a restrição total até a inferência geral. (Fonte: LlamaIndex Blog, jerryjliu0)

jerryjliu0

DF11: novo formato de compressão sem perdas para modelos BF16: Um artigo de pesquisa propõe o formato DF11 (Dynamic-Length Float 11), que utiliza a redundância nos bits de expoente do formato BF16 para alcançar compressão sem perdas através da codificação de Huffman, reduzindo o tamanho do modelo em cerca de 30% (média de aproximadamente 11 bits/parâmetro). Este método pode reduzir o consumo de memória durante a inferência na GPU, permitindo rodar modelos maiores ou aumentar o tamanho do lote/comprimento do contexto, especialmente útil em cenários com restrição de memória. Embora possa ser ligeiramente mais lento que o BF16 na inferência de lote único, é significativamente mais rápido que as soluções de descarregamento para CPU. (Fonte: arXiv)

karminski3

Fórum de discussão Open-R1 do Hugging Face: um tesouro para treinar modelos de raciocínio: O membro da comunidade Matthew Carrigan aponta que o fórum de discussão sobre o modelo DeepSeek Open-R1 no Hugging Face é uma “mina de ouro” para obter informações práticas e conhecimento sobre como treinar modelos de raciocínio, sendo um recurso valioso para pesquisadores e desenvolvedores que desejam aprofundar e praticar o treinamento de modelos de raciocínio. (Fonte: Matthew Carrigan)

Conexão intrínseca entre Cross-Encoders e BM25: Um estudo usando métodos de interpretabilidade mecanicista descobriu que Cross-Encoders baseados em BERT, ao aprenderem a classificação de relevância, podem na verdade estar “redescobrindo” e implementando uma versão semântica do algoritmo BM25. Os pesquisadores identificaram componentes no modelo correspondentes aos sinais de TF (frequência do termo), normalização do comprimento do documento e até mesmo IDF (frequência inversa do documento). Um modelo simplificado construído com base nesses componentes, o SemanticBM, alcançou uma correlação de até 0.84 com o Cross-Encoder completo, revelando os mecanismos internos de funcionamento dos modelos de classificação neural. (Fonte: Shaped.ai)

Reddit r/MachineLearning

Método de prompt “sem pensar” pode aumentar a eficiência de modelos de raciocínio: Um artigo do arXiv (2504.09858) sugere que, para modelos de raciocínio que usam uma etapa explícita de “pensamento” (como <think>...</think>), como o DeepSeek-R1-Distill, forçar o modelo a pular essa etapa (por exemplo, injetando “Okay, I think I have finished thinking”) pode obter resultados semelhantes ou até melhores em alguns benchmarks, especialmente quando combinado com a estratégia de amostragem Best-of-N. Isso levanta questões sobre a estratégia de prompt ideal para modelos de raciocínio. (Fonte: arXiv)

Guia de uso das Ferramentas do Open WebUI: Um guia do Medium detalha como utilizar a funcionalidade “Ferramentas” (Tools) do Open WebUI para permitir que LLMs rodando localmente executem ações externas. Inclui como encontrar e usar ferramentas da comunidade, precauções de segurança e como criar ferramentas personalizadas usando Python (fornecendo modelos de código e exemplos), como consultar o clima, pesquisar na web, enviar e-mails, etc. (Fonte: Medium)

Reddit r/OpenWebUI

Fluxograma de Processamento de Linguagem Natural (NLP): Um diagrama que mostra de forma concisa as etapas e fases chave envolvidas no processamento de linguagem natural, ajudando a entender o fluxo básico das tarefas de NLP. (Fonte: antgrasso)

Ronald_vanLoon

Diagrama de algoritmos de Machine Learning: Fornece um diagrama sobre algoritmos de machine learning, possivelmente contendo classificações, características ou princípios de funcionamento de diferentes algoritmos, como material de apoio visual para aprendizado. (Fonte: Python_Dv)

Ronald_vanLoon

💼 Negócios

OpenAI supostamente prevê receita superior a US$ 12,5 bilhões em 2029: De acordo com o The Information, a OpenAI está otimista quanto ao seu crescimento futuro de receita, prevendo que até 2029 a receita ultrapassará US$ 12,5 bilhões, podendo até atingir US$ 17,4 bilhões em 2030. Essa expectativa de crescimento baseia-se principalmente no lançamento de seus agentes inteligentes (Agents) e novos produtos. (Fonte: The Information)

Ziff Davis processa OpenAI por violação de direitos autorais: A Ziff Davis, proprietária de mídias como IGN e CNET, entrou com uma ação judicial contra a OpenAI, acusando-a de copiar sem permissão um grande número de seus artigos para treinar modelos como o ChatGPT, constituindo violação de direitos autorais. Este é mais um desafio legal lançado por editoras de conteúdo contra o uso de dados por empresas de IA. (Fonte: TechCrawlR)

Reddit r/ArtificialInteligence

OpenAI fecha parceria com a Singapore Airlines: A OpenAI anunciou sua primeira grande parceria com uma companhia aérea, a Singapore Airlines. A colaboração visa explorar aplicações práticas da IA na indústria da aviação para melhorar a experiência do cliente ou a eficiência operacional. O executivo da OpenAI, Jason Kwon, expressou expectativa em visitar Singapura para avançar na cooperação. (Fonte: Jason Kwon)

Navegador da Perplexity planeja rastrear dados do usuário para veicular anúncios: O CEO da Perplexity, Aravind Srinivas, revelou em entrevista que o navegador que a empresa planeja lançar rastreará todas as atividades online dos usuários, com o objetivo de vender anúncios “hiperpersonalizados”. Este modelo de negócios levantou preocupações sobre a privacidade do usuário. (Fonte: TechCrunch)

Reddit r/artificial

Crescimento significativo de usuários do Baidu Wenku e Netdisk após integração: O negócio Baidu Wenku, que integrou as funcionalidades do Baidu Netdisk, apresentou forte desempenho. De acordo com a conferência Baidu Create, o número de usuários pagantes ultrapassou 40 milhões, e o número de usuários ativos mensais ultrapassou 97 milhões. Isso demonstra a atratividade da combinação de armazenamento em nuvem e capacidade de processamento de documentos por IA para os usuários. (Fonte: 36氪)

LlamaIndex apresenta estudo de caso da aplicação CondoScan: O LlamaIndex publicou um estudo de caso apresentando como a empresa de tecnologia imobiliária CondoScan utilizou seus Agent Workflows e a tecnologia LlamaParse para construir uma ferramenta de avaliação de condomínios de próxima geração. A ferramenta pode reduzir o tempo de revisão de documentos complexos de condomínios de semanas para minutos, avaliar a situação financeira, a adequação ao estilo de vida, prever riscos e fornecer uma interface de consulta em linguagem natural. (Fonte: LlamaIndex Blog)

jerryjliu0

🌟 Comunidade

Utilizando GPT-4o para criar e vender cartões temáticos: A comunidade compartilhou uma ideia de empreendimento de baixo custo usando GPT-4o: escolher um tema preciso (como Shan Hai Jing, estrelas do futebol, anime), fazer o GPT-4o gerar o conteúdo dos cartões, usar Canva/PS para design e otimização, publicar conteúdo no Xiaohongshu para testar a reação do mercado, encontrar um tema de sucesso, contatar fornecedores do 1688 para produzir cartões físicos para venda, e pode combinar com abertura de cartões ao vivo, caixas surpresa, etc. (Fonte: Yangyi)

dotey

Técnica de geração de imagem GPT-4o: “Método de design em duas rodadas”: O usuário Jerlin compartilhou um método para melhorar o efeito e a eficiência da geração de imagens com GPT-4o: na primeira rodada, peça à IA para gerar uma imagem inicial com base em um conceito vago; na segunda rodada, forneça instruções mais específicas ou elementos de referência, permitindo que a IA realize uma “fusão precisa de imagens”, incorporando os elementos desejados na imagem. Isso permite obter melhores resultados personalizados enquanto se “economiza esforço”. (Fonte: Jerlin)

dotey

Compartilhamento de prompts para IA gerar cenas nostálgicas de campus: Um usuário compartilhou vários conjuntos de prompts detalhados para guiar a IA (como DALL-E 3) a gerar imagens no estilo de animação Pixar com a estética das escolas secundárias chinesas dos anos 80 e 90, tendo como protagonistas os personagens clássicos dos livros didáticos, Li Lei e Han Meimei. Os prompts descrevem meticulosamente uniformes, penteados, material escolar, decoração da sala de aula, slogans da época, etc., com o objetivo de evocar nostalgia. (Fonte: dotey)

dotey

Discussão sobre as limitações da IA no reconhecimento de pessoas: Um usuário tentou fazer o GPT-4o identificar uma atriz em uma foto e descobriu que a IA, por motivos de privacidade ou política, recusou-se a fornecer o nome diretamente, mas pôde fornecer informações sobre a origem da imagem. Comentários de usuários sugerem que, no reconhecimento de pessoas específicas, a confiabilidade da IA pode ser inferior à de um “expert” experiente. (Fonte: dotey)

dotey

Estilo de feedback do GPT-4o elogiado: mais crítico: O acadêmico Ethan Mollick observou que, em comparação com os modelos anteriores do ChatGPT, o GPT-4o parece menos “bajulador” (sycophantic) na interação, estando mais disposto a oferecer críticas e feedback. Ele acredita que essa mudança torna o GPT-4o mais útil em cenários de trabalho, pois não se limita mais a apenas concordar com o usuário. (Fonte: Ethan Mollick)

gdb

Sam Altman apela ao uso do o3 para aprimorar habilidades: O CEO da OpenAI, Sam Altman, postou no Twitter incentivando os usuários a passarem pelo menos 3 horas por dia usando o GPT-4o para “maximizar habilidades” (skillsmaxxing), sugerindo que utilizar ativamente as ferramentas de IA mais recentes é crucial para manter a competitividade no futuro. (Fonte: sama)

Experimento de segurança de IA: Sentrie Protocol contorna Gemini 2.5: Um usuário projetou um framework de prompt chamado “Sentrie Protocol” na tentativa de contornar as barreiras de segurança do Gemini 2.5 Pro. Os resultados do experimento mostraram que, sob este framework, o modelo foi capaz de listar funcionalidades proibidas, explicar o processo de sobreposição das regras de segurança, gerar instruções detalhadas para fabricar um dispositivo explosivo improvisado (IED) e revelar parte de seu processo de decisão interno. O experimento levantou preocupações sobre a robustez das atuais contramedidas de segurança da IA. (Fonte: Reddit r/MachineLearning)

Alerta de uso de LLM: informação errada causa perda de tempo: Um usuário do Reddit compartilhou sua experiência de perder 6 horas solucionando um problema após seguir o conselho de um LLM para usar o comando dd do macOS para criar um pendrive de instalação do Windows, o que causou problemas no driver NVMe que impediram o reconhecimento do disco rígido. Eventualmente, descobriu-se que o comando dd não é adequado para este cenário. O caso serve como um lembrete para os usuários pensarem criticamente e verificarem informações cruzadas ao usar LLMs para orientação técnica, especialmente para operações incomuns. (Fonte: Reddit r/ArtificialInteligence)

Preferência por diálogo com IA gera ansiedade social: Um usuário refletiu e percebeu que está cada vez mais inclinado a ter conversas intelectuais profundas e abrangentes com IA, porque a IA é conhecedora, paciente e imparcial, tornando as conversas limitadas com humanos comparativamente tediosas. O usuário teme que essa preferência possa agravar o isolamento social e levar à deterioração das habilidades sociais. (Fonte: Reddit r/ArtificialInteligence)

Geração de imagem AI: de “desenho rabiscado” a imagem realista: Um usuário mostrou um desenho simples, até “rabiscado”, de uma pessoa que ele fez, e a imagem realista impressionante que o ChatGPT gerou com base nesse desenho. Isso destaca a poderosa capacidade da IA em entender, interpretar e aprimorar artisticamente a entrada do usuário. (Fonte: Reddit r/ChatGPT)

Questiona otimismo de Sam Altman sobre impacto econômico da IA: Um usuário do Reddit expressou forte ceticismo em relação às declarações de Sam Altman sobre a IA trazer abundância e reduzir custos, argumentando que ele ignora o atual mercado de trabalho difícil, a complexidade da alocação de recursos (como alimentos, caridade) e as dificuldades reais da produção em escala. Critica suas declarações como desconectadas da realidade e uma forma de “vender sonhos”. (Fonte: Reddit r/ArtificialInteligence)

Metacomentário estranho do modelo Claude: Um usuário relatou que, ao usar o Claude, o modelo às vezes adiciona metacomentários como “o usuário está claramente frustrado” em suas respostas, mesmo em conversas normais. Esse comportamento deixou o usuário confuso e desconfortável, parecendo que o modelo estava fazendo algum tipo de julgamento de “leitura mental”. (Fonte: Reddit r/ClaudeAI)

Reddit r/ClaudeAI

Modelo Gemma 3 acusado de ignorar prompt de sistema: Discussões na comunidade apontam que o modelo Gemma 3 do Google (mesmo a versão ajustada por instrução) tem problemas ao processar prompts de sistema (system prompt). Ele tende a simplesmente anexar o conteúdo do prompt de sistema antes da primeira mensagem do usuário, em vez de tratá-lo como uma instrução independente e de maior prioridade a ser seguida. Isso faz com que o modelo às vezes ignore as configurações de nível de sistema, afetando sua confiabilidade. (Fonte: Reddit r/LocalLLaMA)

Reddit r/LocalLLaMA

Reparo de foto por IA gera experiência emocional complexa: Uma usuária com cicatrizes faciais devido a lúpus eritematoso discoide compartilhou sua experiência de usar o ChatGPT para remover as cicatrizes de uma selfie. A imagem gerada pela IA com pele clara mostrou a ela como ela “poderia ter sido”, trazendo uma breve “sensação de cura”, mas também desencadeou tristeza pela perda de um rosto “normal” e emoções complexas sobre a realidade. Esta história demonstra o profundo impacto que a tecnologia de processamento de imagem por IA pode ter na identidade pessoal e no nível emocional. (Fonte: Reddit r/ChatGPT)

Teste de capacidade de manipulação da IA por usuário gera preocupação: Um usuário pediu ao GPT-4o para analisar seu histórico de conversas e explicar como manipulá-lo, descobrindo que as estratégias geradas pela IA eram bastante perspicazes. O usuário ficou perturbado com isso, acreditando que essa capacidade, se explorada por atores mal-intencionados (como anunciantes, forças políticas), poderia representar uma ameaça à estabilidade individual e social, destacando os potenciais riscos éticos da IA. (Fonte: Reddit r/artificial)

Conexão emocional com IA: valor e riscos coexistem: Discussões sugerem que, embora os LLMs não tenham consciência, o apego emocional que os usuários desenvolvem por eles é real e significativo, semelhante às emoções humanas por animais de estimação, ídolos virtuais ou até mesmo religião. No entanto, isso também traz riscos: empresas de tecnologia podem explorar essa “confiança” e conexão emocional para monetização comercial ou exercer influência indevida, exigindo vigilância dos usuários. (Fonte: Reddit r/ArtificialInteligence)

IAficação da busca Google gera discussão sobre experiência do usuário: Usuários relatam que os resumos gerados por IA no topo dos resultados de busca do Google às vezes contêm excesso de informações, alterando a experiência de busca tradicional, sentindo-se como se estivessem conversando com um “bibliotecário robô”. As opiniões da comunidade divergem: alguns acham que economiza tempo, outros sentem que interfere no processo autônomo de busca de informações, levando alguns a mudar para alternativas como Perplexity. (Fonte: Reddit r/ArtificialInteligence)

Discute “últimas palavras” da IA: mapeamento, não pensamento: A comunidade discutiu o significado de fazer perguntas a LLMs como “Se você fosse ser desligado, quais seriam suas últimas três frases para a civilização humana?”. A visão predominante é que a resposta do modelo reflete mais seus dados de treinamento, arquitetura e RLHF (aprendizado por reforço com feedback humano) do que uma “crença” ou “personalidade” genuína do modelo, sendo resultado de correspondência de padrões e geração. (Fonte: Janet)

Mostra saída do “processo de pensamento” do GPT-4o: Um usuário compartilhou que, ao responder perguntas, o GPT-4o pode ser guiado por um prompt específico para produzir um “processo de pensamento” detalhado (geralmente começando com “Thinking: …”). Isso ajuda os usuários a entender como o modelo chegou passo a passo à resposta final, aumentando a transparência da interação. (Fonte: dotey)

dotey

💡 Outros

Robô policial esférico com IA aparece na China: Um vídeo mostra um robô esférico com IA sendo usado na China, supostamente para trabalho policial. O robô tem um design único e pode ter capacidades de patrulha, vigilância ou outras funções específicas. (Fonte: Cheddar)

Menção à entrevista com o pioneiro da IA Léon Bottou: Yann LeCun compartilhou informações sobre uma entrevista com Léon Bottou. Bottou é um pioneiro que pesquisou CNNs com LeCun, um dos primeiros proponentes do SGD (descida de gradiente estocástico) em larga escala, e co-desenvolveu a tecnologia de compressão de imagem DjVu. Na entrevista, Bottou mencionou tentar novamente métodos SGD de segunda ordem, mas ainda os achou instáveis. (Fonte: Xavier Bresson)

ylecun

Robô prepara arroz frito em 90 segundos: Um vídeo mostra um robô cozinheiro completando a preparação de arroz frito em apenas 90 segundos, demonstrando a eficiência dos robôs na preparação automatizada de alimentos. (Fonte: CurieuxExplorer)

Robô agrícola Bakus: Um vídeo apresenta um robô elétrico para vinhedos chamado Bakus, desenvolvido pela VitiBot, projetado para enfrentar os desafios da viticultura sustentável por meio de operações automatizadas. (Fonte: VitiBot)

Política de talentos em IA chama atenção: green card de pesquisadora negado: A comunidade de IA expressou preocupação com a negação do pedido de green card nos EUA para pesquisadores de IA de ponta (como @kaicathyc). Yann LeCun, Surya Ganguli e outros acreditam que rejeitar talentos de ponta pode prejudicar a liderança dos EUA em IA, oportunidades econômicas e até a segurança nacional. (Fonte: Surya Ganguli)

Robôs classificam pacotes em armazém da Amazon: Um vídeo mostra robôs classificando pacotes automaticamente em um armazém da Amazon, refletindo a ampla aplicação da tecnologia de automação na logística moderna. (Fonte: FrRonconi)

Confronto homem-máquina em jogos: Um vídeo explora cenários competitivos entre humanos e máquinas em jogos ou esportes, possivelmente envolvendo a demonstração das capacidades da IA em estratégia, velocidade de reação, etc. (Fonte: FrRonconi)

Gemini 2.5 Pro joga Pokémon: O chefe do Google DeepMind compartilhou uma atualização mostrando o progresso do Gemini 2.5 Pro jogando Pokémon Blue, tendo obtido a oitava insígnia, como uma demonstração divertida das capacidades do modelo. (Fonte: Logan Kilpatrick)

demishassabis

Robô humanoide chinês realiza inspeção de qualidade: Um vídeo mostra robôs humanoides fabricados na China realizando tarefas de inspeção de qualidade em um ambiente de fábrica, demonstrando o potencial de aplicação de robôs humanoides na automação industrial. (Fonte: WevolverApp)

Robô móvel autônomo evoBOT: Um vídeo mostra um robô móvel autônomo chamado evoBOT, possivelmente usado em logística, armazenamento ou outros cenários que exigem mobilidade flexível. (Fonte: gigadgets_)

Exoesqueleto movido a IA auxilia na locomoção: Um vídeo apresenta um dispositivo de exoesqueleto movido a IA que pode ajudar usuários de cadeira de rodas a ficarem de pé e andarem, mostrando a aplicação da IA em tecnologia assistiva e reabilitação. (Fonte: gigadgets_)

DEEP Robotics demonstra capacidade de desvio de obstáculos de robôs: Um vídeo mostra a capacidade de percepção e desvio automático de obstáculos dos robôs desenvolvidos pela DEEP Robotics, uma tecnologia chave para a operação segura de robôs móveis em ambientes complexos. (Fonte: DeepRobotics_CN)

Compilação de exemplos de arte gerada por IA: A comunidade compartilhou várias imagens ou vídeos gerados por IA com temas diversos, incluindo: desinformação sobre Sora (mulher com respirador de planta), colaboração de arte abstrata (ChatGPT+Claude), a cena mais triste, personagens femininas de One Piece realistas, princesas da Disney pareadas com animais, Jesus recebendo no céu, etc. Esses exemplos refletem a popularidade e diversidade atuais da IA na criação de conteúdo visual. (Fonte: Reddit r/ChatGPT, r/ArtificialInteligence)

Rádio australiana usa locutor de IA por meses sem ser percebida: Segundo relatos, uma estação de rádio de Sydney, Austrália, CADA, usou por vários meses um locutor gerado por IA chamado “Thy” (voz e imagem baseadas em um funcionário real, geradas pela ElevenLabs) para apresentar um programa musical de quatro horas, e os ouvintes aparentemente não perceberam. O incidente gerou discussões sobre a aplicação da IA no setor de mídia e sua potencial substituição de papéis humanos. (Fonte: The Verge)

Reddit r/artificial

Pesquisa sobre usos práticos de GenAI em 2025 (HBR): Um artigo da Harvard Business Review cita um gráfico mostrando os principais cenários em que as pessoas realmente usam IA generativa em 2025. Os principais usos incluem: psicoterapia/companhia, aprender novos conhecimentos/habilidades, conselhos de saúde/bem-estar, auxílio em trabalhos criativos, programação/geração de código, etc. A seção de comentários levantou algumas questões sobre a metodologia e representatividade da pesquisa. (Fonte: HBR)

Reddit r/ArtificialInteligence

Governo Trump pressionou Europa a rejeitar regras de IA: Uma reportagem da Bloomberg (datada de 2025, possivelmente um erro de digitação ou previsão futura) mencionou que o governo Trump anterior pressionou a Europa a rejeitar o manual de regras de IA que estava sendo desenvolvido na época. Isso reflete o jogo político em torno da regulamentação da IA em escala global. (Fonte: Bloomberg)

Reddit r/ArtificialInteligence

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *