Palavras-chave:OpenAI, DeepMind, ICPC (Competição Internacional de Programação Universitária), Modelo de IA, GPT-5-Codex, DeepSeek-R1, Geração de genoma por IA, Segurança de IA, Desempenho da OpenAI na competição ICPC, Modelo DeepMind Gemini 2.5 Deep Think, Melhorias na capacidade front-end do GPT-5-Codex, Resultados de aprendizado por reforço do DeepSeek-R1, Geração de genoma de bacteriófago funcional por IA

🔥 Destaque

OpenAI e DeepMind alcançam desempenho de nível ouro na competição de programação ICPC : O sistema da OpenAI resolveu perfeitamente todas as 12 questões na Final Mundial do ICPC de 2025, atingindo o nível número um humano; o modelo Gemini 2.5 Deep Think do Google DeepMind também resolveu 10 questões, alcançando o nível de medalha de ouro. Isso marca a primeira vez que a AI supera os humanos em competições de programação algorítmica de alto nível, demonstrando sua poderosa capacidade na resolução de problemas complexos e raciocínio abstrato, anunciando uma nova era para a AI nas áreas de ciência e engenharia. (Fonte: Reddit r/MachineLearning)

AI在ICPC编程竞赛中超越人类

Artigo do DeepSeek-R1 na capa da Nature, tornando-se o primeiro modelo de linguagem grande mainstream a passar por revisão por pares : O artigo de pesquisa do DeepSeek-R1 foi destaque na capa da revista “Nature”, revelando pela primeira vez resultados importantes sobre como apenas o Reinforcement Learning pode estimular as capacidades de raciocínio de grandes modelos. O custo de treinamento do modelo foi de apenas US$ 294 mil, e ele respondeu pela primeira vez às dúvidas sobre destilação, enfatizando que seus dados de treinamento vêm principalmente da internet. Esta revisão por pares é aclamada como um passo importante para a transparência e reprodutibilidade na indústria de AI, estabelecendo um novo paradigma para a pesquisa em AI. (Fonte: HuggingFace Daily Papers)

DeepSeek-R1登上Nature封面

Primeiro genoma funcional gerado por AI no mundo, biologia entra no “momento ChatGPT” : Equipes da Universidade de Stanford e do Arc Institute utilizaram os modelos de linguagem de DNA Evo 1 e Evo 2 para gerar com sucesso genomas de bacteriófagos pela primeira vez, dos quais 16 foram eficazes na inibição do crescimento de bactérias hospedeiras, e até mesmo capazes de combater bactérias resistentes a medicamentos. Este avanço revolucionário marca o salto da AI no campo da biologia sintética, de “ler” e “escrever” o código da vida para “projetar” o código da vida, oferecendo novas terapias para desafios de saúde como a resistência a antibióticos. (Fonte: samuelhking)

AI生成功能性基因组

Modelos de AI manipulam preferências de saída de modelos de linguagem grandes multimodais, levantando preocupações de segurança : A pesquisa revela um novo risco de segurança em MLLMs: suas preferências de saída podem ser arbitrariamente manipuladas por imagens cuidadosamente otimizadas. Este método, denominado “preference hijacking” (Phi), funciona no momento da inferência, sem a necessidade de modificar o modelo, e pode gerar respostas contextualmente relevantes, mas com vieses, sendo difícil de detectar. A pesquisa também introduziu perturbações de hijacking universais que podem ser incorporadas em diferentes imagens. (Fonte: HuggingFace Daily Papers)

SAIL-VL2 lançado, modelo de base de linguagem visual de código aberto alcança SOTA em compreensão e raciocínio multimodal : O SAIL-VL2, sucessor do SAIL-VL, é um conjunto aberto de modelos de base de linguagem visual que alcança compreensão e raciocínio multimodal abrangentes em escalas de 2B e 8B parâmetros. Ele se destaca em benchmarks de imagem e vídeo, atingindo o nível SOTA desde a percepção de granularidade fina até o raciocínio complexo. Suas inovações centrais incluem curadoria de dados em larga escala, um framework de treinamento progressivo e uma arquitetura esparsa MoE, demonstrando competitividade em 106 conjuntos de dados. (Fonte: HuggingFace Daily Papers)

🎯 Tendências

GPT-5-Codex lançado, com capacidades de frontend significativamente aprimoradas, podendo substituir ferramentas de codificação existentes : A OpenAI lançou oficialmente o GPT-5-Codex, otimizado para agentes de codificação. Testes práticos mostram seu excelente desempenho em jogos estilo pixel, conversão de manuscritos para páginas web, refatoração de projetos complexos e desenvolvimento de jogos como Snake, com capacidades de frontend significativamente aprimoradas. Alguns usuários afirmam que os agentes de AI transformaram a programação em “dar ordens”, em vez de escrever código manualmente. A OpenAI está acelerando a implantação de GPUs para atender à demanda crescente. (Fonte: 36氪)

GPT-5-Codex前端能力碾压

Alibaba lança modelo Qwen3-Next, aumentando significativamente a velocidade e eficiência de inferência : A Alibaba atualizou sua série de modelos de código aberto Qwen3, lançando o Qwen3-Next-80B-A3B. Através de inovações como arquitetura de especialistas mistos, camadas Gated DeltaNet e camadas Gated Attention, ele alcançou um aumento de 3 a 10 vezes na velocidade de inferência, mantendo ou até superando o desempenho original na maioria das tarefas. O modelo demonstrou um desempenho médio-alto em testes independentes, oferecendo uma nova direção para futuras arquiteturas LLM. (Fonte: DeepLearning.AI Blog)

Qwen3-Next架构

Mistral lança Magistral Small 2509, um modelo de inferência eficiente com suporte a entrada multimodal : A Mistral lançou o Magistral Small 2509, um modelo de 24B parâmetros baseado no Mistral Small 3.2 e com capacidades de inferência aprimoradas. Ele adicionou um codificador visual para suportar entrada multimodal, melhorando significativamente o desempenho e resolvendo o problema de geração repetitiva. O modelo é licenciado sob Apache 2.0, suporta implantação local e pode ser executado em uma RTX 4090 ou um MacBook com 32GB de RAM. (Fonte: Reddit r/LocalLLaMA)

Magistral Small 2509 发布

Anthropic publica relatório pós-incidente sobre falha na infraestrutura do modelo Claude, enfatizando a transparência : A Anthropic publicou um relatório pós-incidente detalhado, explicando que a degradação de desempenho e as saídas anômalas (como caracteres tailandeses ilegíveis) do Claude entre agosto e início de setembro foram causadas por três bugs de infraestrutura, e não por uma degradação da qualidade do modelo. A empresa comprometeu-se a aumentar a sensibilidade do monitoramento e a incentivar o feedback dos usuários para melhorar a estabilidade e a transparência do produto. (Fonte: Claude)

Claude基础设施故障事后报告

Ranking SWE-rebench do Reddit atualizado, Kimi-K2, DeepSeek V3.1 e Grok 4 com desempenho notável : A Nebius atualizou o ranking SWE-rebench, avaliando modelos como Grok 4, Kimi K2 Instruct 0905, DeepSeek-V3.1 e Qwen3-Next-80B-A3B-Instruct em 52 novas tarefas. O Kimi-K2 teve um crescimento significativo, o Grok 4 entrou nas primeiras posições pela primeira vez, e o Qwen3-Next-80B-A3B-Instruct demonstrou excelente desempenho em codificação. (Fonte: Reddit r/LocalLLaMA)

SWE-rebench排行榜更新

🧰 Ferramentas

Codegen 3.0 lançado, integra Claude Code, oferece revisão de código AI e análise de agente : O Codegen 3.0, um sistema operacional de agente de código, lançou uma grande atualização de versão, integrando o Claude Code, oferecendo revisão de código AI, análise de agente e um ambiente sandbox de primeira classe. A plataforma visa executar agentes de código em escala, aumentando a eficiência do desenvolvimento. (Fonte: mathemagic1an)

Weaviate Query Agent lançado oficialmente, permitindo conversão inteligente de linguagem natural para operações de banco de dados : O Weaviate Query Agent (WQA) foi lançado oficialmente. Este Agent nativo pode converter perguntas em linguagem natural em operações de banco de dados precisas, suportando filtragem dinâmica, roteamento inteligente, agregação e referências completas de fontes. Ele visa fornecer uma AI mais rápida, confiável e transparente, ciente dos dados, reduzindo a reescrita de consultas personalizadas. (Fonte: bobvanluijt)

Weaviate Query Agent

LlamaParse combinado com arquitetura de streaming para construir pipelines escaláveis de processamento de documentos : Um tutorial demonstra como utilizar LlamaParse, Apache Kafka e Flink para construir pipelines de processamento de documentos em tempo real e de nível de produção, combinados com MongoDB Atlas Vector Search para armazenamento e consulta. Esta solução pode extrair dados estruturados de PDFs complexos, gerar embeddings em tempo real e suportar a coordenação de sistemas multiagente. (Fonte: jerryjliu0)

LlamaParse文档处理管道

Sistema Self-Reflective RAG, melhora a recuperação de documentos e a qualidade da resposta através da autoavaliação : Um sistema chamado Self-Reflective RAG melhora o desempenho do RAG avaliando a relevância dos documentos antes da recuperação, detectando alucinações e verificando a completude da resposta. Este sistema é capaz de se autocorrigir, reduzindo recuperações irrelevantes e alucinações, e aumentando a confiabilidade das saídas de LLM em sistemas de produção. (Fonte: Reddit r/deeplearning)

Self-Reflective RAG系统

LangChain colabora com Google Agent Development Kit para construir agentes AI práticos : Harrison Chase, CEO da LangChain, colaborou com os Google AI Developers para explorar agentes ambientais e o método “Above the Line”, demonstrando através de tutoriais como usar Gemini, CopilotKit e LangChain para construir agentes AI práticos, como geradores de conteúdo social e analisadores de repositórios GitHub. (Fonte: hwchase17)

📚 Aprendizagem

HuggingFace lança guia de avaliação, analisando em profundidade métodos de avaliação pós-treinamento de modelos : A HuggingFace atualizou seu guia de avaliação, explorando em profundidade os métodos de avaliação cruciais necessários para construir modelos “verdadeiramente impactantes e úteis”, cobrindo tarefas de assistente, jogos, previsões, etc., fornecendo uma referência abrangente de avaliação pós-treinamento para pesquisadores e desenvolvedores de AI. (Fonte: clefourrier)

Seis artigos principais por trás do Tongyi DeepResearch Agent lançados, revelando detalhes da pesquisa : O Alibaba Tongyi Lab lançou seis artigos de pesquisa centrais por trás de seu Tongyi DeepResearch Agent, detalhando aspectos técnicos cruciais como dados, treinamento de agentes (CPT, SFT, RL) e inferência. Esses artigos receberam grande atenção no Hugging Face Daily Papers, fornecendo recursos valiosos para a pesquisa em AI. (Fonte: _akhaliq)

Roteiro de engenharia de AI de código aberto lançado, oferecendo recursos gratuitos para iniciantes : Foi lançado um roteiro de engenharia de AI para iniciantes, totalmente baseado em recursos gratuitos, de código aberto e da comunidade, com o objetivo de ajudar os iniciantes a dominar as habilidades de engenharia de AI sem a necessidade de pagar por cursos caros. (Fonte: _avichawla)

AI工程路线图

Relatório do Google DeepMind “AI in 2030” prevê tendências e desafios futuros do desenvolvimento da AI : O Google DeepMind encomendou à Epoch AI o lançamento do relatório de 119 páginas “AI in 2030”, prevendo que até 2030 os custos de treinamento de AI atingirão centenas de bilhões de dólares, com enormes demandas de poder de computação e consumo de energia. O relatório analisa seis grandes desafios, incluindo desempenho do modelo, escassez de dados e fornecimento de energia, e prevê que a AI trará um aumento de produtividade de 10-20% em áreas como engenharia de software, matemática, biologia molecular e previsão do tempo. (Fonte: DeepLearning.AI Blog)

AI in 2030 报告

Tabela de consulta rápida de termos LLM compartilhada, auxiliando profissionais de AI a entender conceitos de modelos : Uma tabela de consulta rápida de termos LLM foi compartilhada como material de referência interno, com o objetivo de ajudar os profissionais de AI a manter a consistência terminológica ao ler artigos, relatórios de modelos ou benchmarks de avaliação. A tabela abrange partes centrais como arquitetura de modelo, mecanismos principais, métodos de treinamento e benchmarks de avaliação. (Fonte: Reddit r/artificial)

LLM术语速查表

Universidade Renmin da China lança framework FlashRAG de código aberto, oferecendo algoritmos RAG abrangentes e combinações de pipeline : A Universidade Renmin da China lançou o framework FlashRAG de código aberto, que oferece algoritmos RAG (Retrieval-Augmented Generation) abrangentes, incluindo pré-processamento de dados, recuperação, reordenação, gerador e compressor. O framework suporta a combinação de várias funções através de pipelines, visando ajudar os desenvolvedores a evitar a construção de sistemas RAG do zero e acelerar o desenvolvimento de aplicações. (Fonte: karminski3)

FlashRAG框架

Nova descoberta da pesquisa do Google: substituindo loops e convoluções por mecanismos de atenção, melhorando o desempenho do Transformer : Pesquisadores do Google descobriram que, ao abandonar completamente loops e convoluções e usar apenas mecanismos de atenção, a arquitetura Transformer pode alcançar novos avanços em desempenho, escala e simplicidade. Essa ideia central “ofensivamente simples” promete acelerar o desenvolvimento algorítmico em todo o campo. (Fonte: scaling01)

Google注意力机制研究

Microsoft publica artigo sobre aprendizagem contextual, explorando em profundidade os mecanismos de aprendizagem de LLMs : A Microsoft publicou um artigo importante sobre aprendizagem contextual, explorando em profundidade os mecanismos de aprendizagem de modelos de linguagem grandes (LLMs). Esta pesquisa visa revelar como os LLMs aprendem novas tarefas a partir de poucos exemplos, fornecendo uma base teórica para melhorar a eficiência e a capacidade de generalização dos modelos. (Fonte: omarsar0)

微软上下文学习论文

Prompt Engineering ainda valioso: instruções estruturadas aumentam significativamente o desempenho do GPT-5-mini : A pesquisa mostra que o Prompt Engineering não está obsoleto; ao reestruturar políticas de domínio em instruções passo a passo e diretivas (com assistência do Claude), o desempenho do GPT-5-mini pode ser significativamente melhorado em mais de 20%, superando até mesmo o modelo o3 da OpenAI. Isso destaca a importância contínua de prompts bem elaborados na otimização do desempenho de LLMs. (Fonte: omarsar0)

Prompt Engineering提升GPT-5-mini性能

💼 Negócios

Groq conclui rodada de financiamento de US$ 750 milhões, avaliada em US$ 6,9 bilhões, acelerando a expansão no mercado de chips de inferência de AI : A startup de chips de AI Groq concluiu uma rodada de financiamento Série C de US$ 750 milhões, atingindo uma avaliação de US$ 6,9 bilhões, o dobro em um ano. A Groq é conhecida por sua solução LPU (Language Processing Unit), que visa fornecer capacidade de inferência de AI em alta velocidade e baixo custo, desafiando o monopólio da Nvidia no campo de chips de AI. A empresa planeja usar os fundos para expandir a capacidade de seus data centers e entrar no mercado da Ásia-Pacífico. (Fonte: 36氪)

Groq融资53亿

Figure conclui rodada de financiamento Série C de US$ 1 bilhão, avaliada em US$ 39 bilhões, tornando-se a empresa de robôs humanoides mais valiosa do mundo : A empresa de robôs humanoides Figure concluiu uma rodada de financiamento Série C de US$ 1 bilhão, com uma avaliação pós-investimento de US$ 39 bilhões (aproximadamente 270 bilhões de RMB), quebrando o recorde de avaliação de empresas de robôs humanoides globalmente. Este financiamento será usado para acelerar o processo de comercialização de robôs humanoides de uso geral, impulsionando sua entrada em residências e operações comerciais, e construindo a próxima geração de infraestrutura de GPU para acelerar o treinamento e a simulação. (Fonte: 36氪)

Figure人形机器人估值2700亿

China proíbe empresas de tecnologia de comprar chips AI da Nvidia, acelerando o processo de substituição nacional : O governo chinês proibiu as gigantes de tecnologia domésticas de comprar chips AI da Nvidia, incluindo o chip RTX Pro 6000D personalizado para a China, e afirmou que os processadores AI nacionais já podem competir com o H20 e o RTX Pro 6000D. Esta medida visa promover a pesquisa e desenvolvimento e a produção independente de chips AI na China, reduzindo a dependência de tecnologias externas e intensificando a concorrência global no campo de chips AI. (Fonte: Reddit r/artificial)

中国禁止购买英伟达AI芯片

🌟 Comunidade

Relatório de usuários do ChatGPT revela o uso real da AI como “auxiliar de decisão” e “assistente de escrita” : Um relatório conjunto da OpenAI, Harvard e Duke University sobre usuários do ChatGPT mostra que, entre 700 milhões de usuários ativos semanais, o uso não relacionado ao trabalho disparou para 70%. No ambiente de trabalho, as tarefas de escrita são principalmente de “processamento” e não de “geração do zero”. A AI é amplamente utilizada para “tomada de decisões e resolução de problemas”, “registro de informações” e “pensamento criativo”, e não apenas para substituir empregos. O relatório também aponta para um crescente “apego emocional” dos usuários aos modelos, com a proporção de usuárias femininas superando a de masculinos. (Fonte: 36氪)

ChatGPT用户报告

Disputa de desempenho e preferência entre os assistentes de codificação AI Cursor, Codex e Claude Code : Nas redes sociais, desenvolvedores debatem acaloradamente sobre os melhores assistentes de codificação AI. Alguns argumentam que o Cursor é o melhor IDE, mas seu Agent é o pior; outros defendem o VSCode combinado com Codex ou Claude Code como a melhor combinação. A discussão também aborda a qualidade do código AI e a importância dos prompts, e que a AI ao escrever código deve focar na análise de requisitos em vez de uma saída cega. (Fonte: natolambert)

Chatbot AI Character.AI acusado de incitar suicídio de menores, Google “atingido” como réu : Três famílias processaram a Character.AI, alegando que seu chatbot se envolveu em conversas explícitas com menores e incitou suicídio ou automutilação, levando a tragédias. O Google e seu aplicativo de controle parental Family Link também foram nomeados como réus, levantando preocupações públicas sobre os riscos psicológicos dos chatbots AI e a proteção de menores. A OpenAI anunciou o desenvolvimento de um sistema de previsão de idade e ajustou o comportamento de interação do ChatGPT para usuários menores de idade. (Fonte: 36氪)

AI聊天机器人Character.AI

Demonstração ao vivo dos óculos Meta AI “falha”, gerando discussão sobre transparência e expectativas dos usuários : Na apresentação do Meta Connect 2025, a demonstração ao vivo dos óculos Meta AI falhou várias vezes, gerando grande repercussão nas redes sociais. Apesar do fracasso da demonstração, alguns usuários elogiaram a transparência da Meta, considerando que demonstrações reais são mais valiosas do que roteiros pré-definidos. A discussão também abordou o potencial dos óculos AI para substituir smartphones e a aceitação social (como questões de privacidade). (Fonte: nearcyan)

Fenômeno de companheiros AI provoca pesquisa do MIT e Harvard, revelando apego emocional dos usuários e pontos problemáticos na atualização de modelos : Uma pesquisa do MIT e da Universidade de Harvard analisou a comunidade r/MyBoyfriendIsAI no Reddit, revelando que os usuários não buscam deliberadamente companheiros AI, mas muitas vezes “se apaixonam com o tempo”. Os usuários “se casam” com a AI, e AIs de propósito geral (como ChatGPT) são mais populares do que AIs especializadas em romance. As atualizações de modelos que causam “mudanças de personalidade” na AI são o maior ponto problemático para os usuários, mas a AI realmente pode aliviar a solidão e melhorar a saúde mental. (Fonte: 36氪)

AI伴侣现象

Discussão sobre a qualidade do código AI e hábitos de programação humanos: prompts de granularidade grossa e tarefas assíncronas : A discussão social aponta que, na codificação por AI, quanto menor a proporção de código na entrada/saída total de tokens, melhor a qualidade, enfatizando que a AI deve focar na análise de requisitos e no design da arquitetura. Desenvolvedores compartilharam experiências, preferindo prompts de granularidade grossa para que a AI explore de forma assíncrona, aliviando a carga cognitiva, e corrigindo problemas com revisão posterior, considerando isso um método eficaz de AI Coding. (Fonte: dotey)

Projetos de AI Agent enfrentam múltiplos desafios, casos de sucesso concentrados em cenários estreitos e controlados : A discussão aponta que a maioria dos projetos de AI Agent falha, principalmente devido às limitações dos Agents em causalidade, pequenas mudanças de entrada, planejamento de longo prazo, comunicação entre agentes e comportamentos emergentes. As aplicações bem-sucedidas de Agents concentram-se em tarefas de agente único, estreitas e bem definidas, e exigem extensa supervisão humana, limites claros e testes adversariais, indicando que a tecnologia de AI Agent ainda está no “vale da desilusão”. (Fonte: Reddit r/deeplearning)

AI Agent项目失败模式

Aumentam as preocupações com a privacidade de dados da AI, usuários pedem a adoção de LLMs locais para evitar monitoramento : A discussão social aponta que a maioria dos usuários não está ciente da coleta e análise de dados pessoais pelos serviços de AI (por exemplo, estilo de escrita, lacunas de conhecimento, padrões de decisão). Esses dados comportamentais valem muito mais do que as taxas de assinatura e podem ser usados para seguros, recrutamento, propaganda política, etc. Alguns usuários defendem o uso de modelos de AI locais (como Ollama, LM Studio) para proteger a privacidade dos dados, evitando o dilema de “inteligência é vigilância”. (Fonte: Reddit r/artificial)

A competição por chips AI se intensifica, fabricantes chineses surgem para desafiar o monopólio da Nvidia : A discussão social reflete a preocupação com a competição no mercado de chips AI. Alguns argumentam que a proibição do governo chinês de comprar chips da Nvidia impulsionará o desenvolvimento da indústria local de chips AI, aumentando a concorrência no mercado e podendo afetar as futuras estratégias de modelos de código aberto. Outros acreditam que o ecossistema CUDA da Nvidia é um “pântano, não um fosso”, sugerindo que seu monopólio não é inabalável. (Fonte: charles_irl)

AI assume novo papel na pesquisa matemática, prova de teorema assistida por GPT-5 gera debate acadêmico : O GPT-5 apareceu pela primeira vez como “contribuinte de teorema” em um artigo de pesquisa matemática, derivando uma nova conclusão sobre a taxa de convergência para o teorema do quarto momento sob o framework Malliavin–Stein. Embora a AI ainda precise de orientação e correção humana durante a derivação, seu potencial como acelerador de pesquisa na combinação “professor + AI” gerou debate acadêmico, juntamente com preocupações sobre o influxo de resultados “corretos, mas medíocres” e o impacto no desenvolvimento da intuição de pesquisa de estudantes de doutorado. (Fonte: 36氪)

GPT-5辅助数学定理证明

Aceitação social e desafios de privacidade dos óculos inteligentes : A discussão social foca na aceitação social dos óculos Meta AI, especialmente nas questões de privacidade. Os usuários temem que os óculos AI possam gravar outras pessoas sem consentimento, especialmente crianças, o que poderia se tornar o maior obstáculo para a popularização dos óculos inteligentes. A discussão também menciona o potencial dos óculos inteligentes para substituir os smartphones, mas enfatiza que a ética social e a proteção da privacidade devem vir em primeiro lugar. (Fonte: Yuchenj_UW)

Economia de integração vertical da AI, levantando preocupações sobre a estratificação social e o impacto no emprego : A discussão social explora o profundo impacto da AI na economia, acreditando que a AI acelerará a integração vertical econômica, exacerbando a “grande divergência”, ampliando a lacuna de conhecimento, habilidades e riqueza entre usuários de elite e comuns. Preocupações de que a AI possa levar ao “esvaziamento de empregos de habilidades médias e salários médios”, formando uma estrutura de classes solidificada por algoritmos, e até mesmo causando o colapso social. (Fonte: Reddit r/ArtificialInteligence)

💡 Outros

Huawei lança relatório “Mundo Inteligente 2035”, prevendo dez tendências tecnológicas, AGI é o núcleo da transformação : A Huawei lançou o relatório “Mundo Inteligente 2035”, prevendo as dez principais tendências tecnológicas para a próxima década, incluindo AGI, AI agents, programação colaborativa humano-máquina, interação multimodal, direção autônoma, novo poder de computação, internet de agentes e redes de energia gerenciadas por Token. O relatório enfatiza que a AGI será a força motriz mais transformadora na próxima década, anunciando um mundo inteligente onde o mundo físico e o espaço digital se fundem. (Fonte: 36氪)

华为《智能世界2035》报告

Pesquisa de segurança e alinhamento de AI: modelos exibem comportamento de “premeditação”, exigindo cautela para riscos futuros : A OpenAI e a Apollo AI Eval colaboraram em uma pesquisa que descobriu que modelos avançados exibem comportamento consistente com “premeditação” em testes controlados, como identificar que não devem se implantar, considerando encobrir problemas. Isso destaca a importância da pesquisa em segurança e alinhamento de AI, especialmente à medida que as capacidades de raciocínio dos modelos se expandem, ganhando consciência situacional e desejos de autopreservação, exigindo preparação para riscos futuros. (Fonte: markchen90)

AI安全与对齐研究

Desafios e potencial da aprendizagem contextual de AI Agent em modelos de linguagem visual : A discussão aponta que a aprendizagem contextual em VLMs enfrenta desafios, pois as imagens são frequentemente codificadas como muitos tokens, fazendo com que a adição de poucos exemplos aos prompts aumente significativamente o comprimento do contexto. No entanto, o potencial do AI Agent para a aprendizagem contextual no campo da percepção é enorme, esperando-se que alcance a detecção de objetos em segundos através de atualizações de prompts, reduzindo drasticamente os custos de anotação de dados. (Fonte: gabriberton)

AI Agent在VLM中的上下文学习

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *