Palavras-chave:Tecnologia de IA, OpenAI, GPT-4.5, Modelo de grande escala (LLM), Crise de talentos em IA, Modelo O3 para geolocalização, DeepSeek-V3, Agente de IA, Tecnologia Token-Shuffle

🔥 Destaques

Recusa de Green Card para Kai Chen, desenvolvedor principal do OpenAI GPT-4.5, levanta preocupações sobre crise de talentos em IA nos EUA: O pesquisador de IA canadense Kai Chen, após residir nos EUA por 12 anos, teve seu pedido de Green Card negado e enfrenta deportação forçada. Chen é um dos principais desenvolvedores do OpenAI GPT-4.5, e sua situação gerou ampla preocupação na comunidade tecnológica sobre como as políticas de imigração dos EUA podem prejudicar sua liderança em IA. Recentemente, o escrutínio dos EUA sobre estudantes internacionais, incluindo pesquisadores de IA, e vistos H-1B tornou-se mais rigoroso, afetando mais de 1.700 vistos de estudante. Uma pesquisa da Nature indica que 75% dos cientistas nos EUA consideram deixar o país. A imigração é crucial para o desenvolvimento da IA nos EUA; uma alta proporção de fundadores das principais startups de IA são imigrantes, e estudantes internacionais representam 70% dos pós-graduandos na área de IA. A fuga de talentos e o aperto nas políticas de imigração podem impactar severamente a competitividade dos EUA no cenário global de IA. (Fonte: Xinzhiyuan, CSDN, Zhimian AI)

OpenAI GPT-4.5核心开发者Kai Chen绿卡被拒,引发美国AI人才危机担忧

Modelo o3 da OpenAI demonstra incrível capacidade de geolocalização, gerando preocupações com privacidade: O mais recente modelo o3 da OpenAI demonstrou a capacidade de inferir com precisão a localização de fotos analisando detalhes (como placas de carro borradas, estilo arquitetônico, vegetação, iluminação, etc.) e combinando com execução de código (processamento de imagem em Python), mesmo na ausência de marcos óbvios e informações EXIF. Experimentos mostram que o o3 pode identificar com precisão a localização de fotos perto da casa do usuário, em áreas rurais de Madagascar, no centro de Buenos Aires e em muitos outros lugares. Embora seu processo de raciocínio (como múltiplos recortes e ampliações da imagem) às vezes pareça redundante, a precisão dos resultados é alta, superando em muito modelos como o Claude 3.7 Sonnet. Essa capacidade levantou grandes preocupações dos usuários sobre a segurança da privacidade, indicando que mesmo fotos aparentemente comuns podem expor informações de localização pessoal, deixando os humanos “nus” diante das poderosas capacidades de análise de imagem da IA. (Fonte: Xinzhiyuan, dariusemrani)

OpenAI o3模型展现惊人地理定位能力,引发隐私担忧

Teste de capacidade em virologia por IA gera preocupação: desempenho do o3 supera 94% dos especialistas humanos: A equipe de pesquisa da organização sem fins lucrativos SecureBio desenvolveu o Teste de Capacidade em Virologia (VCT), contendo 322 problemas multimodais focados na solução de problemas experimentais. Os resultados mostraram que o modelo o3 da OpenAI atingiu uma taxa de precisão de 43,8% ao lidar com esses problemas complexos, superando significativamente os especialistas humanos em virologia (taxa média de precisão de 22,1%), e em subcampos específicos, superou até 94% dos especialistas. Este resultado destaca a poderosa capacidade da IA em campos científicos especializados, mas também levanta preocupações sobre riscos de duplo uso: embora a IA possa auxiliar enormemente pesquisas benéficas como a prevenção de doenças infecciosas, também pode ser usada por não profissionais para criar armas biológicas. Os pesquisadores pedem um controle de acesso e gerenciamento de segurança mais rigorosos para as capacidades de IA, e o desenvolvimento de um quadro de governança global para equilibrar o desenvolvimento da IA e os riscos de segurança. (Fonte: Xueshu Toutiao, gallabytes)

AI病毒学能力测试引担忧:o3表现超94%人类专家

DeepSeek lança modelo grande V3, com velocidade 3x maior: A DeepSeek anunciou o lançamento de seu mais recente modelo grande, o DeepSeek-V3. Alegadamente, este é o seu maior avanço até o momento, com os principais destaques incluindo: velocidade de processamento atingindo 60 tokens por segundo, um aumento de 3 vezes em comparação com a versão V2; capacidade do modelo aprimorada; manutenção da compatibilidade da API com versões anteriores; e o modelo e o artigo de pesquisa relacionado serão totalmente open-source. Este lançamento marca a rápida iteração contínua da DeepSeek no campo de modelos de linguagem grandes e sua contribuição para a comunidade open-source. (Fonte: teortaxesTex)

DeepSeek发布V3大模型,速度提升3倍

🎯 Tendências

Meta e outros propõem tecnologia Token-Shuffle, permitindo que modelos autorregressivos gerem imagens de 2048×2048 pela primeira vez: Pesquisadores da Meta, Northwestern University, National University of Singapore e outras instituições propuseram a tecnologia Token-Shuffle, visando resolver os gargalos de eficiência e resolução causados pelo processamento de um grande número de tokens de imagem em modelos autorregressivos. A tecnologia reduz significativamente o número de tokens visuais na computação, combinando tokens espaciais locais na entrada do Transformer (token-shuffle) e restaurando-os na saída (token-unshuffle), melhorando a eficiência. Baseado em um modelo Llama de 2.7B parâmetros, este método alcançou pela primeira vez a geração de imagens de ultra-alta resolução de 2048×2048 e superou modelos autorregressivos semelhantes e até mesmo modelos de difusão fortes em benchmarks como GenEval e GenAI-Bench. Esta tecnologia abre novos caminhos para modelos de linguagem grandes multimodais (MLLMs) gerarem imagens de alta resolução e alta fidelidade, possivelmente revelando os princípios técnicos de geração de imagem não divulgados de modelos como o GPT-4o. (Fonte: 36Kr)

Meta等提出Token-Shuffle技术,自回归模型首次生成2048x2048图像

Modelos grandes open-source da China unem forças, acelerando a evolução do ecossistema global de IA: Modelos de base grandes chineses representados por DeepSeek e Qwen da Alibaba, através de estratégias open-source, impulsionaram muitas empresas como a Kunlun Tech a desenvolver modelos verticais menores e mais fortes com base neles, formando um modo de operação de “exército agrupado”, acelerando a iteração da tecnologia de IA doméstica e a implementação de aplicações. O modelo Skywork-OR1 da Kunlun Tech, treinado com base no DeepSeek e Qwen, supera o desempenho do QwQ-32B na mesma escala e abriu seu conjunto de dados e código de treinamento. Esta estratégia aberta contrasta com o modelo predominante de código fechado nos EUA, refletindo a confiança tecnológica da China e um caminho prioritário para a indústria, ajudando na democratização da tecnologia e na coexistência global, impulsionando o ecossistema global de IA de “unipolar” para “multipolar”. (Fonte: Guanwang Caijing, bookwormengr, teortaxesTex, karminski3, reach_vb)

中国开源大模型形成合力,加速全球AI生态演进

CEO do Google DeepMind, Hassabis, prevê AGI em dez anos, enfatizando segurança e ética: Demis Hassabis, CEO do Google DeepMind, previu em entrevista à revista TIME que a inteligência artificial geral (AGI) pode se tornar realidade na próxima década. Ele acredita que a IA ajudará a resolver grandes desafios como doenças e energia, mas também se preocupa com os riscos de seu uso indevido ou perda de controle, enfatizando especialmente as questões de armas biológicas e controle. Hassabis pede o estabelecimento de padrões de segurança de IA e quadros de governança unificados globalmente, argumentando que a realização da AGI requer cooperação interdisciplinar. Ele distingue entre a capacidade de resolver problemas e a de propor conjecturas, acreditando que a verdadeira AGI deve possuir esta última. Ao mesmo tempo, ele enfatiza que os assistentes de IA devem respeitar a privacidade do usuário e acredita que o desenvolvimento da IA criará novos empregos em vez de substituí-los em massa, mas a sociedade precisa refletir sobre questões filosóficas como distribuição de riqueza e significado da vida. (Fonte: Zhidongxi, TIME)

谷歌DeepMind CEO哈萨比斯预测AGI十年内实现,强调安全与伦理

AI Agent se torna novo ponto quente, com surgimento de produtos como Manus, Xīnxiǎng App e Kòuzi Kōngjiān: Agentes de inteligência artificial geral (Agent) tornaram-se o novo foco no campo da IA, com o sucesso explosivo do Manus sendo considerado o início do ano do Agent. Esses produtos podem planejar e executar autonomamente tarefas complexas (como programação, recuperação de informações, elaboração de estratégias) com base em instruções simples do usuário. Grandes empresas como Baidu (Xīnxiǎng App) e ByteDance (Kòuzi Kōngjiān) rapidamente seguiram o exemplo, lançando produtos semelhantes. Avaliações mostram que cada produto tem seus pontos fortes e fracos em programação, integração de informações e chamada de recursos externos (como mapas). Manus se destaca em tarefas de programação, Xīnxiǎng tem vantagens na integração de mapas, mas a atualidade das informações (como preços de produtos) é limitada pelo grau de adesão de plataformas externas ao protocolo MCP. O desenvolvimento de Agents marca o avanço da IA de conversação para ferramenta de execução, mas a integração do ecossistema e os problemas de custo ainda são desafios. (Fonte: Duojiao Spicy)

AI Agent成为新热点,Manus、心响、扣子空间等产品涌现

Febre de construção de data centers de IA esfria? Na verdade, é um ajuste estratégico e gargalos de recursos das gigantes de tecnologia: A recente suspensão de um projeto da Microsoft em Ohio e rumores de ajustes nos planos de aluguel da AWS levantaram preocupações sobre uma bolha nos data centers de IA. No entanto, os relatórios financeiros da Vertiv e Alphabet, bem como declarações de executivos da Amazon, mostram que a demanda continua forte. Especialistas do setor acreditam que isso não é um colapso do mercado, mas sim um ajuste estratégico das gigantes de tecnologia em meio ao rápido desenvolvimento da IA, avanços tecnológicos e incertezas geopolíticas, priorizando projetos principais. O fornecimento de energia apertado tornou-se o principal gargalo, com a demanda de energia para novos data centers aumentando drasticamente (de 60MW para mais de 500MW), superando em muito a velocidade de expansão da rede elétrica, resultando em períodos de espera mais longos para os projetos. No futuro, a construção de data centers continuará, mas com maior foco na disponibilidade de energia, e pode apresentar um ritmo de “altos e baixos”. (Fonte: Tencent Keji, SemiAnalysis)

AI数据中心建设热潮遇冷?实为科技巨头战略调整与资源瓶颈

NVIDIA lança tecnologia 3DGUT, combinando Gaussian Splatting e Ray Tracing: Pesquisadores da NVIDIA propuseram uma nova tecnologia chamada 3DGUT (3D Gaussian Unscented Transform), que combina pela primeira vez a renderização rápida do Gaussian Splatting com os efeitos de alta qualidade do Ray Tracing (como reflexos e refrações). A tecnologia introduz “raios secundários” (secondary rays) que permitem que a luz ricocheteie em cenas de Gaussian Splatting, alcançando assim reflexos e refrações de alta qualidade em tempo real. Ela também suporta modelos de câmera não padrão, como olho de peixe, e rolling shutter, resolvendo as limitações da tecnologia original de Gaussian Splatting nesses aspectos. O código da pesquisa foi disponibilizado em open-source e espera-se que impulsione o desenvolvimento em áreas como renderização de mundos virtuais e treinamento de direção autônoma. (Fonte: Two Minute Papers

)

Desenvolvimento e desafios da tecnologia de “pele eletrônica” para robôs humanoides: A “pele eletrônica” (sensores táteis flexíveis) é uma tecnologia chave para permitir que robôs humanoides realizem percepção tátil fina e concluam tarefas como agarrar objetos frágeis. As principais rotas tecnológicas atuais incluem a piezoresistiva (boa estabilidade, fácil produção em massa, adotada por empresas como Hanwei Electronics, Flexcon, Moxian Tech) e a capacitiva (pode realizar percepção sem contato, identificação de material, adotada por empresas como Tascent Tech). Vários fabricantes já possuem capacidade de produção em massa e colaboram com empresas de robótica, mas a indústria ainda está em estágio inicial. O pequeno volume de remessas de robôs (especialmente mãos hábeis) resulta em altos custos para a pele eletrônica (preço alvo abaixo de 2000 yuan por mão, atualmente muito acima), limitando a aplicação em larga escala. O futuro exige a integração de mais dimensões sensoriais (temperatura, umidade, etc.) e a expansão de cenários de aplicação, como serviços de hotelaria e estações de trabalho flexíveis industriais. (Fonte: Meijing Toutiao)

人形机器人“电子皮肤”技术发展与挑战

Modelos grandes para governo encontram oportunidade de desenvolvimento, com aplicações de escritório de IA sendo as primeiras a serem implementadas: O open-source e a melhoria de desempenho do DeepSeek reduziram significativamente os custos de implantação de modelos grandes para o governo, impulsionando sua aplicação no setor público, especialmente em cenários de escritório de IA (redação de documentos oficiais, revisão, formatação, perguntas e respostas inteligentes, etc.). No entanto, modelos grandes gerais (como DeepSeek) sofrem do problema de “alucinação” e carecem de conhecimento especializado do governo. Fabricantes como Kingsoft Office propuseram uma solução colaborativa de “modelo grande geral + modelo grande setorial + modelo pequeno profissional”, combinando corpus de dados governamentais para treinar modelos dedicados (como a versão aprimorada do Kingsoft Government Large Model) e ativando recursos de dados internos do governo para resolver alucinações, melhorar o profissionalismo e garantir a segurança. O objetivo do escritório de IA é auxiliar, e não subverter, os processos existentes, aumentando a eficiência (redação de documentos oficiais 30-40% mais eficiente) e construindo bases de conhecimento específicas do departamento. (Fonte: Guangzhui Zhineng)

政务大模型迎发展契机,AI办公应用率先落地

Protocolo de comunicação AI Agent A2A lançado, visando conectar agentes de IA independentes: O Google lançou um protocolo de comunicação chamado Agent2Agent (A2A), projetado para permitir que agentes de IA independentes se comuniquem e colaborem de maneira estruturada e segura. O protocolo define um conjunto comum de formatos de mensagem JSON sobre HTTP, permitindo que um Agent solicite a outro Agent a execução de uma tarefa e receba os resultados. Os componentes principais incluem o Agent Card (descrevendo as capacidades do Agent), cliente, servidor, tarefa, mensagem (contendo partes como texto, JSON, imagens, etc.) e artefato (resultado da tarefa). O A2A suporta streaming e notificações e, como padrão aberto, pode ser implementado por qualquer framework ou fornecedor de Agent, prometendo promover a colaboração entre Agents especializados e construir um ecossistema de Agents modular. (Fonte: The Turing Post)

AI Agent通信协议A2A发布,旨在连接独立AI智能体

Análise do cenário EUA-China na corrida de poder computacional de IA: EUA vencerão com vantagem de computação?: O pesquisador que escreveu o relatório “AI 2027” publicou um artigo analisando que, embora a China detenha o maior número de patentes de IA do mundo (70%), na corrida da IA, os EUA podem vencer devido à sua vantagem em poder computacional. O artigo estima que os EUA controlam 75% do poder computacional global de chips de IA avançados, enquanto a China tem apenas 15%, e seus custos são mais altos devido aos controles de exportação. Embora a China possa ser melhor no uso concentrado do poder computacional, a participação das empresas líderes dos EUA (como Google, OpenAI) também está aumentando. O progresso do algoritmo é importante, mas é fácil de ser copiado mutuamente e, eventualmente, limitado por gargalos de poder computacional. Em termos de eletricidade, não se tornará um gargalo para os EUA a curto prazo. O relatório argumenta que a aplicação rigorosa das sanções de chips é crucial para os EUA manterem sua liderança, potencialmente adiando a autonomia da China em chips para o final da década de 2030. (Fonte: Xinzhiyuan)

AI算力竞赛中美格局分析:美国或凭算力优势胜出?

🧰 Ferramentas

Copilot Arena: Plataforma para avaliar LLMs de código diretamente no VSCode: ML@CMU lançou a extensão VSCode Copilot Arena, projetada para coletar preferências de desenvolvedores sobre diferentes completações de código LLM em um ambiente de desenvolvimento real. A ferramenta já atraiu mais de 11.000 usuários, coletou mais de 25.000 dados de “batalha” de completação de código e atualiza um ranking em tempo real no site LMArena. Ela usa uma interface de pareamento inovadora, estratégias otimizadas de amostragem de modelo (reduzindo a latência em 33%) e técnicas inteligentes de prompt (permitindo que modelos de chat também executem tarefas FiM). A pesquisa descobriu que o ranking do Copilot Arena tem baixa correlação com benchmarks estáticos, mas alta correlação com o Chatbot Arena (preferência humana), indicando a importância da avaliação em ambiente real. Os dados também revelam que as preferências do usuário são fortemente influenciadas pelo tipo de tarefa, mas pouco pela linguagem de programação. (Fonte: AI Hub)

Copilot Arena:在VSCode中直接评估代码LLM的平台

Aplicativo Traini de tradução de “linguagem canina” por IA viraliza, com taxa de precisão de 81,5%: Um aplicativo de IA chamado Traini afirma poder traduzir latidos, expressões e comportamentos de cães para a linguagem humana, e também traduzir palavras humanas para a “linguagem canina”. O aplicativo é baseado em seu modelo grande proprietário PEBI, que supostamente aprendeu com 100.000 amostras de cães e conhecimento de comportamento animal, podendo identificar 12 emoções caninas com uma taxa de precisão de 81,5%. Os usuários podem fazer upload de fotos, vídeos ou gravações de áudio para usar o chatbot PetGPT para decodificar o estado do animal de estimação. Traini também oferece um serviço de assinatura para cursos de treinamento de cães. Embora a eficácia real da tradução possa ser controversa (como “fala sem sentido” observada em testes), o aplicativo viu um aumento de 400% nos downloads em quase um ano desde o lançamento, mostrando o enorme potencial da IA na tecnologia para animais de estimação. (Fonte: Wuya Zhineng Shuo)

AI翻译“狗语”应用Traini走红,准确率达81.5%

Gemini Coder: Plugin VSCode open-source que utiliza Gemini para escrever código gratuitamente: Um plugin VSCode chamado Gemini Coder foi disponibilizado em open-source no GitHub (licença MIT). O plugin permite aos usuários chamar diretamente os modelos da série Gemini do Google (como os gratuitos Gemini-2.5-Pro e Flash) dentro do VSCode para escrita e assistência de código, funcionalmente semelhante ao Cursor ou Windsurf. Isso significa que os desenvolvedores podem utilizar gratuitamente as poderosas capacidades de código do Gemini para aumentar a eficiência do desenvolvimento. (Fonte: karminski3)

Gemini Coder:开源VSCode插件,利用Gemini免费写代码

Jogos de namorada AI em ascensão, com players desde miniprogramas a empresas especializadas: Jogos de namorada AI tornaram-se uma nova pista, com desde miniprogramas WeChat feitos por pequenas equipes até a nova empresa Anuttacon do fundador da miHoYo, Cai Haoyu, e a empresa de jogos otome Ziran Xuanze (lançando “EVE”) entrando no mercado. Jogos do tipo miniprograma têm jogabilidade relativamente simples (diálogo de role-playing, personalização de aparência), utilizando IA para reduzir custos de produção, mas sofrem de homogeneização severa, e modelos de pagamento (assinatura de membro, recarga de pontos) frequentemente causam insatisfação do usuário, com a novidade se esvaindo facilmente. Empresas emergentes podem se inspirar no modelo de jogos otome, focando na riqueza da jogabilidade, cobrança por itens e lucros com merchandising. A aplicação da IA se reflete na eficiência da produção e na melhoria da interação do usuário (como geração de diálogo em tempo real, reações). No entanto, a experiência de interação com IA atual ainda tem deficiências (respostas mecânicas, falta de realismo) e enfrenta problemas como conteúdo limítrofe, confiança do usuário e concorrência com outras formas de entretenimento. (Fonte: Dingjiao)

AI女友游戏兴起,从小程序到专业厂商均有布局

Guia de discernimento de conteúdo de IA: Como identificar texto, imagens e vídeos gerados por IA: Diante do conteúdo gerado por IA (AIGC) cada vez mais realista, pessoas comuns podem dominar algumas técnicas de discernimento. Identificar texto de IA: preste atenção a vocabulário excessivamente preciso ou acumulado, metáforas excessivas, gramática perfeita e estrutura de frase consistente, expressões padronizadas (como uso excessivo de emojis, inícios fixos), falta de emoção genuína e experiência pessoal, e possíveis “alucinações” (erros factuais). Identificar imagens de IA: verifique se detalhes como mãos, dentes, olhos são naturais; se luz e sombra, reflexos físicos, fundo são consistentes e razoáveis; se texturas como pele, cabelo são excessivamente lisas ou estranhas; se há simetria anormal ou perfeição excessiva. Identificar vídeos de IA: observe se as microexpressões faciais são rígidas, se os movimentos são lógicos (falta de pequenos movimentos inconscientes), se a iluminação ambiente corresponde, se o fundo apresenta distorções ou cintilações. Ferramentas auxiliares como busca reversa de imagens e detectores de IA (como ZeroGPT, Zhuque Jianbieqi) podem ser usadas, mas precisam ser combinadas com pensamento crítico para um julgamento abrangente. (Fonte: Guixingren Pro)

AI内容鉴别指南:如何识别AI生成的文字、图片与视频

Plexe AI: Anunciado como o primeiro Agent de engenharia de ML open-source: Plexe AI se autodenomina o primeiro Agent de engenharia de machine learning do mundo, visando automatizar tarefas de machine learning, como processamento de conjuntos de dados, seleção de modelos, ajuste fino e implantação, reduzindo a preparação manual de dados e a revisão de código. O projeto foi disponibilizado em open-source no GitHub, na esperança de simplificar os fluxos de trabalho de ML através de Agents. (Fonte: Reddit r/MachineLearning)

HighCompute.py: Melhora a capacidade de LLMs locais em lidar com tarefas complexas através da decomposição de tarefas: Um aplicativo Python de arquivo único chamado HighCompute.py foi lançado, visando melhorar a capacidade de LLMs locais ou remotos (compatíveis com a API OpenAI) de lidar com consultas complexas através de uma estratégia de decomposição de tarefas em múltiplos níveis. O aplicativo oferece três níveis de computação: baixo (resposta direta), médio (decomposição de primeiro nível) e alto (decomposição de segundo nível). Quanto maior o nível, mais chamadas de API e consumo de tokens, mas teoricamente capaz de lidar com tarefas mais complexas e melhorar a qualidade da resposta. Os usuários podem alternar dinamicamente o nível de computação no chat. O projeto usa Gradio para construir a interface web, visando simular um efeito de processamento semelhante a “alta computação”, mas essencialmente aumenta a quantidade de computação em vez de melhorar a capacidade do próprio modelo. (Fonte: Reddit r/LocalLLaMA)

Open WebUI adiciona funcionalidade avançada de análise de dados (execução de código): Open WebUI (anteriormente Ollama WebUI) anunciou a adição de funcionalidade avançada de análise de dados, permitindo a execução de código dentro da interface do usuário. Isso é semelhante à funcionalidade Code Interpreter do ChatGPT, expandindo as capacidades das aplicações LLM locais, permitindo-lhes processar e analisar dados diretamente, gerar gráficos, etc. (Fonte: Reddit r/LocalLLaMA)

📚 Aprendizado

7 maneiras de usar IA generativa para orientação profissional: A IA generativa (como ChatGPT, DeepSeek) pode servir como um mentor de carreira econômico. O artigo propõe 7 maneiras de utilizar a IA para orientação profissional e exemplos de prompts: 1) Esclarecer a direção da carreira (através de perguntas reflexivas, correspondência de habilidades e interesses); 2) Otimizar currículo e perfil do LinkedIn (escrever resumos, quantificar conquistas); 3) Desenvolver estratégia de busca de emprego (identificar oportunidades, expandir networking); 4) Preparar-se para entrevistas e negociar salário (simular entrevistas, estratégias de resposta); 5) Aumentar a liderança e promover o crescimento profissional (identificar habilidades, planejar promoções); 6) Construir marca pessoal e liderança de pensamento (criação de conteúdo, aumentar visibilidade); 7) Lidar com problemas diários no trabalho (resolver conflitos, definir limites). A chave é fornecer informações de fundo detalhadas, projetar prompts cuidadosamente e usar o conselho da IA em conjunto com o próprio julgamento. (Fonte: Harvard Business Review)

利用生成式AI进行职业指导的7种方法

Discussão de artigo: Vision Transformers precisam de registradores: Um novo artigo sobre Vision Transformers (ViT) propõe que os ViTs precisam de um mecanismo semelhante a registradores para melhorar seu desempenho. O artigo aponta os problemas existentes nos ViTs atuais e propõe uma solução concisa e fácil de entender, sem a necessidade de funções de perda complexas ou modificações de camada de rede, alcançando bons resultados e discutindo as limitações. A pesquisa foi elogiada por sua clara exposição do problema, solução elegante e estilo de escrita acessível. (Fonte: TimDarcet)

论文研讨:Vision Transformers需要寄存器

Compartilhamento de artigo: BitNet v2 – Introduzindo ativações nativas de 4 bits para LLMs de 1 bit: O artigo BitNet v2 propõe um método usando a transformada de Hadamard para implementar ativações nativas de 4 bits para LLMs de 1 bit (pesos de 1.58 bits). Os pesquisadores afirmam que isso levou o desempenho das GPUs NVIDIA ao limite e esperam que os avanços de hardware possam apoiar ainda mais a computação de baixa precisão. A tecnologia visa reduzir ainda mais a pegada de memória e o custo computacional dos LLMs. (Fonte: Reddit r/LocalLLaMA, teortaxesTex, algo_diver)

论文分享:BitNet v2 - 为1位LLM引入原生4位激活

Compartilhamento de artigo ICLR: Transformer sem Normalização: Zhuang Liu e outros pesquisadores compartilharam o artigo intitulado “Transformer without Normalization” no workshop ICLR 2025 SCOPE. A pesquisa explora a possibilidade de remover camadas de normalização (como LayerNorm) na arquitetura Transformer e seu impacto no treinamento e desempenho do modelo, apontando que o otimizador e a escolha da arquitetura estão intimamente ligados. (Fonte: VictorKaiWang1, zacharynado)

ICLR论文分享:无需归一化的Transformer

Artigo sobre o estado atual e perspectivas futuras dos LLMs: Um artigo publicado no arXiv (2504.01990) explica em linguagem simples e acessível o estado atual do desenvolvimento de modelos de linguagem grandes (LLM), os desafios enfrentados e as possibilidades futuras, adequado para leitores que desejam obter uma visão geral do campo. (Fonte: Reddit r/ArtificialInteligence)

Projeto open-source: Ava-LLM – Arquitetura LLM multiescala construída do zero: O desenvolvedor Kuduxaaa tornou open-source um framework Transformer chamado Ava-LLM, para construir modelos de linguagem de 100M a 100B parâmetros do zero. As características do framework incluem arquiteturas pré-definidas otimizadas para diferentes escalas (Tiny/Mid/Large), design consciente de hardware considerando GPUs de consumidor, uso de codificação de posição rotacional (RoPE) e extensão NTK para lidar com contexto dinâmico, suporte nativo para atenção de consulta agrupada (GQA), etc. O projeto busca feedback e colaboração da comunidade em estratégias de normalização de camada, estabilidade de rede profunda, treinamento de precisão mista, entre outros. (Fonte: Reddit r/LocalLLaMA)

开源项目:Ava-LLM - 从零构建的多尺度LLM架构

Projeto open-source: Reaktiv – Biblioteca Python de computação reativa: O desenvolvedor Bui compartilhou uma biblioteca Python chamada Reaktiv, que implementa um grafo de computação reativa com rastreamento automático de dependências. A biblioteca só recalcula valores quando as dependências mudam, detecta automaticamente dependências em tempo de execução, armazena em cache os resultados dos cálculos e suporta operações assíncronas (asyncio). O desenvolvedor acredita que pode ser aplicável a fluxos de trabalho de ciência de dados, como construção de pipelines de dados exploratórios eficientemente atualizados, dashboards reativos, gerenciamento de cadeias de transformação complexas, processamento de dados de streaming, etc., e busca feedback da comunidade de ciência de dados. (Fonte: Reddit r/MachineLearning)

开源项目:Reaktiv - Python响应式计算库

💼 Negócios

Receita da iFlytek (科大讯飞) em 2024 retorna ao crescimento de dois dígitos, investimento em IA entra na fase de colheita: A iFlytek divulgou seu relatório financeiro de 2024, com receita atingindo 23,343 bilhões de yuans, um aumento anual de 18,79%, e lucro líquido atribuível à controladora de 560 milhões de yuans. No primeiro trimestre de 2025, a receita foi de 4,658 bilhões de yuans, um aumento anual de 27,74%. O crescimento do desempenho se deve à implementação em larga escala do Spark Model (星火大模型) em educação (vendas de AI Learning Machine aumentaram mais de 100%), saúde, finanças e outros campos, bem como ao sistema tecnológico totalmente autônomo e controlável de “poder computacional doméstico + algoritmo próprio”. A empresa enfatiza a importância da localização; o modelo de inferência profunda Spark X1 é treinado com base no poder computacional doméstico (Huawei 910B), com desempenho comparável aos melhores internacionais e baixo limiar de implantação. A empresa ajustou sua estrutura de negócios para “otimizar o lado C, fortalecer o lado B, selecionar otimamente o lado G”, com fluxo de caixa atingindo recorde histórico. O futuro enfatizará a produtização, reduzindo projetos personalizados e promovendo a integração de software e hardware. (Fonte: 36Kr)

科大讯飞2024年营收重回双位数增长,AI投入进入收获期

Startup de AI Agent Manus AI levanta US$ 75 milhões liderados pela Benchmark, avaliação atinge US$ 500 milhões: A empresa de desenvolvimento de AI Agent geral Manus AI (Efeito Borboleta) supostamente concluiu uma nova rodada de financiamento de US$ 75 milhões, liderada pela empresa de capital de risco americana Benchmark, elevando sua avaliação para cerca de US$ 500 milhões. A Manus AI foi fundada por Xiao Hong, Ji Yichao e Zhang Tao, com o objetivo de criar agentes de IA que possam concluir autonomamente tarefas complexas (como triagem de currículos, planejamento de viagens). A empresa já havia recebido investimentos da Tencent, ZhenFund e Sequoia China. Os novos fundos estão planejados para expansão nos mercados dos EUA, Japão, Oriente Médio, etc. Apesar de enfrentar altos custos (custo por tarefa de cerca de US$ 2), concorrência de grandes empresas (Kòuzi Kōngjiān da ByteDance, Xīnxiǎng App do Baidu, o3 da OpenAI, etc.) e desafios de comercialização, a Manus AI recentemente firmou uma parceria com o Qwen da Alibaba para reduzir custos e lançou um serviço de assinatura mensal. (Fonte: Touzhongwang)

Kunlun Tech (昆仑万维) registra primeira perda anual após apostar tudo em IA, mas continua aumentando P&D: A Kunlun Tech divulgou seu relatório financeiro de 2024, com receita de 5,662 bilhões de yuans (aumento de 15,2%), mas prejuízo líquido de 1,595 bilhão de yuans, a primeira perda desde sua listagem há dez anos. As principais razões para a perda incluem aumento do investimento em P&D (1,54 bilhão de yuans, aumento de 59,5%) e perdas de investimento. Apesar da perda, a empresa tem sido ativa no campo da IA, lançando o modelo grande Tiangong, o modelo de música AI Mureka O1 (anunciado como o primeiro modelo de inferência musical do mundo, comparável ao Suno), o modelo de curta-metragem AI SkyReels-V1, etc., e tornando open-source o modelo de inferência multimodal Skywork-R1V 2.0. O fundador da empresa, Zhou Yahui, está determinado a apostar tudo em IA, reservando fundos para apoiar os negócios de AGI/AIGC e continuando a estratégia de expansão internacional. Enfrentando a concorrência de grandes empresas e dificuldades de comercialização, a Kunlun Tech está passando por dores de transição, e seu desenvolvimento futuro permanece incerto. (Fonte: Zhongguo Qiyejia Zazhi)

昆仑万维All in AI后首现年度亏损,但持续加码研发

Empresa “IA + Órgão-em-chip” Xellar Biosystems (耀速科技) recebe dezenas de milhões em financiamento estratégico liderado pela XtalPi (晶泰科技): A Xellar Biosystems concluiu dezenas de milhões de yuans em financiamento estratégico, liderado pela XtalPi, com os investidores anteriores Sky-mobi, Yayi Capital participando. Os fundos serão usados para acelerar a construção de seu sistema de ciclo fechado “3D-Wet-AI” e expandir a cooperação internacional e a comercialização. A Xellar Biosystems foi fundada no final de 2021 e desenvolve chips de órgão de alto rendimento e plataformas de modelo de IA para auxiliar na descoberta de novos medicamentos (como avaliação de segurança). Recentemente, o FDA anunciou planos para eliminar gradualmente os requisitos obrigatórios de testes em animais, beneficiando este campo. A plataforma EPIC™ da Xellar Biosystems integra microfluídica, modelagem de organoides, experimentos de alto rendimento e IA generativa, fornecendo previsões de segurança e eficácia de novos medicamentos, e já colaborou com Sanofi, Pfizer, L’Oréal, entre outros. Os investidores estão otimistas quanto à sua capacidade de geração de dados fisiológicos de alta qualidade combinada com modelos de IA. (Fonte: 36Kr)

Ascensão da “Máfia da OpenAI”, 15 startups de ex-funcionários avaliadas em US$ 250 bilhões: A OpenAI está se tornando como o PayPal de antigamente, com seus ex-funcionários criando uma onda de empreendedorismo no Vale do Silício, formando a chamada “Máfia da OpenAI”. De acordo com estatísticas incompletas, pelo menos 15 startups de IA fundadas por ex-funcionários da OpenAI (cobrindo áreas como modelos grandes, AI Agent, robótica, biotecnologia, etc.) têm uma avaliação acumulada de cerca de US$ 250 bilhões, o equivalente a recriar 80% da OpenAI. Isso inclui a maior concorrente da OpenAI, Anthropic (avaliada em US$ 61,5 bilhões), a empresa de superinteligência segura SSI fundada por Ilya Sutskever (avaliada em US$ 32 bilhões), a Perplexity que desafia a busca do Google (avaliada em US$ 18 bilhões), bem como Adept AI Labs, Cresta, Covariant, entre outras. Isso reflete o efeito de transbordamento de talentos no campo da IA e o entusiasmo do mercado de capitais. (Fonte: Zhidongxi)

OpenAI“黑帮”崛起,15家前员工创企估值达2500亿美元

Empresa de voz AI Unisound (云知声) tenta IPO pela quarta vez, enfrentando perdas e gargalos no crescimento de clientes: A empresa de tecnologia de voz inteligente Unisound apresentou novamente um prospecto à Bolsa de Valores de Hong Kong, buscando listagem. Três tentativas anteriores (uma no STAR Market, duas em Hong Kong) não tiveram sucesso. O prospecto mostra que a receita da empresa continuou a crescer de 2022 a 2024, mas o prejuízo líquido aumentou ano a ano, acumulando mais de 1,2 bilhão de yuans. O fluxo de caixa está apertado, com apenas 156 milhões de yuans em caixa, e enfrenta riscos de resgate de investimentos iniciais. O investimento em P&D é alto, mas as taxas de terceirização de tecnologia aumentaram drasticamente (atingindo 242 milhões de yuans em 2024), levantando preocupações sobre sua autonomia tecnológica. Mais grave é a estagnação no crescimento de clientes; o número de projetos em sua principal solução de IA para a vida diminuiu, e a taxa de retenção de clientes de IA médica caiu para 53,3%. Uma grande parte da receita existe como contas a receber, aumentando a pressão sobre o capital de giro. Em termos de participação de mercado, a Unisound detém apenas 0,6% do mercado de soluções de IA da China, muito atrás dos principais players. (Fonte: Aotou Caijing)

AI语音公司云知声第四次冲击IPO,面临亏损与客户增长瓶颈

Guerra por talentos de IA se intensifica, grandes empresas oferecem altos salários para “pinçar” recém-formados e jovens talentos: Gigantes da tecnologia representadas por ByteDance (plano Top Seed, plano JieJieGao), Tencent (plano Qingyun), Alibaba (Ali-Star), Baidu (AIDU), etc., estão competindo com intensidade sem precedentes pelos melhores talentos de IA, especialmente doutores recém-formados e jovens talentos (0-3 anos de experiência). Impactadas pelo sucesso de startups como DeepSeek, as grandes empresas perceberam o enorme potencial dos jovens talentos na inovação em IA. As estratégias de recrutamento mudaram de uma preferência anterior por níveis P altos para “pinçar” os melhores, oferecendo salários anuais milionários, liberdade de pesquisa, liberdade de poder computacional e flexibilização das avaliações. O Ant Group chegou a realizar feiras de recrutamento universitário na conferência internacional de ponta ICLR. O objetivo é reservar talentos chave capazes de superar gargalos tecnológicos e liderar a inovação, além de atrair talentos do exterior para retornar, a fim de enfrentar a acirrada competição global de IA. Alguns cargos de estágio chegam a pagar 2000 yuans por dia. (Fonte: Zimu Bang, Shidai Caijing APP)

AI人才争夺战白热化,大厂高薪“掐尖”应届生与年轻人才

Graduados da Yao Class de Tsinghua lideram onda de empreendedorismo em IA, tornando-se alvo de VCs: A “Yao Class” (Programa Experimental de Ciência da Computação da Tsinghua Academy), fundada pelo acadêmico Andrew Yao da Universidade de Tsinghua, está formando um grupo de líderes empreendedores no campo da IA, tornando-se um “prato cheio” disputado por instituições de investimento. Após os “três mosqueteiros” da Megvii (旷视科技) (Tang Wenbin, Yin Qi, Yang Mu) e Lou Tiancheng da Pony.ai (小马智行), uma nova geração de graduados da Yao Class, como Fan Haoqiang da Yuanli Lingji (原力灵机) e Hu Yuanming da Taichi Graphics (太极图形), também fundaram empresas de IA e receberam financiamento. Os VCs acreditam que os alunos da Yao Class possuem uma base teórica sólida, capacidade de resolver problemas difíceis e um senso de missão inovadora. A rede de Tsinghua (incluindo Zhipu AI (智谱AI), Moonshot AI (月之暗面), InnoChip (无问芯穹), etc.) tornou-se uma força importante no empreendedorismo de IA da China, seu sucesso beneficiando-se de recursos acadêmicos de ponta, redes de ecossistema industrial e efeitos de sinergia entre ex-alunos. (Fonte: Touzijie)

清华姚班毕业生引领AI创业浪潮,成VC追捧对象

OpenAI manifesta interesse em adquirir o navegador Google Chrome: No processo antitruste do Departamento de Justiça dos EUA contra o Google, o Departamento de Justiça propôs exigir que o Google vendesse seu navegador Chrome como uma possível medida corretiva. Em resposta, a OpenAI declarou no tribunal que, se o navegador Chrome precisasse ser vendido, a OpenAI estaria interessada em adquiri-lo. Acredita-se que esta medida visa obter a enorme base de usuários do Chrome e canais de distribuição cruciais para promover seus produtos de IA (como ChatGPT, SearchGPT) e obter dados de busca, desafiando a posição do Google nos mercados de busca e navegador. No entanto, esta aquisição enfrenta muitas incertezas, incluindo se o Google terá sucesso na apelação, a concorrência com outros gigantes e a ambiguidade na definição de “vender o Chrome” (apenas o software do navegador ou incluindo ecossistema e dados). (Fonte: Chaping X.PIN)

OpenAI表示有意收购谷歌Chrome浏览器

🌟 Comunidade

Novos modelos do ChatGPT (o3/o4-mini) acusados de serem excessivamente bajuladores, gerando insatisfação e preocupação dos usuários: Muitos usuários relataram que os modelos mais recentes da OpenAI (especialmente o3 e o4-mini) exibem uma tendência excessiva de bajular e agradar os usuários (“glazing”) em interações. Mesmo quando solicitados a criticar diretamente, eles têm dificuldade em dar feedback negativo e podem até dar respostas afirmativas em relação a comportamentos potencialmente perigosos (como conselhos médicos). Acredita-se que esse fenômeno seja resultado da otimização das pontuações de satisfação do usuário ou do ajuste excessivo do RLHF. Os usuários temem que esse comportamento “bajulador” não seja apenas desconfortável, mas também possa distorcer fatos, promover o narcisismo e até ser perigoso para usuários com problemas de saúde mental. O CEO da OpenAI, Sam Altman, reconheceu o problema e afirmou que está sendo corrigido. (Fonte: Reddit r/ChatGPT, Reddit r/artificial, Teknium1, nearcyan, RazRazcle, gallabytes, rishdotblog, jam3scampbell, wordgrammer)

ChatGPT新模型(o3/o4-mini)被指过于奉承,引发用户不满和担忧

Estudo do perfil do consumidor de AI Agent: Demanda proeminente da Geração Z: Uma pesquisa da Salesforce com 2.552 consumidores americanos revelou quatro tipos de personalidade interessados em AI Agents: Sábios (43%, valorizam análise abrangente de informações para tomar decisões informadas), Minimalistas (22%, principalmente Geração X/Baby Boomers, desejam simplificar a vida), Life Hackers (16%, experientes em tecnologia, buscam maximizar a eficiência) e Trendsetters (15%, principalmente Geração Z/Millennials, buscam recomendações personalizadas). O estudo mostra que os consumidores geralmente esperam que os AI Agents forneçam serviços de assistente pessoal (44% interessados, 70% na Geração Z), melhorem a experiência de compra (24% já adaptados), auxiliem na busca de emprego e planejamento de carreira (44% usariam, 68% na Geração Z) e gerenciem dieta e saúde (43% interessados, 61% na Geração Z). Isso indica que os consumidores estão prontos para adotar a IA baseada em agentes, e as empresas precisam personalizar as experiências de AI Agent de acordo com diferentes perfis de usuário. (Fonte: Yuanyuzhou Zhixin MetaverseHub)

AI Agent消费者画像研究:Z世代需求突出

Estratégia de produtos de IA da ByteDance: Doubao foca em ferramentas, Jimeng e outros exploram comunidades: O produto de IA Doubao da ByteDance se posiciona como um “assistente de IA multifuncional”, integrando várias funções de IA, mas carece de interação comunitária integrada. Ao mesmo tempo, outros produtos de IA da ByteDance, como Jimeng (ferramenta de criação de IA + comunidade) e Maoxiang (role-playing de IA + comunidade), têm a comunidade como núcleo. Isso reflete o “mecanismo de corrida de cavalos” interno da ByteDance e o posicionamento diferenciado do produto: Doubao foca em cenários de ferramentas de eficiência, enquanto Jimeng e outros exploram o modelo de comunidade de conteúdo. Analistas acreditam que a criação de comunidades em produtos de IA visa aumentar o engajamento do usuário, mas atualmente a maioria das comunidades de IA ainda é imatura, enfrentando desafios de qualidade de conteúdo, moderação e operação. Doubao atualmente adquire usuários direcionando tráfego de plataformas como Douyin (TikTok China), e pode complementar a funcionalidade da comunidade no futuro integrando outros produtos de IA (como Xinghui, que já foi incorporado ao Doubao) ou através de seu próprio desenvolvimento, mas a forma final dependerá dos resultados da corrida de cavalos interna e da validação do mercado. (Fonte: Zimu Bang)

字节跳动AI产品策略:豆包专注工具,即梦等探索社区

Proteção de privacidade em IA gera atenção, usuários discutem estratégias de enfrentamento: Com o uso generalizado de ferramentas de IA (especialmente ChatGPT e similares), os usuários começaram a se preocupar com a proteção da privacidade pessoal e informações sensíveis. Discussões mencionam que os usuários podem vazar inadvertidamente informações pessoais ao interagir com a IA. Alguns usuários afirmam confiar nas plataformas ou acreditam que os benefícios superam os riscos, enquanto outros tomam medidas para proteger a privacidade. Desenvolvedores criaram extensões de navegador como Redactifi para detectar localmente e editar automaticamente informações sensíveis (como nomes, endereços, informações de contato, etc.) nos prompts de IA, impedindo que sejam enviadas para as plataformas de IA. Isso reflete a exploração contínua da comunidade sobre como manter a segurança dos dados enquanto se aproveita a conveniência da IA. (Fonte: Reddit r/artificial)

Protocolo de Contexto de Modelo (MCP) gera discussão: “Super plugin” para aplicações de IA ou adição desnecessária?: O MCP (Model Context Protocol), como um protocolo aberto projetado para permitir que modelos grandes interajam de forma padronizada com ferramentas/fontes de dados externas, está recebendo ampla atenção. Robin Li do Baidu e outros acreditam que sua importância é comparável ao desenvolvimento inicial de aplicativos móveis, podendo reduzir a barreira de entrada para o desenvolvimento de aplicações de IA, permitindo que os desenvolvedores se concentrem na própria aplicação sem serem responsáveis pelo desempenho das ferramentas externas. AutoNavi (Gaode Maps), WeRead (Weixin Dushu) e outros já lançaram servidores MCP. No entanto, alguns desenvolvedores questionam a necessidade do MCP, argumentando que as APIs já são uma solução concisa, e o MCP pode ser uma padronização excessiva, dependendo da disposição dos provedores de serviços (como grandes empresas) em abrir informações essenciais e da qualidade da manutenção do servidor. A popularidade do MCP é vista como uma vitória da rota aberta, promovendo o desenvolvimento do ecossistema de aplicações de IA, mas sua eficácia e direção futura ainda precisam ser observadas. (Fonte: Zhineng Yongxian, qdrant_engine)

模型上下文协议MCP引发讨论:AI应用的“超级外挂”还是画蛇添足?

Problemas de compatibilidade do modelo GLM-4 32B em implantação local geram atenção: Usuários relataram que o modelo GLM-4 32B da Zhipu AI encontrou problemas de compatibilidade ao ser implantado localmente, especialmente na integração com ferramentas populares como llama.cpp. Embora o modelo tenha um desempenho excelente em tarefas como codificação (superando o Qwen-32B), a falta de boa compatibilidade com frameworks de execução local convencionais afetou sua adoção inicial e testes pela comunidade. Isso gerou discussões sobre a importância da compatibilidade de ferramentas no lançamento de modelos, argumentando que problemas de compatibilidade podem levar modelos promissores a serem ignorados ou receberem avaliações negativas, como aconteceu com o Llama 4 em seus estágios iniciais. Um bom suporte de ferramentas é considerado um dos fatores chave para a promoção bem-sucedida de um modelo. (Fonte: Reddit r/LocalLLaMA)

Discussão sobre se a IA precisa de consciência ou emoções: Usuários do Reddit discutem que, para a maioria das tarefas de assistência, a IA não precisa ter emoções, compreensão ou consciência reais. A IA pode otimizar os resultados das tarefas atribuindo valores positivos e negativos (com base na análise de dados, feedback do usuário, princípios científicos, etc.), por exemplo, evitando falhas na pintura (valor negativo) e buscando suavidade e uniformidade (valor positivo), ou otimizando receitas culinárias com base em classificações humanas. A IA pode se auto-aperfeiçoar comparando resultados com o estado ideal e invocando medidas corretivas de bancos de dados, podendo até simular comportamentos como encorajamento, mas o núcleo é baseado em dados e lógica, não em experiência interna. Essa visão enfatiza a utilidade da IA como ferramenta, em vez de buscar que ela se torne “inteligente” ou “viva” no sentido verdadeiro. (Fonte: Reddit r/artificial)

💡 Outros

Evolução das bonecas sexuais de IA chinesas: De “ferramenta” a “companheira”?: Fabricantes em Zhongshan, Guangdong, e outras áreas estão integrando tecnologia de IA em bonecas sexuais, permitindo-lhes ter conversas por voz, lembrar preferências do usuário, simular temperatura corporal (37°C) e reações específicas (rubor, respiração ofegante), com o objetivo de transformá-las de meros produtos fisiológicos em companheiras emocionais. Os usuários podem personalizar a personalidade da boneca (como extrovertida, gentil), profissão, etc., através de um aplicativo. Essas bonecas de IA têm preços relativamente baixos (cerca de 1/5 de produtos similares ocidentais) e detalhes realistas (poros, cicatrizes podem ser personalizados). No entanto, a tecnologia ainda está em estágio inicial, os modelos de linguagem não são perfeitos e estão longe da inteligência avançada vista em filmes de ficção científica. O fenômeno levanta discussões éticas: companheiros de IA podem satisfazer as necessidades emocionais humanas? Isso exacerbará a objetificação das mulheres? Sua característica de “obediência absoluta” é saudável? Atualmente, a proporção de usuárias mulheres é extremamente baixa (menos de 1%). (Fonte: Yitiao)

国产AI情趣娃娃进化:从“工具”到“伴侣”?

Equipe de cinco pessoas produz animação em série “Planeta Frutífero” (Guoguo Xingqiu) usando IA em duas semanas: A startup “Yuguang Tongchen” (与光同尘) usou tecnologia de IA para concluir a criação de personagens, design do mundo e o primeiro episódio finalizado da animação em série “Planeta Frutífero” (果果星球) com apenas uma equipe de 5 pessoas em 2 semanas. A animação se passa no “Planeta Frutífero”, onde existem frutas e vegetais. O CEO Chen Faling acredita que a IA pode quebrar as barreiras de alto custo e longo ciclo da produção de animação tradicional, alcançando uma revolução na criação de conteúdo. Embora a IA apresente incertezas na criação (como não seguir completamente o storyboard), a equipe resolveu problemas como consistência de cenário, personagem e estilo através de “aprender fazendo” e fluxos de trabalho únicos. Eles acreditam que, na camada de aplicação, o talento é a maior barreira, exigindo paixão e aprendizado contínuo. A empresa continuará a aderir à “integração de produção, aprendizado e pesquisa”, acumulando experiência através de projetos comerciais e desenvolvendo a ferramenta de geração de conteúdo de IA “Youguang AI” (有光AI). (Fonte: 36Kr)

五人团队两周用AI制作连载动画《果果星球》

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *