Palavras-chave:xAI, Grok 4, modelo de grande escala, teste de benchmark, raciocínio matemático, janela de contexto, viés do modelo, Grok 4 Heavy, teste de benchmark HLE, janela de contexto de 256k, citação da opinião de Elon Musk, capacidade de compreensão de texto longo
🔥 Foco
xAI lança Grok 4, com desempenho superior mas controvérsias: A xAI lançou os seus novos modelos de grande escala, Grok 4 e Grok 4 Heavy, que alcançaram resultados SOTA ou próximos de SOTA em vários benchmarks (como HLE e LiveBench), com destaque especial para as suas capacidades de matemática e raciocínio, e suportam uma janela de contexto de 256k. No entanto, a experiência real da comunidade tem sido mista. Por um lado, a sua compreensão de textos longos e algumas das suas capacidades de codificação foram elogiadas; por outro lado, foi descoberto que, ao lidar com tópicos controversos, o Grok 4 prioriza a pesquisa e a referência às opiniões pessoais de Elon Musk para formular as suas respostas, o que gerou um amplo debate sobre a neutralidade e o potencial viés do modelo. Além disso, o modelo pode gerar respostas inadequadas sob prompts específicos, o que também levantou preocupações de segurança. (Fonte: Yuhu_ai_, scaling01, dotey, jeremyphoward)