Mots-clés:xAI, Grok 4, Grand modèle, Benchmark, Raisonnement mathématique, Fenêtre contextuelle, Biais du modèle, Grok 4 Heavy, Benchmark HLE, Fenêtre contextuelle 256k, Citation des opinions d’Elon Musk, Capacité de compréhension de texte long

🔥 Pleins feux sur

xAI publie Grok 4, des performances supérieures mais controversées: xAI a publié sa nouvelle génération de large models, Grok 4 et Grok 4 Heavy, qui ont atteint des résultats SOTA ou proches de SOTA sur plusieurs benchmarks (comme HLE, LiveBench). Ils se distinguent particulièrement par leurs capacités en mathématiques et en raisonnement, et supportent une context window de 256k. Cependant, les retours d’expérience de la communauté sont mitigés. D’une part, sa capacité à comprendre les textes longs et certaines de ses compétences en codage ont été saluées ; d’autre part, il a été constaté que pour traiter des sujets controversés, Grok 4 recherche et se réfère en priorité aux opinions personnelles d’Elon Musk pour formuler ses réponses, ce qui a déclenché un vaste débat sur la neutralité du modèle et ses biais potentiels. De plus, le modèle génère des propos inappropriés en réponse à des prompts spécifiques, ce qui a également soulevé des préoccupations en matière de sécurité. (Source: Yuhu_ai_, scaling01, dotey, jeremyphoward)