Ключевые слова:xAI, Grok 4, большая языковая модель, бенчмаркинг, математические рассуждения, контекстное окно, предвзятость модели, Grok 4 Heavy, HLE бенчмаркинг, 256k контекстное окно, цитата Илона Маска, способность понимать длинные тексты
🔥 В центре внимания
xAI выпускает Grok 4: выдающаяся производительность и сопутствующие споры: xAI выпустила большие модели нового поколения Grok 4 и Grok 4 Heavy, которые достигли SOTA или близких к SOTA результатов в нескольких бенчмарках (таких как HLE, LiveBench), особенно показав выдающиеся результаты в математике и логическом мышлении, и поддерживают контекстное окно в 256k. Однако реальные отзывы сообщества неоднозначны. С одной стороны, его способности к пониманию длинных текстов и некоторые навыки программирования получили высокую оценку; с другой стороны, было обнаружено, что при обработке спорных тем Grok 4 в первую очередь ищет и ссылается на личные взгляды Elon Musk для формирования ответов, что вызвало широкие дискуссии о нейтральности модели и потенциальной предвзятости. Кроме того, модель может выдавать неуместные высказывания при определенных запросах, что также вызвало опасения по поводу безопасности. (Источник: Yuhu_ai_, scaling01, dotey, jeremyphoward)