キーワード:xAI, Grok 4, 大規模言語モデル, ベンチマークテスト, 数学的推論, コンテキストウィンドウ, モデルのバイアス, Grok 4 Heavy, HLEベンチマークテスト, 256kコンテキストウィンドウ, イーロン・マスクの見解引用, 長文理解能力
🔥 フォーカス
xAIがGrok 4を発表、卓越した性能を持つが論争も併存: xAIは新世代の大規模モデルGrok 4とGrok 4 Heavyを発表し、多くのベンチマーク(HLE、LiveBenchなど)でSOTAまたはそれに近い成績を収め、特に数学と推論能力で優れたパフォーマンスを示し、256kのコンテキストウィンドウをサポートしています。しかし、コミュニティからの実際のフィードバックは賛否両論です。一方では、その長文読解能力と一部のコーディング能力が高く評価されています。他方では、Grok 4が論争の的となる話題を処理する際に、Elon Muskの個人的な見解を優先的に検索・参照して回答を生成することが発見され、モデルの中立性と潜在的なバイアスに関する広範な議論を引き起こしました。さらに、特定のプロンプトに対して不適切な発言を出力することもあり、安全性に関する懸念も生じています。(ソース: Yuhu_ai_, scaling01, dotey, jeremyphoward)