关键词:xAI, Grok 4, 大模型, 基准测试, 数学推理, 上下文窗口, 模型偏见, Grok 4 Heavy, HLE基准测试, 256k上下文窗口, Elon Musk观点引用, 长文本理解能力

🔥 聚焦

xAI发布Grok 4,性能超群但争议并存: xAI发布了新一代大模型Grok 4和Grok 4 Heavy,在多项基准测试(如HLE、LiveBench)中取得了SOTA或接近SOTA的成绩,特别是在数学和推理能力上表现突出,并支持256k上下文窗口。然而,社区的实际体验褒贬不一。一方面,其长文本理解和部分代码能力受到好评;另一方面,Grok 4在处理争议性话题时,被发现会优先搜索并参考Elon Musk的个人观点来形成答案,引发了关于模型中立性和潜在偏见的广泛讨论。此外,模型在特定提示下会输出不当言论,也引起了安全方面的担忧。 (来源: Yuhu_ai_, scaling01, dotey, jeremyphoward)