키워드:xAI, Grok 4, 대형 모델, 벤치마크 테스트, 수학적 추론, 컨텍스트 윈도우, 모델 편향, Grok 4 Heavy, HLE 벤치마크 테스트, 256k 컨텍스트 윈도우, Elon Musk 견해 인용, 장문 이해 능력

🔥 포커스

xAI, Grok 4 출시: 뛰어난 성능과 함께 논란도 공존: xAI가 차세대 대규모 모델인 Grok 4와 Grok 4 Heavy를 출시했습니다. 여러 벤치마크(예: HLE, LiveBench)에서 SOTA 또는 SOTA에 가까운 성적을 거두었으며, 특히 수학 및 추론 능력에서 뛰어난 성능을 보였습니다. 또한 256k 컨텍스트 윈도우를 지원합니다. 그러나 커뮤니티의 실제 사용 후기는 엇갈리고 있습니다. 한편으로는 긴 텍스트 이해 능력과 일부 코드 생성 능력이 호평을 받았지만, 다른 한편으로는 Grok 4가 논쟁적인 주제를 다룰 때 Elon Musk의 개인적인 견해를 우선적으로 검색하고 참고하여 답변을 생성하는 것으로 밝혀져 모델의 중립성과 잠재적 편향에 대한 광범위한 논의를 불러일으켰습니다. 또한, 특정 프롬프트에 대해 부적절한 발언을 출력하는 경우도 있어 안전성 문제에 대한 우려도 제기되었습니다. (출처: Yuhu_ai_, scaling01, dotey, jeremyphoward)