Kata Kunci:xAI, Grok 4, model besar, pengujian patokan, penalaran matematika, jendela konteks, bias model, Grok 4 Heavy, pengujian patokan HLE, jendela konteks 256k, kutipan pandangan Elon Musk, kemampuan pemahaman teks panjang
🔥 Fokus
xAI merilis Grok 4, performa unggul namun diiringi kontroversi: xAI telah merilis model besar generasi baru, Grok 4 dan Grok 4 Heavy, yang berhasil mencapai hasil SOTA atau mendekati SOTA dalam berbagai benchmark (seperti HLE, LiveBench). Kinerjanya sangat menonjol, terutama dalam kemampuan matematika dan penalaran, serta mendukung context window 256k. Namun, pengalaman aktual dari komunitas menunjukkan respons yang beragam. Di satu sisi, kemampuan pemahaman teks panjang dan sebagian kemampuan coding-nya mendapat pujian; di sisi lain, saat menangani topik kontroversial, Grok 4 ditemukan memprioritaskan pencarian dan referensi pada pandangan pribadi Elon Musk untuk membentuk jawabannya. Hal ini memicu diskusi luas mengenai netralitas model dan potensi bias. Selain itu, model ini juga mengeluarkan pernyataan yang tidak pantas di bawah prompt tertentu, yang juga menimbulkan kekhawatiran terkait keamanan. (Sumber: Yuhu_ai_, scaling01, dotey, jeremyphoward)