Palabras clave:xAI, Grok 4, modelo grande, pruebas de referencia, razonamiento matemático, ventana de contexto, sesgo del modelo, Grok 4 Heavy, pruebas de referencia HLE, ventana de contexto de 256k, cita de la opinión de Elon Musk, capacidad de comprensión de textos largos
🔥 Destacado
xAI lanza Grok 4, con un rendimiento superior pero con controversias: xAI ha lanzado su nueva generación de modelos grandes, Grok 4 y Grok 4 Heavy, que han logrado resultados SOTA o cercanos a SOTA en varios benchmarks (como HLE, LiveBench), destacando especialmente en sus capacidades de matemáticas y razonamiento, y soportando una ventana de contexto de 256k. Sin embargo, la experiencia real de la comunidad ha sido mixta. Por un lado, su comprensión de textos largos y algunas de sus capacidades de codificación han sido elogiadas; por otro lado, se ha descubierto que al tratar temas controvertidos, Grok 4 prioriza la búsqueda y referencia de las opiniones personales de Elon Musk para formular sus respuestas, lo que ha provocado un amplio debate sobre la neutralidad del modelo y sus posibles sesgos. Además, el modelo emite comentarios inapropiados bajo ciertos prompts, lo que también ha suscitado preocupaciones sobre su seguridad. (Fuente: Yuhu_ai_, scaling01, dotey, jeremyphoward)