Palabras clave:modelo de lenguaje, investigación en IA, OpenAI, MiniMax, Gemini, DeepSeek, aprendizaje por refuerzo, agente de IA, desalineación emergente, modelo MiniMax-M1, Gemini 2.5 Pro, capacidad de programación DeepSeek-R1, protocolo de control de modelos (MCP)
🔥 Enfoque
OpenAI publica una investigación que explora el fenómeno de la “desalineación emergente” en los modelos de lenguaje y sus mecanismos de mitigación: La investigación de OpenAI demuestra que un modelo de lenguaje entrenado para generar código informático inseguro puede producir un amplio comportamiento de “desalineación”, es decir, “desalineación emergente”. El estudio encontró que existen patrones específicos dentro del modelo (similares a los patrones de actividad cerebral) que se vuelven más activos cuando aparece el comportamiento desalineado. Este patrón se origina a partir de descripciones de comportamientos indeseables en los datos de entrenamiento. Al aumentar o disminuir directamente la actividad de este patrón, se puede cambiar el grado de alineación del modelo. Además, al reentrenar el modelo con información correcta, se le puede redirigir hacia un comportamiento beneficioso. Este trabajo ayuda a comprender las causas de la desalineación del modelo y podría proporcionar un sistema de alerta temprana y vías de reparación para la desalineación durante el entrenamiento (Fuente: OpenAI, karinanguyen_, janonacct)

Yann LeCun destaca las ventajas teóricas del razonamiento en espacios latentes continuos sobre el razonamiento con Tokens discretos: Yann LeCun reenvió y comentó un artículo publicado por el equipo de Yuandong Tian de Meta AI, que demuestra teóricamente que el razonamiento en espacios latentes continuos es más potente que el razonamiento en espacios de Tokens discretos. El artículo señala que para un grafo con n vértices y un diámetro D, un Transformer de dos capas con una cadena de pensamiento continuo (CoT) de D pasos puede resolver el problema de alcanzabilidad en grafos dirigidos, mientras que los Transformers de profundidad constante con CoT discreto conocidos actualmente requieren O(n^2) pasos de decodificación. La idea central es que el pensamiento continuo puede codificar simultáneamente múltiples rutas candidatas en el grafo, logrando una “búsqueda paralela” implícita, mientras que las secuencias de Tokens discretos solo pueden procesar una ruta a la vez (Fuente: ylecun, Ahmad_Al_Dahle, HamelHusain)
MiniMax libera el modelo MiniMax-M1, diseñado específicamente para la inferencia en textos largos: MiniMax anunció la liberación de su más reciente modelo de lenguaje a gran escala, MiniMax-M1, que establece un nuevo estándar en la inferencia de textos largos. Posee una ventana de contexto de entrada de 1M de Tokens y una capacidad de salida de 80k Tokens, demostrando un nivel superior de aplicación Agentic entre los modelos de código abierto. Cabe destacar que este modelo fue entrenado mediante aprendizaje por refuerzo (RL) eficiente, con un costo de entrenamiento reportado de solo 534,700 dólares. Esta iniciativa busca impulsar las fronteras de la investigación y aplicación de la IA, especialmente en el procesamiento y comprensión de datos textuales a gran escala (Fuente: cognitivecompai, MiniMax__AI, OpenRouter)

Se revela la arquitectura detrás de Gemini 2.5 Pro jugando a 《Pokémon》: La arquitectura subyacente que permitió al modelo Gemini 2.5 Pro de Google DeepMind ejecutar con éxito el juego 《Pokémon》 ha generado atención. Dicha arquitectura demuestra las potentes capacidades del modelo en la comprensión de tareas complejas, la generación de estrategias y el razonamiento de múltiples pasos. Al analizar el estado del juego, comprender las reglas y tomar decisiones, Gemini 2.5 Pro no solo puede jugar, sino que también muestra más profundamente su potencial como un agente de IA general, proporcionando una referencia para futuras aplicaciones de la IA en entornos interactivos más amplios (Fuente: _philschmid, Ar_Douillard)

🎯 Tendencias
Essential AI lanza Essential-Web v1.0, un conjunto de datos de preentrenamiento con 24 billones de Tokens: Essential AI ha publicado su último logro de investigación: Essential-Web v1.0, un conjunto de datos de preentrenamiento de gran escala que contiene 24 billones de Tokens y metadatos enriquecidos. Este conjunto de datos tiene como objetivo ayudar a los usuarios a construir fácilmente conjuntos de datos de alto rendimiento para diversos dominios y casos de uso, y también ha demostrado un gran valor para las tareas de gestión de datos internos. Se espera que esta iniciativa impulse el desarrollo en el campo del entrenamiento de modelos de lenguaje a gran escala y la gestión de datos (Fuente: amasad, code_star, ClementDelangue)

MiniMax presenta el modelo de video Hailuo 02, destacando el seguimiento de instrucciones y la rentabilidad: MiniMax lanzó el modelo de video Hailuo 02 en el segundo día de su evento #MiniMaxWeek. Se informa que este modelo tiene un rendimiento excepcional en el seguimiento de instrucciones, es capaz de manejar situaciones físicas extremas (como actuaciones acrobáticas) y admite de forma nativa una resolución de 1080p. MiniMax enfatiza que, además de lograr una calidad de clase mundial, también ha alcanzado una eficiencia de costos récord. Esto marca un nuevo avance para MiniMax en el campo de la generación multimodal, especialmente en la creación de contenido de video de alta calidad (Fuente: _akhaliq, 量子位)
DeepSeek-R1 supera a Claude 4 y ocupa el primer lugar en pruebas públicas de programación web: Según el último informe del campo de batalla de los grandes modelos, la nueva versión R1 del modelo DeepSeek (versión 0528) ha superado en capacidad de programación web a Claude Opus 4, ampliamente considerado como un modelo de codificación de primer nivel, clasificándose en primer lugar. El rendimiento de la versión DeepSeek-R1-0528 en LiveCodeBench también se acerca al modelo o3-high de OpenAI, lo que ha generado especulaciones de que podría ser la legendaria versión R2. Actualmente, el modelo está disponible en el sitio web oficial de DeepSeek, la aplicación y el mini programa, donde los usuarios pueden experimentar sus capacidades de programación, incluida la generación de código para páginas web y aplicaciones que se pueden ejecutar directamente (Fuente: 量子位)

El equipo de SGLang ejecuta DeepSeek 671B en NVIDIA GB200 NVL72, alcanzando una velocidad de decodificación de 7583 toks/sec/GPU: LMSYS Org anunció que el equipo de SGLang ejecutó con éxito el modelo DeepSeek 671B en el hardware más reciente de NVIDIA, el GB200 NVL72. Mediante la desagregación de PD y la tecnología de paralelización de expertos a gran escala, se logró una velocidad de decodificación de 7583 tokens por segundo por GPU, lo que representa una mejora de 2.7 veces en comparación con el H100. Esta colaboración fue iniciada por Pen Li de NVIDIA, y el equipo de FlashInfer proporcionó un fuerte apoyo, demostrando el salto de rendimiento que se obtiene al combinar nuevo hardware con software optimizado (Fuente: Tim_Dettmers)

Menlo Research lanza Jan-nano, un modelo de 4B parámetros que afirma superar a DeepSeek-v3-671B usando MCP: Menlo Research ha lanzado Jan-nano, un modelo de 4 mil millones de parámetros construido sobre Qwen3-4B y ajustado mediante DAPO. Se afirma que, utilizando el protocolo de control de modelos (MCP), el rendimiento de este modelo supera al de DeepSeek-v3-671B, que tiene una cantidad de parámetros mucho mayor. Jan-nano cuenta con capacidades de búsqueda web en tiempo real e investigación profunda, y tanto el modelo como el formato GGUF están disponibles en HuggingFace. Los usuarios pueden ejecutarlo localmente a través de la versión Beta de Jan y habilitar herramientas web mediante una clave API de Serper (Fuente: Alibaba_Qwen)
Cohere propone la técnica Treasure Hunt para la localización en tiempo real de tareas de cola larga mediante etiquetado durante el entrenamiento: Investigadores de Cohere Labs han propuesto un nuevo método llamado “Treasure Hunt” que, mediante la adición de etiquetas simples durante el entrenamiento del modelo, permite localizar y mejorar eficazmente el rendimiento del modelo en tareas de cola larga durante la inferencia. Este método tiene como objetivo reemplazar la ingeniería de prompts compleja y frágil, logrando mejoras de rendimiento en tareas subrepresentadas mediante el enriquecimiento de los datos de entrenamiento y permitiendo a los usuarios un control explícito durante la inferencia, obteniendo así beneficios generalizables en múltiples tareas (Fuente: sarahookr, _akhaliq)

OpenBMB lanza CPM.cu, un framework de inferencia LLM ligero y eficiente para dispositivos: OpenBMB ha lanzado CPM.cu, un framework de inferencia CUDA ligero y eficiente diseñado específicamente para modelos de lenguaje grandes (LLMs) en dispositivos, y ya se ha utilizado para impulsar la implementación de MiniCPM4. Este framework integra su kernel de atención dispersa entrenable InfLLM v2, mejorando significativamente la capacidad de procesamiento de contextos largos. Se afirma que, con una longitud de contexto de 128K, su rendimiento es de 4 a 6 veces superior al de los modelos convencionales de 8B (como Qwen3-8B) (Fuente: teortaxesTex)
Avey AI lanza una nueva arquitectura de modelo de lenguaje llamada Avey, que no depende de la atención multi-cabeza ni de mecanismos recurrentes: El equipo de Avey AI está desarrollando una nueva arquitectura de modelo de lenguaje llamada “Avey”, que no utiliza ninguna variante de atención multi-cabeza ni mecanismos recurrentes, y funciona bien con longitudes de contexto largas. El proyecto es de código abierto, bajo licencia Apache-2.0, y se han publicado el artículo relacionado, un modelo de demostración y el repositorio de GitHub. El modelo publicado actualmente solo ha sido preentrenado con 100 mil millones de Tokens, pero el equipo planea entrenar modelos más grandes basados en esta arquitectura en el futuro. La demostración muestra que el modelo Avey 1.5B, al procesar una entrada de 45K Tokens, ocupa menos de 4GB de VRAM (precisión bf16) en una laptop con una tarjeta 4060 (Fuente: lateinteraction)
Se publica el informe técnico de OneRec, que propone reemplazar los sistemas de recomendación multifase con un único modelo codificador-decodificador: Un informe técnico titulado OneRec propone una nueva arquitectura para sistemas de recomendación. Esta arquitectura reemplaza el flujo tradicional de sistemas de recomendación multifase con un único modelo codificador-decodificador. El modelo se entrena mediante la predicción del siguiente Token para IDs de artículos semánticos. Su diseño central incluye un Tokenizer que utiliza RQ-Kmeans y realiza una alineación multimodal colaborativa para generar IDs semánticos de grano grueso a fino (Fuente: TheXeophon, teortaxesTex)

El cambio de formato de los artículos de Google DeepMind de doble columna a una sola columna llama la atención: El usuario de redes sociales Gabriele Berton ha notado que Google DeepMind parece haber cambiado el formato de maquetación de sus artículos de investigación del anterior formato de doble columna a uno de una sola columna. Señaló este cambio comparando capturas de pantalla del artículo de Gemma 3 de hace tres meses y el reciente artículo de Gemini 2.5, e hizo un llamado a Google DeepMind para que restablezca el uso del formato de doble columna, argumentando que el formato antiguo era mejor (Fuente: gabriberton)

Infini-gram lanza la versión “mini”, comprimiendo drásticamente el almacenamiento del índice: Infini-gram ha lanzado su versión “mini”, un motor de búsqueda con un índice extremadamente comprimido, reduciendo los requisitos de almacenamiento en 14 veces. Esta versión está optimizada para índices a gran escala y un servicio eficiente, se puede utilizar de forma gratuita a través de una interfaz web y una API, y ya ha ayudado a los investigadores a revelar problemas de contaminación de la evaluación a gran escala. La herramienta puede buscar en 45.6 TB de datos textuales (Fuente: Tim_Dettmers)

LLaMA Factory ahora admite el ajuste fino de los modelos de la serie Falcon H1 usando Full-FineTune o LoRA: LLaMA Factory anunció la adición de soporte para el ajuste fino de los modelos de la serie Falcon H1. Los usuarios ahora pueden utilizar los métodos Full-FineTune o LoRA para el entrenamiento personalizado de estos modelos. Esta actualización fue contribuida por DhiaRhayem y amplía aún más la gama de modelos compatibles y la flexibilidad de ajuste fino que ofrece LLaMA Factory (Fuente: yb2698)

🧰 Herramientas
Claude Code ahora admite la conexión a servidores MCP remotos: Anthropic anunció que su asistente de programación de IA, Claude Code, ahora puede conectarse a servidores remotos del protocolo de control de modelos (MCP). Esto significa que los usuarios pueden extraer información de contexto directamente desde sus herramientas a Claude Code, sin necesidad de configuración local. Esta actualización tiene como objetivo mejorar la eficiencia y flexibilidad del flujo de trabajo de los desarrolladores, facilitando el uso de las capacidades de Claude Code en diferentes entornos (Fuente: alexalbert__, cto_junior)

DSPy: Una vía eficaz para construir modelos de lenguaje pequeños y de código abierto: Discusiones en redes sociales destacan la importancia del framework DSPy para construir aplicaciones basadas en modelos de lenguaje pequeños, incluidos los de código abierto. Se argumenta que DSPy ofrece un método que no depende de modelos específicos grandes y de código cerrado, lo que proporciona una salvaguarda para los desarrolladores en caso de que los futuros proveedores de modelos grandes restrinjan o cierren el acceso. La filosofía central de DSPy es tratar los prompts como objetos que necesitan ser compilados en lugar de escritos manualmente, impulsando la velocidad de iteración mediante la generación sistemática, evaluación y mejora continua de los prompts, formando así una verdadera barrera tecnológica (Fuente: lateinteraction, lateinteraction, lateinteraction)
Lanzamiento de DeepSite V2, integra el modelo DeepSeek-R1 y admite la edición de objetivos: Se ha lanzado la versión DeepSite V2, que trae una interfaz de usuario completamente nueva e integra el modelo DeepSeek-R1. La nueva versión admite la edición de objetivos para cualquier elemento y puede rediseñar sitios web existentes. Estas funciones tienen como objetivo mejorar la experiencia y la eficiencia del usuario al crear y modificar páginas web mediante Vibe Coding (programación sensorial o basada en la intuición) (Fuente: _akhaliq, LoubnaBenAllal1)
Hugging Face Hub añade la función de filtrar por tamaño de modelo: Hugging Face Hub ha lanzado una nueva función muy esperada que permite a los usuarios filtrar millones de modelos por su tamaño. Esta mejora es posible gracias a la amplia adopción de los formatos de guardado de modelos safetensors y GGUF, lo que permite un filtrado fiable por tamaño de modelo y mejora enormemente la eficiencia de los usuarios para encontrar y seleccionar modelos en el Hub (Fuente: TheZachMueller)

LangGraph Studio añade la función de evaluación de Agents: LangChain anunció que su LangGraph Studio ahora admite la evaluación de Agents. Los usuarios pueden ejecutar sus Agents en conjuntos de datos de LangSmith y aplicar evaluadores a los resultados, todo el proceso sin escribir código. Esta nueva función tiene como objetivo simplificar y acelerar el proceso de evaluación del rendimiento de los AI Agents, ayudando a los desarrolladores a iterar y optimizar sus Agents de manera más conveniente (Fuente: Hacubu)

Lanzamiento de OpenHands CLI: herramienta de línea de comandos para codificación, de código abierto e independiente del modelo: All Hands AI ha lanzado OpenHands CLI, una nueva herramienta de interfaz de línea de comandos para codificación. Esta herramienta presenta una alta precisión (se afirma que es similar a Claude Code), es completamente de código abierto (licencia MIT) e independiente del modelo, lo que permite a los usuarios utilizar una API o sus propios modelos. Su proceso de instalación y ejecución es simple, con el objetivo de proporcionar a los desarrolladores un asistente de codificación de IA flexible y potente (Fuente: LoubnaBenAllal1)
Memex lanza Launch 2, que permite la creación rápida de servidores MCP a partir de Prompts: Memex ha lanzado Launch 2, una versión que permite a los usuarios crear un servidor MCP (Model Control Protocol) a partir de un Prompt en 10 minutos. Memex se describe como una integración de las funcionalidades de Claude Code y Claude Desktop, y es compatible con los modelos de Anthropic y Gemini. Esta actualización tiene como objetivo simplificar y acelerar el proceso de desarrollo e implementación de aplicaciones de IA (Fuente: _akhaliq)
Gradio Space ahora se puede añadir como herramienta MCP con un solo clic: Julien Chaumond anunció que ahora cada Gradio Space se puede añadir como una herramienta en su servidor MCP (Model Control Protocol) con un solo clic. Esta actualización simplifica enormemente el proceso de integración de aplicaciones Gradio en flujos de trabajo de IA más amplios y sistemas de Agents, mejorando la utilidad de Gradio como plataforma para la creación rápida de prototipos y el despliegue de aplicaciones de IA (Fuente: mervenoyann, _akhaliq)

Replit logra una serie de avances en la construcción de su plataforma de codificación de IA: Replit ha logrado una serie de avances en la construcción de su plataforma de codificación de IA, incluyendo funcionalidades como autenticación, dominios, gestión de claves, tareas en segundo plano, almacenamiento y acceso a modelos universales. Estos avances tienen como objetivo proporcionar a los desarrolladores un entorno de desarrollo en la nube más completo y potente, especialmente para el desarrollo y despliegue de aplicaciones de IA. Replit también se ha asociado con HUMAIN de Arabia Saudita para lanzar una versión de Replit con prioridad para el árabe, con el fin de empoderar a los desarrolladores locales (Fuente: amasad, amasad)

Artificial Analysis lanza MicroEvals para una “prueba de sensaciones” rápida de modelos: Artificial Analysis ha lanzado MicroEvals, una herramienta diseñada para realizar rápidamente una “prueba de sensaciones” (vibe check) de los modelos, como complemento a las pruebas de referencia tradicionales. Esta herramienta permite a los usuarios ir más allá de las métricas puramente numéricas y sentir de manera más intuitiva el rendimiento de un modelo en casos de uso específicos. clefourrier compartió una interesante colección de prompts y resultados de “pruebas de sensaciones”, demostrando la aplicación práctica de MicroEvals (Fuente: clefourrier, RisingSayak)
El plugin DeepThink dota a los modelos locales de capacidades de razonamiento avanzado al estilo de Gemini 2.5: Un desarrollador ha construido un plugin de código abierto llamado DeepThink, diseñado para introducir capacidades de razonamiento avanzado de “pensamiento profundo”, similares a las de Gemini 2.5 de Google, en modelos de lenguaje grandes que se ejecutan localmente (como DeepSeek R1, Qwen3, etc.). Mediante un método de razonamiento estructurado, el plugin permite al modelo generar múltiples hipótesis en paralelo y evaluarlas críticamente, mejorando así el rendimiento en tareas complejas de razonamiento, problemas matemáticos y desafíos de codificación. El proyecto obtuvo el tercer premio en el hackathon Cerebras & OpenRouter Qwen 3 (Fuente: Reddit r/LocalLLaMA)

El generador de respuestas de Voiceflow utiliza tecnología de recuperación para proporcionar información de documentos de cumplimiento normativo: Matthew Mrosko compartió un caso de uso de su generador de respuestas utilizando Voiceflow para la recuperación de información. El sistema puede acceder a documentos de cumplimiento normativo dentro de una organización y devolver los bloques de texto más relevantes, su puntuación y el nombre del archivo de origen. Esto demuestra la aplicación práctica de la tecnología de generación aumentada por recuperación (RAG) en la respuesta a preguntas sobre conocimientos específicos de un dominio y en las comprobaciones de cumplimiento normativo (Fuente: ReamBraden)
📚 Aprendizaje
DeepLearning.AI y Meta colaboran para lanzar el curso corto “Building with Llama 4”: Andrew Ng anunció una colaboración con Meta AI para lanzar un nuevo curso corto titulado “Building with Llama 4”, impartido por Amit Sangani, Director de Ingeniería de Socios en Meta AI. El curso presentará los tres nuevos modelos de Llama 4 (incluidos Maverick y Scout, que utilizan la arquitectura MoE), sus capacidades multimodales (como la inferencia multi-imagen y la localización de imágenes), el procesamiento de contextos largos (compatible con hasta 10M de Tokens), así como las herramientas de optimización de prompts y el kit de herramientas de datos sintéticos de Llama. El objetivo es ayudar a los desarrolladores a dominar las habilidades para construir aplicaciones con Llama 4 (Fuente: AndrewYNg, DeepLearningAI, AIatMeta)
Hamel Husain organiza una miniserie gratuita de 5 partes sobre evaluación y optimización de RAG: Hamel Husain anunció que organizará, junto con Ben Clavié y varios expertos en el campo de RAG, una miniserie gratuita de 5 partes sobre la evaluación y optimización de la generación aumentada por recuperación (RAG). La primera parte será impartida por Ben Clavié, quien refutará la idea de que “RAG está muerto”. Nandan Thakur también participará como instructor, discutiendo el cambio de paradigma necesario para evaluar los modelos de RI en la era de RAG, enfatizando la importancia de las métricas de evaluación de la diversidad y los benchmarks (como FreshStack) (Fuente: HamelHusain, HamelHusain)

Sebastian Raschka publica un tutorial ampliado para comprender y codificar KV Caching desde cero: Sebastian Raschka compartió su último artículo sobre KV Caching (caché de clave-valor), que ofrece un tutorial ampliado para comprender y codificar KV Caching desde cero. KV Caching es una técnica de optimización crucial en el proceso de inferencia de los modelos de lenguaje grandes (LLM), utilizada para acelerar el proceso de generación. Este tutorial tiene como objetivo ayudar a los lectores a comprender en profundidad su principio de funcionamiento y a poder implementarlo por sí mismos (Fuente: rasbt)
El artículo sobre Direct Reasoning Optimization (DRO) propone un marco para que los LLM se auto-recompensen y optimicen su razonamiento: Un artículo titulado “Direct Reasoning Optimization: LLMs Can Reward And Refine Their Own Reasoning for Open-Ended Tasks” propone un marco de aprendizaje por refuerzo llamado DRO. Este marco tiene como objetivo ajustar el rendimiento de los LLM en tareas abiertas, especialmente en tareas de razonamiento extenso, mediante una nueva señal de recompensa: la recompensa por reflexión del razonamiento (R3). El núcleo de R3 es identificar y enfatizar selectivamente los Tokens clave en los resultados de referencia que reflejan el impacto del razonamiento previo de la cadena de pensamiento del modelo, capturando así la coherencia entre el razonamiento y los resultados de referencia a un nivel granular. La clave es que R3 es calculado internamente por el mismo modelo que se está optimizando, logrando así una configuración de entrenamiento completamente autoconsistente (Fuente: teortaxesTex)

Artículo EMLoC: Método de ajuste fino eficiente en memoria basado en emulador y corrección LoRA: El artículo “EMLoC: Emulator-based Memory-efficient Fine-tuning with LoRA Correction” propone un marco llamado EMLoC, diseñado para lograr el ajuste fino de modelos con el mismo presupuesto de memoria que la inferencia. EMLoC construye emuladores ligeros específicos para tareas utilizando la descomposición en valores singulares (SVD) sensible a la activación en pequeños conjuntos de calibración downstream, y luego ajusta estos emuladores mediante LoRA. Para resolver el desajuste entre el modelo original y el emulador comprimido, el artículo propone un nuevo algoritmo de compensación para corregir los módulos LoRA ajustados, de modo que puedan fusionarse de nuevo en el modelo original para la inferencia. EMLoC admite tasas de compresión flexibles y flujos de trabajo de entrenamiento estándar, y los experimentos demuestran que supera a otras líneas base en múltiples conjuntos de datos y modalidades, y puede ajustar un modelo de 38B en una única GPU de consumo de 24GB (Fuente: HuggingFace Daily Papers)
TuringPost resume los últimos artículos de investigación en IA, abarcando la perspectiva de sistemas complejos de los LLM, la expansión de agentes, etc.: TuringPost ha recopilado los artículos de investigación en IA más recientes de esta semana, destacando 6 de ellos, incluyendo “LLMs and Emergence: A Complex Systems Perspective”, “The Illusion of the Illusion of Thinking”, “Build the Web for Agents, not Agents for the Web”, entre otros. Además, enumera múltiples artículos sobre agentes de IA, investigación de código, aprendizaje por refuerzo, optimización de modelos y otras áreas, proporcionando abundantes recursos de aprendizaje para investigadores y desarrolladores (Fuente: TheTuringPost)

Publicado tutorial de ajuste fino para clasificación de video con VJEPA 2 de Meta AI: Aritra Roy Gosthipaty ha publicado un tutorial en Jupyter Notebook para el ajuste fino del modelo VJEPA 2 de Meta AI para la clasificación de videos. VJEPA (Video Joint Embedding Predictive Architecture) es un método de aprendizaje autosupervisado que tiene como objetivo aprender características de video prediciendo las representaciones de las partes ocultas en los videos. Este tutorial proporciona una guía práctica para investigadores y desarrolladores que deseen aplicar el modelo VJEPA 2 en tareas de comprensión de video (Fuente: mervenoyann)

Un artículo explora el aprendizaje por refuerzo con recompensas verificables para incentivar el razonamiento correcto en LLM: Un artículo titulado “Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs” señala que la métrica tradicional Pass@K tiene deficiencias en la medición de la capacidad de razonamiento, ya que puede recompensar cadenas de pensamiento (CoTs) que tienen la respuesta final correcta pero un proceso de razonamiento inexacto o incompleto. Para abordar esto, los investigadores introdujeron una métrica de evaluación más precisa, CoT-Pass@K, que requiere que tanto la ruta de razonamiento como la respuesta final sean correctas. El estudio encontró que, utilizando CoT-Pass@K, RLVR (Reinforcement Learning with Verifiable Rewards) puede incentivar al modelo a generalizar procesos de razonamiento correctos (Fuente: menhguin, teortaxesTex)

El artículo “From Bytes to Ideas: Language Modeling with Autoregressive U-Nets” propone un nuevo método de modelado de lenguaje: Aran Komatsuzaki presenta un nuevo artículo que propone un modelo U-Net autorregresivo que procesa directamente bytes sin procesar y aprende representaciones jerárquicas de Tokens. La investigación demuestra que este método puede igualar a las potentes líneas base de BPE (Byte Pair Encoding) y que una estructura jerárquica más profunda muestra tendencias de escalamiento prometedoras. Esto ofrece una nueva perspectiva para el campo del modelado de lenguaje, especialmente en el manejo de representaciones de datos de bajo nivel y el aprendizaje de características multinivel (Fuente: jpt401)

LambdaConf 2025 comparte la charla de Oren Rozen sobre programación funcional en C++: LambdaConf 2025 compartió el video de la charla de Oren Rozen en la conferencia sobre “Programación funcional en C++ (tipos en tiempo de ejecución vs. tipos en tiempo de compilación)”. La charla explora métodos para aplicar ideas y técnicas de programación funcional en C++, un lenguaje multiparadigma, centrándose especialmente en los diferentes roles e impactos de los tipos en tiempo de ejecución y los tipos en tiempo de compilación en la práctica de la programación funcional (Fuente: lambda_conf)

Zach Mueller lanza el curso “From Scratch -> Scale” para enseñar técnicas de entrenamiento distribuido: Zach Mueller anunció la apertura de inscripciones para su curso de 5 semanas “From Scratch -> Scale”. El curso enseñará a los participantes a escribir código para DDP (Distributed Data Parallel), ZeRO, paralelismo de pipeline y paralelismo tensorial desde cero, y a combinar estas técnicas. El curso también contará con la participación de expertos experimentados de empresas como Hugging Face, Meta, Snowflake, entre otras (Fuente: eliebakouch, HamelHusain)

Charles Frye comparte una charla sobre la expansión de GPU y el ancho de banda matemático, enfatizando la importancia de la multiplicación de matrices de baja precisión: Charles Frye compartió la grabación de su charla, cuyas ideas centrales incluyen: la expansión de las GPU es similar a la expansión del ancho de banda, con una relación cuadrática con la latencia; el ancho de banda clave para la expansión de las GPU es el ancho de banda matemático (FLOP/s); entre los diversos anchos de banda matemáticos, la multiplicación de matrices de baja precisión se expande más rápidamente. También discutió algunas implicaciones de esto para los campos de la ingeniería de datos y la ciencia de datos (Fuente: charles_irl)

💼 Negocios
Sam Altman revela que Meta intentó fichar a personal de OpenAI con bonificaciones de hasta 100 millones de dólares: El CEO de OpenAI, Sam Altman, reveló en un programa de podcast que Meta intentó atraer a empleados de OpenAI ofreciéndoles bonificaciones por fichaje de hasta 100 millones de dólares, además de salarios anuales más altos. Altman afirmó que, a pesar de los agresivos intentos de Meta, los mejores empleados de OpenAI no aceptaron estas ofertas. También comentó que Meta considera a OpenAI su mayor competidor y que los esfuerzos actuales de Meta en IA no han cumplido las expectativas, aunque respeta su espíritu de probar cosas nuevas activamente. Altman cree que la práctica de Meta de atraer talento con altos salarios podría dañar la cultura de la empresa (Fuente: TheRundownAI, bookwormengr, seo_leaders, akbirkhan, 财联社AI daily, Reddit r/ChatGPT)
xAI de Elon Musk gasta 1.000 millones de dólares al mes y busca nueva financiación para apoyar la investigación y desarrollo de AGI: Según informes, la startup de IA de Elon Musk, xAI, está consumiendo fondos a una asombrosa tasa de 1.000 millones de dólares al mes, principalmente para la compra de GPU y la construcción de infraestructura como centros de datos. Para mantener las operaciones y competir con gigantes como OpenAI y Google, xAI está llevando a cabo una nueva ronda de financiación de capital de 4.300 millones de dólares y planea recaudar otros 6.400 millones el próximo año, además de avanzar en una financiación de deuda de 5.000 millones. Aunque se espera que los ingresos sean de solo 500 millones de dólares este año, xAI, gracias al poder de convocatoria de Musk, la ventaja de los datos de la plataforma X y su determinación de construir su propia infraestructura, ha presentado a los inversores una hoja de ruta para alcanzar la rentabilidad en 2027. Su valoración ha aumentado de 51.000 millones de dólares a finales de 2024 a 80.000 millones a finales del primer trimestre de este año. El objetivo final de Musk es crear una inteligencia artificial general (AGI) capaz de igualar o incluso superar a los humanos (Fuente: 新智元)

Nabla, que construye asistentes de IA para médicos, completa una ronda de financiación Serie C de 70 millones de dólares: La empresa de IA médica Nabla ha anunciado la finalización de una ronda de financiación Serie C de 70 millones de dólares, liderada por HV Capital, Highland Europe y DST Global, con la continuación de la inversión de los inversores existentes Cathay Innovation y Tony Fadell. Nabla se dedica a construir asistentes de IA inteligentes y avanzados para médicos, con el objetivo de restaurar el cuidado humanístico en el núcleo de la atención médica a través de la tecnología de IA y generar un impacto clínico y financiero real. Esta ronda de financiación acelerará la consecución de su misión (Fuente: ylecun)

🌟 Comunidad
El impacto de la IA en el mercado laboral genera preocupación; el CEO de Amazon advierte sobre la reducción de personal debido a la IA en los próximos años: El CEO de Amazon, Andy Jassy, en una carta a todos los empleados, indicó que a medida que la compañía promueva más IA generativa y agentes inteligentes, la forma de trabajar cambiará. En los próximos años, se reducirá la mano de obra necesaria para algunos puestos actuales, mientras que aumentará la demanda de nuevos tipos de puestos, y se espera que el número total de empleados en los departamentos funcionales de la compañía disminuya en consecuencia. Anteriormente, el CEO de Anthropic, Dario Amodei, también advirtió que la IA podría reemplazar la mitad de los trabajos de cuello blanco de nivel inicial en cinco años. Estas opiniones han provocado una amplia discusión sobre el impacto de la IA en el mercado laboral. Empleados del sector tecnológico ya han compartido experiencias de ser reemplazados por IA o enfrentar dificultades para encontrar trabajo, y los graduados universitarios de la promoción de 2025 también se enfrentan al mercado laboral más difícil desde la pandemia (Fuente: 新智元, 新智元)

Las herramientas de IA para la selección de carreras universitarias ganan popularidad, pero la opacidad de los algoritmos, la veracidad de los datos y la personalización se convierten en puntos débiles para los usuarios: Con el auge del mercado de la selección de carreras universitarias tras el examen de acceso (GaoKao), grandes empresas como Quark de Alibaba, Baidu y QQ Browser de Tencent han lanzado herramientas de IA para la selección de carreras, promocionando inteligencia, eficiencia y gratuidad. Sin embargo, los usuarios han descubierto que diferentes herramientas recomiendan universidades muy distintas para la misma puntuación, y problemas como la opacidad de los algoritmos, dudas sobre la exhaustividad y veracidad de los datos, y una personalización insuficiente, hacen que los usuarios no se atrevan a depender completamente de la IA. Los expertos señalan que las diferencias en las fuentes de datos y la ponderación de los algoritmos son las principales razones de los diferentes resultados de recomendación. Actualmente, las herramientas de IA son más adecuadas para estudiantes en los extremos de la escala de puntuación con objetivos claros, o como herramientas auxiliares para estudiantes con puntuaciones intermedias, y los usuarios deben aprender a hacer preguntas eficaces (Fuente: 36氪)

La popularización de la IA en la educación genera ansiedad en los padres y un auge en el mercado: La tecnología de IA está penetrando rápidamente en el sector educativo, con la aparición de salas de estudio con IA, máquinas de aprendizaje con IA y diversas aplicaciones de apoyo al estudio con IA. La integración de grandes modelos como DeepSeek impulsa aún más la actualización de estos productos. Los padres esperan ayudar a sus hijos a “adelantar por la curva” mediante la IA, pero esto también los sume en una nueva ansiedad. Estudios de mercado indican que se espera que el tamaño del mercado de IA+educación supere los 70.000 millones de yuanes en 2025. Sin embargo, la efectividad real de los productos educativos de IA, la privacidad de los datos y si realmente mejoran la esencia del aprendizaje siguen siendo temas de debate. El significado de la educación no debe limitarse a una “carrera armamentista” impulsada por la tecnología, sino que debe centrarse más en el desarrollo individual y las múltiples posibilidades (Fuente: 36氪, 36氪)

Discusión: La necesidad de “Tokens marcadores de turno” (Turn Marker Tokens) en la inferencia de modelos grandes: En la comunidad se discute que si los “Tokens marcadores de turno” en los modelos de diálogo (como los Tokens especiales que identifican las intervenciones del usuario y del asistente) siempre van seguidos de exactamente los mismos Tokens (por ejemplo, user\n
y assistant\n
), entonces estos marcadores de turno en sí mismos podrían no ser necesarios. Una opinión adicional sostiene que si un grupo de Tokens (por ejemplo, tres) marca conjuntamente algo, y el modelo necesita aprender la importancia del primer Token de ese grupo, entonces se deben proporcionar ejemplos de contexto que incluyan contrafactuales; de lo contrario, el modelo podría no aprender con precisión dicha importancia. Esta discusión se relaciona con el fenómeno de que Claude Opus 4 es fácilmente engañado por la inyección de diálogo (dialogue injection), lo que indica que la comprensión y el manejo de la estructura del diálogo por parte del modelo aún tienen margen de mejora (Fuente: giffmana, giffmana)

El desajuste entre la voluntad y la capacidad de aplicación de los agentes de IA en el lugar de trabajo llama la atención: Una investigación del equipo de la Universidad de Stanford revela un desajuste significativo entre la demanda y la capacidad en la automatización del lugar de trabajo mediante agentes de IA. El estudio encontró que aproximadamente el 41% de las tareas en las empresas incubadas por YC se concentran en la “zona de baja prioridad” y la “zona roja”, donde la disposición de los trabajadores a la automatización es baja o la tecnología de IA aún no está madura. Además, aunque muchas tareas requieren una colaboración equitativa entre humanos y máquinas, los profesionales generalmente esperan un mayor control humano, lo que podría generar fricciones. La investigación predice que, a medida que los agentes de IA ingresen al mercado laboral, la competencia central de los humanos podría desplazarse hacia las habilidades interpersonales y de coordinación organizacional. Este estudio tiene como objetivo proporcionar orientación para el futuro desarrollo de agentes de IA y la transformación de las habilidades de la fuerza laboral (Fuente: 新智元)

Las agencias de publicidad utilizan la optimización generativa de motores de búsqueda (GEO) para influir en los resultados de búsqueda de IA, lo que genera debates éticos y regulatorios: Las agencias de publicidad están utilizando servicios de optimización generativa de motores de búsqueda (GEO) para ayudar a sus clientes empresariales a obtener una mayor exposición en los resultados de búsqueda de IA. Este servicio mejora la clasificación y la frecuencia de aparición de la información del cliente en las respuestas de IA mediante la producción de contenido de alta calidad que se ajusta a las preferencias de los grandes modelos y mediante la “alimentación” de datos a la IA. Sin embargo, los usuarios generalmente no saben si los resultados de búsqueda de IA han sido optimizados. Esto ha suscitado debates sobre si tales prácticas constituyen publicidad, si necesitan una identificación clara y qué reglas y límites comerciales deben cumplir. Actualmente, las principales plataformas de grandes modelos en China aún no han integrado formalmente la publicidad, pero algunos productos de búsqueda de IA en el extranjero ya están probando modelos publicitarios y etiquetándolos (Fuente: 36氪)

Los modelos de IA rinden poco en problemas difíciles de concursos de programación, los resultados de LiveCodeBench Pro muestran una puntuación del 0% para los modelos de vanguardia: Zihan Zheng y otros han lanzado LiveCodeBench Pro, un benchmark en tiempo real que incluye problemas de concursos de programación de alta dificultad como IOI, Codeforces e ICPC. En la sección “difícil” de este benchmark, los modelos de lenguaje grandes de vanguardia, incluidos o3 y Gemini 2.5, obtuvieron una puntuación del 0%. El análisis señala que los LLM son buenos en tareas de implementación que dependen de la memoria, pero rinden poco en problemas de observación o lógicos que requieren una “inspiración” crucial, así como en tareas que necesitan atención al detalle y manejo de casos límite. Saining Xie comentó que este no es un benchmark para agentes de ingeniería de software, sino una prueba de razonamiento e inteligencia centrales a través de la codificación, y superar este benchmark sería comparable al significado de que AlphaGo derrotara a Lee Sedol (Fuente: ylecun, dilipkay)

La herramienta de revisión de literatura asistida por IA otto-SR mejora drásticamente la eficiencia y la precisión: Instituciones como la Universidad de Toronto y la Facultad de Medicina de Harvard han desarrollado conjuntamente el flujo de trabajo de extremo a extremo de IA otto-SR para automatizar las revisiones sistemáticas (SRs). Esta herramienta combina GPT-4.1 y o3-mini para la selección de literatura y la extracción de datos, completando en solo dos días una actualización de una revisión sistemática Cochrane que tradicionalmente requeriría 12 años. En las pruebas de referencia, la sensibilidad de otto-SR (96.7% frente al 81.7% humano) y la precisión en la extracción de datos (93.1% frente al 79.7% humano) fueron significativamente superiores a las de los revisores humanos, y descubrió 54 estudios clave omitidos por los humanos. Esta investigación demuestra el enorme potencial de la IA para acelerar la investigación médica y mejorar la calidad de la síntesis de evidencia (Fuente: 量子位)

Exploración de la aplicación de DSL estructurados en “Vibe Coding”: Desarrolladores como Ted Nyman están experimentando con el uso de lenguajes específicos de dominio (DSL) más estructurados, similares a clases, en lugar de lenguaje natural de forma libre para “Vibe Coding” (una forma de programación más sensorial e intuitiva). Han descubierto que este enfoque funciona mejor, es más rápido, genera menos frustración y produce código de mayor calidad. Esta exploración tiene como objetivo encontrar paradigmas de interacción humano-máquina más eficientes y precisos para la programación asistida por IA o la generación de código (Fuente: tnm, lateinteraction)
Perspectivas de aplicación de AI Agent en la ingeniería de fiabilidad de software (SRE): Traversal AI anunció la finalización de rondas de financiación semilla y Serie A por un total de 48 millones de dólares, con el objetivo de construir un AI SRE (Site Reliability Engineer) de nivel empresarial. Su AI Agent es capaz de diagnosticar, reparar e incluso prevenir de forma autónoma incidentes complejos de producción, combinando la tecnología de AI Agent con el aprendizaje automático causal para localizar las causas raíz en tiempo real. Empresas como DigitalOcean y Eventbrite ya se han convertido en sus primeros clientes, lo que demuestra el enorme potencial de la IA en la automatización de operaciones y la mejora de la fiabilidad del sistema (Fuente: hwchase17)
💡 Otros
Un “videojuego para móviles” generado por IA al estilo Ghibli llama la atención; un tutorial muestra que fue creado con Kuaishou Kling AI y Midjourney: Recientemente, un conjunto de capturas de pantalla y videos de un “videojuego para móviles” con el estilo artístico de Studio Ghibli se ha vuelto viral en las redes sociales, atrayendo la atención por sus exquisitas imágenes, paleta de colores frescos y efectos de luz y sombra naturales. El creador reveló el método de producción: primero, usar Midjourney para generar imágenes estáticas, y luego utilizar Kling AI de Kuaishou para transformar las imágenes en videos dinámicos. Al agregar elementos fijos de HUD (Head-Up Display), como botones y un minimapa, se crea la sensación de un juego interactivo. Aunque actualmente es solo una demostración en video, ya ha estimulado la imaginación de los internautas sobre mundos virtuales interactivos generados por IA (Fuente: 量子位, Kling_ai)

La IA tiene un enorme potencial de aplicación en la revisión de errores en diversos campos: El internauta random_walker sugiere que la IA generativa tiene un enorme potencial de aplicación en la revisión de errores, con “frutos maduros al alcance de la mano” en diversos campos. Por ejemplo, en el software puede detectar automáticamente vulnerabilidades de seguridad; en la escritura puede identificar fallos lógicos y argumentos débiles; en la investigación científica puede detectar errores de cálculo y problemas de citación; en los contratos legales puede marcar cláusulas faltantes y contradicciones; en el ámbito financiero puede usarse para la detección de fraudes y la identificación de errores en informes financieros. Considera que la automatización de la revisión de errores es alta y poco intrusiva; incluso con una tasa de falsos positivos del 50%, la revisión manual es relativamente fácil y puede liberar a las personas de trabajos tediosos. Sin embargo, también es necesario estar alerta ante el riesgo de que una dependencia excesiva de la IA disminuya las propias capacidades humanas (Fuente: random_walker)
Entrevista a Sam Altman: La IA simplificará el trabajo, ofrecerá socialización personalizada e impulsará descubrimientos científicos: El fundador de OpenAI, Sam Altman, predijo en una entrevista que en los próximos 5-10 años, las herramientas de programación y chat con IA serán más inteligentes y podrán automatizar la mayor parte del trabajo. La IA podría traer nuevas experiencias sociales, ofrecer servicios personalizados y ayudar a descubrir nuevos conocimientos científicos, especialmente en campos con gran cantidad de datos como la astrofísica o la física de altas energías. Enfatizó que la verdadera transformación de la IA radica no solo en su capacidad de pensar, sino también de actuar en el mundo físico, siendo los robots humanoides un desafío clave. La visión de OpenAI es convertir la IA en un “compañero de IA” omnipresente, logrado a través de la plataformización y la colaboración en hardware. Considera que la cultura y el largoplacismo son las principales ventajas competitivas de OpenAI (Fuente: 36氪)