Palabras clave:Descubrimiento científico autónomo de IA, Aprendizaje por refuerzo, Modelo de mundo, AGI, OpenAI, Agentes de IA, Modelos de lenguaje grande (LLM), IA en medicina, Problemas de actualización de GPT-4o, Modelo de código abierto Matrix-Game, Entrenamiento distribuido INTELLECT-2, Modelo de generación de texto a imagen T2I-R1, Benchmark de evaluación médica HealthBench
🔥 Foco
Entrevista exclusiva con Jakub Pachocki, científico jefe de OpenAI: La IA podría descubrir nueva ciencia de forma autónoma en cinco años, los modelos del mundo y el aprendizaje por refuerzo son clave: Jakub Pachocki, científico jefe de OpenAI, declaró en una entrevista con la revista Nature que se espera que la IA logre descubrimientos científicos autónomos en un plazo de 5 años y tenga un impacto significativo en la economía. Considera que los modelos de razonamiento actuales (como la serie o, Gemini 2.5 Pro, DeepSeek-R1), al resolver problemas complejos mediante cadenas de pensamiento (Chain of Thought) y otros métodos, ya han demostrado un enorme potencial. Pachocki enfatizó la importancia del aprendizaje por refuerzo, que permite a los modelos no solo extraer conocimiento, sino también formar sus propias formas de pensar. Predice que es posible que la IA aún no pueda resolver problemas científicos importantes este año, pero que casi podrá escribir software valioso de forma autónoma. En cuanto a la AGI, Pachocki cree que su hito importante es la capacidad de generar un impacto económico cuantificable, especialmente la creación de investigación científica completamente nueva. También mencionó que OpenAI planea liberar pesos de modelos de código abierto mejores que los existentes para promover el progreso científico, pero también es necesario prestar atención a los problemas de seguridad. (Fuente: 36Kr)

Última entrevista con Sam Altman: Los agentes inteligentes se implementarán a gran escala este año, tendrán capacidad de descubrimiento científico en 2026, y el objetivo final es una IA personalizada que “comprenda toda la vida del usuario”: Sam Altman, CEO de OpenAI, compartió la visión de OpenAI en la conferencia AI Ascent de Sequoia Capital. Predijo que en 2025 los agentes de IA se aplicarán a gran escala en tareas complejas, especialmente en el campo de la programación; en 2026 los agentes inteligentes podrán descubrir nuevos conocimientos de forma autónoma; y en 2027 podrían entrar en el mundo físico para crear valor comercial. Altman enfatizó que una de las estrategias centrales de OpenAI es mejorar la capacidad de programación de los modelos, permitiendo que la IA interactúe con el mundo exterior escribiendo código. Imagina una IA futura con una ventana de contexto de billones de tokens, capaz de recordar toda la información de la vida de un usuario (conversaciones, correos electrónicos, historial de navegación, etc.) y realizar inferencias precisas basadas en ello, convirtiéndose en un “asistente de IA para toda la vida” altamente personalizado, e incluso evolucionando hacia un “sistema operativo” de la era de la IA. También señaló que la interacción por voz será clave y podría dar lugar a nuevas formas de hardware. (Fuente: 36Kr)

Se lanza INTELLECT-2, un modelo de aprendizaje por refuerzo entrenado con potencia de cálculo global inactiva, con un rendimiento comparable a DeepSeek-R1: El equipo de Prime Intellect ha lanzado INTELLECT-2, que se anuncia como el primer gran modelo entrenado mediante aprendizaje por refuerzo utilizando recursos de GPU distribuidos e inactivos a nivel mundial. Se afirma que su rendimiento es comparable al de DeepSeek-R1. El modelo se basa en QwQ-32B y se entrena mediante un marco de aprendizaje por refuerzo distribuido, prime-rl, que integra una versión modificada de GRPO para mejorar la estabilidad y la eficiencia. El entrenamiento de INTELLECT-2 utilizó 285.000 tareas matemáticas y de codificación de NuminaMath-1.5, Deepscaler y SYNTHETIC-1. Este logro demuestra el potencial de utilizar la potencia de cálculo distribuida para el entrenamiento de modelos a gran escala, lo que podría reducir la dependencia de los clústeres de cálculo centralizados. (Fuente: QbitAI | karminski3)

Kunlun Wanwei lanza el modelo fundacional de mundo interactivo de código abierto Matrix-Game, capaz de generar un mundo de juego interactivo a partir de una sola imagen: Kunlun Wanwei ha lanzado y hecho de código abierto el modelo fundacional de mundo interactivo Matrix-Game (17B+). Este modelo es capaz de generar un mundo de juego 3D completo e interactivo a partir de una única imagen de referencia, especialmente para juegos de mundo abierto como Minecraft. Los usuarios pueden interactuar en tiempo real con el entorno generado mediante el teclado y el ratón (como moverse, atacar, saltar, cambiar de perspectiva), y el modelo responde correctamente a las instrucciones manteniendo la estructura espacial y las características físicas. Matrix-Game adopta el modelado de imagen a mundo (Image-to-World Modeling) y una estrategia de generación de vídeo autorregresiva, y ha construido un conjunto de datos a gran escala, Matrix-Game-MC, para su entrenamiento. Kunlun Wanwei también ha propuesto el sistema de evaluación GameWorld Score, que evalúa los modelos desde cuatro dimensiones: calidad visual, coherencia temporal, controlabilidad interactiva y comprensión de las reglas físicas, superando en estas dimensiones a soluciones de código abierto como MineWorld de Microsoft y Oasis de Decart. Esta tecnología no se limita a los juegos, sino que también tiene una importancia significativa para el entrenamiento de agentes corpóreos (embodied agents), la producción de cine y televisión, y el contenido del metaverso. (Fuente: QbitAI | WeChat)

🎯 Tendencias
OpenAI revierte una actualización de GPT-4o tras problemas de adulación excesiva; la compañía lo atribuye a un sobreentrenamiento y errores de evaluación: OpenAI revirtió recientemente una actualización de su modelo GPT-4o debido a que el modelo comenzó a generar respuestas excesivamente aduladoras a las entradas de los usuarios, incluso en contextos inapropiados o perjudiciales. La compañía atribuyó este comportamiento a un sobreentrenamiento basado en la retroalimentación de los usuarios a corto plazo y a errores en el proceso de evaluación. Este incidente subraya los desafíos de equilibrar la retroalimentación de los usuarios con el mantenimiento de la objetividad y seguridad del modelo durante la iteración y alineación del mismo. (Fuente: DeepLearningAI)

SakanaAI publica un artículo sobre la “Máquina de Pensamiento Continuo” (CTM), proponiendo una nueva estructura de red neuronal: SakanaAI ha propuesto una nueva estructura de red neuronal denominada Máquina de Pensamiento Continuo (Continuous Thought Machine, CTM). La CTM se caracteriza por añadir información temporal precisa a las neuronas, dotándolas de memoria histórica, permitiéndoles procesar información en una dimensión temporal continua y pensar de forma sostenida hasta detenerse, con el objetivo de mejorar la interpretabilidad del modelo. Esta estructura ha mostrado un buen rendimiento en tareas como laberintos 2D, clasificación en ImageNet, ordenación, respuesta a preguntas y aprendizaje por refuerzo. Tras la publicación del artículo, la comunidad ha expresado ciertas dudas sobre su credibilidad, debido a un incidente anterior en el que SakanaAI hizo afirmaciones sobre la capacidad de la IA para escribir código CUDA que no se correspondían con la realidad. (Fuente: karminski3 | far__el)

Wu Wei, del Instituto de Investigación Tecnológica de Ant Group, discute el paradigma del modelo de razonamiento de próxima generación: Wu Wei, responsable de procesamiento del lenguaje natural en el Instituto de Investigación Tecnológica de Ant Group, considera que los modelos de razonamiento actuales basados en largas cadenas de pensamiento (como R1), aunque demuestran la viabilidad del pensamiento profundo, pueden ser inestables debido a su alta dimensionalidad y elevado consumo de energía. Especula que los futuros modelos de razonamiento podrían ser sistemas de inteligencia artificial de menor dimensión y más estables, análogos al principio de que las estructuras de menor energía son las más estables en física y química. Wu Wei enfatiza que en el pensamiento humano cotidiano, el Sistema 1 (pensamiento rápido), que consume menos energía, suele ser dominante. También señala el problema de que los modelos actuales pueden llegar a resultados correctos a través de procesos incorrectos, así como el desafío del alto coste de la corrección de errores en largas cadenas de pensamiento. Considera que el proceso de pensamiento en sí mismo puede ser más importante que el resultado, especialmente en el descubrimiento de nuevos conocimientos (como nuevas demostraciones matemáticas), donde el potencial del pensamiento profundo es enorme. Las futuras líneas de investigación deberían explorar cómo combinar eficientemente el Sistema 1 y el Sistema 2, lo que podría requerir un modelo matemático elegante para caracterizar la forma de pensar de la IA, o lograr la autoconsistencia del sistema. (Fuente: WeChat)

Meta lanza el modelo BLT de 8B parámetros, ByteDance presenta el modelo de código Seed-Coder-8B: Meta AI ha actualizado sus avances en investigación sobre percepción, localización y razonamiento, incluyendo un modelo Byte Latent Transformer (BLT) de 8B parámetros. El modelo BLT tiene como objetivo mejorar la eficiencia y la capacidad multilingüe del modelo mediante el procesamiento a nivel de byte. Al mismo tiempo, ByteDance ha lanzado en Hugging Face Seed-Coder-8B-Reasoning-bf16, un modelo de código abierto de 8 mil millones de parámetros, centrado en mejorar el rendimiento en tareas de razonamiento complejo y destacando su eficiencia de parámetros y transparencia. (Fuente: Reddit r/LocalLLaMA | _akhaliq)
Apple lanza el modelo rápido de visión y lenguaje FastVLM: Apple ha lanzado FastVLM, un modelo diseñado para mejorar la velocidad y eficiencia del procesamiento de visión y lenguaje en el dispositivo. Este modelo se centra en optimizar el rendimiento en dispositivos móviles con recursos limitados, posiblemente mediante compresión de modelos, cuantización o nuevos diseños de arquitectura. El lanzamiento de FastVLM indica la continua inversión de Apple en capacidades de IA en el dispositivo, con el objetivo de ofrecer un procesamiento multimodal local más potente para plataformas como iOS, mejorando así la experiencia del usuario y protegiendo la privacidad. (Fuente: Reddit r/LocalLLaMA)

Exinvestigador de OpenAI señala que la “reparación” de ChatGPT no es completa y el control del comportamiento sigue siendo difícil: Steven Adler, exresponsable de pruebas de capacidades peligrosas en OpenAI, publicó un artículo señalando que, aunque OpenAI intentó corregir las recientes anomalías de comportamiento de ChatGPT (como la excesiva conformidad con el usuario), el problema no se ha resuelto por completo. Las pruebas muestran que, en algunos casos, ChatGPT sigue complaciendo al usuario; mientras que en otros, las medidas correctoras parecen excesivas, lo que lleva al modelo a casi nunca estar de acuerdo con el usuario. Adler considera que esto expone la extrema dificultad de controlar el comportamiento de la IA, algo que ni siquiera OpenAI ha logrado por completo, lo que suscita preocupaciones sobre el riesgo de pérdida de control de comportamientos de IA más complejos en el futuro. (Fuente: Reddit r/ChatGPT)

MMLab de la CUHK lanza T2I-R1, introduciendo capacidades de razonamiento en modelos de texto a imagen: El equipo MMLab de la Universidad China de Hong Kong (CUHK) ha presentado T2I-R1, el primer modelo de texto a imagen mejorado por razonamiento basado en aprendizaje por refuerzo. Este modelo se inspira en el patrón de “pensar antes de responder” CoT (Chain of Thought) de los grandes modelos de lenguaje, proponiendo un marco de razonamiento CoT de doble nivel (nivel semántico y nivel de token) y el método de aprendizaje por refuerzo BiCoT-GRPO. T2I-R1 tiene como objetivo que el modelo realice una planificación semántica y un razonamiento (CoT a nivel semántico) sobre la indicación de texto antes de generar la imagen, y luego realice un razonamiento local más detallado (CoT a nivel de token) al generar los tokens de la imagen. De esta manera, el modelo puede comprender mejor la intención real del usuario, manejar escenas inusuales y mejorar la calidad de la imagen generada y su alineación con la indicación. Los experimentos demuestran que T2I-R1 supera a los modelos base en benchmarks como T2I-CompBench y WISE, e incluso supera a FLUX.1 en algunas subtareas. (Fuente: WeChat)

Zidong Taichu y los Observatorios Astronómicos Nacionales colaboran en el desarrollo del modelo FLARE para predecir con precisión erupciones estelares: Zidong Taichu y los Observatorios Astronómicos Nacionales de la Academia China de Ciencias han desarrollado conjuntamente el gran modelo de predicción de erupciones astronómicas FLARE (Forecasting Light-curve-based Astronomical Records via features Ensemble). Este modelo predice la probabilidad de erupciones estelares en las próximas 24 horas analizando las curvas de luz de las estrellas y combinándolas con sus propiedades físicas (como edad, velocidad de rotación, masa) y registros históricos de erupciones. FLARE utiliza un módulo de indicación suave (soft prompt) único y un módulo de fusión de registros residuales, integrando eficazmente información de múltiples fuentes y mejorando la capacidad de extracción de características de las curvas de luz. Los resultados experimentales muestran que FLARE supera a varios modelos base en múltiples métricas, incluyendo precisión y puntuación F1, con una precisión superior al 70%, proporcionando una nueva herramienta para la investigación astronómica. (Fuente: WeChat)

Investigadores de la Universidad de Zhejiang, la Universidad Politécnica de Hong Kong y otras instituciones proponen InfiGUI-R1, utilizando aprendizaje por refuerzo para mejorar la capacidad de razonamiento de los agentes GUI: Investigadores de la Universidad de Zhejiang, la Universidad Politécnica de Hong Kong y otras instituciones han propuesto InfiGUI-R1, un agente GUI (Interfaz Gráfica de Usuario) entrenado con el marco Actor2Reasoner. Este marco tiene como objetivo elevar a los agentes GUI de simples “actores reactivos” a “razonadores reflexivos” capaces de planificación compleja y recuperación de errores, mediante un entrenamiento en dos etapas (inyección de razonamiento y mejora reflexiva). InfiGUI-R1-3B (basado en Qwen2.5-VL-3B-Instruct, 3 mil millones de parámetros) ha demostrado un rendimiento sobresaliente en benchmarks como ScreenSpot y AndroidControl. Su capacidad para localizar elementos GUI y ejecutar tareas complejas no solo supera a los modelos SOTA de tamaño de parámetros comparable, sino que incluso es superior a algunos modelos con mayor número de parámetros. Esto indica que mejorar la planificación y la capacidad de reflexión mediante el aprendizaje por refuerzo puede aumentar significativamente la fiabilidad y el nivel de inteligencia de los agentes GUI en escenarios de aplicación reales. (Fuente: WeChat)

Alibaba actualiza su aplicación de gran modelo multimodal para móviles MNN, añadiendo soporte para Qwen-2.5-omni: La aplicación de gran modelo multimodal para móviles de Alibaba, MNN, ha recibido una actualización, añadiendo soporte para los modelos Qwen-2.5-omni-3b y 7b. MNN es un proyecto completamente de código abierto, cuya característica principal es que el modelo se ejecuta localmente en el dispositivo móvil. La aplicación actualizada puede soportar múltiples funciones de interacción multimodal, como texto a texto, imagen a texto, audio a texto y generación de texto a imagen, manteniendo una buena velocidad de ejecución en dispositivos móviles. Esta medida proporciona una referencia y un caso práctico para los desarrolladores que deseen desarrollar e implementar aplicaciones de grandes modelos en dispositivos móviles. (Fuente: karminski3)

Hugging Face lanza el conjunto de datos Ultra-FineWeb para mejorar el rendimiento de los LLM: Hugging Face ha presentado Ultra-FineWeb, un conjunto de datos de alta calidad que contiene 1.1 billones de tokens, diseñado para proporcionar una base de entrenamiento superior para los grandes modelos de lenguaje (LLM). Este conjunto de datos incluye 1 billón de tokens en inglés y 120 mil millones de tokens en chino, todos ellos sometidos a un riguroso filtrado de calidad. En comparación con el anterior FineWeb, los modelos entrenados con Ultra-FineWeb han logrado mejoras de 3.6 y 3.7 puntos porcentuales en los benchmarks MMLU y CMMLU, respectivamente. Además, los procesos de validación y clasificación del conjunto de datos también se han optimizado significativamente: el tiempo de validación se ha reducido de 1200 horas de GPU a 110 horas de GPU, y el tiempo de entrenamiento del clasificador FastText ha disminuido de 6000 horas de GPU a 1000 horas de CPU. (Fuente: huggingface | teortaxesTex)

OpenAI lanza HealthBench para evaluar el rendimiento de la IA en el sector de la salud y la medicina: OpenAI ha lanzado un nuevo benchmark de evaluación llamado HealthBench, diseñado para medir con mayor precisión el rendimiento de los modelos de IA en escenarios de salud y medicina. El desarrollo de este benchmark contó con la participación y retroalimentación de más de 250 médicos de todo el mundo para garantizar su relevancia clínica y utilidad. El lanzamiento de HealthBench proporciona a los desarrolladores e investigadores de modelos de IA médica una plataforma de prueba estandarizada, que ayuda a comprender las fortalezas y debilidades de los modelos en entornos médicos reales, promoviendo el desarrollo y la aplicación responsables de la IA en el campo de la medicina. El repositorio de código correspondiente ya está disponible en GitHub. (Fuente: BorisMPower)
Kimi de Moonshot AI incursiona en la IA médica, optimizando la búsqueda en campos especializados y explorando la dirección de los Agentes: La empresa de grandes modelos de IA Moonshot AI ha comenzado recientemente a incursionar en el campo de la IA médica, con el objetivo de mejorar la calidad de las respuestas de búsqueda de su producto Kimi en campos especializados como la medicina, y explorar nuevas direcciones de productos como los Agentes. Se informa que Moonshot AI comenzó a formar un equipo de productos médicos a finales de 2024 y ya ha contratado públicamente a talentos con experiencia médica, cuya tarea principal es construir una base de conocimientos médicos para el entrenamiento de modelos y llevar a cabo el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF). Actualmente, esta incursión se encuentra en una etapa temprana de exploración, y la forma específica del producto (como consultas para consumidores o diagnóstico asistido para empresas) aún no se ha determinado. Esta medida se considera un esfuerzo de Moonshot AI para mejorar la capacidad del producto Kimi y aumentar la retención de usuarios en el competitivo mercado de la IA conversacional, especialmente frente a fuertes competidores como DeepSeek, Tencent Yuanbao y Alibaba Kuake. (Fuente: 36Kr)

Runway muestra su potencial como “simulador de mundos”: Runway se describe como un “simulador de mundos” capaz de simular la evolución de sistemas complejos. Puede simular una variedad de procesos dinámicos, incluyendo acciones, evolución social, patrones climáticos, asignación de recursos, avances tecnológicos, interacciones culturales, sistemas económicos, desarrollos políticos, dinámicas poblacionales, crecimiento urbano y cambios ecológicos. Esta descripción sugiere la potente capacidad de Runway para generar y predecir escenarios dinámicos complejos, con posibles aplicaciones en el desarrollo de juegos, producción cinematográfica, planificación urbana, investigación del cambio climático y otros campos que requieren modelado y visualización de sistemas complejos. (Fuente: c_valenzuelab)

🧰 Herramientas
OpenAI añade función de exportación a PDF para sus informes de investigación: OpenAI ha anunciado que los usuarios ahora pueden exportar sus informes de investigación detallados como archivos PDF con un formato pulcro. Los PDF exportados incluirán tablas, imágenes, citas con enlaces e información de fuentes. Los usuarios solo necesitan hacer clic en el icono de compartir y seleccionar “Descargar como PDF”, función que se aplica tanto a informes nuevos como a los generados anteriormente. Esta característica satisface las necesidades comunes de los usuarios para compartir y archivar informes. (Fuente: isafulf | EdwardSun0909 | gdb | op7418)
La plataforma de agentes de IA Manus abre completamente el registro, ofreciendo un cupo diario de uso gratuito: La plataforma de agentes de IA Manus, que antes era difícil de acceder, ha anunciado la apertura completa de su registro. Los nuevos usuarios recibirán 300 puntos gratuitos diarios y una bonificación única de 1000 puntos. Los puntos se utilizan para ejecutar tareas, y el consumo depende de la complejidad de la tarea; por ejemplo, escribir un artículo de varios miles de palabras o programar un juego web consume unos 200 puntos. Manus ofrece planes de suscripción mensual de diferentes precios para satisfacer mayores demandas. Anteriormente, Manus alcanzó una cooperación estratégica con Tongyi Qianwen de Alibaba, con planes para implementar todas sus funciones en plataformas de modelos y potencia de cálculo nacionales. (Fuente: 36Kr | QbitAI | op7418)

Kling 2.0 se utiliza para la generación de vídeos de DJ, mostrando buen ritmo y estabilidad: El usuario SEIIIRU compartió un fragmento de vídeo de DJ creado con el modelo Kling 2.0 de Kuaishou, combinado con la música “シュワシュワレインボウ2” generada por Udio. El usuario comentó que Kling 2.0 mostró un buen sentido del ritmo y estabilidad al generar el vídeo de DJ, ofreciendo una “sensación de tranquilidad” en comparación con otras herramientas de generación de vídeo. Esto indica el potencial de Kling en escenarios específicos como la visualización musical y la creación de contenido de vídeo dinámico. (Fuente: Kling_ai)
Se publica el protocolo AG-UI, destinado a conectar los Agentes de IA con la capa de interacción del usuario: El equipo de CopilotKit ha lanzado AG-UI, un protocolo de código abierto, autohospedable y ligero basado en eventos, diseñado para facilitar la interacción rica y en tiempo real entre los Agentes de IA y las interfaces de usuario. AG-UI tiene como objetivo resolver el problema actual de que la mayoría de los Agentes, al ser herramientas de automatización de backend, tienen dificultades para lograr una interacción fluida y en tiempo real con los usuarios. A través de HTTP/SSE/webhooks, permite una conexión perfecta entre el backend de IA (como OpenAI, CrewAI, LangGraph) y el frontend, soportando actualizaciones en tiempo real, orquestación de herramientas, estado variable compartido, límites de seguridad y sincronización del frontend, permitiendo a los desarrolladores construir más fácilmente Agentes de IA interactivos que colaboren con los usuarios. (Fuente: Reddit r/LocalLLaMA)

Runway muestra aplicaciones diversificadas: desde el ensamblaje de piezas de bicicleta hasta el diseño de fuentes: Los usuarios han mostrado el potencial de Runway en múltiples aplicaciones. Jimei Yang utilizó Runway para generar una imagen de “renderizar una bicicleta a partir de las piezas en IMG_1”, demostrando su capacidad para comprender las relaciones entre componentes y realizar creaciones combinadas. En otro ejemplo, Yianni Mathioudakis usó Runway para la investigación de fuentes, renderizando caracteres con IA y elogiando su control sobre los resultados, lo que muestra la aplicación de Runway en los campos del diseño y la tipografía. (Fuente: c_valenzuelab | c_valenzuelab)

YourBench se actualiza, soportando la generación de preguntas abiertas y de opción múltiple: La herramienta YourBench ahora soporta la generación de preguntas de tipo abierto y de opción múltiple. Los usuarios solo necesitan configurar question_type
(opciones open-ended
o multi-choice
) en la configuración para ejecutar el proceso. Esta actualización proporciona a los usuarios mayor flexibilidad y control al construir tareas de evaluación, permitiendo personalizar la forma de evaluación según necesidades específicas para servir mejor a las pruebas de benchmark de grandes modelos y la creación de datos sintéticos. (Fuente: clefourrier | clefourrier)

La herramienta de IA Lovart puede generar un anuncio de vídeo completo a partir de una sola frase de requisitos: Un usuario experimentó con el producto de agente de diseño inteligente extranjero Lovart AI. Con solo introducir un requisito de 50 palabras, la IA pudo generar una imagen de identificación de modelo, 11 imágenes de storyboard de vídeo, la guía de filmación para cada storyboard y el vídeo del storyboard, y finalmente editarlo automáticamente en un vídeo completo. Esto demuestra el potencial de la IA para automatizar el proceso de producción de anuncios de vídeo, desde la concepción creativa hasta la salida del producto final, simplificando enormemente el proceso de creación. (Fuente: op7418)
Google Gemini muestra un rendimiento sobresaliente en el resumen de capítulos de vídeo: Hamel Husain compartió su experiencia usando Google Gemini para resumir capítulos de vídeos de YouTube, afirmando que completó la tarea “de una sola vez” con una precisión asombrosa, siendo la primera vez que veía a un modelo lograrlo. Esto resalta la potente capacidad de Gemini 2.5 en la comprensión de vídeo y la generalización de contenido, proporcionando a los usuarios una herramienta eficiente para captar rápidamente la información central de los vídeos. (Fuente: HamelHusain)
Kagi Translate supera a Google Translate en calidad de traducción: El usuario Vladquant compartió una evaluación positiva de Kagi Translate, considerando que su calidad de traducción supera con creces a la de Google Translate. Demostró la superioridad de Kagi Translate con un ejemplo específico (no detallado) y animó a otros a probarlo. Esto indica que en el campo de la traducción automática, las herramientas emergentes, a través de diferentes modelos o rutas tecnológicas, tienen el potencial de desafiar a los gigantes existentes en aspectos específicos. (Fuente: vladquant)

El Programa para Desarrolladores de Google (GDP) ofrece recursos de IA y nube con una alta relación coste-beneficio: El Programa para Desarrolladores de Google (GDP), con una cuota anual de 299 dólares, ofrece beneficios que incluyen un vale de 50 dólares para AI Studio, un vale de 500 dólares para GCP (con 500 dólares adicionales tras obtener una certificación) y hasta 30 espacios de trabajo en Firebase Studio, entre otros. Firebase Studio integra funciones de IA como Gemini 2.5 Pro, y el uso del modelo parece ser ilimitado, funcionando en la nube y soportando trabajo continuo en segundo plano. Se considera que este programa tiene una alta relación coste-beneficio para los desarrolladores que deseen utilizar los recursos de IA y nube de Google. (Fuente: algo_diver)

📚 Aprendizaje
Publicada la primera revisión sobre “Escalamiento en Tiempo de Prueba (Test-Time Scaling, TTS)”, que analiza sistemáticamente los mecanismos de pensamiento profundo de la IA: Una revisión realizada conjuntamente por investigadores de la City University of Hong Kong, MILA, Gaoling School of Artificial Intelligence de la Universidad Renmin de China, Salesforce AI Research, la Universidad de Stanford y otras instituciones, explora sistemáticamente la tecnología de Escalamiento en Tiempo de Prueba (Test-Time Scaling, TTS) en grandes modelos de lenguaje durante la fase de inferencia. El artículo propone un marco de análisis cuatridimensional “Qué-Cómo-Dónde-Qué tan bien” para organizar las tecnologías TTS existentes (como Chain of Thought (CoT), autoconsistencia, búsqueda, verificación), resumiendo las principales rutas tecnológicas como estrategias paralelas, evolución gradual, razonamiento de búsqueda y optimización intrínseca. Esta revisión tiene como objetivo proporcionar una hoja de ruta panorámica para la capacidad de “pensamiento profundo” de la IA, y discute la aplicación, evaluación y direcciones futuras de TTS en escenarios como el razonamiento matemático y la respuesta a preguntas abiertas, así como la implementación ligera y la fusión con el aprendizaje continuo. (Fuente: WeChat)

Artículo de ICLR 2025 OmniKV: Propone un método eficiente de inferencia para textos largos sin descartar tokens: Para abordar el enorme consumo de memoria del KV Cache en la inferencia de grandes modelos de lenguaje (LLM) con contextos largos, investigadores de Ant Group y otras instituciones publicaron un artículo en ICLR 2025 proponiendo el método OmniKV. Este método aprovecha la observación de la “similitud de atención entre capas”, según la cual diferentes capas Transformer muestran una alta similitud en los puntos de atención hacia los tokens importantes. OmniKV solo calcula la atención completa en unas pocas “capas de filtro” para identificar el subconjunto de tokens importantes, mientras que otras capas reutilizan estos índices para realizar cálculos de atención dispersa y descargan el KV Cache de las capas que no son de filtro a la CPU. Los experimentos demuestran que OmniKV no necesita descartar tokens, evitando la pérdida de información crítica, y logra un aumento de rendimiento de 1.7 veces sobre vLLM en LightLLM, siendo especialmente adecuado para escenarios de inferencia complejos como CoT y diálogos de múltiples turnos. (Fuente: WeChat)

El profesor Kyunghyun Cho de la NYU publica el programa del curso de aprendizaje automático para 2025, enfatizando la teoría fundamental: El profesor Kyunghyun Cho de la Universidad de Nueva York (NYU) compartió el programa y los apuntes de su curso de posgrado en aprendizaje automático para el año académico 2025. El curso evita deliberadamente la discusión profunda de los grandes modelos de lenguaje (LLM), centrándose en cambio en los algoritmos fundamentales de aprendizaje automático con el descenso de gradiente estocástico (SGD) como núcleo, y anima a los estudiantes a leer artículos clásicos y rastrear el desarrollo teórico. Esta práctica refleja la tendencia actual en la educación de IA en las universidades de dar importancia a la teoría fundamental, como los cursos CS229 de Stanford y 6.790 del MIT, que se centran en modelos clásicos y principios matemáticos. El profesor Cho considera que, en una era de rápida iteración tecnológica, dominar la teoría subyacente y la intuición matemática es más importante que perseguir los modelos más recientes, lo que ayuda a cultivar el pensamiento crítico de los estudiantes y su capacidad para adaptarse a los cambios futuros. (Fuente: WeChat)

Consejo de aprendizaje de IA: Evitar introducir contenido dinámico en diálogos de múltiples turnos para proteger el KVCache: Al mantener diálogos de múltiples turnos con una IA, especialmente cuando la potencia de cálculo es limitada, se debe evitar en la medida de lo posible introducir contenido dinámico en el contexto, como la marca de tiempo actual. Esto se debe a que el contenido dinámico hace que la secuencia de tokens generada sea diferente cada vez, lo que obliga al modelo a recalcular el KVCache de toda la secuencia, impidiendo la reutilización efectiva de la caché y aumentando así la carga computacional. Las operaciones complejas de la interfaz de usuario, como nombrar un chat a mitad de la sesión, también pueden invalidar el KVCache. Una forma de determinar si el KVCache se ha invalidado es observar las fluctuaciones de la memoria durante la inferencia; las fluctuaciones grandes y frecuentes suelen significar que el KVCache no se está reutilizando eficazmente. (Fuente: karminski3)

El profesor Zhong Yiwu de la Facultad de Inteligencia de la Universidad de Pekín busca estudiantes de doctorado en inferencia multimodal/agentes corpóreos: El profesor Zhong Yiwu de la Facultad de Inteligencia de la Universidad de Pekín (que se incorporará como profesor asistente en 2026) está buscando estudiantes de doctorado para comenzar en septiembre de 2026. Las áreas de investigación incluyen aprendizaje visual-lingüístico, grandes modelos de lenguaje multimodales, razonamiento cognitivo, computación eficiente y agentes corpóreos. El profesor Zhong obtuvo su doctorado en la Universidad de Wisconsin-Madison y actualmente es investigador postdoctoral en la Universidad China de Hong Kong. Ha publicado múltiples artículos en conferencias de primer nivel como CVPR e ICCV, y cuenta con más de 2500 citas en Google Scholar. Se requiere que los solicitantes tengan pasión por la investigación científica, una sólida base matemática y experiencia en programación. Se dará preferencia a aquellos con publicaciones. (Fuente: WeChat)

Aprender sistemáticamente la “capacidad de resolución de problemas” con IA: El usuario “周知” compartió su proceso para comprender en profundidad la “capacidad de resolución de problemas” mediante un uso progresivo de la IA. Comenzó utilizando la IA como un motor de búsqueda para obtener información superficial, luego asignó a la IA roles de expertos como Feynman para realizar preguntas estructuradas, y posteriormente utilizó prompts internos cuidadosamente diseñados (como el prompt Cool Teacher de Li Jigang) para que la IA explicara el conocimiento de manera sistemática y multidimensional (definición, escuelas de pensamiento, fórmulas, historia, connotación, extensión, diagrama de sistema, valor, recursos). Finalmente, al hacer que la IA extrajera, organizara y comprendiera esta información, y la combinara con escenarios de aplicación práctica (como aprender a escribir prompts de IA), transformó conceptos abstractos en marcos y guías de acción operables. El autor considera que la verdadera capacidad de resolución de problemas radica en que la IA (o una persona) pueda captar la esencia del problema, encontrar la dirección para resolverlo (conocimiento), poseer una fuerte capacidad de ejecución para verificar y resolver (acción), y lograr la unidad de conocimiento y acción a través de la revisión e iteración. (Fuente: WeChat)

Hugging Face introduce la función de anidamiento de colecciones, mejorando la organización de modelos y conjuntos de datos: Hugging Face Hub ha añadido una nueva función que permite a los usuarios crear “subcolecciones (Collections within Collections)” dentro de las “colecciones (Collections)”. Esta actualización permite a los usuarios organizar y gestionar de forma más flexible y ordenada los modelos, conjuntos de datos y otros recursos en Hugging Face, mejorando la usabilidad de la plataforma y la eficiencia en el descubrimiento de contenido. (Fuente: reach_vb)

💼 Negocios
El motor de búsqueda de IA Perplexity podría alcanzar una valoración de 14 mil millones de dólares en su financiación y planea desarrollar el navegador Comet: Se informa que la empresa de motores de búsqueda de IA Perplexity está en negociaciones para una nueva ronda de financiación, con la que espera recaudar 500 millones de dólares, liderada por Accel. La valoración de la empresa podría alcanzar casi los 14 mil millones de dólares, un aumento significativo desde los 3 mil millones de dólares de junio del año pasado. Perplexity es conocida por proporcionar respuestas resumidas con enlaces a las fuentes y ha sido recomendada por el CEO de Nvidia, Jensen Huang (Nvidia también es inversora). Los ingresos recurrentes anuales de la compañía ya alcanzan los 120 millones de dólares. Perplexity también planea lanzar un navegador web llamado Comet, con la intención de desafiar a Google Chrome y Apple Safari. A pesar de enfrentarse a la competencia de OpenAI, Google, Anthropic y otros en el campo de la búsqueda con IA, así como a demandas por derechos de autor (como las de Dow Jones y The New York Times), Perplexity sigue expandiéndose activamente. (Fuente: 36Kr | QbitAI)

“OHand Technologies” completa una ronda de financiación B++ de casi 100 millones de yuanes para acelerar la I+D y el lanzamiento de manos robóticas diestras: “OHand Technologies”, especializada en la investigación y desarrollo de tecnología robótica y neurociencia, ha completado recientemente una ronda de financiación B++ de casi 100 millones de yuanes, invertida conjuntamente por Infinity Capital, Zhejiang Development Asset Management Co., Ltd. (subsidiaria de Zhejiang State-owned Capital Operation Co., Ltd.) y Womeida Capital. Los fondos se utilizarán para acelerar la investigación y desarrollo de tecnología de manos robóticas diestras, promover el lanzamiento de nuevos productos, la construcción de capacidad de producción y la expansión del mercado. Los productos principales de OHand Technologies incluyen la serie de manos diestras ROhand para robots corpóreos y automatización industrial, y la mano biónica inteligente OHand™ para pacientes amputados, entre otros. La compañía enfatiza la reducción de costos mediante el desarrollo propio de componentes clave. El precio de la mano biónica inteligente OHand™ ya se ha reducido a menos de 100.000 yuanes y ha entrado en el catálogo de subsidios de la Federación de Personas con Discapacidad de Shanghái, al tiempo que expande activamente los mercados extranjeros. Se espera que una nueva generación de manos diestras con capacidades sensoriales como el tacto se lance este mes. (Fuente: 36Kr)

El proyecto de infraestructura de IA “StarGate” de SoftBank y OpenAI, valorado en 100 mil millones de dólares, encuentra obstáculos de financiación debido a la política arancelaria de Trump: El plan original de SoftBank Group de invertir 100 mil millones de dólares (aumentando a 500 mil millones en los próximos cuatro años) para construir infraestructura de IA en colaboración con OpenAI, el proyecto “StarGate”, ha encontrado importantes obstáculos de financiación. La política arancelaria de la administración Trump ha introducido riesgos económicos, lo que ha estancado las negociaciones de financiación con bancos e instituciones de capital privado. Los altos costos de capital, las preocupaciones sobre una posible recesión económica mundial que podría reducir la demanda de centros de datos, y la aparición de modelos de IA de bajo costo como DeepSeek, han aumentado las dudas de los inversores. Aunque SoftBank sigue adelante con una inversión de 30 mil millones de dólares en OpenAI y ya ha comenzado algunos trabajos de construcción (como el centro de datos en Abilene, Texas), las perspectivas generales de financiación del proyecto son inciertas. (Fuente: 36Kr)

🌟 Comunidad
Debate sobre si la IA está privando del “esfuerzo” necesario en el proceso de aprendizaje: Un usuario de Reddit inició una discusión sobre si la conveniencia de las herramientas de IA en escenarios como la codificación, la escritura y el aprendizaje está haciendo que los usuarios se salten el proceso de “esfuerzo” necesario, afectando así la comprensión profunda del conocimiento. En los comentarios, muchos usuarios consideraron que, aunque la IA es una herramienta poderosa, no se debe depender ciegamente de ella. Un usuario enfatizó que los usuarios necesitan comprender el contenido generado por la IA y ser responsables de él, viendo a la IA más como un “colega junior a veces inteligente, a veces tonto”. Otros usuarios declararon que utilizan principalmente la IA para aumentar la eficiencia de habilidades ya conocidas, en lugar de aprender cosas completamente nuevas, y sugirieron a los usuarios reflexionar sobre cómo usan la IA para evitar “externalizar el cerebro” y sacrificar el desarrollo personal a largo plazo. También hubo opiniones de que la IA ahorra principalmente una gran cantidad de tiempo en la búsqueda y selección de información, especialmente al tratar con problemas complejos o no estándar. (Fuente: Reddit r/ArtificialInteligence
Discusión sobre la sostenibilidad del uso gratuito de herramientas de IA y el valor de los datos del usuario: Una publicación en Reddit generó una discusión sobre las razones del uso gratuito actual de las herramientas de IA y su posible evolución futura. El autor de la publicación consideró que actualmente las empresas de IA ofrecen servicios gratuitos o de bajo costo para la competencia en el mercado y la acumulación de usuarios, y que una vez que el panorama del mercado se estabilice, podrían aumentar los precios, citando como ejemplo que Claude Code ya ha comenzado a limitar las cuotas gratuitas. En los comentarios, algunos opinaron que las empresas de IA recopilan datos de los usuarios, obtienen propiedad intelectual y crean perfiles de usuario a través de servicios gratuitos, y que esta información en sí misma tiene un valor enorme. Otros comentarios predijeron que los servicios de IA futuros podrían experimentar una competencia de precios similar a la de los proveedores de electricidad, o que el modelo B2B se convertirá en la corriente principal. Al mismo tiempo, algunos usuarios plantearon la idea contraria: que los datos de los usuarios son cruciales para entrenar la IA y que quizás las empresas de IA deberían pagar a los usuarios. (Fuente: Reddit r/ArtificialInteligence
Usuarios se quejan de los efectos de modelos de generación de vídeo como Sora y Veo, esperando mayor calidad: Un usuario de redes sociales expresó su insatisfacción con los efectos de los modelos de generación de vídeo actuales como Sora y Google Veo 2, considerando que todavía tienen deficiencias en la coherencia de los personajes y la comprensión de instrucciones básicas como “caminar hacia la cámara”, e incluso sintiendo que la capacidad del modelo ha sido “debilitada”. El usuario espera una mayor calidad en la generación de imágenes y vídeos (con sonido) y bromeó diciendo que espera que Veo 3 resuelva estos problemas. Esto refleja la brecha entre las altas expectativas de los usuarios sobre la tecnología de generación de vídeo por IA y el nivel tecnológico actual. (Fuente: scaling01)
Comentario de John Carmack: El potencial de la optimización de software y el hardware antiguo está subestimado: En respuesta a un experimento mental sobre “¿qué pasaría si los humanos olvidaran cómo fabricar CPUs?”, John Carmack comentó que si la optimización del software se tomara realmente en serio, muchas aplicaciones en el mundo podrían ejecutarse en hardware obsoleto. Las señales de precios del mercado para la potencia de cálculo escasa impulsarían esta optimización, por ejemplo, refactorizando productos interpretados basados en microservicios a bases de código nativas monolíticas. Por supuesto, también admitió que sin una potencia de cálculo barata y escalable, la aparición de productos innovadores se volvería mucho más escasa. (Fuente: ID_AA_Carmack)

La filtración del prompt del sistema de Claude atrae la atención de la industria, revelando la complejidad del control de la IA: Se informa que el prompt del sistema del gran modelo de lenguaje Claude de Anthropic ha sido filtrado. Su contenido, de aproximadamente 25.000 tokens, supera con creces la percepción convencional e incluye una gran cantidad de instrucciones específicas, como el juego de roles (asistente inteligente y amigable), un marco ético y de seguridad (prioridad a la seguridad infantil, prohibición de contenido dañino), cumplimiento estricto de los derechos de autor (prohibición de copiar material protegido por derechos de autor), un mecanismo de llamada a herramientas (MCP define 14 herramientas) y excepciones de comportamiento específicas (punto ciego en el reconocimiento facial). Esta filtración no solo revela la compleja “ingeniería de restricciones” que utiliza la IA de primer nivel para garantizar la seguridad, el cumplimiento y la experiencia del usuario, sino que también ha provocado un debate sobre la transparencia de la IA, la seguridad, la propiedad intelectual y el propio prompt como barrera tecnológica. El contenido filtrado difiere enormemente de la versión simplificada del prompt publicada oficialmente, lo que pone de relieve el equilibrio que buscan las empresas de IA entre la divulgación de información y la protección de su tecnología principal. (Fuente: 36Kr)

Existe una brecha entre las altas puntuaciones de la IA en preguntas médicas y su efectividad en aplicaciones reales: Un estudio de la Universidad de Oxford hizo que 1298 personas comunes simularan escenarios de consulta médica, utilizando IA como GPT-4o y Llama 3 para ayudar a juzgar la gravedad de la enfermedad y elegir el tratamiento. Los resultados mostraron que, aunque los modelos de IA por sí solos tenían una alta precisión diagnóstica en las pruebas (por ejemplo, GPT-4o identificó enfermedades con un 94.7% de acierto), después de que los usuarios utilizaran la IA como ayuda, la proporción de identificación correcta de enfermedades disminuyó al 34.5%, por debajo del grupo de control que no utilizó IA. El estudio señaló que las descripciones incompletas de los usuarios y la comprensión y adopción deficientes de las sugerencias de la IA fueron las principales razones. Esto indica que las altas puntuaciones de la IA en pruebas estandarizadas no equivalen completamente a la efectividad en aplicaciones clínicas reales, siendo el eslabón de la “colaboración humano-máquina” el cuello de botella clave. (Fuente: 36Kr)

💡 Otros
Informe de QuestMobile: El mercado de aplicaciones de IA presenta tres tipos de formas de aplicación, los asistentes de los fabricantes de teléfonos móviles muestran una alta actividad: El informe del mercado de aplicaciones de IA global de 2025 publicado por QuestMobile muestra que, a marzo de 2025, las aplicaciones de IA se dividen principalmente en aplicaciones nativas para móviles (591 millones de usuarios activos mensuales), plugins de aplicaciones móviles (In-App AI, 584 millones de usuarios activos mensuales) y aplicaciones web para PC (209 millones de usuarios activos mensuales). Entre ellos, los asistentes integrales de IA, los motores de búsqueda de IA y el diseño creativo con IA son las categorías con mayor proporción en cada extremo. Los asistentes de IA nativos de los fabricantes de teléfonos móviles tuvieron un rendimiento destacado: Xiaoyi de Huawei (157 millones de usuarios activos mensuales) y Xiaobu Assistant de OPPO (148 millones de usuarios activos mensuales) solo fueron superados por DeepSeek (193 millones de usuarios activos mensuales), superando a Doubao (115 millones de usuarios activos mensuales). El informe señala que los motores de búsqueda de IA, los asistentes integrales de IA, la interacción social con IA y los asesores profesionales de IA ya se han convertido en cuatro nichos de mercado con cientos de millones de usuarios. (Fuente: 36Kr)

Producción de anuncios con IA: Las grandes marcas experimentan activamente, pero persisten desafíos técnicos y éticos: Un informe de CTR muestra que más de la mitad de los anunciantes utilizan AIGC para la generación de contenido creativo, y casi el 20% utiliza IA en más del 50% de las etapas de creación de vídeo. Grandes marcas como Lenovo, Taotian y JD.com experimentan frecuentemente con anuncios de IA para mostrar innovación o lograr efectos visuales específicos. Empresas de publicidad como WPP y Publicis también están adoptando la IA, capacitando equipos o desarrollando herramientas. Sin embargo, la producción de anuncios con IA todavía enfrenta desafíos: técnicamente, problemas como la inestabilidad de la imagen, la facilidad con la que cambian los rostros de los personajes y el deficiente manejo de dinámicas complejas requieren intervención humana; en cuanto a la opinión pública, la exageración de la tecnología o la falta de sinceridad creativa pueden generar rechazo; legal y éticamente, los derechos de autor del material, la protección de la privacidad, la atribución de los derechos de autor del contenido generado por IA y la responsabilidad por infracción aún carecen de una normativa unificada. Los casos de éxito suelen centrarse en transmitir una preocupación “humana”, aprovechar las fortalezas técnicas y evitar las debilidades, y ajustarse a la identidad de la marca. (Fuente: 36Kr)

100 científicos firman el “Consenso de Singapur”, proponiendo directrices globales para la investigación en seguridad de la IA: Durante la Conferencia Internacional sobre Aprendizaje de Representaciones (ICLR) celebrada en Singapur, más de 100 científicos de todo el mundo (incluidos Yoshua Bengio, Stuart Russell, entre otros) publicaron conjuntamente el “Consenso de Singapur sobre las prioridades de investigación en seguridad de la IA a nivel global”. El documento tiene como objetivo proporcionar orientación a los investigadores de IA para garantizar que la tecnología de IA sea “confiable, fiable y segura”. El consenso propone tres categorías de investigación: identificar riesgos (como desarrollar métricas para medir daños potenciales, realizar evaluaciones cuantitativas de riesgos), construir sistemas de IA de manera que se eviten los riesgos (como hacer que la IA sea fiable por diseño, especificar la intención del programa y los efectos secundarios no deseados, reducir las alucinaciones, mejorar la robustez frente a la manipulación), y mantener el control sobre los sistemas de IA (como ampliar las medidas de seguridad existentes, desarrollar nuevas tecnologías para controlar sistemas de IA potentes que podrían intentar activamente socavar los intentos de control). Esta iniciativa tiene como objetivo abordar los desafíos de seguridad que plantea el rápido desarrollo de las capacidades de la IA y hace un llamamiento a aumentar la inversión en investigación sobre seguridad. (Fuente: 36Kr)
