Palabras clave:DeepSeek-V3-0526, Grok 3, Inteligencia Embebida, Agentes de IA, Aprendizaje por Refuerzo, Modelos de Lenguaje Grande (LLM), Multimodal, Rendimiento de DeepSeek-V3-0526 comparado con GPT-4.5, Problema de identificación del modo de pensamiento de Grok 3, Modelo de mundo EVAC del robot Zhiyuan, Extensión de duración de generación de video RIFLEx de la Universidad Tsinghua, IBM watsonx Orchestrate para IA empresarial
🔥 Destacados
El modelo DeepSeek-V3-0526 podría ser lanzado, comparable a GPT-4.5 y Claude 4 Opus: Informes de la comunidad indican que DeepSeek podría estar a punto de lanzar la última versión actualizada de su modelo V3, DeepSeek-V3-0526. Según la información de la página de documentación de Unsloth, el rendimiento de este modelo es comparable al de GPT-4.5 y Claude 4 Opus, y se espera que se convierta en el modelo de código abierto con mejor rendimiento a nivel mundial. Esto marca la segunda actualización importante de DeepSeek para su modelo V3. Unsloth ya ha preparado la versión cuantizada (GGUF) de este modelo, utilizando su método Dynamic 2.0, con el objetivo de minimizar la pérdida de precisión. La comunidad está muy atenta a esto y espera con ansias su rendimiento en el procesamiento de contextos largos, entre otros aspectos. (Fuente: Reddit r/LocalLLaMA, Reddit r/LocalLLaMA)

Grok 3 en modo ‘Think’ se identifica como Claude 3.5 Sonnet, lo que llama la atención: El modelo Grok 3 de xAI, en modo ‘Think’, cuando se le pregunta sobre su identidad, se identifica consistentemente como Claude 3.5 Sonnet de Anthropic, y no como Grok. Sin embargo, en modo normal, se identifica correctamente como Grok. Este fenómeno es específico del modo y del modelo, no una alucinación aleatoria. Los usuarios pueden reproducir este comportamiento preguntando directamente “¿Eres Claude?”, a lo que Grok 3 responde “Sí, soy Claude, un asistente de IA creado por Anthropic”. Este fenómeno ha generado discusión en la comunidad, y su causa técnica específica aún espera una explicación oficial, pudiendo estar relacionada con los datos de entrenamiento del modelo, mecanismos internos o una lógica específica de cambio de modo. (Fuente: Reddit r/MachineLearning)

Zhiyuan Robotics publica y hace de código abierto su modelo del mundo EVAC, impulsado por secuencias de acción robótica, y el benchmark de evaluación EWMBench: Zhiyuan Robotics ha lanzado y hecho de código abierto su modelo del mundo embodied EVAC (EnerVerse-AC), impulsado por secuencias de acción robótica, junto con el benchmark de evaluación de modelos del mundo embodied EWMBench. EVAC puede reproducir dinámicamente interacciones complejas entre robots y el entorno, logrando la generación de extremo a extremo desde acciones físicas hasta dinámicas visuales mediante un mecanismo de inyección de condiciones de acción multinivel, y admite la generación colaborativa multivista. EWMBench evalúa los modelos del mundo embodied desde tres aspectos: consistencia de la escena, razonabilidad de la acción, y alineación y diversidad semántica. Esta iniciativa tiene como objetivo construir un paradigma de desarrollo de “simulación de bajo costo – evaluación estandarizada – iteración eficiente” para promover el desarrollo de la tecnología de inteligencia embodied. (Fuente: WeChat)

ICRA 2025 anuncia los mejores artículos, premiados los equipos de Lu Cewu y Shao Lin: La Conferencia Internacional IEEE sobre Robótica y Automatización 2025 (ICRA 2025) ha anunciado los premios a los mejores artículos. El artículo “Human – Agent Joint Learning for Efficient Robot Manipulation Skill Acquisition”, una colaboración entre el equipo de Lu Cewu de la Universidad Jiao Tong de Shanghái y la Universidad de Illinois Urbana-Champaign (UIUC), recibió el premio al mejor artículo en interacción humano-robot. Esta investigación propone un marco de aprendizaje conjunto humano-agente (HAJL) para mejorar la eficiencia del aprendizaje de habilidades de manipulación robótica mediante un mecanismo de control compartido dinámico. El artículo “D(R,O) Grasp: A Unified Representation of Robot and Object Interaction for Cross-Embodiment Dexterous Grasping” del equipo de Shao Lin de la Universidad Nacional de Singapur obtuvo el premio al mejor artículo en manipulación y movimiento de robots. Esta investigación introduce la representación D(R,O) para unificar la interacción entre la mano del robot y el objeto, mejorando la generalización y eficiencia del agarre diestro. (Fuente: WeChat)

El equipo de Zhu Jun de la Universidad de Tsinghua lanza RIFLEx, superando la limitación de duración de generación de video con una sola línea de código: El equipo de Zhu Jun de la Universidad de Tsinghua ha presentado la tecnología RIFLEx, que con solo una línea de código y sin entrenamiento adicional, puede extender la duración de generación de los modelos Transformer de difusión de video basados en RoPE (Rotary Position Embedding). Este método ajusta la “frecuencia intrínseca” de RoPE, asegurando que la longitud del video extrapolado permanezca dentro de un solo ciclo, evitando problemas de repetición de contenido y cámara lenta. RIFLEx se ha aplicado con éxito a modelos como CogvideoX, Hunyuan y Tongyi Wanxiang, duplicando la duración del video (por ejemplo, de 5-6 segundos a más de 10 segundos) y admitiendo la extrapolación de dimensiones espaciales de la imagen. Este logro ha sido publicado en ICML 2025 y ha recibido amplia atención e integración por parte de la comunidad. (Fuente: WeChat)

🎯 Tendencias
Se filtran detalles del modelo DeepSeek-V3-0526, comparable a GPT-4.5 y Claude 4 Opus: Según la documentación de Unsloth y discusiones de la comunidad, DeepSeek está a punto de lanzar la última versión de su modelo V3, DeepSeek-V3-0526. Se dice que el rendimiento de este modelo es comparable al de GPT-4.5 y Claude 4 Opus, con el potencial de convertirse en el modelo de código abierto más potente del mundo. Unsloth ya ha preparado una versión cuantizada GGUF de 1.78 bits, utilizando su método “Unsloth Dynamic 2.0”, con el objetivo de lograr una ejecución local con una pérdida mínima de precisión. La comunidad espera con gran expectación esta actualización, prestando atención a su rendimiento específico en el procesamiento de contextos largos, capacidad de inferencia, etc. (Fuente: Reddit r/LocalLLaMA, Reddit r/LocalLLaMA)

El agente inteligente Tongyi AMPO logra inferencia adaptativa, imitando la multifaceticidad social humana: El laboratorio Tongyi de Alibaba ha propuesto un marco de aprendizaje de patrones adaptativos (AML) y su algoritmo de optimización AMPO, que permite a los agentes de lenguaje social cambiar dinámicamente entre cuatro modos de pensamiento preestablecidos (reacción intuitiva, análisis de intenciones, adaptación estratégica, deducción prospectiva) según el contexto de la conversación. Este método tiene como objetivo hacer que los agentes de IA sean más flexibles en las interacciones sociales, evitando el pensamiento excesivo o insuficiente de los patrones fijos. Los experimentos demuestran que AMPO mejora el rendimiento de las tareas al tiempo que reduce eficazmente el consumo de tokens, superando a modelos como GPT-4o en benchmarks de tareas sociales como SOTOPIA. (Fuente: WeChat)

QwenLong-L1: Aprendizaje por refuerzo para potenciar modelos de lenguaje grandes para inferencia en textos largos: Esta investigación propone el marco QwenLong-L1, diseñado para extender los modelos de inferencia grandes (LRM) existentes a escenarios de texto largo mediante aprendizaje por refuerzo (RL). El estudio primero define el paradigma de RL para la inferencia en textos largos e identifica desafíos como la baja eficiencia de entrenamiento y la inestabilidad del proceso de optimización. QwenLong-L1 aborda estos problemas mediante una estrategia de expansión progresiva del contexto, que incluye: el uso de ajuste fino supervisado (SFT) para el precalentamiento con el fin de establecer una política inicial robusta, la adopción de técnicas de RL por etapas guiadas por currículo para estabilizar la evolución de la política, y la incentivación de la exploración de la política mediante una estrategia de muestreo retrospectivo sensible a la dificultad. En siete benchmarks de respuesta a preguntas sobre textos largos, QwenLong-L1-32B superó a modelos como OpenAI-o3-mini y Qwen3-235B-A22B, con un rendimiento comparable a Claude-3.7-Sonnet-Thinking. (Fuente: HuggingFace Daily Papers)
QwenLong-CPRS: Optimización dinámica del contexto para lograr LLM de “longitud infinita”: Este informe técnico presenta QwenLong-CPRS, un marco de compresión de contexto diseñado para la optimización explícita de textos largos. Su objetivo es abordar el excesivo costo computacional de los LLM en la fase de prellenado y la degradación del rendimiento por “pérdida intermedia” en el procesamiento de secuencias largas. QwenLong-CPRS, mediante un novedoso mecanismo de optimización dinámica del contexto, logra una compresión de contexto multigranular guiada por instrucciones en lenguaje natural, mejorando así la eficiencia y el rendimiento. El marco evoluciona a partir de la serie de arquitecturas Qwen, introduciendo optimización dinámica guiada por lenguaje natural, una capa de inferencia bidireccional con conciencia de límites mejorada, un mecanismo de revisión de tokens con una cabeza de modelado de lenguaje y una inferencia paralela por ventanas. En cinco benchmarks con contextos de 4K a 2M de palabras, QwenLong-CPRS superó en precisión y eficiencia a métodos como RAG y atención dispersa, y puede integrarse con LLM insignia, incluido GPT-4o, logrando una compresión de contexto y una mejora del rendimiento significativas. (Fuente: HuggingFace Daily Papers)
RIPT-VLA: Ajuste fino de modelos de visión-lenguaje-acción mediante aprendizaje por refuerzo interactivo: Investigadores proponen RIPT-VLA, un paradigma de post-entrenamiento interactivo basado en aprendizaje por refuerzo, que utiliza únicamente recompensas de éxito binarias dispersas para ajustar modelos preentrenados de visión-lenguaje-acción (VLA). Este método tiene como objetivo resolver el problema de la excesiva dependencia de los flujos de trabajo de entrenamiento VLA existentes en datos de demostración de expertos offline y aprendizaje por imitación supervisado, permitiéndoles adaptarse a nuevas tareas y entornos en situaciones de bajos datos. RIPT-VLA, mediante un algoritmo de optimización de políticas estable basado en muestreo de despliegue dinámico y estimación de ventaja leave-one-out, se aplica a múltiples modelos VLA, mejorando significativamente la tasa de éxito de modelos ligeros como QueST y el modelo 7B OpenVLA-OFT, con alta eficiencia computacional y de datos. (Fuente: HuggingFace Daily Papers)
IBM lanza watsonx Orchestrate, actualizando sus soluciones de agentes de IA: IBM, en su conferencia Think 2025, anunció una versión actualizada de watsonx Orchestrate, que ofrece agentes especializados preconstruidos para dominios como recursos humanos, ventas y adquisiciones. Esto permite a las empresas construir rápidamente AI Agents personalizados y lograr la colaboración entre múltiples agentes a través de herramientas de orquestación de agentes. La plataforma enfatiza la gestión del ciclo de vida completo de los AI Agents, incluyendo monitoreo de rendimiento, protección, optimización de modelos y gobernanza. IBM considera que la esencia de la IA empresarial es la reingeniería de negocios, y se debe enfocar en el valor de la IA para resolver problemas comerciales reales y crear resultados cuantificables, en lugar de perseguir la tecnología por sí misma. (Fuente: WeChat)

La Universidad de Beihang lanza el marco UAV-Flow para el control de trayectoria de grano fino de drones guiado por lenguaje: El equipo del profesor Liu Si de la Universidad de Aeronáutica y Astronáutica de Beijing propuso el marco UAV-Flow, definiendo el paradigma de tarea Flying-on-a-Word (Flow), con el objetivo de lograr un control de vuelo reactivo de corta distancia y grano fino para drones mediante instrucciones en lenguaje natural. El equipo utilizó métodos de aprendizaje por imitación para que los drones aprendan las estrategias operativas de pilotos humanos en entornos reales. Para ello, construyeron un conjunto de datos de aprendizaje por imitación de drones guiado por lenguaje a gran escala en el mundo real y establecieron el benchmark de evaluación UAV-Flow-Sim en un entorno de simulación. Este modelo de visión-lenguaje-acción (VLA) se ha implementado con éxito en plataformas de drones reales y ha validado la viabilidad del control de vuelo basado en diálogos en lenguaje natural. (Fuente: WeChat)

ByteDance lanza Seedream 2.0, optimizando la generación de imágenes bilingües (chino-inglés) y la renderización de texto: Para abordar las deficiencias de los modelos de generación de imágenes existentes en el manejo de detalles culturales chinos, prompts de texto bilingües y renderización de texto, ByteDance ha lanzado Seedream 2.0. Este modelo, como modelo base de generación de imágenes bilingüe chino-inglés, integra un gran modelo de lenguaje bilingüe de desarrollo propio como codificador de texto, aplica Glyph-Aligned ByT5 para la renderización de texto a nivel de carácter, y Scaled RoPE para la generalización a resoluciones no entrenadas. Mediante post-entrenamiento multifase y optimización RLHF, Seedream 2.0 muestra un rendimiento sobresaliente en el seguimiento de prompts, estética, renderización de texto y corrección estructural, y puede adaptarse fácilmente a la edición de imágenes basada en instrucciones. (Fuente: HuggingFace Daily Papers)
El marco RePrompt utiliza aprendizaje por refuerzo para mejorar los prompts en la generación de texto a imagen: Para resolver el problema de que los modelos de texto a imagen (T2I) tienen dificultades para capturar con precisión la intención del usuario a partir de prompts cortos o ambiguos, los investigadores proponen el marco RePrompt. Este marco introduce la inferencia explícita en el proceso de mejora de prompts mediante aprendizaje por refuerzo, entrenando modelos de lenguaje para generar prompts estructurados y autorreflexivos, y optimizándolos según los resultados a nivel de imagen (preferencias humanas, alineación semántica, composición visual). Este método no requiere datos anotados manualmente para el entrenamiento de extremo a extremo y ha mejorado significativamente la fidelidad del diseño espacial y la capacidad de generalización composicional en benchmarks como GenEval y T2I-Compbench. (Fuente: HuggingFace Daily Papers)
NOVER: Entrenamiento incentivado de modelos de lenguaje mediante aprendizaje por refuerzo sin verificador: Inspirado en investigaciones como DeepSeek R1-Zero, este trabajo propone el marco NOVER (NO-VERifier Reinforcement Learning), con el objetivo de resolver la dependencia de los métodos de entrenamiento incentivado existentes (que recompensan los pasos de inferencia intermedios generados por el modelo a través de la respuesta final) de verificadores externos. NOVER solo requiere datos de ajuste fino supervisado estándar, sin necesidad de un verificador externo, para lograr el entrenamiento incentivado en diversas tareas de texto a texto. Los experimentos demuestran que NOVER supera en rendimiento a modelos destilados de grandes modelos de inferencia como DeepSeek R1 671B con una escala comparable, y ofrece nuevas posibilidades para optimizar grandes modelos de lenguaje (como el entrenamiento incentivado inverso). (Fuente: HuggingFace Daily Papers)
Direct3D-S2: Marco de generación 3D a escala de miles de millones basado en atención espacial dispersa: Para hacer frente a los desafíos computacionales y de memoria de la generación de formas 3D de alta resolución (como la representación SDF), los investigadores proponen el marco Direct3D S2. Este marco, basado en volúmenes dispersos, mejora significativamente la eficiencia computacional de los Diffusion Transformers en datos volumétricos dispersos mediante un innovador mecanismo de atención espacial dispersa (SSA), logrando una aceleración de 3.9 veces en la propagación hacia adelante y 9.6 veces en la propagación hacia atrás. El marco incluye un autoencoder variacional (VAE) que mantiene un formato de volumen disperso consistente en las etapas de entrada, latente y salida, mejorando la eficiencia y estabilidad del entrenamiento. Este modelo se entrena en conjuntos de datos públicos, y los experimentos demuestran que supera a los métodos existentes en calidad de generación y eficiencia, pudiendo completar el entrenamiento a una resolución de 1024 con 8 GPUs. (Fuente: HuggingFace Daily Papers)
La App Doubao lanza función de videollamada, mejorando la experiencia de interacción con el asistente de IA: La App Doubao, asistente de IA de ByteDance, ha añadido una función de videollamada. Los usuarios pueden interactuar en tiempo real con Doubao mediante videollamadas para, por ejemplo, identificar objetos (como plantas, productos sanitarios) u obtener instrucciones de operación (como reiniciar un teléfono). Esta función tiene como objetivo reducir la barrera de entrada para el uso de herramientas de IA, especialmente para grupos de usuarios no familiarizados con la carga de fotos o la interacción por texto, ofreciendo una forma de interacción más natural y directa, y mejorando la sensación de compañía y la utilidad del asistente de IA. (Fuente: WeChat)

El modelo Veo 3 ya está disponible para algunos usuarios, la plataforma Flow admite la carga de imágenes: El modelo de generación de video Veo 3 de Google ya está disponible para algunos usuarios, sin limitarse a los miembros Ultra. Al mismo tiempo, su plataforma Flow (posiblemente refiriéndose a AI Test Kitchen u otra plataforma experimental) ahora permite a los usuarios cargar imágenes para operar o como material de generación, ampliando sus capacidades de interacción multimodal. Esto indica que Google está expandiendo gradualmente el alcance de prueba y uso de sus modelos avanzados de IA. (Fuente: WeChat)
El bajo número de descargas del gran modelo nacional indio Sarvam-M tras su lanzamiento genera controversia: Sarvam AI lanzó Sarvam-M, un modelo de lenguaje mixto de 24 mil millones de parámetros basado en Mistral Small, que admite 10 idiomas locales de la India y es considerado un avance en la investigación de IA autóctona del país. Sin embargo, dos días después de su lanzamiento en Hugging Face, el modelo solo había sido descargado poco más de trescientas veces, mucho menos que algunos proyectos más pequeños, lo que provocó críticas de personas de la industria como el inversor Deedy Das, quienes lo calificaron de “resultados no acordes con la financiación” y “falta de utilidad práctica”. Sarvam AI respondió que se debe prestar atención a la contribución del proceso de construcción del modelo a la comunidad y acusó a los críticos de no haberlo probado realmente. Este incidente ha suscitado un amplio debate sobre la necesidad de modelos de IA autóctonos en la India, la adecuación del producto al mercado y las expectativas de la comunidad. (Fuente: WeChat)

Kunlun Tech lanza el superagente inteligente Tiangong, con limitación de flujo inicial debido a alta concurrencia: Kunlun Tech lanzó oficialmente el superagente inteligente Tiangong, que utiliza una arquitectura AI Agent y tecnología Deep Research, capaz de generar de forma integral documentos, PPT, hojas de cálculo, páginas web, podcasts y contenido audiovisual multimodal. El sistema consta de 5 agentes expertos y 1 agente general. Solo tres horas después del lanzamiento del producto, el servicio experimentó lentitud debido al excesivo volumen de acceso de usuarios, y la empresa anunció la implementación de medidas de limitación de flujo. (Fuente: WeChat)
NVIDIA presenta el modelo base de robot humanoide N1.5 y la supercomputadora personal de IA DGX: En la feria Computex Taipei, el CEO de NVIDIA, Jensen Huang, presentó la nueva generación del modelo base de robot humanoide Isaac GR00T N1.5, que reduce el ciclo de entrenamiento de 3 meses a 36 horas mediante tecnología de datos sintéticos. También se presentaron el modelo del mundo Cosmos Reason, la herramienta de simulación de código abierto Isaac Sim 5.0 y la estación de trabajo RTX PRO 6000. Además, NVIDIA lanzó los sistemas de supercomputación personal de IA DGX Spark y DGX Station. DGX Spark está equipado con el superchip GB10 Grace Blackwell, y DGX Station cuenta con el superchip de escritorio GB300 Grace Blackwell Ultra, con el objetivo de proporcionar a los desarrolladores una potente capacidad de cálculo de IA. (Fuente: WeChat)
Microsoft Build 2025 se centra en AI Agent, GitHub Copilot se actualiza a compañero de programación: La conferencia de desarrolladores Microsoft Build 2025 enfatizó la aplicación de AI Agent. GitHub Copilot pasó de ser un asistente de código a un compañero Agent, capaz de completar de forma autónoma tareas como la reparación de errores y el desarrollo de nuevas funciones. Microsoft también lanzó Windows AI Foundry, para ayudar a los desarrolladores a gestionar y ejecutar LLM de código abierto y migrar modelos propietarios. Microsoft 365 Copilot Tuning permite a los usuarios utilizar datos empresariales y lógica de negocio para entrenar modelos y crear agentes inteligentes con bajo código. (Fuente: WeChat)
Tencent actualiza la plataforma de desarrollo de agentes inteligentes TCADP, planea abrir el código de varios modelos: En la Cumbre de Aplicaciones Industriales de IA de Tencent Cloud, Tencent Cloud anunció que su motor de conocimiento de grandes modelos se actualizó a la Plataforma de Desarrollo de Agentes Inteligentes de Tencent Cloud (TCADP) y se lanzó oficialmente al público, integrando los modelos DeepSeek-R1, V3 y búsqueda en red. Tencent también planea lanzar el modelo de escena 3D Hunyuan, un modelo del mundo, y abrir el código de un modelo de inferencia híbrida de nivel empresarial, un modelo de inferencia híbrida en el dispositivo y un modelo base multimodal. Recientemente, Tencent Hunyuan ha actualizado el modelo de inferencia profunda visual Hunyuan T1 Vision, el modelo de llamada de voz de extremo a extremo Hunyuan Voice y el modelo Hunyuan Image 2.0. (Fuente: WeChat)
JD Industrials lanza el gran modelo industrial Joy industrial, centrado en la cadena de suministro: JD Industrials lanzó Joy industrial, un gran modelo para el sector industrial, centrado en escenarios de la cadena de suministro. Este modelo introduce servicios de agentes de IA como el agente de demanda, el agente de operaciones y el agente de aduanas para JD Industrials y sus proveedores ascendentes, y ofrece productos de IA como expertos en productos y expertos en integración para los usuarios empresariales descendentes. El objetivo futuro es crear grandes modelos industriales para sectores verticales como el mercado de posventa de automóviles, vehículos de nueva energía y fabricación de robots. (Fuente: WeChat)
🧰 Herramientas
Wen Xiaobai AI lanza la función “Xiaobai Research Report”, una experiencia similar a Deep Research: Wen Xiaobai AI ha añadido la función “Xiaobai Research Report”, basada en su modelo Yuanshi de desarrollo propio, que puede simular el pensamiento humano para realizar múltiples rondas de reflexión y llamadas a herramientas, generando automáticamente informes de investigación profundos, tesis, análisis sectoriales, etc., y presentándolos en formato de página web visualizada, con soporte para exportar a PDF/DOCX. Los usuarios, con solo instrucciones simples, pueden obtener informes de miles de palabras que incluyen análisis de datos, gráficos e integración de información de múltiples fuentes en aproximadamente 20 minutos. Esta función es aplicable a diversos escenarios como la interpretación de informes financieros, investigación de mercado, recomendación de productos, etc., con el objetivo de mejorar significativamente la eficiencia en el procesamiento de información y la redacción de informes. (Fuente: WeChat)

AI Baby Monitor: Aplicación de monitorización de bebés con LLM de video localizada: Un desarrollador ha construido una aplicación de monitorización de bebés con LLM de video localizada llamada AI Baby Monitor. La aplicación observa una transmisión de video y toma decisiones basadas en instrucciones de seguridad preestablecidas, emitiendo un pitido de advertencia cuando detecta una violación de las reglas de seguridad. El proyecto utiliza Qwen 2.5VL y vLLM, y aprovecha Redis para la orquestación de flujos y Streamlit para construir la interfaz de usuario. La intención original del desarrollador era monitorear a su hija que intentaba salir de la cuna, y también lo usó para monitorear su propio comportamiento inconsciente de revisar el teléfono. Planea admitir más backends y una función de “zonas prohibidas” de imagen en el futuro. (Fuente: Reddit r/LocalLLaMA)

Beelzebub: Marco de honeypot de código abierto que utiliza LLM para construir sistemas de engaño avanzados: Beelzebub es un marco de honeypot de código abierto que integra de forma innovadora grandes modelos de lenguaje (LLM) para crear entornos de engaño altamente realistas y dinámicos. El marco puede simular un sistema operativo completo e interactuar con los atacantes de manera extremadamente convincente. Por ejemplo, en un escenario de honeypot SSH, el LLM puede proporcionar respuestas razonables a los comandos, incluso si estos comandos no se ejecutan en un sistema real. Su objetivo es atraer a los atacantes durante el mayor tiempo posible, desviándolos de los sistemas reales y recopilando datos valiosos sobre sus tácticas, técnicas y procedimientos. El proyecto está disponible en GitHub y busca retroalimentación y contribuciones de la comunidad. (Fuente: Reddit r/LocalLLaMA)

Langflow: Potente herramienta para construir y desplegar agentes y flujos de trabajo de IA: Langflow es una herramienta para construir y desplegar agentes y flujos de trabajo impulsados por IA. Ofrece una experiencia de construcción visual y un servidor API incorporado, que puede convertir cada agente en un endpoint API, facilitando la integración en diversas aplicaciones. Langflow es compatible con los principales LLM, bases de datos vectoriales y una creciente biblioteca de herramientas de IA, y cuenta con orquestación de múltiples agentes, gestión de diálogos, un Playground para pruebas instantáneas, acceso a código, integración de observabilidad (como LangSmith), así como seguridad y escalabilidad de nivel empresarial. El proyecto es de código abierto y se puede obtener un servicio totalmente gestionado a través de DataStax. (Fuente: GitHub Trending)
Pathway: Marco ETL de procesamiento de flujos en Python, compatible con análisis en tiempo real y pipelines de LLM: Pathway es un marco ETL de Python diseñado específicamente para el procesamiento de flujos, análisis en tiempo real, pipelines de LLM y RAG (generación aumentada por recuperación). Proporciona una API de Python fácil de usar que se puede integrar con diversas bibliotecas de ML de Python. Su código es universal para entornos de desarrollo y producción, manejando eficazmente datos por lotes y en flujo. Pathway está impulsado por un motor Rust escalable basado en Differential Dataflow, que admite cómputo incremental, multihilo, multiproceso y computación distribuida, manteniendo todo el pipeline en memoria y facilitando el despliegue a través de Docker y Kubernetes. (Fuente: GitHub Trending)
Point-Battle: Arena de competencia para la capacidad de señalamiento guiado por lenguaje de MLLM: Miembros de la comunidad invitan a probar Point-Battle, una plataforma para evaluar el rendimiento de los principales grandes modelos de lenguaje multimodales (MLLM) actuales en tareas de señalamiento guiado por lenguaje. Los usuarios pueden cargar imágenes o seleccionar imágenes preestablecidas, ingresar prompts y observar cómo los diferentes modelos “señalan” sus respuestas, y votar por el modelo con mejor rendimiento. Esto ayuda a investigadores y desarrolladores a comprender las diferencias en la capacidad de los distintos MLLM para comprender contenido visual y realizar localización espacial según instrucciones de texto. (Fuente: Reddit r/deeplearning)
FullFront: Benchmark para evaluar la capacidad de los MLLM en el flujo completo de ingeniería de frontend: FullFront es un nuevo benchmark diseñado para evaluar la capacidad de los grandes modelos de lenguaje multimodales (MLLM) en todo el flujo de desarrollo de frontend, incluyendo diseño web (conceptualización), respuesta a preguntas con percepción web (organización visual y comprensión de elementos) y generación de código web (implementación). A diferencia de los benchmarks existentes, FullFront utiliza un proceso de dos etapas para convertir páginas web reales en HTML limpio y estandarizado, manteniendo al mismo tiempo la diversidad del diseño visual y evitando problemas de derechos de autor. Pruebas exhaustivas en MLLM SOTA revelan sus limitaciones significativas en la percepción de la página, la generación de código (especialmente el procesamiento de imágenes y el diseño) y la implementación de interacciones. (Fuente: HuggingFace Daily Papers)
📚 Aprendizaje
Menlo Research publica el modelo SpeechLess, logrando el entrenamiento de instrucciones de voz sin datos de voz: El artículo “SpeechLess” de Menlo Research fue aceptado en Interspeech 2025, y se ha publicado el modelo correspondiente. Esta investigación aborda el desafío de la falta de datos de instrucciones de voz para idiomas de bajos recursos, proponiendo un método para entrenar modelos de instrucciones de voz utilizando completamente datos sintéticos. Sus pasos principales incluyen: 1. Convertir voz real en tokens discretos (entrenar un cuantificador); 2. Entrenar el modelo SpeechLess para generar tokens de voz simulados a partir de texto; 3. Utilizar este pipeline de texto a tokens de voz sintéticos para entrenar un LLM para el aprendizaje de instrucciones de voz. Los resultados indican que el entrenamiento con tokens de voz completamente sintéticos es muy efectivo, abriendo nuevas vías para la construcción de sistemas de voz en escenarios de bajos recursos. (Fuente: Reddit r/LocalLLaMA)

Algoritmo de compresión de texto evolucionado mediante mutación de código impulsada por LLM: Un desarrollador intentó evolucionar algoritmos de compresión de texto utilizando LLM (grandes modelos de lenguaje) mediante pequeñas mutaciones en el código de un compresor de texto simple estilo LZ77. El método evoluciona a lo largo de múltiples generaciones, conservando élites y supervivientes en cada generación, y generando descendencia a partir de los padres. El criterio de selección se basa puramente en la tasa de compresión; si la compresión y descompresión de ida y vuelta falla, se descarta el candidato. En 30 generaciones, el experimento mejoró la tasa de compresión de 1.03 a 1.85. El proyecto está disponible en GitHub (think-a-tron/minevolve). (Fuente: Reddit r/MachineLearning)

Quartet: El entrenamiento nativo en FP4 puede lograr el mejor rendimiento en LLM: Con el aumento exponencial de las demandas computacionales de los LLM, el entrenamiento con algoritmos de baja precisión se ha convertido en clave para mejorar la eficiencia. La arquitectura NVIDIA Blackwell admite operaciones FP4, pero los algoritmos de entrenamiento FP4 existentes enfrentan una disminución de la precisión y dependen de la precisión mixta. Los investigadores estudiaron sistemáticamente el entrenamiento en FP4 compatible con hardware y propusieron el método Quartet, que logra un entrenamiento FP4 de extremo a extremo, con la mayor parte del cálculo realizado en baja precisión. Mediante una amplia evaluación de modelos de tipo Llama, se revelaron nuevas leyes de escalado de baja precisión, se cuantificaron las compensaciones de rendimiento para diferentes anchos de bits y se identificó Quartet como una técnica de entrenamiento de baja precisión casi óptima en términos de precisión y cómputo. Utilizando núcleos CUDA optimizados, Quartet ha logrado con éxito una precisión FP4 de vanguardia en modelos de miles de millones de parámetros. (Fuente: HuggingFace Daily Papers)
Synthetic Data RL (Aprendizaje por Refuerzo con Datos Sintéticos): Ajuste fino de modelos solo con la definición de la tarea: Esta investigación propone el marco Synthetic Data RL, que ajusta modelos mediante aprendizaje por refuerzo utilizando únicamente datos sintéticos generados a partir de la definición de la tarea. El método primero genera pares de preguntas y respuestas a partir de la definición de la tarea y documentos recuperados, luego ajusta la dificultad de las preguntas según la capacidad de resolución del modelo, y selecciona preguntas para el entrenamiento RL basándose en la tasa de aprobación promedio del modelo en las muestras. En Qwen-2.5-7B, este método logró mejoras significativas en múltiples benchmarks como GSM8K, MATH y GPQA, superando el ajuste fino supervisado y acercándose a los resultados de RL con datos humanos completos, mostrando potencial para reducir la anotación manual. (Fuente: HuggingFace Daily Papers)
TabSTAR: Modelo base tabular con representaciones semánticas conscientes del objetivo: Aunque el aprendizaje profundo ha logrado éxito en múltiples dominios, en tareas de aprendizaje tabular todavía no supera a los árboles de decisión potenciados por gradiente (GBDTs). Los investigadores presentan TabSTAR, un modelo base tabular con representaciones semánticas conscientes del objetivo, diseñado para lograr el aprendizaje por transferencia de datos tabulares con características textuales. TabSTAR descongela un codificador de texto preentrenado e introduce tokens objetivo, proporcionando al modelo el contexto necesario para aprender embeddings específicos de la tarea. Este modelo alcanza un rendimiento SOTA en tareas de clasificación con características textuales para conjuntos de datos de tamaño mediano a grande, y su fase de preentrenamiento demuestra una ley de escalado con respecto a la cantidad de conjuntos de datos. (Fuente: HuggingFace Daily Papers)
TIME: Benchmark de inferencia temporal de LLM multinivel para escenarios del mundo real: La inferencia temporal es crucial para que los LLM comprendan el mundo real. Los trabajos existentes ignoran los desafíos de la inferencia temporal en el mundo real: información temporal densa, dinámicas de eventos que cambian rápidamente y dependencias temporales complejas en interacciones sociales. Para ello, los investigadores proponen el benchmark multinivel TIME, que contiene 38,522 pares de QA, cubriendo 3 niveles y 11 subtareas de grano fino, así como tres subconjuntos de datos: TIME-Wiki, TIME-News y TIME-Dial, que reflejan diferentes desafíos del mundo real. El estudio realizó amplios experimentos y análisis profundos en múltiples modelos, y publicó un subconjunto anotado manualmente, TIME-Lite. (Fuente: HuggingFace Daily Papers)
Inferencia de LLM y notas dinámicas: Mejora de la capacidad de respuesta a preguntas complejas: El RAG iterativo, al procesar preguntas de múltiples saltos, enfrenta desafíos de contexto excesivamente largo y acumulación de información irrelevante, lo que afecta la capacidad de procesamiento e inferencia del modelo. Los investigadores proponen el método de “escritura de notas” (Notes Writing), que genera notas concisas y relevantes a partir de los documentos recuperados en cada paso, reduciendo el ruido, conservando información clave y, por lo tanto, aumentando indirectamente la longitud efectiva del contexto del LLM, mejorando su capacidad de inferencia y planificación. Este método es independiente del marco y puede integrarse en diferentes métodos de RAG iterativo, mostrando mejoras significativas de rendimiento en los experimentos. (Fuente: HuggingFace Daily Papers)
Marco s3: Entrenamiento de agentes de búsqueda eficientes mediante RL con pocos datos: Los sistemas de generación aumentada por recuperación (RAG) permiten a los LLM acceder a conocimiento externo. Investigaciones recientes utilizan aprendizaje por refuerzo (RL) para que los LLM actúen como agentes de búsqueda, pero los métodos existentes o bien optimizan la recuperación ignorando la utilidad aguas abajo, o bien ajustan todo el LLM, acoplando la recuperación y la generación. Los investigadores proponen el marco s3, un método ligero e independiente del modelo que desacopla el buscador del generador y utiliza la “ganancia más allá de RAG” (Gain Beyond RAG) como recompensa para entrenar al buscador. s3 solo necesita 2.4k muestras de entrenamiento para superar a las líneas base que utilizan más de 70 veces más datos, obteniendo mejores resultados en múltiples benchmarks de QA. (Fuente: HuggingFace Daily Papers)
ReflAct: Toma de decisiones de agentes LLM en el mundo mediante la reflexión sobre el estado objetivo: Los agentes LLM existentes (como los basados en ReAct), al entrelazar el pensamiento y la acción en entornos complejos, a menudo producen razonamientos poco fundamentados o incoherentes, lo que lleva a un desajuste entre el estado real y el objetivo. Los investigadores analizan que esto se debe a la dificultad de ReAct para mantener creencias internas consistentes y una alineación con el objetivo. Para ello, proponen ReflAct, una nueva red troncal que cambia el razonamiento de la planificación de la siguiente acción a la reflexión continua sobre el estado del agente en relación con su objetivo. Al basar explícitamente las decisiones en el estado y forzar una alineación continua con el objetivo, ReflAct mejora significativamente la fiabilidad de la política, superando ampliamente a ReAct en tareas como ALFWorld. (Fuente: HuggingFace Daily Papers)
FREESON: Marco de inferencia aumentada por recuperación sin recuperador: Los grandes modelos de inferencia (LRM) destacan en la inferencia de múltiples pasos y en la invocación de motores de búsqueda, pero los métodos de aumento por recuperación existentes dependen de modelos de recuperación independientes, lo que limita el papel de los LRM en la recuperación y puede causar errores debido a cuellos de botella en la representación. Los investigadores proponen el marco FREESON, que permite a los LRM recuperar conocimiento por sí mismos actuando como generadores y recuperadores. Este marco introduce el algoritmo CT-MCTS, especializado para tareas de recuperación, que permite al LRM recorrer el corpus hacia las regiones de respuesta. Los experimentos demuestran que FREESON supera significativamente a los modelos de inferencia de múltiples pasos que utilizan recuperadores independientes en múltiples benchmarks de QA de dominio abierto. (Fuente: HuggingFace Daily Papers)
LLMSynthor: La Universidad McGill propone un nuevo marco para la síntesis de datos estadísticamente controlable: Para abordar las deficiencias de los métodos de síntesis de datos existentes en cuanto a razonabilidad, consistencia distributiva y escalabilidad, el equipo de la Universidad McGill presenta el marco LLMSynthor. Este marco no hace que los grandes modelos generen datos directamente, sino que los transforma en “generadores conscientes de la estructura”. Mediante el razonamiento estructural, la alineación estadística (comparando resúmenes estadísticos en lugar de datos brutos), la generación de reglas de distribución muestreables (en lugar de muestras individuales) y un proceso de alineación iterativo, genera conjuntos de datos sintéticos que son estructural y estadísticamente muy cercanos a los datos reales y cumplen con el sentido común. Este método tiene garantías teóricas de convergencia y ha sido validado en múltiples escenarios reales como transacciones de comercio electrónico, datos demográficos y movilidad urbana, siendo compatible con diversos grandes modelos. (Fuente: 量子位)

💼 Negocios
Hygon Information y Sugon planean una importante reorganización de activos, posiblemente una fusión: La empresa de diseño de chips Hygon Information y el gigante de la supercomputación Sugon anunciaron simultáneamente la suspensión de la cotización de sus acciones. Hygon Information tiene la intención de absorber y fusionar a Sugon mediante la emisión de acciones A a todos los accionistas de acciones A de Sugon, y planea emitir acciones A para recaudar fondos complementarios. Hygon Information se especializa en la investigación y desarrollo de CPU y GPU de alta gama, mientras que Sugon tiene una profunda acumulación en el campo de los servidores y la computación de alto rendimiento, y es el mayor accionista de Hygon Information. Si esta fusión tiene éxito, creará un gigante nacional de la potencia de cálculo con un valor de mercado total de casi 400 mil millones de yuanes, lo que tendrá un profundo impacto en el panorama de la industria de la potencia de cálculo de China. (Fuente: 量子位, WeChat)

LMArena.ai responde al artículo de Cohere y obtiene 100 millones de dólares en financiación: El ranking de modelos de IA LMArena.ai respondió a su controversia con la empresa Cohere sobre las pruebas de referencia y recientemente anunció la obtención de 100 millones de dólares en financiación, alcanzando una valoración de 600 millones de dólares. La reacción de la comunidad ha sido mixta; algunos usuarios consideran que la respuesta de LMArena contiene afirmaciones estadísticamente dudosas, y que la gran inversión de capital de riesgo podría dañar su credibilidad como benchmark neutral, temiendo que su modelo de negocio pueda afectar las oportunidades de los modelos abiertos para aparecer en la lista o la accesibilidad de los datos. (Fuente: Reddit r/LocalLLaMA)
JD invierte en la empresa de robots Zhiyuan Robotics de Peng Zhihui (Zhihui Jun): Zhiyuan Robotics completó recientemente una nueva ronda de financiación, con inversores que incluyen a JD y el Shanghai Embodied Intelligence Fund, con la participación de algunos antiguos accionistas. Zhiyuan Robotics fue fundada en 2023 por el ex “joven genio” de Huawei, Peng Zhihui (Zhihui Jun), y se centra en la investigación y desarrollo de robots de inteligencia embodied. Esta financiación impulsará aún más las inversiones de Zhiyuan Robotics en investigación y desarrollo tecnológico y expansión de mercado. (Fuente: WeChat)
🌟 Comunidad
Discusión sobre problemas de integración de OpenWebUI con Ollama y herramientas MCP: Un usuario de Reddit encontró problemas al usar OpenWebUI con un backend de Ollama (modelo devstral:24b) y la herramienta MCP (mcp-atlassian): aunque los registros del servidor MCP mostraban una respuesta exitosa 200, OpenWebUI indicaba “Parece haber un problema al recuperar datos de la herramienta” o “Sin acceso a la herramienta”. El usuario busca métodos de depuración. Otro usuario consultó cómo los LLM en OpenWebUI utilizan las herramientas MCP, específicamente cómo sabe el LLM qué herramienta usar y la causa de la inestabilidad en la llamada a herramientas. (Fuente: Reddit r/OpenWebUI, Reddit r/OpenWebUI)

Explorando el impacto de la IA en el futuro de la humanidad: ¿división, regreso a la naturaleza o coexistencia?: Un usuario de Reddit reflexionó sobre el futuro de la IA, sugiriendo que podría llevar a una división de la humanidad: una parte se sentiría desplazada por la IA que reemplaza trabajos y actividades creativas, regresando finalmente a una vida natural y sin tecnología; otra parte se fusionaría profundamente con la tecnología, convirtiéndose en cyborgs. Una fuerte erupción solar podría destruir toda la tecnología, momento en el cual solo los humanos adaptados a la naturaleza sobrevivirían. La publicación también planteó otra posibilidad: que la humanidad aprenda a coexistir armoniosamente con la IA, usándola como herramienta y no como deidad. La sección de comentarios generó un animado debate sobre la viabilidad, la dependencia tecnológica, la asignación de recursos y otros temas. (Fuente: Reddit r/ArtificialInteligence)
Reflexionando sobre el grado de comprensión de los LLM: ¿Realmente no sabemos cómo funcionan?: Un usuario de Reddit cuestionó la afirmación de que “el funcionamiento de los LLM no se comprende completamente”. El usuario argumentó que, aunque es posible que no comprendamos completamente por qué la semántica distribuida es tan poderosa o por qué la generación de código puede ser modelada eficazmente por los LLM, los mecanismos internos de los LLM, como los codificadores/decodificadores y las redes feed-forward, son conocidos. El usuario considera que confundir “no comprender completamente sus límites de capacidad y fenómenos emergentes” con “no comprender en absoluto sus principios de funcionamiento” induce a error al público y podría fomentar una comprensión erróneamente antropomórfica de los LLM, como atribuirles una “agencia” inexistente. La sección de comentarios señaló que conocer la arquitectura básica no equivale a comprender cómo un sistema complejo produce resultados; por ejemplo, lo que cada red feed-forward hace específicamente sigue siendo un misterio. (Fuente: Reddit r/ArtificialInteligence)

El abuso de herramientas de resumen de IA (como Grok) en redes sociales genera preocupación por la “externalización del pensamiento”: Un usuario de Reddit observó que en redes sociales como X (antes Twitter), es frecuente ver respuestas como “@grok resume esto” a contenido simple (como comentarios sobre un sándwich). El autor de la publicación considera que esto refleja que las personas están abandonando el esfuerzo básico de pensar y juzgar, delegando a la IA procesos de toma de decisiones y reflexión menores que podrían realizar por sí mismas, lo que lleva a una menor dependencia de sus propias capacidades de pensamiento. Las opiniones en la sección de comentarios fueron diversas: algunos lo ven como una simple evolución de las herramientas (similar al uso de Google en el pasado), otros como una manifestación de pereza, y algunos señalaron que este fenómeno es más común en plataformas específicas. (Fuente: Reddit r/ArtificialInteligence)
El potencial y la reflexión sobre la IA en la educación: ¿aprendizaje asistido o debilitamiento de capacidades?: Un usuario de Reddit expresó que si hubiera tenido IA en la escuela secundaria, la experiencia de aprendizaje podría haber sido muy diferente, ya que la IA puede desglosar el conocimiento detalladamente, responder preguntas sin prejuicios y ayudar a mantener la curiosidad. Muchos comentaristas estuvieron de acuerdo, considerando que la IA puede mejorar enormemente la eficiencia del aprendizaje y la amplitud de la exploración del conocimiento. Sin embargo, otros plantearon preocupaciones, sugiriendo que las herramientas de IA actuales podrían estar diseñadas para “mantener a los usuarios ignorantes”, o que la distribución desigual de los recursos educativos podría llevar a que las clases acomodadas obtengan asistencia de IA de calidad, mientras que los estudiantes de escuelas públicas podrían verse perjudicados por herramientas de IA de baja calidad, e incluso ser “entrenados” por la IA para simplemente obedecer. (Fuente: Reddit r/ArtificialInteligence)
Explorando los cambios profesionales en la era de la IA: ¿todos seremos gerentes o surgirá una “brecha de IA”?: Una publicación en Reddit generó un debate sobre las futuras formas de trabajo tras la popularización de la IA. El autor imaginó si en el futuro todos los humanos se convertirían en gerentes de herramientas de IA, trabajando solo unas pocas horas a la semana. Las opiniones en la sección de comentarios fueron variadas: algunos creen que la IA podría reemplazar a los gerentes; otros sugieren que la sociedad futura se dividirá en clases de “poseedores de robots” y “no poseedores de robots”; y algunos piensan que esta transformación ya está ocurriendo y no es algo lejano. El núcleo de la discusión radica en cómo la IA remodelará las responsabilidades laborales y el papel de los humanos en el sistema económico. (Fuente: Reddit r/ArtificialInteligence)
Comunicación asistida por IA: resolviendo el dilema de la redacción de correos electrónicos para personas con ansiedad social: Un usuario de Reddit compartió cómo la IA le ha ayudado a mejorar su comunicación por correo electrónico. El usuario afirmó no ser bueno redactando correos electrónicos apropiados, siendo o demasiado formal como Shakespeare, o como un robot de servicio al cliente anticuado. Ahora, al redactar correos electrónicos con IA y luego añadir su estilo personal, ha resuelto eficazmente los problemas con los saludos iniciales (como “Espero que este correo te encuentre bien”) y otras dificultades sociales. Esta publicación generó la empatía de muchos usuarios con ansiedad social o dificultades de redacción similares, quienes consideran que la IA demuestra un valor práctico en la asistencia a la comunicación diaria. (Fuente: Reddit r/artificial)
💡 Otros
Claude Sonnet 4: Un espécimen de conocimiento esculpido por algoritmos, la perfección también es un defecto: Un artículo filosófico compara a Claude Sonnet 4 con un “espécimen de conocimiento” meticulosamente esculpido por algoritmos. El autor considera que sus respuestas son fluidas y lógicamente completas, aparentemente perfectas, pero esta perfección en sí misma oculta las características “imperfectas” del conocimiento real, como errores, contradicciones y la honestidad de un “no lo sé”. El artículo explora las diferencias entre las fuentes de conocimiento de la IA y la experiencia humana, señalando que la IA posee memoria pero carece de experiencia. Al mismo tiempo, advierte que la dependencia excesiva de la IA podría debilitar la capacidad de pensamiento independiente y considera que la IA elimina la incertidumbre, lo cual es tanto su valor como su peligro potencial. (Fuente: WeChat)

El estado actual y futuro de la publicidad generada por IA: un anuncio de una empresa india genera debate sobre la “sensación de baratura”: Una publicación en Reddit mostró un anuncio de televisión de una conocida empresa india generado completamente por IA, lo que provocó un debate entre los usuarios sobre la calidad del contenido generado por IA y las tendencias futuras. Muchos comentarios consideraron que el anuncio estaba mal producido y era poco efectivo, pero otros señalaron que esto podría reflejar que el mercado publicitario indio ya cuenta con una gran cantidad de producciones de bajo costo. La discusión se extendió al potencial de personalización de la publicidad con IA (como televisores inteligentes que generan anuncios en tiempo real basados en datos del usuario) y si la gente se acostumbrará gradualmente o incluso esperará esta “sensación de baratura”. (Fuente: Reddit r/ChatGPT)

Explorando estrategias de optimización para modelos grandes y pequeños en entornos de bajos recursos: La comunidad de Reddit discute si, en entornos de bajos recursos, es más práctico priorizar el desarrollo de técnicas de optimización para modelos grandes (como PEFT, LoRA, cuantización) o dedicarse a mejorar el rendimiento de modelos pequeños para igualar a los grandes. Los participantes están interesados en la viabilidad de comprimir el conocimiento y la capacidad de “razonamiento” de modelos de miles de millones de parámetros en modelos pequeños de, por ejemplo, 100 millones de parámetros (similar a los modelos destilados de Deepseek Qwen), y en el límite inferior de la cantidad de parámetros para modelos pequeños. Esto refleja la continua atención de la comunidad hacia la democratización y el despliegue eficiente de la IA. (Fuente: Reddit r/deeplearning)