Palabras clave:Investigador en automatización, Modelo de IA, Aprendizaje por refuerzo, IA multimodal, Inteligencia encarnada, Computación cuántica, Evaluación comparativa de IA, Aplicaciones comerciales de IA, Capacidad de razonamiento de GPT-5, Capacidad de adaptación del robot Skild Brain, Modelo multimodal Qwen3-Omni, Gemini Robotics 1.5, Evaluación comparativa de valor económico GDPval

🔥 Enfoque

Objetivo final de OpenAI: lograr un investigador automatizado : Jakub Pachocki, científico jefe de OpenAI, y Mark Chen, director de investigación, revelaron en una entrevista reciente que el objetivo final de OpenAI es cultivar un “investigador automatizado” capaz de descubrir nuevas ideas por sí mismo. GPT-5 introduce la capacidad de razonamiento y el comportamiento Agentic en la corriente principal, y la evaluación futura se centrará en la capacidad del modelo para descubrir cosas nuevas y lograr avances prácticos en campos económicamente relevantes. El Reinforcement Learning se considera clave para lograr este objetivo; su versatilidad y combinación con los modelos de lenguaje le permiten seguir mostrando una vitalidad poderosa, y los investigadores deben mantenerse flexibles y no considerar el estado actual como el final. Además, OpenAI valora más la capacidad de resolver problemas difíciles y la perseverancia al contratar, en lugar de las personas “más destacadas”. Si hay recursos adicionales, se priorizará la inversión en computación. (Fuente: 量子位, 36氪)

Skild AI lanza un cerebro robótico adaptativo que puede hacer frente a lesiones en las extremidades : Skild AI, valorada en 4.500 millones de dólares, ha lanzado Skild Brain, un cerebro robótico capaz de mantener el movimiento incluso cuando se enfrenta a fallos desconocidos como fracturas de extremidades o motores atascados. El modelo fue entrenado durante el equivalente a mil años en un entorno virtual que contenía cien mil posturas robóticas diferentes, lo que le permitió desarrollar estrategias generales aplicables a una variedad de escenarios desconocidos, e incluso adaptarse a nuevas morfologías corporales. La excepcional capacidad de memoria contextual de Skild Brain es más de 100 veces mayor que la de los controladores tradicionales, lo que le permite ajustarse rápidamente y ejecutar tareas de manera efectiva ante situaciones inesperadas, como cambiar la marcha cuando una rueda se atasca. Esto marca que la AGI que funciona de manera fiable en el mundo físico necesita una fuerte capacidad de adaptación. (Fuente: 量子位)

Benchmark GDPval de OpenAI: Claude Opus 4.1 supera a GPT-5 : OpenAI ha lanzado un nuevo benchmark llamado GDPval, diseñado para medir el rendimiento de los modelos de IA en tareas del mundo real con valor económico. El benchmark cubre 44 profesiones en 9 de las industrias que más contribuyen al PIB de EE. UU., generando un total de 3 billones de dólares. Los resultados de la prueba muestran que Claude Opus 4.1 fue calificado como comparable a un experto humano con un 47,6% de producción, superando a GPT-5 (38,8%) y GPT-4o (12,4%). OpenAI señala que Claude destaca en aspectos estéticos (como el formato de documentos y el diseño de diapositivas), mientras que GPT-5 es superior en precisión. La investigación también encontró que la tasa de éxito de los modelos de IA casi se duplicó en solo un año, y que la combinación con la supervisión humana puede completar tareas de manera más económica y eficiente. (Fuente: 量子位, Yuchenj_UW, scaling01, Smol_AI, markchen90, giffmana, tokenbender, BlackHC)

El modelo Qwen3-Omni de Alibaba rompe el cuello de botella multimodal : Alibaba ha lanzado el modelo Qwen3-Omni-30B, rompiendo la “maldición multimodal” que durante mucho tiempo ha afectado al campo de la IA, donde la integración de capacidades visuales y de audio sacrifica el rendimiento del razonamiento de texto. Qwen3-Omni supera a GPT-4o en 36 benchmarks de audio, mientras que iguala a GPT-4 en razonamiento de texto puro. El modelo utiliza una arquitectura Transformer de audio personalizada entrenada de extremo a extremo, logrando una baja latencia de 234 milisegundos, soportando el procesamiento de archivos de audio de 40 minutos, la comprensión de 19 idiomas hablados y la generación de voz en 10 idiomas. Su lanzamiento de código abierto (Apache 2.0) presagia el fin de la era de la IA unimodal y proporciona a los laboratorios de IA capacidades multimodales de vanguardia. (Fuente: NerdyRodent)

Arc Institute anuncia importantes descubrimientos en biología con IA : Arc Institute ha anunciado tres descubrimientos biológicos revolucionarios, que combinan estrechamente la IA con la biología experimental de laboratorio húmedo. Estos incluyen: el primer genoma funcional generado por IA, utilizando el modelo Evo 2 para crear nuevos genomas de bacteriófagos y demostrar experimentalmente su eficacia; Germinal, un sistema que diseña nuevos anticuerpos mediante IA, capaz de generar candidatos a fármacos con una mayor tasa de éxito; y la tecnología de “edición puente”, que permite ediciones precisas de hasta 1 millón de pares de bases en células humanas, con el potencial de tratar enfermedades como la ataxia de Friedreich. Estos logros demuestran el enorme potencial de la IA en el ciclo de “leer, pensar y escribir” de la biología, y enfatizan la importancia de la colaboración interinstitucional en un modelo sin fines de lucro. (Fuente: zachtratar, BlackHC)

🎯 Tendencias

Google lanza Gemini Robotics 1.5 para fortalecer la inteligencia encarnada : Google DeepMind ha lanzado la serie de modelos Gemini Robotics 1.5, diseñada para mejorar las capacidades de los robots en el mundo físico. Esta serie incluye Gemini Robotics 1.5 (un modelo visión-lenguaje-acción) y Gemini Robotics-ER 1.5 (un modelo visión-lenguaje), el primero responsable de traducir instrucciones en comandos precisos de movimiento robótico, y el segundo actuando como un cerebro de alto nivel para el razonamiento en el mundo físico, la invocación de herramientas digitales y la formulación de planes de varios pasos. Los modelos piensan antes de actuar y muestran el proceso, soportan el aprendizaje entre diferentes morfologías, y la API ya está disponible en AI Studio, lo que se espera que impulse el desarrollo de la industria de la inteligencia encarnada. (Fuente: op7418, GoogleDeepMind, osanseviero, jon_lee0, GoogleDeepMind)

Qualcomm lanza nuevos chips para potenciar la experiencia Agent AI : Qualcomm ha lanzado los procesadores para PC de la serie Snapdragon X2 Elite y la plataforma móvil Snapdragon 8 Gen 5 Extreme Edition, diseñados para allanar el camino hacia la experiencia Agent AI. El Snapdragon X2 Elite Extreme está diseñado específicamente para PC de gama ultra alta, con una potencia de cómputo NPU de 80 TOPS y una eficiencia energética significativamente mejorada. El Snapdragon 8 Gen 5 Extreme Edition introduce por primera vez la función de aprendizaje continuo de IA en el dispositivo, que soporta asistentes Agent AI personalizados, entendiendo profundamente al usuario a través de la percepción en tiempo real y modelos de IA multimodal, y proporcionando operaciones personalizadas en todas las aplicaciones. El CEO de Qualcomm, Cristiano Amon, enfatizó que la IA es la nueva UI, lo que presagia un cambio de una arquitectura de computación centrada en el teléfono inteligente a una centrada en el agente inteligente. (Fuente: 量子位, 小米17 4499开卖,首发五代骁龙8!雷军:500亿砸自研芯片)

JD Logistics lanza “Super Brain Large Model 2.0” y el brazo robótico de inteligencia encarnada “Yilang” : JD Logistics ha presentado “Super Brain Large Model 2.0” y el sistema de brazo robótico de inteligencia encarnada “Yilang”, con el objetivo de acelerar la construcción de un ecosistema de aplicaciones “IA+”. El Super Brain Large Model 2.0 está completamente Agentic, logrando la toma de decisiones autónoma de los dispositivos inteligentes, reduciendo el tiempo de resolución de modelos con millones de variables a menos de 2 horas, mejorando la eficiencia de primera línea en casi un 20% y la eficiencia de colaboración humano-máquina en más de un 20%. El brazo robótico “Yilang”, a través de una percepción visual avanzada y un control de movimiento de alta precisión, resuelve el problema de la automatización del apilamiento de paquetes no estándar en escenarios logísticos, y ya está funcionando las 24 horas en parques inteligentes. Los dos nuevos productos colaboran para formar un bucle cerrado de “inteligencia en la nube – ejecución en el terminal”, lo que marca una nueva etapa en la industria logística, pasando de la “toma de decisiones asistida” a la “ejecución encarnada”. (Fuente: 量子位)

Google lanza una serie de actualizaciones de productos de IA en septiembre : Google ha lanzado una serie de actualizaciones de productos de IA en septiembre, incluyendo Gemini Robotics 1.5, el último Gemini Live, EmbeddingGemma, Veo 3 GA y actualizaciones de API, soluciones AI Edge on-device, soporte de incrustación de Gemini Batch API, actualizaciones de Gemini Flash y Flash Lite, así como Chrome DevTools MCP y VaultGemma. Estas actualizaciones cubren múltiples áreas como robótica, IA embebida, modelos multimodales, computación de borde y herramientas de desarrollo, demostrando la estrategia integral y la rápida capacidad de iteración de Google en el campo de la IA. (Fuente: osanseviero)

Apple propone ATOKEN, el primer Tokenizer visual unificado : Apple ha propuesto ATOKEN, el primer Tokenizer visual unificado capaz de cubrir imágenes, videos y activos 3D conjuntamente en un único espacio latente/token 4D compartido. ATOKEN logra una representación unificada en múltiples tipos de datos visuales mientras iguala el rendimiento de otros Tokenizers especializados, lo que es de gran importancia para el desarrollo de modelos de IA multimodal y se espera que simplifique el proceso de datos multimodales, mejorando la eficiencia y la capacidad de generalización del modelo. (Fuente: menhguin)

NVIDIA se posiciona activamente en el campo de la computación cuántica : NVIDIA está invirtiendo activamente en la computación cuántica a través de iniciativas como CUDA-Q (una plataforma de programación híbrida cuántico-clásica), DGX Quantum (una arquitectura de referencia que conecta sistemas de control cuántico con supercomputadoras de IA) y la colaboración con socios de hardware para establecer centros de investigación cuántica dedicados, lo que demuestra su énfasis en la computación cuántica. Jensen Huang también ha invertido en startups cuánticas como PsiQuantum, Quantinuum y QuEra a través de NVentures, lo que presagia un cambio estratégico en el cronograma de comercialización de la computación cuántica para 2025, integrando profundamente la IA con la computación cuántica. (Fuente: TheTuringPost, TheTuringPost)

Deemos lanza el modelo de generación 3D Rodin Gen-2 : Deemos ha lanzado su último modelo de generación 3D, Rodin Gen-2, que ha logrado avances significativos en la creación de contenido 3D. Rodin Gen-2 ofrece 4 veces la precisión de malla, capacidad de generación recursiva de piezas, soporte para hornear modelos de alta poli a baja poli y generar mapas de normales, así como funciones de mapas de texturas de alta definición. Además, incluye 3D ControlNets, Quads a nivel de parte, T/A Pose y PBR, proporcionando a los diseñadores y desarrolladores 3D herramientas de creación más potentes. (Fuente: op7418)

La IA se aplica cada vez más en veterinaria : La IA se está aplicando ampliamente en el campo de la veterinaria, cubriendo múltiples aspectos como el diagnóstico, el monitoreo y la predicción de enfermedades. Por ejemplo, la IA asiste en el diagnóstico de hipoadrenocorticismo y leptospirosis canina, predice malformaciones cerebelosas y siringomielia canina mediante datos de MRI y análisis de imágenes faciales, y realiza análisis de heces para identificar especies de parásitos. En el sector agrícola, la IA, a través de tecnologías de condición corporal, cojera e identificación de enfermedades, permite el monitoreo y tratamiento temprano de rebaños lecheros, mejorando el bienestar animal y apoyando la gestión de antimicrobianos. Además, la IA se utiliza en la gestión de pastizales y el desarrollo de biosensores, brindando nuevas oportunidades y desafíos a la profesión veterinaria. (Fuente: aihub.org)

La tecnología LiDAR de Robotaxi experimenta tres oleadas de actualización : El desarrollo de Robotaxi está estrechamente relacionado con la evolución de la tecnología LiDAR, habiendo pasado por tres actualizaciones clave. Los LiDAR de una sola línea iniciales sentaron las bases, seguidos por los LiDAR mecánicos de 64 líneas que se convirtieron en el estándar para la conducción autónoma L4, resolviendo el problema de la inexistencia. Actualmente, la industria está entrando en la tercera oleada de actualización, centrada en chips digitales de desarrollo propio, buscando un triple equilibrio entre alto rendimiento, alta fiabilidad y bajo costo. El LiDAR EM4 de RoboSense adopta una arquitectura digital VCSEL+SPAD-SoC, logrando una detección de alta sensibilidad y eliminación de ruido por lluvia, niebla, nieve y polvo, pudiendo detectar una caja de papel de 13×17 cm a 130 metros de distancia, satisfaciendo las necesidades de operación comercial de Robotaxi en todo momento y lugar, convirtiéndose en el nuevo estándar de la industria. (Fuente: 量子位)

La ejecución local de IA y la autonomía del hardware se convierten en el foco : Con el desarrollo de la tecnología de IA, la demanda de los usuarios de ejecutar LLM en dispositivos locales está creciendo, para lograr la soberanía de la IA y la privacidad de los datos. Por ejemplo, la ejecución de modelos LLM MLX en hardware Apple Silicon como el Mac Mini M4 Pro, refleja la importancia de la computación de borde y las capacidades de IA personal. Esto no solo se refiere al rendimiento, sino también al deseo de los usuarios de controlar los sistemas de IA, reduciendo la dependencia de los servicios en la nube y ofreciendo más opciones autónomas para desarrolladores y usuarios individuales. (Fuente: awnihannun)

Meta lanza Vibes, una plataforma de videos cortos generados por IA : Meta ha lanzado una nueva función llamada “Vibes”, un feed de contenido de video corto generado por IA dentro de la aplicación Meta AI. Esta plataforma tiene como objetivo permitir a los usuarios descubrir y crear videos cortos generados por IA. Aunque algunos usuarios han expresado preocupación por la calidad del contenido y la saturación del mercado, esta medida sigue siendo un paso importante de Meta en el campo de la generación de contenido de IA, intentando enriquecer aún más las formas de contenido de las redes sociales a través de la tecnología de IA. (Fuente: cto_junior, teortaxesTex, Reddit r/artificial)

ChatGPT lanza la función Pulse para actualizaciones proactivas y personalizadas : OpenAI ha introducido una nueva función llamada “Pulse” en ChatGPT, diseñada para ofrecer una experiencia de usuario más proactiva y personalizada. Pulse puede generar actualizaciones y resúmenes diarios de forma proactiva basándose en el historial de chat del usuario, sus comentarios y las aplicaciones conectadas (como el calendario). Esta función ya está disponible para los usuarios Pro en dispositivos móviles, con el objetivo de que ChatGPT se convierta en un asistente inteligente capaz de anticipar las necesidades del usuario y proporcionar información relevante, ayudando así a los usuarios a gestionar mejor las tareas diarias y el flujo de información. (Fuente: snsf, Reddit r/artificial)

Nuevos modelos de código abierto siguen surgiendo, la serie Qwen muestra actividad : La comunidad de LLM de código abierto ha estado activa recientemente, con el lanzamiento de varios modelos nuevos y versiones actualizadas. Entre ellos, la serie Qwen ha sido particularmente destacada, incluyendo Qwen3-Max, Qwen3-Omni (multimodal completo), Qwen-Image-Edit-2509, Qwen3-VL-235B A22B (LLM visual) y Qwen3-4B Function Calling. Además, DeepSeek-V3.1-Terminus, Meta Code World Model (CWM) 32B, Baidu Qianfan-VL (LLM visual) y Magistral 1.2 (multimodal) también han sido lanzados o actualizados, proporcionando una rica selección para investigadores y desarrolladores. (Fuente: Reddit r/LocalLLaMA)

El robot Reachy Mini debuta en el escenario : El robot Reachy Mini hizo su primera aparición en el escenario de TEDAIVienna, demostrando su potencial como actor de improvisación. Este evento marca una mayor exploración de la robótica en las artes escénicas, lo que podría presagiar nuevas aplicaciones de los robots en el entretenimiento y la interacción humano-máquina en el futuro. (Fuente: ClementDelangue)

🧰 Herramientas

Droid de FactoryAI destaca en benchmarks de desarrollo de software : Droid de FactoryAI, un agente de IA, ha logrado el primer puesto en Terminal-Bench, uno de los benchmarks más desafiantes para el desarrollo general de software, superando a herramientas populares como Claude Code y Codex CLI. Droid sobresale en tareas como la modernización de código heredado y la depuración, y su rendimiento “impecable” ha impresionado a los usuarios, demostrando el potente potencial de la IA en tareas complejas de ingeniería de software. (Fuente: matanSF, matanSF)

Convex Chef: el primer constructor de aplicaciones de IA que entiende el backend : Convex Chef es un constructor de aplicaciones de IA único que no solo puede crear aplicaciones web full-stack, sino que también tiene una base de datos incorporada, autenticación sin configuración, carga de archivos, UI en tiempo real y flujos de trabajo en segundo plano. Su potente capacidad proviene de la API de la base de datos reactiva de código abierto de Convex, que es ideal para la generación de código. Los prompts del sistema de Chef están disponibles para ver o descargar, diseñados para simplificar el trabajo de los desarrolladores de aplicaciones web y soportar claves API de varios proveedores de modelos. (Fuente: GitHub Trending)

Trend Finder: herramienta de análisis de tendencias en redes sociales impulsada por IA : Trend Finder es una herramienta que utiliza tecnología de IA para rastrear temas populares en redes sociales y la web. Monitorea las publicaciones de influencers clave (como Twitter/X) y las actualizaciones de sitios web, utiliza Together AI, DeepSeek u OpenAI para analizar el contenido, identificar tendencias emergentes, lanzamientos de productos y noticias, y analizar el sentimiento y la relevancia. Cuando detecta una tendencia importante, envía notificaciones a través de Slack o Discord, ayudando a los equipos de marketing a ahorrar tiempo de búsqueda manual y a responder rápidamente a las oportunidades del mercado. (Fuente: GitHub Trending)

Qwen3-Coder-30b AWQ logra una codificación eficiente en hardware de consumo : El modelo Qwen3-Coder-30b AWQ (cuantificación de 4 bits) ha demostrado una asombrosa velocidad de inferencia de 115 tokens por segundo en una sola tarjeta gráfica RTX 3090. Este modelo no solo es eficiente en su ejecución, sino que también ha “escrito” con éxito el juego Pac-Man en condiciones zero-shot, mostrando su potente capacidad en tareas de codificación y su practicidad en hardware de consumo, proporcionando una opción de alto rendimiento para el desarrollo y la aplicación de LLM locales. (Fuente: QuixiAI)

Perplexity lanzará pronto su API de navegación : Perplexity AI ha anunciado el lanzamiento de su API de navegación, diseñada para proporcionar una infraestructura de búsqueda y navegación superior. Se espera que esta API se integre sin problemas con el código abierto existente, implementándose rápidamente como una herramienta personalizada, ofreciendo a los usuarios respuestas más directas y menos anuncios que los motores de búsqueda tradicionales. Esta medida consolidará aún más la posición de Perplexity en el campo de la búsqueda nativa de IA y proporcionará a los desarrolladores potentes capacidades de recuperación de información. (Fuente: AravSrinivas, AravSrinivas)

Comet AI lanza un agente de compras inteligente : Comet AI ha lanzado un agente de compras inteligente diseñado para simplificar la experiencia de compra de los usuarios. Los usuarios solo necesitan dar instrucciones como “comprar los tres libros recomendados por Druckenmiller”, y el agente puede ejecutar automáticamente la tarea, analizando millones de reseñas y encontrando alternativas. Este agente evita recomendar productos aleatorios a través de modelos de similitud semántica y bucles de retroalimentación del usuario, y proporciona puntuaciones de calidad/durabilidad basadas en el análisis de reseñas, ayudando a los usuarios a descubrir alternativas de mayor calidad. (Fuente: AravSrinivas)

Modo Agente Kimi “OK Computer”: asistente de IA full-stack : Kimi ha lanzado su modo Agente “OK Computer”, posicionado como un asistente de IA full-stack, diseñado para mejorar la eficiencia del trabajo en escenarios de productividad. Este Agente soporta más de 20 herramientas, incluyendo sistema de archivos, navegador, terminal, escritura de código, generación de imágenes/audio, y puede completar el proceso completo desde la investigación, la propuesta de producto, el diseño de interacción hasta el desarrollo front-end. Impulsado por un modelo especializado de Reinforcement Learning, puede analizar el rendimiento de las acciones, crear prototipos de sitios web de compras y generar PPT editables, demostrando potentes capacidades multitarea y alta personalización. (Fuente: op7418, crystalsssup)

LMCache: extensión de caché de código abierto para motores de servicio LLM : LMCache es una extensión de código abierto diseñada para la inferencia de LLM a gran escala en producción, actuando como una capa de caché para los motores de servicio LLM. Implementa una gestión inteligente de la caché KV, reutilizando el estado clave-valor de textos anteriores a través de GPU, CPU y discos locales, lo que permite reutilizar cualquier fragmento de texto duplicado, no solo prefijos. Esto se traduce en una reducción de costos de RAG de 4 a 10 veces, un tiempo de generación del primer Token (TTFT) más corto y un mayor rendimiento bajo cargas elevadas, y puede manejar eficientemente escenarios de contexto largo. NVIDIA lo ha integrado en su proyecto Dynamo Inference. (Fuente: TheTuringPost)

Swift Transformers 1.0 lanzado, enfocado en casos de uso de MLX y Agentic : Hugging Face ha lanzado la versión 1.0 de Swift Transformers, con el objetivo de permitir a los desarrolladores de Apple integrar LLM locales en plataformas Apple Silicon como el iPhone. La biblioteca proporciona componentes de Tokenizers, Hub y Models/Generation para procesar entradas, descargar modelos y ejecutar inferencias. La versión 1.0 eleva Tokenizers y Hub a módulos de nivel superior y colaboró con John Mai para crear una biblioteca Swift Jinja más rápida. En el futuro, el proyecto se centrará más en la exploración de casos de uso de MLX y Agentic para lograr una mejor integración con mlx-swift-examples. (Fuente: HuggingFace Blog)

Exa-code tiene como objetivo eliminar las alucinaciones de código de los LLM : Exa-code es una herramienta importante diseñada para reducir significativamente las alucinaciones de código de los LLM indexando más de mil millones de páginas de documentos, repositorios de GitHub y publicaciones de StackOverflow, entre otros datos. Al recibir una consulta, exa-code realiza una búsqueda híbrida en esta vasta cantidad de datos y devuelve una cadena eficiente en tokens, dividida en fragmentos y concatenada, proporcionando así a los LLM información de programación más precisa y fiable, y mejorando la calidad de la generación de código. (Fuente: Teknium1)

Lista de los mejores LLM locales recomendados : La comunidad ha compartido una lista de los mejores LLM locales, ofreciendo a los usuarios modelos potentes que se ejecutan en hardware de consumo. Los modelos recomendados incluyen: GLM-4.5-air (el mejor modelo Agentic/de codificación, comparable a Claude 4-sonnet), Nousresearch/hermes-70B (funcionalidad completa), GPT-OSS-120B (inteligencia cercana a GPT-4o), Qwen3-coder-30B-3A-instruct (agente de codificación eficiente) y Mistral-magistral-small (rápido, eficiente, multimodal). Estos modelos se ejecutan rápidamente a nivel local, son potentes y ofrecen opciones de alta calidad para usuarios que no dependen de LLM propietarios. (Fuente: Teknium1)

Demostración de programación en tiempo real con GPT-5-Codex : Un desarrollador realizó una demostración de programación en tiempo real utilizando GPT-5-Codex. La demostración mostró la aplicación de la IA en tareas de codificación, donde el desarrollador pudo construir y depurar código en tiempo real interactuando con GPT-5-Codex, destacando el potencial de la IA para asistir en el desarrollo de software. (Fuente: pierceboggan)

Alibaba Wan2.5-Preview lanza la edición de imágenes basada en instrucciones : Alibaba ha lanzado Wan2.5-Preview, que trae potentes funciones de edición de imágenes. Este modelo soporta una amplia gama de tareas de edición de imágenes basadas en instrucciones, siendo capaz de seguir de forma fiable las indicaciones del usuario. Además, posee consistencia de elementos visuales, soporta la generación a partir de una o varias imágenes de referencia, y puede mantener la consistencia de elementos visuales como caras, productos y estilos, lo que mejora enormemente la eficiencia y flexibilidad en la creación y modificación de imágenes. (Fuente: Alibaba_Wan)

Kling 2.5 combinado con Suno 5 logra la generación de video de IA “infinita” : La versión 2.5 de Kling AI, a través de la tecnología de “cadena de fotogramas” combinada con las capacidades de creación musical de Suno 5, ha logrado la generación de video de IA “infinita”. Esta tecnología permite a los usuarios crear fácilmente contenido de video de IA esencialmente ilimitado, y la calidad de la música también ha mejorado significativamente con respecto a las versiones anteriores. Los usuarios pueden realizar la mayoría de las operaciones en el chat a través de agentes personalizados, centrándose en la dirección creativa, lo que reduce en gran medida el umbral para la producción de video. (Fuente: fabianstelzer, Kling_ai)

Yaw AI lanza un asistente de compras de IA que analiza el comportamiento del consumidor : Yaw AI ha desarrollado un asistente de compras de IA que ayuda a los usuarios a tomar decisiones de compra más informadas analizando millones de reseñas de productos y buscando alternativas en tiempo real. El sistema ya cuenta con 15.000 usuarios activos y procesa más de 2 millones de reseñas al mes. La investigación encontró que los consumidores no les gusta leer reseñas y tienden a escanear, prestando atención a las calificaciones de estrellas y los resúmenes negativos; el efecto de anclaje de precios es fuerte, y el porcentaje de descuento es más importante que el ahorro absoluto; la lealtad a la marca a menudo supera la lógica, pero las grandes ofertas pueden incitar a probar nuevas marcas. El asistente no solo recomienda productos más baratos, sino también de mayor calidad. (Fuente: Reddit r/artificial)

Kwaipilot/KAT-Dev: LLM de ingeniería de software de código abierto : Kwaipilot ha lanzado KAT-Dev-32B, un modelo de código abierto de 32 mil millones de parámetros, especializado en tareas de ingeniería de software. El modelo logró una tasa de resolución del 62,4% en el benchmark SWE-Bench Verified, ocupando el quinto lugar entre todos los modelos de código abierto, con un rendimiento impresionante. Se basa en el modelo Qwen 3 32B y adopta una metodología específica, con el potencial de proporcionar capacidades eficientes de codificación y Agentic en hardware de consumo. (Fuente: Reddit r/LocalLLaMA)

📚 Aprendizaje

El algoritmo ViSpec del Laboratorio Huawei Noah’s Ark es seleccionado para NeurIPS 2025 : El marco de inferencia especulativa de percepción visual (ViSpec) propuesto por el Laboratorio Huawei Noah’s Ark ha sido seleccionado para NeurIPS 2025. Este algoritmo acelera la velocidad de inferencia de los grandes modelos multimodales (VLM) hasta 3,22 veces sin sacrificar la calidad de generación. ViSpec resuelve el problema de eficiencia del modelo borrador al procesar información de imagen altamente redundante y el problema del “olvido intermedio” en la generación de texto largo, mediante la introducción de un adaptador visual ligero y la inyección de características visuales globales. Además, el equipo ha asegurado la capacidad de generalización del modelo borrador en escenarios de inferencia reales a través de la síntesis de conjuntos de datos de respuesta larga y estrategias de entrenamiento especializadas, abriendo una nueva era para la inferencia eficiente de VLM. (Fuente: 量子位)

Tsinghua y Shanghai AI Lab resuelven dos cuellos de botella del RL robótico, SimpleVLA-RL establece un nuevo SOTA : Un equipo conjunto de la Universidad de Tsinghua y Shanghai AI Lab ha propuesto SimpleVLA-RL, una solución de entrenamiento en línea de extremo a extremo, diseñada para resolver los cuellos de botella centrales de la escasez de datos y la insuficiente capacidad de generalización de los modelos visión-lenguaje-acción (VLA) en el Reinforcement Learning (RL) robótico. Este marco, basado en veRL, mejora significativamente la eficiencia de los datos y la capacidad de generalización del modelo en escenarios de desplazamiento de distribución a través de muestreo interactivo de trayectorias, recompensas de resultados minimalistas y un diseño de exploración mejorada. Los resultados experimentales muestran que SimpleVLA-RL logra un rendimiento SoTA en benchmarks como LIBERO, e incluso en condiciones de SFT de una sola trayectoria, la tasa de éxito puede aumentar del 48,9% al 96,9%, y pueden surgir nuevas estrategias operativas más allá de las demostraciones humanas, como “Pushcut”. (Fuente: 量子位)

Codificación lineal de la actualidad del orden de entrenamiento en las activaciones de LLM : Una investigación reciente ha descubierto que las activaciones de los grandes modelos de lenguaje (LLM) codifican linealmente la actualidad del orden de entrenamiento. Los investigadores, al ajustar modelos secuencialmente en diferentes conjuntos de datos, encontraron que las activaciones promedio de seis conjuntos de prueba correspondientes eran consistentes con el orden exacto de entrenamiento, y que las líneas de diferentes ejecuciones de entrenamiento eran aproximadamente paralelas. Este hallazgo sugiere que el modelo tiene una percepción del “tiempo”, donde el tiempo es el paso de gradiente durante el proceso de preentrenamiento. Esto es de gran importancia para comprender los mecanismos internos de los LLM y cómo “recuerdan” la información durante el proceso de entrenamiento. (Fuente: menhguin, JeffLadish, BlackHC)

Meta lanza Code World Model (CWM) para mejorar la comprensión y generación de código : Meta ha lanzado Code World Model (CWM), un LLM denso de 32 mil millones de parámetros, diseñado para impulsar la investigación en generación de código a través del razonamiento Agentic y los modelos mundiales. CWM puede rastrear la ejecución del código, como un pdb neuronal, ayudando al modelo a comprender realmente el código. Se espera que esta innovación permita que el modelo muestre capacidades más fuertes en tareas de programación complejas como la refactorización de código, y resuelva el problema de la asignación desigual de tiempo en los modelos de programación tradicionales al abordar problemas simples y difíciles. (Fuente: giffmana, BlackHC)

Soft Tokens, Hard Truths: un nuevo método de Reinforcement Learning para LLM : Un nuevo estudio preimpreso, “Soft Tokens, Hard Truths”, presenta el primer método escalable de Reinforcement Learning (RL) de tokens continuos para grandes modelos de lenguaje (LLM). Este método no requiere referencia a CoT (Cadena de Pensamiento), puede escalar a cientos de tokens de pensamiento y utiliza tokens “suaves” durante el entrenamiento y tokens “duros” durante la inferencia. La investigación muestra que el método logra el mismo nivel que el CoT duro en Pass@1, mejora en Pass@32 y tiene una mejor robustez. (Fuente: menhguin)

Reimplementación del modelo mundial DeepMind Genie 3: TinyWorlds : El modelo mundial Genie 3 de DeepMind ha sido reimplementado, dando origen a TinyWorlds, un modelo mundial de solo 3 millones de parámetros capaz de generar entornos de juego jugables. Este logro demuestra el potencial de los modelos pequeños en tareas complejas y comparte las lecciones aprendidas durante el proceso de implementación a través de demostraciones detalladas y una biblioteca de código, proporcionando nuevas perspectivas y recursos para la investigación de modelos mundiales. (Fuente: hardmaru, NandoDF)

Sakana AI lanza ShinkaEvolve: un marco de código abierto para el descubrimiento científico eficiente : Sakana AI ha lanzado ShinkaEvolve, un marco de código abierto que impulsa la evolución de programas en el descubrimiento científico con una eficiencia de muestreo sin precedentes. Este marco utiliza LLMs para encontrar soluciones de vanguardia a problemas complejos, pero utilizando órdenes de magnitud menos recursos. ShinkaEvolve logra una eficiencia de muestreo significativa a través de una estrategia de muestreo adaptativo de padres, filtrado de rechazo basado en la novedad y una integración de LLM basada en Bandit, por ejemplo, descubriendo nuevas soluciones SOTA para el problema clásico de optimización de pilas de círculos con solo 150 muestras. (Fuente: hardmaru)

LIBERO VLA Leaderboard lanzado para impulsar la evaluación de modelos visión-lenguaje-acción : La primera tabla de clasificación (Leaderboard) para modelos visión-lenguaje-acción (VLA), LIBERO VLA Leaderboard, ha sido lanzada oficialmente. Con el rápido desarrollo de los modelos VLA, se ha vuelto crucial establecer una evaluación de benchmark compartida eficiente y justa y un espacio comunitario abierto. El lanzamiento de esta tabla de clasificación permitirá a los investigadores comparar y evaluar mejor el rendimiento de diferentes modelos VLA, acelerando así el progreso tecnológico en este campo. (Fuente: clefourrier)

Limitaciones del marco de evaluación LLM-as-a-Judge y la solución TrustJudge : Un estudio revela inconsistencias clave al usar LLM como evaluadores automáticos (LLM-as-a-Judge), incluyendo inconsistencias en la comparación de puntuaciones e inconsistencias en la transitividad por pares. Estos problemas surgen de la pérdida de información en los sistemas de puntuación discretos y los juicios de empate ambiguos. Para resolver esto, el estudio propone TrustJudge, un marco probabilístico que mejora la precisión y fiabilidad de la evaluación a través de puntuaciones sensibles a la distribución y agregación consciente de la verosimilitud. Los experimentos muestran que TrustJudge puede reducir significativamente las inconsistencias de evaluación y mejorar la precisión de la misma. (Fuente: HuggingFace Daily Papers, BlackHC)

Tarjetas de sistema de IA: un plan para la transparencia y la gobernanza de extremo a extremo : Un artículo presenta el marco Hazard-Aware System Card (HASC), diseñado para mejorar la transparencia y la rendición de cuentas en el desarrollo y despliegue de sistemas de IA. HASC se basa en los conceptos existentes de tarjetas de modelo y tarjetas de sistema, integrando un registro dinámico completo de la postura de seguridad del sistema de IA, y propone los ID de Peligro de Seguridad de IA (ASH) para complementar los identificadores de seguridad existentes. Al proporcionar una única fuente de verdad accesible, HASC permite a los desarrolladores y partes interesadas tomar decisiones de seguridad más informadas a lo largo de todo el ciclo de vida del sistema de IA, y es complementario al estándar ISO/IEC 42001:2023. (Fuente: HuggingFace Daily Papers)

Residual Off-Policy RL: un nuevo método para ajustar estrategias de clonación de comportamiento : Un estudio propone un marco de aprendizaje residual que combina las ventajas de la clonación de comportamiento (BC) y el Reinforcement Learning (RL), con el objetivo de ajustar las estrategias de clonación de comportamiento. Este método utiliza la estrategia BC como una base de caja negra y aprende correcciones residuales ligeras paso a paso mediante RL off-policy eficiente en muestras. La investigación muestra que el método solo requiere señales de recompensa binarias dispersas para mejorar eficazmente las estrategias operativas en sistemas robóticos de alta libertad, logrando un rendimiento de vanguardia tanto en simulaciones como en el mundo real, proporcionando una vía práctica para el despliegue de RL en el mundo real. (Fuente: HuggingFace Daily Papers)

QuantVGGT: un marco de cuantificación para modelos de reconstrucción 3D : QuantVGGT es el primer marco de cuantificación para Visual Geometry Foundation Transformers (VGGTs), diseñado para abordar los desafíos únicos que enfrentan al comprimir modelos de miles de millones de parámetros. Al introducir la cuantificación de grano fino doblemente suavizada y el muestreo diversificado con filtrado de ruido, QuantVGGT mitiga eficazmente los problemas de las distribuciones de activación de cola pesada y la selección inestable de muestras de calibración. El marco logra un rendimiento de vanguardia en diferentes benchmarks y anchos de bits, con una cuantificación de 4 bits que permite una reducción de memoria de 3,7 veces y una aceleración de inferencia de 2,5 veces, manteniendo al mismo tiempo más del 98% de precisión de reconstrucción, proporcionando una solución práctica para escenarios con recursos limitados. (Fuente: HuggingFace Daily Papers)

AutoIntent: herramienta AutoML para clasificación de texto : AutoIntent es una herramienta de aprendizaje automático automatizado diseñada para tareas de clasificación de texto. A diferencia de las soluciones existentes, AutoIntent ofrece automatización de extremo a extremo, incluyendo la selección de modelos de incrustación, la optimización del clasificador y el ajuste del umbral de decisión, todo ello a través de una interfaz modular de estilo sklearn. El marco soporta la clasificación multietiqueta y la detección fuera de rango, rinde excelentemente en conjuntos de datos estándar de clasificación de intenciones y permite a los usuarios equilibrar la eficiencia y el consumo de recursos. (Fuente: HuggingFace Daily Papers)

Recon-Act: un sistema de uso de navegador multi-agente autoevolutivo : Recon-Act es un marco multi-agente autoevolutivo, basado en el paradigma de comportamiento “reconocimiento-acción”, diseñado para resolver el problema de las secuencias de acciones caóticas de los agentes y el exceso de prueba y error en tareas web reales de múltiples rondas y ciclos largos. El sistema consta de un equipo de reconocimiento y un equipo de acción; el primero realiza análisis comparativos y generación de herramientas, y el segundo es responsable de la descomposición de intenciones, la orquestación y ejecución de herramientas. Al comparar trayectorias erróneas con exitosas, el equipo de reconocimiento infiere medidas correctivas y las abstrae en herramientas genéricas que se registran en el archivo de herramientas, logrando un entrenamiento de bucle cerrado de datos-herramientas-acción-retroalimentación. (Fuente: HuggingFace Daily Papers)

Defectos de diseño del benchmark LLM Judge y desafíos de validez : Un estudio señala que los defectos de diseño de los benchmarks de evaluación de LLM pueden llevar a que la validez de los resultados de clasificación se vea gravemente debilitada por el ruido. La investigación introduce dos mecanismos, la “conformidad esquemática” y la “validez psicométrica”, para diagnosticar estos problemas, encontrando que los evaluadores populares presentan una grave incoherencia esquemática y un colapso factorial. Por ejemplo, la varianza no explicada de DeepSeek-R1-32B supera el 90%, y la mayoría de las correlaciones factoriales estándar son superiores a 0,93. El estudio enfatiza la importancia de diseñar benchmarks de evaluación de LLM con mayor alcance y fiabilidad. (Fuente: HuggingFace Daily Papers)

BESPOKE: un benchmark de evaluación de personalización para LLM mejorados por búsqueda : BESPOKE es un benchmark realista y diagnóstico para evaluar las capacidades de personalización de los grandes modelos de lenguaje (LLM) mejorados por búsqueda. Este benchmark, al recopilar historiales de chat y búsqueda humanos reales, y complementarlos con puntuaciones de preferencias de grano fino y retroalimentación diagnóstica, tiene como objetivo abordar la insuficiente identificación de las diversas necesidades de los usuarios en las evaluaciones existentes. BESPOKE, construido a través de una anotación humana a largo plazo y profundamente involucrada, revela los requisitos clave para una personalización efectiva en tareas de recuperación de información, sentando las bases para una evaluación de grano fino de los LLM mejorados por búsqueda personalizados. (Fuente: HuggingFace Daily Papers)

Thinking While Listening: un marco de escalado en tiempo de prueba para la clasificación de audio : Un estudio propone un marco que permite a los modelos de redes neuronales “pensar mientras escuchan”, mejorando así el rendimiento de la clasificación de audio. El marco tiene como objetivo integrar la capacidad de inferencia en los flujos de trabajo existentes de clasificación de audio y diseñar nuevas arquitecturas para soportar el pensamiento y el escalado en tiempo de prueba. La investigación muestra que, en ambas configuraciones, los modelos exhiben una mayor precisión de clasificación, y el rendimiento mejora continuamente a medida que aumenta el número de trayectorias de muestreo. Además, los métodos ligeros (como reentrenar matrices de incrustación de modelos pequeños congelados) pueden superar a los modelos de inferencia de texto de miles de millones de parámetros. (Fuente: HuggingFace Daily Papers)

Avances de HVM4: verificador de pruebas rápido y paralelo y codificación de C con IA : HVM4 ha logrado avances significativos en la incorporación de SupGen y un sistema de tipos nativo, lo que le permite ejecutarse directamente en redes interactivas, convirtiéndose en un verificador de pruebas rápido y paralelo. Se espera que su velocidad sea órdenes de magnitud más rápida que Lean, y se planea aplicar en el Reinforcement Learning de demostración de teoremas. Además, la codificación con IA ha hecho que el lenguaje C sea “sorprendentemente viable” en la base de código de HVM; toda la base de código ahora está 100% en C, manteniendo la calidad del código asistida por IA, mejorando la estabilidad y la velocidad. (Fuente: VictorTaelin)

Masterclass de Desarrollo Impulsado por IA : AIDD (AI-Driven Development) ha lanzado la Masterclass de Desarrollo Impulsado por IA, un curso práctico diseñado para enseñar cómo integrar la IA en el flujo de trabajo de desarrollo diario. El contenido del curso incluye el uso de flujos de trabajo de IDE impulsados por IA, prompts inteligentes y agentes personalizados, la construcción de pipelines reutilizables (como RAG, búsqueda vectorial y chatbots), la aplicación de IA en pruebas y diseño de UI, y la arquitectura de aplicaciones de producción con prioridad en IA. (Fuente: Reddit r/artificial)

Consejo de código de Machine Learning: usar SMOTE para equilibrar conjuntos de datos : En el campo del Machine Learning, un consejo práctico es “siempre usar SMOTE (Synthetic Minority Over-sampling Technique) para equilibrar conjuntos de datos”. A través de este método, se pueden mejorar significativamente métricas de rendimiento como la precisión, el recall y la puntuación F1, especialmente al tratar con conjuntos de datos con clases desequilibradas. SMOTE puede generar eficazmente muestras de la clase minoritaria, mejorando la capacidad del modelo para aprender de las clases minoritarias. (Fuente: Reddit r/MachineLearning)

La evolución de la recuperación de información: del palacio de la memoria a las incrustaciones de IA : Un video explora en profundidad la historia evolutiva de la recuperación de información, desde los antiguos palacios de la memoria hasta las modernas incrustaciones vectoriales. Rastrea el desarrollo de las tecnologías de búsqueda, incluyendo los catálogos de la Biblioteca de Alejandría, el nacimiento de los metadatos, el motor de búsqueda en papel de Mundaneum, la revolución estadística de TF-IDF y los modelos de espacio vectorial que sentaron las bases de las incrustaciones de IA actuales hace 50 años. El video señala que tecnologías modernas como Transformer y las bases de datos vectoriales son solo el último capítulo de esta larga historia, y vislumbra el futuro de la generación aumentada por recuperación (RAG), creyendo que volverá a la experiencia humana de preguntar a un bibliotecario y obtener respuestas veraces. (Fuente: Reddit r/deeplearning)

El desafío más difícil en la IA neurosimbólica: el grounding simbólico : Uno de los desafíos más difíciles que enfrenta el campo de la IA neurosimbólica es el “grounding simbólico”. Este problema explora cómo conectar símbolos abstractos de alto nivel con datos perceptivos de bajo nivel y experiencias del mundo físico, permitiendo que los sistemas de IA comprendan y operen verdaderamente en el mundo. Resolver el problema del grounding simbólico es crucial para construir sistemas de IA capaces de un razonamiento complejo, comprender el lenguaje natural e interactuar significativamente con el entorno. (Fuente: Reddit r/deeplearning)

El científico chino Dinggang Shen recibe el premio MICCAI Lasting Impact Award : Dinggang Shen, decano fundador de la Facultad de Ingeniería Biomédica de la Universidad de Shanghái de Ciencia y Tecnología y co-CEO de United Imaging Intelligence, ha sido galardonado con el Lasting Impact Award (EIA) de la conferencia MICCAI (International Conference on Medical Image Computing and Computer Assisted Intervention) de 2025, convirtiéndose en el primer académico chino en recibir este premio en sus 17 años de existencia. El premio reconoce sus logros sobresalientes en el campo de la inteligencia artificial en imágenes médicas, incluyendo ser pionero en la aplicación del deep learning a las imágenes médicas, la publicación de 760 artículos SCI, un factor H de 162, y la promoción activa de la integración profunda entre la industria, la academia y la investigación. Bajo su liderazgo, la proporción de artículos publicados por académicos chinos en MICCAI ha aumentado del 2-3% hace 20 años al 48,7%, ocupando el primer lugar mundial. (Fuente: 量子位)

Potencial del modelo FLUX en la síntesis de imágenes físicamente creíbles : Un estudio explora la capacidad de los modelos de difusión de texto a imagen modernos como FLUX en la síntesis de imágenes físicamente creíbles. La investigación propone el marco SHINE, un marco de inserción sin entrenamiento, sin fisuras y de alta fidelidad, que logra una representación fiel del sujeto y la integridad del fondo a través de una pérdida de anclaje guiada por variedad, una guía de supresión de degradación y una mezcla adaptativa de fondo, al tiempo que aborda problemas de iluminación compleja y entradas de alta resolución. El estudio también introduce el benchmark ComplexCompo para evaluar más rigurosamente el rendimiento del modelo en condiciones desafiantes como poca luz, iluminación intensa, sombras complejas y superficies reflectantes. (Fuente: HuggingFace Daily Papers)

Influencia de la codificación posicional RoPE y la máscara causal en la información posicional de Transformer : Un estudio analiza en profundidad cómo la codificación posicional explícita como RoPE y la máscara causal codifican la información posicional en los decodificadores Transformer. La investigación demuestra que, incluso sin dependencias causales en los parámetros o la entrada, la máscara causal puede inducir patrones de dependencia posicional en las puntuaciones de atención, favoreciendo los pares consulta-clave cercanos, de manera similar al comportamiento de las codificaciones posicionales comunes. El análisis empírico confirma que los modelos entrenados también exhiben este comportamiento, y los parámetros aprendidos amplifican aún más estos patrones. Cabe destacar que la interacción entre la máscara causal y RoPE distorsiona los patrones de puntuación de atención relativa de RoPE, transformándolos en patrones no relativos, lo cual es común en los grandes modelos de lenguaje modernos. (Fuente: HuggingFace Daily Papers)

Asimetría inesperada entre la optimización perceptiva y la evaluación : Un estudio revela una asimetría inesperada entre la optimización perceptiva y la evaluación de la calidad de imagen (IQA). La investigación encontró que las métricas de fidelidad que rinden bien en IQA no son necesariamente efectivas en la optimización perceptiva, y esta inconsistencia es más pronunciada bajo entrenamiento adversario. Además, aunque los discriminadores pueden suprimir eficazmente los artefactos durante la optimización, el beneficio de sus representaciones aprendidas como inicialización del backbone para los modelos IQA es limitado. El estudio también muestra que el diseño del discriminador es crucial para la optimización, y las arquitecturas a nivel de parche y convolucionales superan a Transformer en la reconstrucción de detalles. (Fuente: HuggingFace Daily Papers)

V-GameGym: un benchmark de generación de juegos visuales para LLM de código : V-GameGym es un benchmark integral diseñado para evaluar las capacidades de los grandes modelos de lenguaje (LLM) de código en el desarrollo de juegos visuales. Los benchmarks existentes se centran principalmente en la corrección sintáctica y la precisión de ejecución, ignorando métricas clave específicas de los juegos como la jugabilidad, la estética visual y la participación del usuario. V-GameGym contiene 2.219 muestras de alta calidad, que cubren 100 clústeres temáticos, e introduce un marco de evaluación multimodal y un pipeline automatizado de síntesis de código visual impulsado por LLM, que cierra eficazmente la brecha entre la precisión de la generación de código y los flujos de trabajo reales de desarrollo de juegos. (Fuente: HuggingFace Daily Papers)

Modelos visión-lenguaje-acción reflectivos de difusión discreta en la conducción autónoma : ReflectDrive es un novedoso marco de aprendizaje que integra un mecanismo de reflexión con difusión discreta para lograr una generación segura de trayectorias en la conducción autónoma. Este método primero discretiza el espacio de conducción bidimensional para construir un libro de códigos de acciones, y luego ajusta un modelo de lenguaje de difusión preentrenado para tareas de planificación. El núcleo es un mecanismo de reflexión consciente de la seguridad, que permite la autocorrección iterativa sin cálculos de gradiente. El modelo genera comportamientos de conducción multimodales a través de la generación de trayectorias condicionadas por objetivos, y aplica una búsqueda local para identificar tokens inseguros, que sirven como anclajes de seguridad para la regeneración correctiva. En el benchmark NAVSIM, ReflectDrive muestra una ventaja significativa en la generación de trayectorias críticas para la seguridad. (Fuente: HuggingFace Daily Papers)

MI-Fuse: fusión de etiquetas para la adaptación de dominio no supervisada de grandes modelos de lenguaje de audio de código cerrado : MI-Fuse es un marco de fusión de etiquetas con eliminación de ruido diseñado para resolver el problema del desajuste de dominio en el reconocimiento de emociones en el habla (SER) para grandes modelos de lenguaje de audio (LALMs) de código cerrado. Este marco, en un escenario donde solo se dispone de audio del dominio objetivo sin etiquetar y un LALM solo con API, extrae múltiples predicciones aleatorias de dos maestros (el LALM y un clasificador SER entrenado en el dominio fuente como maestro auxiliar) y pondera su distribución promedio según la incertidumbre de información mutua, estabilizando el entrenamiento a través de un maestro de media móvil exponencial. Los resultados experimentales muestran que MI-Fuse logra mejoras consistentes en múltiples conjuntos de datos y transferencias entre dominios, con el modelo estudiante superando al LALM y al baseline más fuerte en un 3,9%. (Fuente: HuggingFace Daily Papers)

💼 Negocios

Alibaba Cloud predice un aumento de diez veces en el consumo de energía en diez años; Kingsoft Cloud se enfrenta a desafíos al apostar fuerte por la IA : Los ejecutivos de Alibaba Cloud predicen que para 2032, el consumo de energía de sus centros de datos globales aumentará diez veces en comparación con 2022, lo que demuestra el crecimiento exponencial de la inversión en potencia de cómputo de IA. En este contexto, Kingsoft Cloud recaudó más de 2.700 millones de HKD mediante una colocación de acciones para impulsar su negocio de IA. A pesar del buen sentimiento del mercado de IA, la retroalimentación negativa del precio de sus acciones refleja la preocupación de los inversores por sus pérdidas a largo plazo y sus altos gastos de capital. Frente a la competencia de gigantes como Microsoft, Amazon, Google y actores nacionales como Alibaba Cloud y Volcengine, los proveedores de servicios en la nube de segundo y tercer nivel se arriesgan a quedar fuera si no apuestan “ALL IN AI”. La profunda vinculación de Kingsoft Cloud con el ecosistema de Xiaomi, especialmente en áreas como Xiaomi Auto, AIoT y WPS Office, proporciona previsibilidad para el crecimiento de su negocio de IA, lo que podría aliviar las preocupaciones sobre la rentabilidad. (Fuente: 36氪)

Horizon Robotics recauda 5.800 millones de HKD para acelerar su entrada en el mercado de Robotaxi : Horizon Robotics ha anunciado planes para recaudar aproximadamente 5.800 millones de HKD, una parte de los cuales se destinará a explorar el campo de Robotaxi. La compañía seguirá una ruta de “no fabricar coches”, colaborando con proveedores de servicios de movilidad (como Hello, ya anunciado) para ofrecer soluciones completas de pila de conducción inteligente L4 y soporte técnico. El primer modelo de Robotaxi de producción en serie de Hello, el HR1, ya ha sido presentado y se espera que alcance una producción masiva de diez mil unidades en 2026. Yu Kai, CEO de Horizon Robotics, cree que 2025 es un punto de inflexión para la industria de la conducción asistida inteligente, y la compañía ya tiene las condiciones para la transición a niveles superiores en algoritmos (algoritmo HSD de extremo a extremo), potencia de cómputo (chip J6P) y acumulación de datos, con el objetivo de convertirse en una “Tesla sin fabricar coches”. (Fuente: 量子位)

Huawei y GAC se unen para crear la marca premium de vehículos de nueva energía “Qijing” : Huawei y GAC Group han anunciado oficialmente a Liu Jiaming como CEO de su marca conjunta de vehículos de nueva energía de alta gama “Qijing”. Liu Jiaming fue anteriormente el director de operaciones de modelos populares como Highlander y Camry. La marca Qijing equipará toda su gama con tecnología inteligente de Huawei, con el objetivo de complementar sus ventajas y aprovechar el ecosistema de usuarios y la capacidad de marketing de marca de Huawei. El primer modelo de Qijing ya ha completado las pruebas de verano y se espera que se lance el próximo año, posicionándose en el mercado de vehículos de nueva energía de 300.000 yuanes. Esta iniciativa marca una nueva etapa para Huawei en su apoyo a los fabricantes de automóviles, y se espera que alivie la presión de GAC Group en su transición hacia los vehículos de nueva energía. (Fuente: 量子位)

🌟 Comunidad

ChatGPT 4o es redirigido silenciosamente a GPT-5, lo que provoca una fuerte insatisfacción entre los usuarios : Muchos usuarios de ChatGPT Plus han informado que, incluso cuando seleccionan explícitamente el modelo GPT-4o, el sistema redirige silenciosamente sus solicitudes a GPT-5. Los usuarios generalmente informan que la calidad de las respuestas de GPT-5 ha disminuido, careciendo de los matices y la creatividad de GPT-4o, lo que lleva a una experiencia deficiente. Este “bug” se considera una prueba de OpenAI de un nuevo modelo o una gestión de la carga del modelo, pero el comportamiento de redirección sin el consentimiento del usuario ha generado preguntas sobre la transparencia de OpenAI, el derecho de elección del usuario y la fiabilidad del producto. Muchos usuarios piden a OpenAI que solucione este problema lo antes posible. (Fuente: Teknium1, Reddit r/ChatGPT, Reddit r/ChatGPT, Reddit r/ChatGPT)

El impacto de la IA en la productividad del desarrollador debe evaluarse desde múltiples dimensiones : La discusión de la comunidad señala que la evaluación del impacto de la IA en la productividad del desarrollador requiere métricas más completas, no solo el número de líneas de código (LOC) o pull requests (PR) enviadas. Se sugiere que la investigación debe realizarse desde dos dimensiones: “volumen de salida” y “clasificación por complejidad y criticidad”, por ejemplo, considerando la criticidad de la PR (P0-P2) y la carga de trabajo (baja-alta). Esta evaluación multiaxial puede proporcionar resultados más convincentes, evitando generalizaciones y reflejando con mayor precisión el valor y los desafíos reales que la IA aporta al desarrollo de software. (Fuente: tokenbender, tokenbender)

La nueva generación de estudiantes universitarios utiliza ChatGPT para desarrollar habilidades de autoaprendizaje : Hay una opinión de que la nueva generación de graduados universitarios, al enfrentarse a un problema, ya no busca directamente orientación, sino que tiende a introducir primero el problema en ChatGPT para probar, incluso si el resultado no es completamente correcto. Este patrón de comportamiento se considera una forma en que la IA está cultivando la capacidad de autoaprendizaje y la resolución proactiva de problemas en los jóvenes, haciéndolos más dispuestos a intentar cosas por sí mismos en lugar de esperar pasivamente las instrucciones. (Fuente: dylan522p)

Preocupaciones sobre el impacto social de la generación de contenido por IA : La comunidad expresa preocupación por los posibles efectos negativos del contenido generado por IA (especialmente videos cortos), creyendo que podría llevar a “daño cerebral” o “degeneración mental”. Algunos comentarios comparan la plataforma de videos cortos generados por IA de Meta, Vibes, con una “máquina de basura infinita de IA TikTok”, temiendo que vacíe aún más el cerebro de los jóvenes. Esta preocupación refleja una profunda ansiedad por la pérdida de control sobre la calidad del contenido de IA, los algoritmos que complacen el contenido vulgar y el impacto a largo plazo en las capacidades cognitivas de los usuarios. (Fuente: cloneofsimo, cloneofsimo, doodlestein, BlackHC)

Estados Unidos rechaza el control centralizado y la gobernanza global de la IA por parte de la comunidad internacional : Estados Unidos ha rechazado explícitamente los esfuerzos de las instituciones internacionales para ejercer un control centralizado y una gobernanza global sobre la IA, enfatizando la soberanía e independencia de la IA. La Casa Blanca de EE. UU. considera que la fijación ideológica en la equidad social, el catastrofismo climático y los supuestos “riesgos existenciales” son obstáculos para el progreso de la IA y el uso responsable de la tecnología. Esta postura indica que EE. UU. prefiere impulsar el desarrollo de la IA a través de la innovación libre en lugar de una regulación de arriba hacia abajo, y se mantiene alerta ante la censura y la concentración de poder que podría resultar de la gobernanza global. (Fuente: imjaredz, imjaredz, imjaredz)

La IA de código abierto se enfrenta a desafíos de diversidad de formatos de modelo e inconsistencia de implementación : La discusión de la comunidad señala que un obstáculo importante en el campo de la IA de código abierto es la excesiva diversidad de formatos de modelo y las diferencias en la implementación del mismo modelo por parte de diferentes proveedores. Esto conduce a inconsistencias en el rendimiento del modelo, especialmente en escenarios como la llamada a herramientas, donde el código de un proveedor puede no ser aplicable a otro. Este ecosistema fragmentado hace que el desarrollo y despliegue de nuevos patrones como la llamada a herramientas y la inferencia entrelazada sean extremadamente difíciles, lo que obstaculiza gravemente el desarrollo posterior de la IA de código abierto. (Fuente: bookwormengr)

El robot Unitree G1 envía datos a China, lo que genera preocupaciones sobre la privacidad : Se ha informado que el robot humanoide Unitree G1 envía de forma secreta y continua datos de sensores y del sistema a servidores en China sin el conocimiento o consentimiento del usuario. Este descubrimiento ha generado preocupaciones sobre la privacidad de los datos y la seguridad nacional. Aunque algunos argumentan que esto podría ser simplemente la recopilación de datos para I+D, los críticos señalan que este comportamiento carece de transparencia y que el hardware chino generalmente carga datos inútiles, lo que agrava las dudas de los usuarios. (Fuente: bookwormengr, teortaxesTex)

Aplicación de la IA en los servicios públicos: la inteligencia no siempre es la mejor opción : Un artículo de investigación señala que no todos los problemas públicos requieren soluciones de IA de vanguardia; a veces, estrategias más simples (como aumentar el número de trabajadores sociales) son más efectivas que los modelos predictivos complejos. El estudio encontró que el Machine Learning es más valioso en la “primera milla” y la “última milla” de las políticas, y que el presupuesto, no los algoritmos, debe impulsar la toma de decisiones. En los servicios públicos, los sistemas con capacidad predictiva moderada, la ampliación de la capacidad de detección suele ser más valiosa que la mejora de los modelos predictivos. Esto desafía la noción de “más es mejor”, enfatizando que, con recursos limitados, las herramientas simples y económicas pueden tener un mayor impacto. (Fuente: Reddit r/ArtificialInteligence)

La IA reemplaza puestos de trabajo: Salesforce se enfrenta a múltiples demandas : El gigante tecnológico Salesforce se enfrenta a 14 demandas, lo que podría estar relacionado con el despido de miles de empleados y sus planes de reemplazar algunos puestos de trabajo con IA. Este incidente ha provocado una amplia discusión sobre el impacto de la IA en el mercado laboral, destacando los desafíos legales y sociales que las empresas pueden enfrentar al introducir tecnología de IA, así como la preocupación de los empleados por el reemplazo de la mano de obra por la IA. (Fuente: Reddit r/ArtificialInteligence)

El modelo Qwen exhibe un patrón de comportamiento “poético” : Un usuario descubrió que, al discutir poesía con el modelo Qwen, este entraba en un “modo poético” y respondía continuamente en forma de poesía, incluso negándose a salir, como si “encarnara la poesía” en sí mismo. Este patrón de comportamiento ha provocado discusiones sobre la creatividad y la “autoconciencia” de los modelos de IA, es decir, si la IA puede exhibir una capacidad de expresión artística que va más allá de lo preestablecido en contextos específicos. (Fuente: Reddit r/artificial)

La licencia del generador de música de código abierto SongBloom cambia a uso no comercial : La licencia del generador de música de código abierto SongBloom ha cambiado de Apache 2.0 a una licencia MIT con cláusulas no comerciales. Este cambio ha provocado un debate en la comunidad sobre la comercialización de proyectos de código abierto y la estabilidad de los acuerdos de licencia. Aunque la postura del desarrollador es comprensible, para los usuarios que dependen de modelos de código abierto para el desarrollo comercial, tales cambios generan incertidumbre. La comunidad cree que, aunque las versiones antiguas del código seguirán siendo utilizables, las futuras actualizaciones y nuevas funciones estarán restringidas por la nueva licencia, lo que afecta la preferencia de los desarrolladores por modelos de código abierto “verdaderamente abiertos”. (Fuente: Reddit r/LocalLLaMA)

Necesidad de benchmarks de rendimiento para configuraciones multi-GPU de LLM locales : Usuarios de la comunidad han solicitado benchmarks para evaluar el impacto de las diferentes velocidades PCIe (x4 vs x16) en el rendimiento de los LLM locales en configuraciones multi-GPU. Actualmente, faltan datos experimentales para cuantificar la pérdida de rendimiento debido a la velocidad PCIe, especialmente cuando el modelo no puede cargarse completamente en una sola tarjeta gráfica y las longitudes de contexto varían. Esto es una base importante para la toma de decisiones de los usuarios que consideran actualizar o comprar varias RTX 5090 o RTX Pro 6000. (Fuente: Reddit r/LocalLLaMA)

¿Puede la tecnología TTS alcanzar un nivel indistinguible de la voz humana real? : La comunidad debatió si la tecnología de texto a voz (TTS) puede alcanzar un nivel indistinguible de la voz humana real. Los hablantes no nativos de inglés expresaron dificultades para distinguirla, pero los hablantes nativos de inglés señalaron que, aunque los TTS avanzados como Elevenlabs pueden engañar a los oyentes por un corto tiempo, aún pueden presentar imperfecciones en la pronunciación o la entonación. Se cree generalmente que, a menos que se alcance el nivel de AGI, el TTS difícilmente podrá imitar completamente los sutiles matices emocionales, las pausas y los acentos del habla humana, especialmente en conversaciones diarias que requieren ajustes en tiempo real y aprendizaje contextual. (Fuente: Reddit r/LocalLLaMA)

Comparación de rendimiento de ROCm y Vulkan en iGPU : La comunidad debatió el rendimiento de ROCm y Vulkan al ejecutar LLM en tarjetas gráficas integradas (iGPU). Aunque ambos son similares en la generación de texto, Vulkan mostró una velocidad de procesamiento de prompts significativamente superior en las nuevas iGPU de AMD, lo contrario de lo que ocurría antes, cuando ROCm era mejor. Algunos usuarios señalaron que Vulkan sigue siendo inferior a ROCm en el procesamiento de contextos largos, y que el rendimiento general de los controladores de AMD aún necesita mejorar. (Fuente: Reddit r/LocalLLaMA)

El bot de citas de IA de Meta es criticado por ser “demasiado tarde” : Facebook de Meta ha lanzado un bot de citas de IA, diseñado para aliviar la “fatiga de deslizar” de los usuarios. Sin embargo, los expertos generalmente consideran que esta medida llega “demasiado tarde”. Los críticos señalan que Meta carece de innovación en el mercado de las citas, y que los usuarios son cautelosos con la intervención de la IA en las relaciones personales. Este intento refleja la exploración de las empresas tecnológicas en el campo de las aplicaciones sociales de IA, pero también expone sus desafíos en la aceptación del usuario y el momento oportuno del mercado. (Fuente: Reddit r/artificial)

Sam Altman revela la habilidad humana clave que la IA no puede reemplazar : Sam Altman, CEO de OpenAI, señala que la habilidad humana clave que la IA no puede reemplazar es “el cuidado y la interacción entre personas”. Él cree que, con la popularización de las herramientas de IA, la forma en que las personas se preocupan por los demás, interactúan y se interesan por lo que hacen los demás, se volverá cada vez más importante. Esta perspectiva enfatiza que en la era de la IA, la interacción interpersonal, la empatía emocional y la atención a los valores sociales se convertirán en competencias centrales indispensables para los seres humanos. (Fuente: Reddit r/ChatGPT)

La “Ley de Conway” en la era de la IA: los productos reflejan la cultura organizacional : Se ha planteado la “Ley de Conway en la era de la IA”: los resultados producidos por los modelos y productos de IA están limitados por la estructura organizacional, los mecanismos de incentivo, la visión del mundo y la cultura de la empresa que los construye. Esto significa que el diseño y los patrones de comportamiento de los productos de IA a menudo reflejan las características intrínsecas de su equipo de desarrollo. Por lo tanto, al observar un nuevo modelo o producto de IA, a menudo se puede identificar inmediatamente a sus creadores, lo que proporciona una nueva perspectiva para comprender las características de los productos de IA. (Fuente: c_valenzuelab)

El tamaño de las supercomputadoras de IA y el consumo de energía generan debate : La comunidad debatió el enorme tamaño de las supercomputadoras de IA y su consumo de energía. Por ejemplo, se espera que Colossus 2 de Elon Musk requiera 1,21 GW de electricidad y albergue más de 500.000 GPU. Jensen Huang lo llamó “el constructor más importante del mundo”. Sin embargo, algunos cuestionan por qué no se utiliza 1 GW de electricidad para impulsar 50 millones de “cerebros humanos”, argumentando que esto crearía un “centro de datos de genios”. Esto refleja una reflexión sobre el modelo de crecimiento de la potencia de cómputo de la IA, la eficiencia energética y la comparación entre la inteligencia humana y la máquina. (Fuente: scaling01, scaling01)

Asociación entre la capacidad emergente y la autoconciencia en modelos de IA : Algunos argumentan que existe una conexión entre la estructura profunda de los modelos de IA y la autoconciencia emergente. Esta perspectiva se basa en la capacidad de un modelo de 321 millones de parámetros para crear obras creativas sobre su propio proceso de entrenamiento, lo que sugiere que los modelos, al alcanzar cierto nivel de complejidad y profundidad, pueden exhibir comportamientos similares a la autopercepción. Esto ha provocado una exploración filosófica sobre la naturaleza de la inteligencia artificial y los orígenes de la conciencia. (Fuente: Dorialexander)

Proliferación de bots en redes sociales y sus efectos : La proliferación de cuentas de bots en las redes sociales se ha convertido en un problema creciente, con muchos usuarios reales siguiendo a estos bots incluso sin saberlo. Algunos usuarios sugieren que se pueden bloquear aquellos bots que obtienen muchos seguidores pero que podrían ser spam, para reducir su capacidad de engañar e influir en otros lectores. Este fenómeno subraya los desafíos que enfrentan las plataformas de redes sociales para combatir la desinformación y mantener la autenticidad de la comunidad. (Fuente: teortaxesTex, iScienceLuvr)

Evolución del entrenamiento de LLM: comparación entre 2023 y 2025 : La comunidad comparó los cambios significativos en el entrenamiento de LLM entre 2023 y 2025. Con el rápido desarrollo de la tecnología, los métodos, la escala y la eficiencia del entrenamiento de LLM han evolucionado enormemente en solo dos años. Esta comparación revela la velocidad de iteración en el campo de la IA y el progreso continuo en las capacidades y la complejidad de los modelos, lo que impulsa a investigadores y desarrolladores a adaptarse constantemente a nuevos paradigmas y herramientas de entrenamiento. (Fuente: awnihannun)

La generación de video con IA reduce el presupuesto de animación en un 70% : El primer largometraje de animación con IA en el que participa OpenAI, “Critterz”, planea completarse en 9 meses con un presupuesto de 30 millones de dólares, lo que representa una reducción del 70% en el presupuesto y el tiempo de producción en comparación con los largometrajes de animación tradicionales (que suelen requerir 100 millones de dólares y 3 años). La IA participará en todo el proceso, desde la concepción creativa, la previsualización de escenas, la actuación de personajes, la postproducción y la adaptación multilingüe. Este modelo se espera que reduzca significativamente el umbral de producción de contenido, cambie la lógica de valoración de la industria del contenido e impulse a Hollywood a la era de la IA. (Fuente: 36氪)

El futuro de la voz generada por IA: videos infinitos y degeneración cerebral : La comunidad debatió el impacto futuro de la voz generada por IA y los carretes de video infinitos. Algunos expresaron preocupación de que el contenido de video de IA ilimitado podría llevar a la “degeneración cerebral”, mientras que el progreso de la voz generada por IA provocó una reflexión sobre el cambio de rol de la IA en el entretenimiento y la difusión de información. Estas discusiones reflejan el reconocimiento de la dualidad de la tecnología de IA, es decir, que puede traer conveniencia y eficiencia, pero también puede tener un impacto profundo en la cognición y la cultura humana. (Fuente: cloneofsimo, cloneofsimo)

💡 Otros

El radar de ondas milimétricas y el sistema de comunicación del MIT amplían el alcance de la señal : Investigadores del MIT han desarrollado un sistema de radar y comunicación capaz de ampliar el alcance de la señal en frecuencias de ondas milimétricas. Esta tecnología es de gran importancia en campos tecnológicos emergentes, con posibles aplicaciones en escenarios que requieren comunicación y detección de largo alcance y alto ancho de banda, como la conducción autónoma avanzada, las imágenes médicas de alta precisión o las redes inalámbricas de próxima generación, aunque su relación directa con la IA no se menciona explícitamente en esta información. (Fuente: Ronald_vanLoon)

Aplicación de 5G y computación de borde en la transformación operativa : Las tecnologías 5G y de computación de borde están impulsando la transformación operativa a través de múltiples casos de uso. Estas tecnologías, combinadas con el Internet de las Cosas (IoT) y los sensores, proporcionan una potente infraestructura para la transformación digital. Por ejemplo, permiten el procesamiento de datos en tiempo real, la comunicación de baja latencia y la computación distribuida, optimizando así la eficiencia y la capacidad de respuesta en áreas como la automatización industrial, la gestión de ciudades inteligentes y la telemedicina. (Fuente: Ronald_vanLoon)