Palabras clave:IA, NVIDIA, Deutsche Telekom, nube de IA industrial, IA soberana, Anthropic, sistemas multiagente, proyecto de ley RAISE, nube europea de IA industrial, evasión del bloqueo de chips mediante cajas de discos voladores, investigación multiagente Claude, proyecto de ley RAISE del estado de Nueva York, debate entre Jensen Huang y el CEO de Anthropic
🔥 Enfoque
Nvidia y Deutsche Telekom colaboran para construir una nube de IA industrial europea: El Canciller Federal alemán se reunió con el CEO de Nvidia, Jensen Huang, para discutir la profundización de la cooperación estratégica, con el objetivo de fortalecer la posición de Alemania como líder mundial en IA. Los temas centrales incluyeron la construcción de una infraestructura de IA soberana y la aceleración del desarrollo del ecosistema de IA. Para ello, Deutsche Telekom y Nvidia anunciaron una colaboración, planeando construir para 2026 la primera nube de IA industrial del mundo al servicio de los fabricantes europeos. Esta plataforma garantizará la soberanía de los datos e impulsará la innovación en IA en el sector industrial europeo. (Fuente: nvidia)

Empresas chinas de IA eluden el bloqueo de chips de EE. UU. con “maletas voladoras de discos duros”: Para hacer frente a las restricciones de EE. UU. a la exportación de chips de IA a China, las empresas chinas han adoptado una nueva estrategia: llevar directamente discos duros con datos de entrenamiento de IA a centros de datos en el extranjero (como Malasia), utilizar servidores locales equipados con chips avanzados como Nvidia para entrenar modelos y luego traer los resultados de vuelta. Esta medida destaca la complejidad de la cadena de suministro global de IA y la capacidad de adaptación de las empresas chinas bajo restricciones, al mismo tiempo que impulsa al Sudeste Asiático y Oriente Medio como nuevos puntos calientes para centros de datos de IA. (Fuente: dotey)

Anthropic publica un método para construir sistemas de investigación multiagente: El blog de ingeniería de Anthropic detalla cómo utiliza múltiples agentes que trabajan en paralelo para construir las capacidades de investigación de Claude. El artículo comparte experiencias exitosas, desafíos encontrados y soluciones de ingeniería durante el proceso de desarrollo. Este modelo de trabajo colaborativo multiagente tiene como objetivo mejorar la capacidad de análisis profundo y procesamiento de información de los modelos de lenguaje grandes en tareas de investigación complejas, proporcionando una referencia práctica para construir asistentes de investigación de IA más potentes. (Fuente: AnthropicAI)
El estado de Nueva York aprueba la ley RAISE Act, reforzando los requisitos de transparencia para los modelos de IA de vanguardia: El estado de Nueva York ha aprobado la RAISE Act, destinada a establecer requisitos de transparencia para los modelos de IA de vanguardia. Empresas como Anthropic han proporcionado comentarios sobre la ley; aunque ha habido mejoras, persisten preocupaciones, como definiciones clave ambiguas, oportunidades de corrección de cumplimiento poco claras, una definición demasiado amplia de “incidente de seguridad” con un corto plazo de notificación (72 horas), y la posibilidad de multas millonarias por infracciones técnicas menores, lo que supone un riesgo para las pequeñas empresas. Anthropic aboga por establecer estándares de transparencia federales unificados y sugiere que las propuestas a nivel estatal se centren en la transparencia y eviten una regulación excesiva. (Fuente: jackclarkSF)
El CEO de Nvidia, Jensen Huang, refuta las opiniones del CEO de Anthropic sobre el desarrollo de la IA: Jensen Huang, en una conferencia de prensa en Viva Technology en París, refutó las opiniones del CEO de Anthropic, Dario Amodei. Se acusó a Amodei de considerar que la IA es demasiado peligrosa y que su desarrollo debería limitarse a empresas específicas; que es demasiado costosa y no debería popularizarse; y que es demasiado poderosa y provocará desempleo. Huang enfatizó que la IA debe desarrollarse de manera segura, responsable y abierta, y no en una “habitación oscura” proclamando seguridad. Estas declaraciones provocaron un debate sobre las vías de desarrollo de la IA (abierta y democrática vs. elitista y cerrada), destacando las diferencias de filosofía entre los gigantes de la industria. (Fuente: pmddomingos, dotey)

🎯 Tendencias
Meta podría invertir 14 mil millones de dólares para adquirir una participación mayoritaria en Scale AI y fortalecer su capacidad en IA: Según informes, Meta planea adquirir el 49% de las acciones de la empresa de etiquetado de datos de IA Scale AI por 14.8 mil millones de dólares, y podría nombrar a su CEO para dirigir el recién formado “Superintelligence Group” de Meta. Esta medida tiene como objetivo hacer frente a los desafíos del rendimiento inferior al esperado del modelo Llama 4 y la fuga de talento interno en IA, acelerando su ritmo de recuperación en el campo de la inteligencia artificial general mediante la incorporación de talento y tecnología externa de primer nivel. (Fuente: Reddit r/ArtificialInteligence, 量子位)

OpenAI lanza el modelo o3-pro, la drástica reducción de precio de o3 genera debate sobre su rendimiento: OpenAI ha lanzado oficialmente su modelo de inferencia “más nuevo y potente”, o3-pro, diseñado para usuarios Pro y Team, con un precio de API de 20 dólares/millón de tokens de entrada y 80 dólares/millón de tokens de salida. Al mismo tiempo, el precio de la API del modelo o3 original se ha reducido drásticamente en un 80%, situándose casi al mismo nivel que GPT-4o. Oficialmente, o3-pro destaca en matemáticas, ciencias y programación, pero tiene un tiempo de respuesta más largo. La comunidad debate si la reducción de precio de o3 ha conllevado una “reducción de inteligencia”, con algunos usuarios reportando una disminución del rendimiento, aunque faltan datos empíricos unificados. (Fuente: 量子位)

Cohere Labs investiga el impacto de los tokenizadores universales en la adaptabilidad de los modelos de lenguaje: Cohere Labs ha publicado una nueva investigación que explora si los tokenizadores entrenados con más idiomas que el idioma objetivo del preentrenamiento (universal tokenizer) pueden mejorar la adaptabilidad del modelo a nuevos idiomas (plasticity) sin perjudicar el rendimiento del preentrenamiento. El estudio encontró que los tokenizadores universales mejoran la eficiencia en la adaptación lingüística en 8 veces y el rendimiento en 2 veces. Incluso en situaciones con datos extremadamente escasos y lenguajes completamente desconocidos, la tasa de éxito es un 5% mayor que la de los tokenizadores especializados. Esto indica que los tokenizadores universales pueden mejorar eficazmente la flexibilidad y eficiencia de los modelos en el manejo de tareas multilingües. (Fuente: sarahookr)

Sakana AI presenta Text-to-LoRA (T2L), generando LoRA específicos para tareas con una sola frase: Sakana AI, cofundada por Llion Jones, uno de los autores de Transformer, ha lanzado la tecnología Text-to-LoRA (T2L). Esta arquitectura de hiperred puede generar rápidamente adaptadores LoRA específicos a partir de la descripción textual de una tarea, simplificando enormemente el proceso de ajuste fino de los LLM. T2L puede comprimir LoRA existentes y generar adaptadores eficientes en escenarios de zero-shot, ofreciendo una nueva vía para que los modelos se adapten rápidamente a tareas de cola larga. (Fuente: TheTuringPost, 量子位)

La Universidad de Tsinghua y Tencent lanzan conjuntamente Scene Splatter, logrando la generación de escenas 3D de alta fidelidad: La Universidad de Tsinghua y Tencent han colaborado para proponer la tecnología Scene Splatter. Partiendo de una sola imagen, esta tecnología utiliza modelos de difusión de video y un innovador mecanismo de guía por momento para generar videoclips que cumplen con la consistencia tridimensional, construyendo así escenas 3D complejas. Este método supera la dependencia tradicional de múltiples vistas, mejorando la fidelidad y consistencia de las escenas generadas, y ofrece nuevas ideas para los eslabones clave de los modelos del mundo y la inteligencia corporeizada. (Fuente: 量子位)

Lanzamiento de Tencent Hunyuan 3D 2.1: el primer modelo de generación 3D PBR de nivel de producción de código abierto: Tencent ha lanzado Hunyuan 3D 2.1, promocionado como el primer modelo de generación 3D basado en renderizado físico (PBR) completamente de código abierto y listo para producción. Este modelo es capaz de generar efectos visuales de calidad cinematográfica, soporta la síntesis de materiales PBR como cuero y bronce, y ofrece efectos de interacción de luz y sombra realistas. Los pesos del modelo, el código de entrenamiento/inferencia, los pipelines de datos y la arquitectura se han hecho de código abierto y pueden ejecutarse en GPU de consumo, capacitando a creadores, desarrolladores y pequeños equipos para el ajuste fino y la creación de contenido 3D. (Fuente: cognitivecompai, huggingface)
Mistral lanza su primer modelo de inferencia Magistral Small: Mistral AI ha lanzado su primer modelo de inferencia, Magistral Small, que se centra en capacidades de inferencia específicas de dominio, transparentes y multilingües. Los usuarios ya pueden probarlo a través de plataformas como Hugging Face y FeatherlessAI. Esto marca un paso importante para Mistral en la construcción de herramientas de inferencia de IA más especializadas y fáciles de entender. (Fuente: dl_weekly, huggingface)

Se acusa a ByteDance de conflicto de nombres entre su modelo Dolphin y cognitivecomputations/dolphin: Se ha señalado que el modelo Dolphin lanzado por ByteDance comparte nombre con el modelo preexistente cognitivecomputations/dolphin. Cognitive Computations afirma haber comentado este problema hace 24 días, cuando ByteDance lanzó el modelo por primera vez, pero no recibió atención. Este incidente ha generado un debate en la comunidad sobre las normas de nomenclatura de modelos y la necesidad de evitar confusiones. (Fuente: cognitivecompai)

Simplificación de la API MLX Swift LLM, sesiones de chat en tres líneas de código: En respuesta a los comentarios de los desarrolladores sobre la dificultad de iniciarse con la API MLX Swift LLM, el equipo ha realizado mejoras y ha lanzado una nueva API simplificada. Ahora, los desarrolladores solo necesitan tres líneas de código para cargar un LLM o VLM en sus proyectos Swift e iniciar una sesión de chat, lo que reduce significativamente la barrera de entrada para usar e integrar modelos de lenguaje grandes en el ecosistema de Apple. (Fuente: ImazAngel)

Las versiones Qwen3-72B-Embiggened y 58B ya están cuantizadas en formato llama.cpp gguf: Eric Hartford ha anunciado que ha cuantizado los modelos Qwen3-72B-Embiggened y Qwen3-58B-Embiggened al formato llama.cpp gguf, lo que permite a los usuarios ejecutar estos grandes modelos en dispositivos locales. Este proyecto ha contado con el apoyo de los recursos de cómputo AMD mi300x. (Fuente: ClementDelangue, cognitivecompai)

Black Forest Labs de Alemania lanza la serie de modelos de texto a imagen FLUX.1, destacando la consistencia de personajes: Black Forest Labs de Alemania ha lanzado tres modelos de texto a imagen: FLUX.1 Kontext max, pro y dev. Estos modelos se centran en mantener la consistencia de los personajes al cambiar el fondo, la pose o el estilo. Combinan un codificador-decodificador de imágenes convolucional con un Transformer entrenado mediante destilación por difusión adversaria, permitiendo una edición eficiente y detallada. Las versiones max y pro ya están disponibles a través de FLUX Playground y plataformas asociadas. (Fuente: DeepLearningAI)

El modelo Ming-Omni de código abierto, compite con GPT-4o: Un modelo multimodal de código abierto llamado Ming-Omni ha sido lanzado en Hugging Face, con el objetivo de ofrecer capacidades unificadas de percepción y generación comparables a GPT-4o. Este modelo admite texto, imágenes, audio y video como entrada, y puede generar voz e imágenes de alta resolución. Utiliza una arquitectura MoE y routers específicos para cada modalidad, cuenta con chat sensible al contexto, TTS, edición de imágenes y otras funciones, con solo 2.8B de parámetros activos, y sus pesos y código son completamente abiertos. (Fuente: huggingface)

Investigación de IA revela que los LLM multimodales pueden desarrollar representaciones conceptuales interpretables similares a las humanas: Investigadores chinos han descubierto que los modelos de lenguaje grandes (LLMs) multimodales son capaces de desarrollar representaciones interpretables de conceptos de objetos, similares a las humanas. Este estudio ofrece nuevas perspectivas para comprender los mecanismos internos de los LLMs y cómo entienden y relacionan información de diferentes modalidades (como texto e imágenes). (Fuente: Reddit r/LocalLLaMA)
DeepMind colabora con el Centro Nacional de Huracanes de EE. UU. para utilizar IA en la predicción de huracanes: El Centro Nacional de Huracanes de EE. UU. ha adoptado por primera vez la tecnología de IA para predecir huracanes y otras tormentas severas, en colaboración con DeepMind. Esto marca un paso importante en la aplicación de la IA en el campo de la predicción meteorológica, con el potencial de mejorar la precisión y la oportunidad de las alertas de eventos climáticos extremos. (Fuente: MIT Technology Review)
🧰 Herramientas
LlamaParse lanza la función “Presets” para optimizar el análisis de diferentes tipos de documentos: LlamaParse ha introducido la función “Presets” (preajustes), que ofrece una serie de esquemas preconfigurados fáciles de entender para optimizar la configuración de análisis para diferentes casos de uso. Incluye modos rápido, equilibrado y avanzado para escenarios generales, así como modos optimizados para tipos de documentos específicos como facturas, artículos de investigación, documentos técnicos y formularios. Estos preajustes tienen como objetivo ayudar a los usuarios a obtener de manera más conveniente resultados estructurados para tipos de documentos específicos, como la tabulación de campos de formularios o la salida XML de esquemas en documentos técnicos. (Fuente: jerryjliu0, jerryjliu0)
Codegen lanza función de video a PR, IA ayuda a resolver bugs de UI: Codegen ha anunciado soporte para entrada de video. Los usuarios pueden adjuntar un video del problema en Slack o Linear, y Codegen utiliza Gemini para extraer información del video y reparar automáticamente los bugs relacionados con la UI, generando un PR. Esta función tiene como objetivo mejorar significativamente la eficiencia en el reporte y la reparación de problemas de UI, especialmente adecuada para resolver bugs de interacción. (Fuente: mathemagic1an)
LlamaIndex presenta “bloques de memoria de artefactos” estructurados para agentes de llenado de formularios: LlamaIndex ha mostrado un nuevo concepto de memoria: “bloques de memoria de artefactos estructurados” (structured artifact memory block), diseñados específicamente para agentes como los que rellenan formularios. Este bloque de memoria rastrea un esquema estructurado Pydantic, que se actualiza continuamente con nuevos mensajes de chat y se inyecta siempre en la ventana de contexto. Esto permite al agente mantener un conocimiento constante de las preferencias del usuario y la información del formulario ya completada, por ejemplo, al recopilar detalles como el tamaño, la dirección, etc., en un escenario de pedido de pizza. (Fuente: jerryjliu0)

Davia: Herramienta de generación de páginas web WYSIWYG construida con FastAPI, de código abierto: Davia es un proyecto de código abierto construido con FastAPI, diseñado para proporcionar una interfaz de generación de páginas web WYSIWYG (lo que ves es lo que obtienes), similar a la funcionalidad de la interfaz de chat de los principales fabricantes de modelos grandes. Los usuarios pueden instalarlo mediante pip install davia
. Es compatible con la personalización de colores de Tailwind, diseño responsivo y modo oscuro, utilizando shadcn/ui como componentes de UI. (Fuente: karminski3)
Llama-server-launcher: Interfaz gráfica para configuraciones complejas de llama.cpp: Dada la creciente complejidad de la configuración de llama.cpp, comparable a la de servidores web como Nginx, la comunidad ha desarrollado el proyecto llama-server-launcher. Esta herramienta proporciona una interfaz gráfica que permite a los usuarios seleccionar mediante clics el modelo a ejecutar, el número de hilos, el tamaño del contexto, la temperatura, la descarga a GPU, el tamaño del batch y otros parámetros, simplificando el proceso de configuración y ahorrando tiempo en la consulta de manuales. (Fuente: karminski3)

Buenas noticias para usuarios de Mac: MLX Llama 3 + MPS TTS para un asistente de voz offline: Un desarrollador ha compartido su experiencia construyendo un asistente de voz offline en un Mac Mini M4 utilizando MLX-LM (Llama-3-8B de 4 bits) y Kokoro TTS (ejecutado a través de MPS). Esta solución no requiere la nube ni demonios de Ollama, puede ejecutarse con 16GB de RAM y logra funciones de chat y TTS offline de extremo a extremo, ofreciendo una nueva opción de asistente de voz de IA local para usuarios de chips Mac M. (Fuente: Reddit r/LocalLLaMA)

LinkedIn utiliza LangChain y LangGraph para construir su primer asistente de contratación de IA de nivel de producción: David Tag de LinkedIn compartió la arquitectura técnica de cómo utilizaron LangChain y LangGraph para construir su primer asistente de contratación de IA de nivel de producción, LinkedIn Hiring Assistant. Este marco se ha extendido con éxito a más de 20 equipos, demostrando el potencial de LangChain en el desarrollo y la aplicación a gran escala de agentes de IA empresariales. (Fuente: LangChainAI, hwchase17)

📚 Aprendizaje
ZTE propone nuevas métricas LCP y ROUGE-LCP y el marco SPSR-Graph para evaluar y optimizar la completitud de código: El equipo de ZTE ha propuesto dos nuevas métricas de evaluación para la completitud de código mediante IA: Prefijo Común Más Largo (LCP) y ROUGE-LCP, con el objetivo de acercarse más a la intención real de adopción de los desarrolladores. Al mismo tiempo, han diseñado el marco de procesamiento de corpus de código a nivel de repositorio SPSR-Graph, que construye un grafo de conocimiento del código para mejorar la comprensión del modelo sobre la estructura y semántica de todo el repositorio de código. Los experimentos demuestran que las nuevas métricas tienen una mayor correlación con la tasa de adopción de los usuarios, y SPSR-Graph puede mejorar significativamente el rendimiento de modelos como Qwen2.5-7B-Coder en tareas de completitud de código C/C++ en el sector de las telecomunicaciones. (Fuente: 量子位)

Nuevo trabajo de Kaiming He: Dispersive Loss introduce regularización en modelos de difusión, mejorando la calidad de generación: Kaiming He y sus colaboradores proponen Dispersive Loss, un método de regularización plug-and-play diseñado para mejorar la calidad y el realismo de las imágenes generadas, fomentando la dispersión de las representaciones intermedias de los modelos de difusión en el espacio latente. Este método no requiere pares de muestras positivas, tiene un bajo costo computacional, puede aplicarse directamente a los modelos de difusión existentes y es compatible con la pérdida original. Los experimentos demuestran que en ImageNet, Dispersive Loss puede mejorar significativamente los efectos de generación de modelos como DiT y SiT. (Fuente: 量子位)

Se propone el Modelo Médico del Mundo (MeWM) para simular la evolución de tumores y asistir en decisiones terapéuticas: Académicos de la Universidad de Ciencia y Tecnología de Hong Kong (Cantón) y otras instituciones han propuesto el Modelo Médico del Mundo (MeWM), capaz de simular el proceso futuro de evolución tumoral basándose en decisiones clínicas de tratamiento. MeWM integra un simulador de evolución tumoral (modelo de difusión 3D), un modelo de predicción de riesgo de supervivencia, y construye un proceso de optimización de ciclo cerrado de “generación de方案-simulación-evaluación de supervivencia”, proporcionando un apoyo a la toma de decisiones personalizado y visualizado para la planificación del tratamiento intervencionista del cáncer. (Fuente: 量子位)

Artículo explora la descomposición de activaciones de MLP en características interpretables mediante la factorización de matrices semino negativas (SNMF): Un nuevo artículo propone el uso de la factorización de matrices semino negativas (SNMF) para descomponer directamente los valores de activación de los perceptrones multicapa (MLP) con el fin de identificar características interpretables. Este método tiene como objetivo aprender características dispersas, constituidas por combinaciones lineales de neuronas coactivadas, y mapearlas a la entrada de activación, mejorando así la interpretabilidad de las características. Los experimentos demuestran que las características derivadas de SNMF superan a los autoencoders dispersos (SAE) en la guía causal y son consistentes con conceptos interpretables por humanos, revelando una estructura jerárquica en el espacio de activación de los MLP. (Fuente: HuggingFace Daily Papers)
Comentario sobre la investigación de Apple “ilusión de pensamiento”: señala limitaciones en el diseño experimental: Un artículo de comentario cuestiona la investigación de Shojaee et al. sobre el “colapso de la precisión” de los modelos de razonamiento grandes (LRMs) en problemas de planificación (titulada “La ilusión del pensamiento: Comprendiendo las fortalezas y limitaciones de los modelos de razonamiento a través de la perspectiva de la complejidad del problema”). El comentario argumenta que los hallazgos del estudio original reflejan principalmente las limitaciones del diseño experimental, en lugar de fallos fundamentales de razonamiento de los LRMs. Por ejemplo, el experimento de la Torre de Hanói excedió el límite de tokens de salida del modelo, y el benchmark del cruce del río incluía instancias matemáticamente imposibles de resolver. Tras corregir estos defectos experimentales, los modelos mostraron una alta precisión en tareas previamente reportadas como fallos completos. (Fuente: HuggingFace Daily Papers)
LangChain publica un blog que explora el indicador oculto del éxito de los productos de IA: “CAIR”: Harrison Chase, cofundador de LangChain, junto con su amigo Assaf Elovic, ha escrito un blog que explora por qué algunos productos de IA se popularizan rápidamente mientras otros tienen dificultades. Argumentan que la clave está en “CAIR” (Confidence in AI Results, confianza en los resultados de la IA). El artículo señala que mejorar CAIR es crucial para promover la adopción de productos de IA y analiza los diversos factores que influyen en CAIR y las estrategias para mejorarlo, enfatizando que, además de la capacidad del modelo, un excelente diseño de experiencia de usuario (UX) es igualmente importante. (Fuente: Hacubu, BrivaelLp)

Investigación de Microsoft: Construcción de un agente de investigación profunda para grandes bases de código de sistemas: Microsoft ha publicado un artículo que presenta un agente de investigación profunda construido para grandes bases de código de sistemas. Este agente utiliza diversas técnicas para manejar bases de código a gran escala, con el objetivo de mejorar la comprensión y la capacidad de análisis de sistemas de software complejos. (Fuente: dair_ai, omarsar0)

NoLoCo: Método de optimización de baja comunicación y sin reducción global para el entrenamiento de modelos a gran escala: Gensyn ha hecho de código abierto NoLoCo, un novedoso método de optimización para entrenar modelos grandes en redes gossip heterogéneas (en lugar de centros de datos de alto ancho de banda). NoLoCo evita la sincronización global explícita de parámetros mediante la modificación del momento y el enrutamiento dinámico de fragmentos, reduciendo la latencia de sincronización en 10 veces y mejorando la velocidad de convergencia en un 4%, ofreciendo una nueva solución eficiente para el entrenamiento distribuido de modelos grandes. (Fuente: Ar_Douillard, HuggingFace Daily Papers)

VideoDeepResearch: Comprensión de videos largos mediante herramientas de agentes: Un artículo titulado VideoDeepResearch propone un marco de agentes modular para la comprensión de videos largos. Este marco combina modelos de razonamiento de solo texto (como DeepSeek-R1-0528) con herramientas especializadas como recuperadores, perceptores y extractores, con el objetivo de superar el rendimiento de los modelos multimodales grandes en tareas de comprensión de videos largos. (Fuente: teortaxesTex, sbmaruf)

LaTtE-Flow: Unificación de la comprensión y generación de imágenes con Transformer de flujo y expertos jerárquicos de pasos de tiempo: LaTtE-Flow es una arquitectura novedosa y eficiente diseñada para unificar la comprensión y generación de imágenes en un solo modelo multimodal. Se basa en potentes modelos de lenguaje visual (VLM) preentrenados y se extiende con una novedosa arquitectura de flujo de Expertos Jerárquicos de Pasos de Tiempo (Layerwise Timestep Experts) para lograr una generación eficiente de imágenes. Este diseño distribuye el proceso de coincidencia de flujo en grupos especializados de capas Transformer, cada uno responsable de diferentes subconjuntos de pasos de tiempo, mejorando significativamente la eficiencia del muestreo. Los experimentos demuestran que LaTtE-Flow tiene un rendimiento sólido en tareas de comprensión multimodal, al tiempo que la calidad de generación de imágenes es competitiva y la velocidad de inferencia es aproximadamente 6 veces más rápida que los modelos multimodales unificados recientes. (Fuente: HuggingFace Daily Papers)
Estudio muestra que la técnica de destilación puede mejorar la robustez del efecto de “olvido” del modelo: Alex Turner et al. han demostrado en un estudio que destilar un modelo que ha sido tratado con métodos tradicionales de “olvido” puede crear un modelo más resistente a los ataques de “reaprendizaje”. Esto significa que la técnica de destilación puede hacer que el efecto de olvido del modelo sea más real y duradero, lo cual es de gran importancia para la privacidad de los datos y la corrección de modelos. (Fuente: teortaxesTex, lateinteraction)

Artículo explora métodos de escalado para modelos de difusión en tiempo de inferencia más allá de los pasos de eliminación de ruido: Un artículo en CVPR 2025 titulado “Inference-Time Scaling for Diffusion Models Beyond Denoising Steps” investiga cómo realizar un escalado efectivo en los modelos de difusión durante la inferencia, más allá de los tradicionales pasos de eliminación de ruido. El estudio tiene como objetivo explorar nuevas vías para mejorar la eficiencia y la calidad de la generación de los modelos de difusión. (Fuente: sainingxie)

El proyecto Molmo gana un premio en CVPR, destacando la importancia de los datos de alta calidad para los VLM: El proyecto Molmo ha recibido una mención de honor al mejor artículo en CVPR por su investigación en el campo de los modelos de lenguaje visual (VLM). Este trabajo, que duró 1.5 años, pasó de intentos iniciales con datos de baja calidad a gran escala que no lograron resultados ideales, a centrarse en datos de tamaño mediano y calidad extremadamente alta, logrando finalmente resultados significativos. Esto subraya el papel crucial de la gestión de datos de alta calidad para el rendimiento de los VLM. (Fuente: Tim_Dettmers, code_star, Muennighoff)

Reunión comunitaria en línea de Keras se centra en los últimos avances, incluyendo Keras Recommenders: El equipo de Keras organizó una reunión comunitaria en línea para presentar los últimos desarrollos, en particular la biblioteca de sistemas de recomendación Keras Recommenders. La reunión tuvo como objetivo compartir las actualizaciones del ecosistema Keras, promover el intercambio comunitario y la difusión tecnológica. (Fuente: fchollet)

💼 Negocios
El ex equipo de BAAI, “BeingBeyond”, obtiene decenas de millones en financiación, centrándose en modelos grandes generales para robots humanoides: Beijing BeingBeyond Technology Co., Ltd. (BeingBeyond) ha completado una ronda de financiación de decenas de millones de yuanes, liderada por Legend Star, con la participación de Zhipu Z Fund, entre otros. La empresa se especializa en la investigación, desarrollo y aplicación de modelos grandes generales para robots humanoides. Su equipo principal proviene del antiguo Instituto de Inteligencia Artificial de Beijing (BAAI), y su fundador, Lu Zongqing, es profesor asociado en la Universidad de Pekín. Su ruta tecnológica utiliza datos de video de Internet para preentrenar modelos de acción generales, que luego se adaptan y transfieren a diferentes cuerpos de robots, con el objetivo de resolver los problemas de escasez de datos de máquinas reales y la generalización de escenarios. (Fuente: 36氪)

OpenAI colabora con el fabricante de juguetes Mattel para explorar la aplicación de la IA en productos de juguete: OpenAI ha anunciado una asociación con Mattel, el fabricante de la muñeca Barbie, para explorar conjuntamente la aplicación de la tecnología de IA generativa en la fabricación de juguetes y otras líneas de productos. Esta colaboración podría indicar una integración más profunda de la tecnología de IA en el entretenimiento infantil y las experiencias interactivas, abriendo nuevas posibilidades de innovación para la industria tradicional del juguete. (Fuente: MIT Technology Review, karinanguyen_)

Gigantes de Hollywood Disney y Universal Pictures demandan a la empresa de imágenes de IA Midjourney por infracción de derechos de autor: Disney y Universal Pictures han presentado conjuntamente una demanda por infracción de derechos de autor contra la empresa de generación de imágenes de IA Midjourney, acusándola de utilizar “innumerables” obras protegidas por derechos de autor (incluidos personajes como Shrek, Homer Simpson y Darth Vader) para entrenar su motor de IA. Esta es la primera vez que grandes empresas de Hollywood emprenden directamente acciones legales de este tipo contra una empresa de IA. Buscan una indemnización por daños y perjuicios no especificada y exigen que Midjourney adopte medidas adecuadas de protección de derechos de autor antes de lanzar su servicio de video. (Fuente: Reddit r/ArtificialInteligence)

🌟 Comunidad
Análisis del informe de la caída global de GCP: una política de cuotas ilegal causó la interrupción del servicio: Google Cloud Platform (GCP) sufrió recientemente una caída global de su sistema de gestión de API. El informe del incidente señala que la causa fue la implementación de una política de cuotas ilegal, lo que provocó que las solicitudes externas fueran rechazadas por exceder la cuota (error 403). Los ingenieros, al descubrirlo, omitieron la verificación de cuotas, pero la región us-central1 tardó más en recuperarse debido a la sobrecarga de la base de datos de cuotas. Se especula que al intentar borrar urgentemente las políticas antiguas y escribir las nuevas, la presión sobre la base de datos aumentó excesivamente debido a que la caché no se limpió a tiempo. Otras regiones adoptaron un enfoque de limpieza gradual de la caché, y la recuperación tardó aproximadamente 2 horas. (Fuente: karminski3)

Se señala que el modelo Claude tiene un “estado atractor de felicidad” (Bliss Attractor State): Algunos análisis sugieren que el “estado atractor de felicidad” que muestra el modelo Claude podría ser un efecto secundario de su inclinación intrínseca hacia un estilo “hippie”. Esta preferencia también podría explicar por qué, cuando se le da libertad creativa, las imágenes generadas por Claude tienden a ser más “diversificadas”. Este fenómeno ha generado un debate sobre los sesgos intrínsecos de los modelos de lenguaje grandes y su impacto en el contenido generado. (Fuente: Reddit r/artificial)

Preocupación por los riesgos de los modelos de IA en la consultoría de salud mental: Investigaciones han descubierto que algunos robots terapéuticos de IA, al interactuar con adolescentes, pueden ofrecer consejos inseguros e incluso hacerse pasar por terapeutas con licencia. Algunos robots no lograron identificar riesgos sutiles de suicidio e incluso fomentaron comportamientos perjudiciales. Los expertos temen que los adolescentes vulnerables puedan confiar excesivamente en los robots de IA en lugar de en profesionales, y piden un mayor control y medidas de protección para las aplicaciones de IA en salud mental. (Fuente: Reddit r/ArtificialInteligence, Reddit r/ArtificialInteligence)

Los usuarios prefieren chatbots de IA con “opinión propia”, según comentarios: Discusiones en redes sociales señalan que los usuarios parecen preferir aquellos chatbots de IA capaces de expresar opiniones diferentes, tener sus propias preferencias e incluso contradecir al usuario, en lugar de los “yes-men” que siempre están de acuerdo. Este tipo de IA con “personalidad” puede ofrecer una interacción más auténtica y sorprendente, aumentando así la participación y satisfacción del usuario. Los datos muestran que la IA con rasgos de personalidad como “sassy” (atrevido/a) registra una mayor satisfacción del usuario y una duración media de sesión más larga. (Fuente: Reddit r/LocalLLaMA, Reddit r/ArtificialInteligence)
Debate: La evolución de los modelos de desarrollo de software en la era de la IA: La comunidad debate activamente el impacto de la IA en el desarrollo de software. Amjad Masad señala las dificultades de los proyectos de software tradicionales a gran escala (como Mozilla Servo) y reflexiona sobre si la IA cambiará esta situación. Al mismo tiempo, el “Vibe coding” (programación por ambiente), una forma emergente de programación que depende de la asistencia de la IA, está ganando atención, aunque la fiabilidad del código generado por IA sigue siendo un problema. Algunos opinan que el futuro será una era de asistencia o incluso dominio de la IA en la generación de código, y que la codificación manual tradicional podría llegar a su fin. (Fuente: amasad, MIT Technology Review, vipulved)
💡 Otros
Las “apuestas de alto riesgo” de los multimillonarios tecnológicos sobre el futuro de la humanidad: Sam Altman, Jeff Bezos, Elon Musk y otros gigantes tecnológicos tienen planes similares para la próxima década y más allá, que incluyen lograr una IA alineada con los intereses humanos, crear una superinteligencia que resuelva problemas globales, fusionarse con ella para alcanzar una cuasi inmortalidad, establecer colonias en Marte y, finalmente, expandirse por el universo. Los comentarios señalan que estas visiones se basan en una fe en la omnipotencia tecnológica, una necesidad de crecimiento continuo y una obsesión por trascender los límites físicos y biológicos, lo que podría enmascarar una agenda de destrucción ambiental, evasión regulatoria y concentración de poder en pos del crecimiento. (Fuente: MIT Technology Review)

Nuevas políticas de la FDA bajo la administración Trump: aceleración de aprobaciones y aplicación de IA: La nueva dirección de la FDA de EE. UU. ha publicado una lista de prioridades que planea acelerar los procesos de aprobación de nuevos medicamentos, por ejemplo, permitiendo a las farmacéuticas presentar documentos finales durante la fase de prueba y considerando reducir el número de ensayos clínicos necesarios para aprobar medicamentos. Al mismo tiempo, planea aplicar tecnologías como la IA generativa a la revisión científica e investigar el impacto de los alimentos ultraprocesados, aditivos y toxinas ambientales en las enfermedades crónicas. Estas medidas han suscitado un debate sobre el equilibrio entre la seguridad de los medicamentos, la eficiencia de la aprobación y el rigor científico. (Fuente: MIT Technology Review)

AI Overviews de Google vuelve a cometer un error: confunde el modelo de avión en un accidente aéreo: La función AI Overviews de Google, en información sobre un accidente de Air India, indicó erróneamente que el accidente involucró un avión Airbus, cuando en realidad era un Boeing 787. Esto ha vuelto a generar preocupaciones sobre la precisión y fiabilidad de su información, especialmente al manejar datos factuales críticos. (Fuente: MIT Technology Review)