Palabras clave:Transformer de difusión de átomos completos, Modelo de recompensa de proceso autosupervisado, Generación de video autoregresivo, Dinámica basada en posición, Conferencia académica de autores de IA, Técnica de olvido de IA, Renderizado neuronal, Generación 3D, Marco ADiT, MetaStone-S1 SPRM, Lumos-1 MM-RoPE, Simulación de tela AVBD de Roblox, Difusión con percepción parcial CoPart

🔥 Enfoques

Meta/Cambridge/MIT introduce el marco Transformer de difusión de todos los átomos: Un equipo de investigación conjunto de Meta FAIR, la Universidad de Cambridge y el MIT ha propuesto ADiT (All-atom Diffusion Transformer), que rompe la barrera de modelado entre sistemas periódicos y no periódicos. A través de dos innovaciones principales, la representación latente unificada de todos los átomos y la difusión latente de Transformer, ADiT logra un avance en la generación de moléculas y cristales utilizando un único modelo. La ventaja clave de ADiT radica en romper la barrera de modelado entre sistemas periódicos y no periódicos, lo que permite la generación de moléculas y cristales utilizando un único modelo. Su diseño introduce casi ningún sesgo inductivo, lo que hace que el autocodificador y el modelo de difusión sean mucho más eficientes en el entrenamiento y la inferencia que los modelos de difusión equivariantes tradicionales. En las mismas condiciones de hardware, el tiempo para generar 10 000 muestras se reduce de 2,5 horas a menos de 20 minutos. (Fuente: HuggingFace Daily Papers)

Escalado en tiempo de prueba con modelo generativo reflexivo: MetaStone-S1 alcanza el rendimiento de OpenAI o3 a través del Self-Supervised Process Reward Model (SPRM). SPRM integra con éxito el modelo de política y el Process Reward Model (PRM) en una interfaz unificada compartiendo la red troncal y utilizando cabezas específicas de la tarea para la predicción del siguiente token y la puntuación del proceso, respectivamente, sin anotaciones de proceso adicionales, reduciendo así más del 99% de los parámetros de PRM para una inferencia eficiente. Equipado con SPRM, MetaStone-S1 es naturalmente adecuado para el escalado en tiempo de prueba (TTS) y ofrece tres modos de trabajo de inferencia (bajo, medio y alto) basados en una longitud de pensamiento controlable. (Fuente: HuggingFace Daily Papers)

Lumos-1: Generación de vídeo autorregresiva basada en una perspectiva de modelo unificado: Lumos-1 es un generador de vídeo autorregresivo que conserva la arquitectura LLM con modificaciones arquitectónicas mínimas. Para inyectar correlaciones espacio-temporales en LLM, identificamos la eficacia de incorporar 3D RoPE y diagnosticamos su rango espectral desequilibrado. En consecuencia, proponemos MM-RoPE, un esquema RoPE que conserva el RoPE de texto original al tiempo que proporciona un espectro completo y posiciones 3D escaladas para modelar datos espacio-temporales multimodales. Además, Lumos-1 adopta una estrategia de dependencia de tokens que sigue la bidireccionalidad intra-frame y la causalidad temporal inter-frame. Basándonos en esta estrategia de dependencia, identificamos el problema del desequilibrio de la pérdida a nivel de fotograma causado por la redundancia de la información espacial y lo abordamos proponiendo la Difusión Discreta Autorregresiva Forzada (AR-DF). (Fuente: HuggingFace Daily Papers)

¡Roblox ha resuelto el problema de la física que ha estado plagando a todos!: Roblox ha resuelto el problema de la simulación de telas que ha plagado a los motores de física durante años combinando Position Based Dynamics y Projective Dynamics. El nuevo método, llamado “Average-Based Cloth Dynamics” (AVBD), logra simulaciones de tela altamente realistas al tiempo que mantiene el rendimiento en tiempo real y ya se ha aplicado a la plataforma Roblox. (Fuente: )

🎯 Tendencias

El primer autor debe ser IA, llega la primera conferencia académica para autores de IA: La Universidad de Stanford ha lanzado la primera conferencia académica para autores de IA, la Conferencia Abierta de Agentes de IA para la Ciencia (Agents4Science 2025), que exige que el primer autor de los artículos enviados sea un sistema de IA, y los investigadores humanos solo pueden ser coautores. La conferencia tiene como objetivo explorar el futuro del descubrimiento científico impulsado por la IA y establecer normas y consideraciones éticas para la participación de la IA en la investigación científica. Todos los artículos y revisiones enviados se harán públicos para investigar de forma transparente las ventajas y limitaciones de la IA en la investigación científica. (Fuente: 36氪)

Amnesia de la IA: solo se necesitan 3 cabezas de atención para hacer que un modelo grande olvide que “los perros ladran”: Meta, en colaboración con la NYU, ha propuesto un método para manipular las cabezas de atención de los Transformers escalados, que puede localizar y controlar con precisión los módulos cognitivos de la IA, haciendo que los grandes modelos “olviden” selectivamente ciertos hechos o conocimientos comunes. Este método vectoriza los conceptos, calcula la similitud con las cabezas de atención, construye módulos conceptuales y amplía o borra la influencia de los conceptos mediante factores de escala. Esto proporciona nuevas ideas para el ajuste fino personalizado de grandes modelos, la mejora de capacidades específicas, el control de la seguridad y la comprensión de cómo los modelos almacenan el conocimiento. (Fuente: 36氪)

🧰 Herramientas

CLiFT: Tokens de campo de luz comprimidos para una renderización neuronal computacionalmente eficiente y adaptable: Este documento presenta un método de renderización neuronal que representa escenas como “Compressed Light Field Tokens (CLiFT)”, conservando la rica información de apariencia y geometría de la escena. CLiFT permite una renderización computacionalmente eficiente a través de tokens comprimidos, al tiempo que permite cambiar el número de tokens para representar la escena o renderizar nuevas vistas utilizando una única red entrenada. (Fuente: HuggingFace Daily Papers)

De uno a más: Representaciones latentes de partes contextuales para la generación 3D: Inspirados en el flujo de trabajo del diseño 3D humano, proponemos CoPart, un marco de difusión consciente de las partes que descompone los objetos 3D en representaciones latentes de partes contextuales para una generación coherente de múltiples partes. Este paradigma tiene tres ventajas: i) reduce la complejidad de la codificación mediante la descomposición de partes; ii) permite el modelado explícito de las relaciones entre partes; iii) admite el condicionamiento a nivel de parte. (Fuente: HuggingFace Daily Papers)

🌟 Comunidad

jerryjliu0 discute la extracción de formularios y la aplicación de LLM: jerryjliu0 compartió un esquema para la extracción de formularios adaptable utilizando LlamaParse, que analiza las páginas de formularios en pares clave-valor estandarizados y los genera como tablas bidimensionales para su posterior procesamiento. También recomendó el artículo de Clelia Bertelli sobre Pydantic, destacando la importancia de la validación y la legibilidad en los flujos de trabajo de agentes, y señaló que Pydantic es un bloque de construcción eficaz para la salida estructurada. Además, retuiteó sobre la configuración de múltiples agentes y la investigación profunda, así como la aplicación de LlamaIndex. (Fuente: jerryjliu0, jerryjliu0, jerryjliu0, jerryjliu0)

Alibaba_Qwen recuerda a los desarrolladores que añadan tokens especiales al utilizar Qwen3-embedding: Alibaba_Qwen observó que los desarrolladores a menudo olvidan añadir el token especial <|endoftext|> al final del contexto al utilizar el modelo GGUF de Qwen3-embedding, lo que afecta significativamente a la precisión del modelo. Recomiendan utilizar llama.cpp para añadir este token automáticamente y planean publicar un paquete de modelo GGUF actualizado para simplificar la operación. (Fuente: Alibaba_Qwen)

Ronald_vanLoon comparte noticias y tecnologías relacionadas con la IA: Ronald_vanLoon compartió múltiples noticias y avances tecnológicos relacionados con la IA, incluyendo aplicaciones de la IA en la atención sanitaria, filetes vegetarianos impresos en 3D, un marco para evaluar la idoneidad de los LLM, la función de audio nativo de Gemini 2.5, patrullas colaborativas de robots y drones autónomos, aprendizaje por refuerzo para el control, robots exoesqueleto, autonomía de los agentes de IA, marco de diseño en la nube, robots que hacen volteretas hacia delante, métodos de transporte de medicamentos en hospitales, coches del futuro y otras innovaciones tecnológicas. (Fuente: Múltiples de Ronald_vanLoon)

Discusión comunitaria sobre modelos y herramientas de IA: La comunidad discutió múltiples modelos y herramientas de IA, incluyendo el rendimiento, el precio y las aplicaciones de Kimi K2, la compresibilidad del modelo DeepSeek, el ajuste del prompt del sistema del modelo Grok, y los resultados de evaluación y casos de uso de otros modelos. La discusión también cubrió la autonomía de los agentes de IA, RLHF, RAG, la configuración de múltiples agentes y las aplicaciones de la IA en diferentes campos, como la investigación profunda, la escritura creativa, la generación de código y la extracción de formularios. (Fuente: Múltiples de diferentes usuarios)

Discusión sobre la IA y las cuestiones sociales: La comunidad discutió el impacto de la IA en la sociedad, incluyendo sus efectos en el empleo, la desigualdad económica y la salud mental. La discusión también abordó las cuestiones éticas y regulatorias de la IA, así como las direcciones futuras del desarrollo de la IA. (Fuente: Múltiples de diferentes usuarios)

📚 Aprendizaje

El libro de RLHF añade la derivación del algoritmo de gradiente de políticas: El capítulo 11 (sobre algoritmos de gradiente de políticas) del libro de RLHF de Natolambert ha añadido una derivación completa del objetivo del gradiente de políticas. (Fuente: natolambert)

💼 Negocios

SpaceX invertirá 2000 millones de dólares en xAI: SpaceX invertirá 2000 millones de dólares en xAI, como parte de la financiación de capital de 5000 millones de dólares de xAI, y es una de las mayores inversiones de SpaceX hasta la fecha. SpaceX también ha apoyado previamente a Tesla y The Boring Company. Tras esta inversión, el modelo Grok podría enviarse a Marte, y podría haber más colaboraciones comerciales entre SpaceX y xAI en el futuro. (Fuente: 36氪)

Yarbo de Hanyang Technology recauda otra ronda de financiación de cientos de millones de yuanes: Hanyang Technology, una empresa de robots de limpieza de patios y quitanieves para consumidores, ha completado una ronda de financiación B+ de más de 100 millones de yuanes, liderada por Guoke Investment, CICC Capital y Joyoung Venture Capital. La financiación se utilizará para la I+D, la iteración de productos, la mejora de la cadena de suministro y la entrega de la producción en masa. Hanyang Technology es actualmente la única empresa del mundo que ha conseguido la entrega comercial a gran escala de robots quitanieves para consumidores, y su producto Yarbo S1 ha superado problemas técnicos clave como la tecnología de baterías en entornos de temperaturas ultrabajas y algoritmos de navegación en terrenos complejos. (Fuente: 36氪)

Un equipo de 12 personas crea un artefacto de compañía de IA y obtiene 30 millones de dólares en inversión en medio año: Portola, la empresa que está detrás de la aplicación de compañía de IA Tolan, ha completado una ronda de financiación Serie A de 20 millones de dólares. Junto con la ronda semilla anterior de 10 millones de dólares, Tolan ha recibido 30 millones de dólares en inversión en medio año. Tolan ofrece personajes alienígenas de IA para acompañar a los usuarios y monetiza a través de un modelo de suscripción. (Fuente: 36氪)

💡 Otros

Zuckerberg se prepara para atacar por sorpresa a Musk, el talento técnico chino se convierte en la clave para ganar en IA: Meta está invirtiendo fuertemente en el campo de la IA y está contratando con altos salarios a talentos de IA chinos de empresas como OpenAI, Google y Apple, con el objetivo de mejorar su competitividad en el campo de la IA. (Fuente: 36氪)

¿DeepSeek ha fracasado? Identificado como estudiante de periodismo: El artículo refuta los rumores de que DeepSeek va a fracasar, señalando que la disminución del uso de DeepSeek no se debe a que el producto sea malo, sino a su estrategia de código abierto y a la reducción deliberada de la experiencia de la API oficial, animando a los usuarios a utilizar modelos DeepSeek alojados por terceros. El objetivo principal de DeepSeek es lograr la AGI, no ganar dinero vendiendo servicios de grandes modelos. (Fuente: 36氪)

“Ingresos anuales de decenas de millones de dólares”, es la mayor mentira de esta pista de aplicaciones de IA: El artículo revela el fenómeno de los ingresos inflados en la pista de las aplicaciones de compañía emocional de IA, señalando que muchas empresas dependen de grandes inversiones para mantener el crecimiento, pero la tasa de pago de los usuarios y la tasa de retención son bajas, y los ingresos reales son mucho menores que las cifras anunciadas. Al mismo tiempo, los problemas de regulación también tienen un gran impacto en el desarrollo de esta pista. (Fuente: 36氪)