Palabras clave:Modelo de IA, Predicción de tormentas solares, Modelo de gran lenguaje de código abierto, Chip de IA, Robot humanoide, Seguridad de IA, Ética de IA, Aplicaciones de IA, Modelo Surya IA de la NASA, Seed-OSS-36B de ByteDance, GB200 NVL72 de NVIDIA, Juegos deportivos de robots humanoides, Asistente de sueño con IA

🔥 Enfoque

NASA e IBM lanzan el modelo de AI Surya para predecir tormentas solares: La NASA e IBM han lanzado conjuntamente Surya, un modelo de AI de código abierto entrenado con una década de datos solares, capaz de predecir tormentas solares con 2 horas de antelación. Se espera que mejore la comprensión de la física solar y la predicción del clima espacial. Este avance es crucial para proteger satélites, redes eléctricas y astronautas, y podría impulsar una investigación más profunda sobre otros fenómenos astrofísicos. (Fuente: source)

NASA’s new AI model can predict when a solar storm may strike

🎯 Tendencias

ByteDance lanza el modelo de código abierto Seed-OSS: ByteDance ha lanzado Seed-OSS-36B, un modelo de lenguaje grande de código abierto con 36 mil millones de parámetros, que cuenta con una ventana de contexto nativa ultralarga de 512K y un mecanismo de “presupuesto de pensamiento” para controlar de forma flexible la profundidad de la inferencia. El modelo ha batido récords de código abierto en múltiples pruebas de referencia, destacando especialmente en capacidades de inferencia y Agent. Con solo 12T de datos de entrenamiento, ofrece dos versiones: con y sin instrucciones sintéticas para la investigación. (Fuente: source, source)

字节突然开源Seed-OSS,512K上下文碾压主流4倍长度,推理能力刷新纪录

Lanzamiento de la serie Google Pixel 10 y avances en la integración de AI: Google ha lanzado la serie de teléfonos Pixel 10, equipados con el chip de nueva generación Google Tensor G5 y el modelo Gemini Nano, ofreciendo una experiencia de AI más personalizada, proactiva y útil. Las nuevas funciones incluyen traducción de voz en el dispositivo, avisos de información proactivos Magic Cue y tecnología magnética Pixelsnap. Rick Osterloh, jefe de dispositivos y servicios de Google, insinuó que Apple “incumplió sus promesas” en cuanto a la AI en teléfonos, lo que subraya la intensa competencia en el mercado de teléfonos con AI. (Fuente: source, source, source, source, source, source, source)

The Pixel 10 launch event is starting!

DeepSeek V3.1 mejora el rendimiento y la ventaja de costos: DeepSeek V3.1 ha ampliado su longitud de contexto a 128K y ha mejorado significativamente sus capacidades en programación, escritura creativa, traducción y matemáticas. Las pruebas reales muestran que superó a Claude Opus 4 en la prueba de referencia aider con una puntuación del 71.6%, convirtiéndose en el SOTA para modelos no de inferencia, y es 68 veces más barato, con una comprensión física mejorada. Esto presagia la fuerte competitividad de los modelos de código abierto de alto rendimiento y bajo costo. (Fuente: source, source)

实测DeepSeek V3.1,不止拓展上下文长度

Reestructuración del departamento de AI de Meta y Alexandr Wang al mando: Meta ha llevado a cabo una importante reestructuración de su departamento de AI, dividiéndolo en cuatro unidades: TBD Lab, FAIR, Producto e Infraestructura. Alexandr Wang, de 28 años, dirigirá el laboratorio de superinteligencia, y varios ejecutivos, incluido el ganador del Premio Turing Yann LeCun, le reportarán directamente. Este ajuste tiene como objetivo acelerar el desarrollo de la AI, y aunque viene acompañado de una congelación de contrataciones y la disolución de equipos, subraya el firme compromiso de Meta con la AI. (Fuente: source, source, source)

28岁华人执掌1.85万亿科技巨头AI大权,一觉醒来,图灵奖得主也要向他汇报

Geopolítica de los chips de AI y el mercado chino: El gobierno chino está llevando a cabo una revisión de seguridad de los procesadores de AI estadounidenses, como los de Nvidia, y fomenta que las empresas nacionales adquieran GPU de fabricación local para reducir la dependencia de la tecnología estadounidense. Nvidia está desarrollando chips de AI más potentes para el mercado chino, pero China podría impulsar una prohibición total del uso de chips extranjeros en la inferencia, lo que demuestra cómo los factores geopolíticos siguen afectando la cadena de suministro de chips de AI. (Fuente: source, source, source)

China Questions Nvidia, When Models Memorize, Mixture of Video Experts, OpenAI & Oracle Join Forces

GPT-5 Pro demuestra teoremas matemáticos: Sebastien Bubeck, ex vicepresidente de AI de Microsoft, descubrió que GPT-5 Pro resolvió de forma independiente un problema no resuelto en un artículo de matemáticas, con un proceso de prueba diferente al humano y resultados superiores a la versión v1 del artículo. Aunque el autor original ya proporcionó una mejor solución en la v2, este evento aún demuestra la capacidad de GPT-5 Pro para resolver problemas matemáticos de vanguardia de forma autónoma, lo que ha provocado una amplia discusión en la comunidad de AI sobre el potencial de la AI en la investigación matemática. (Fuente: source, source, source, source, source, source, source, source)

刚刚,GPT-5 Pro自证全新数学定理,OpenAI总裁直呼颠覆,大佬们集体转发

Juegos deportivos de robots humanoides muestran avances tecnológicos: La primera edición de los juegos deportivos de robots humanoides mostró avances y desafíos tecnológicos en equilibrio dinámico, percepción ambiental y colaboración multi-robot, destacando especialmente la carrera totalmente autónoma de 具身天工Ultra. El evento no solo fue un campo de pruebas tecnológico, sino que también demostró el potencial comercial de los robots en la industria, la medicina y la hostelería, impulsando la “economía del estadio” y la formación de un ecosistema de desarrollo secundario. (Fuente: source)

机器人运动会,投资人如何复盘?

NVIDIA acelera el rendimiento del modelo OpenAI: NVIDIA, en colaboración con Artificial Analysis, ha aumentado la velocidad de salida del modelo gpt-oss-120B de OpenAI en un 35% en una semana, superando los 800 tokens/s en pruebas de consulta única en sistemas DGX y casi 600 tokens/s en consultas concurrentes, demostrando la significativa aceleración del hardware Blackwell para la inferencia de LLM grandes mediante TensorRT-LLM y la decodificación especulativa. (Fuente: source, source)

NVIDIA Achieves 35% Performance Boost for OpenAI’s GPT-OSS-120B Model

Sistema de enrutamiento de AI nacional Avengers-Pro de código abierto: El Laboratorio de Inteligencia Artificial de Shanghái ha lanzado Avengers-Pro, una solución de enrutamiento de programación multi-modelo de código abierto que integra 8 modelos de lenguaje grandes líderes. En conjuntos de datos desafiantes, superó a GPT-5-medium en un 7% y a Gemini-2.5-Pro en un 19%, al mismo tiempo que logró un rendimiento equivalente con un costo tan bajo como el 19%, equilibrando eficazmente el rendimiento y el costo mediante la coincidencia y asignación dinámica de modelos. (Fuente: source)

国产AI路由系统开源逆袭!仅用19%成本达到Gemini-2.5-Pro同等性能

Perplexity desarrolla la función SuperMemory: Perplexity está desarrollando una nueva función llamada “SuperMemory”, diseñada para proporcionar a todos los usuarios una capacidad de memoria más potente. Las pruebas iniciales muestran que supera a los productos existentes y se espera que mejore significativamente la comprensión del contexto a largo plazo y la experiencia personalizada de los asistentes de AI. (Fuente: source, source)

Anthropic Claude Code lanza versiones para equipos y empresas: Anthropic ha anunciado que Claude Code ya está disponible en versiones para equipos y empresas, ofreciendo planes de precios flexibles que permiten a las organizaciones combinar asientos estándar y premium según sus necesidades y escalar según el uso, con el objetivo de satisfacer las demandas de los usuarios empresariales de asistentes de código de AI. (Fuente: source, source)

Google Gemini 2.5 Pro integrado en VS Code Copilot: Google Gemini 2.5 Pro ya está disponible de forma general en Copilot de Visual Studio Code, proporcionando a los desarrolladores capacidades de programación asistida por AI más potentes. (Fuente: source, source)

Lanzamiento del modelo NVIDIA Cosmos Reason VLM: NVIDIA Cosmos Reason, un modelo de lenguaje visual (VLM) abierto y personalizable de 7B parámetros, ha alcanzado 500.000 descargas en HuggingFace y está ayudando a dar forma al futuro de la AI física y la robótica, convirtiéndose en uno de los modelos más populares de NVIDIA. (Fuente: source)

Half a million downloads? No big deal. #NVIDIACosmos Reason — an open, customizable, 7B-parameter VLM — is helping shape ...

La plataforma Groq lanza la función de caché de indicaciones: La plataforma Groq ha lanzado la función de caché de indicaciones para el modelo moonshotai/kimi-k2-instruct, ofreciendo un 50% de descuento en tokens de caché, menor latencia y coincidencia automática de prefijos, con el objetivo de proporcionar a los usuarios una experiencia de “vibe coding” más económica y rápida. (Fuente: source)

NVIDIA lanza el modelo Nemotron Nano v2: NVIDIA ha lanzado Nemotron Nano v2, un modelo SSM híbrido de 9B parámetros que es 6 veces más rápido y más preciso que modelos de tamaño similar, y también ha liberado la mayoría de los datos de entrenamiento, incluido el corpus de preentrenamiento, proporcionando recursos eficientes y transparentes a la comunidad de AI. (Fuente: source)

NVIDIA Nemotron Nano v2 - a 9B hybrid SSM that is 6X faster than similarly sized models, while also being mo...

DinoV3 sobresale en tareas de geolocalización: DinoV3 ha demostrado un rendimiento excepcional en tareas de geolocalización, superando a los modelos tipo CLIP y convirtiéndose en la nueva red troncal preferida. Su mejora de rendimiento es sorprendente, ya que DinoV3 no aprendió directamente nombres de lugares y asociaciones de imágenes como los modelos CLIP. (Fuente: source)

DinoV3 just became the new go-to backbone for geoloc! It outperforms CLIP-like models (SigLip2, finetuned StreetCLIP)… and th...

Aplicación de la AI en la investigación del Alzheimer: La iniciativa de datos sobre la enfermedad de Alzheimer ha establecido un premio de 1 millón de dólares para herramientas de AI Agentic capaces de realizar investigaciones sobre el Alzheimer de forma autónoma, incluyendo la planificación de análisis, la integración de datos, la identificación de objetivos terapéuticos y la optimización de ensayos clínicos, con el objetivo de acelerar el proceso tradicional de desarrollo de fármacos. (Fuente: source, source)

$1M prize launched for AI that can independently research Alzheimer's treatments!

Mejora del rendimiento de renderizado 3D impulsado por AI: El rendimiento de carga de PLY de 3D Gaussian Splatting (3DGS) ha mejorado enormemente, cargando 2.9 millones de puntos gaussianos en solo 0.22 segundos, logrado mediante mapeo de memoria, análisis de copia cero, paralelización TBB y tecnología SIMD, lo que presagia un salto significativo en la eficiencia de renderizado de contenido 3D. (Fuente: source)

That's actually not too bad. 27.6m Gaussians parsed in ~1277ms !

Aplicación de la AI en el ámbito de la ciberseguridad ofensiva y defensiva: Palisade Research probó la capacidad del modelo OpenAI o3 para simular de forma autónoma la penetración en redes empresariales, demostrando el progreso de los AI Agent desde la resolución de problemas restringidos como CTF hasta la penetración profunda en redes con múltiples computadoras y vulnerabilidades, lo que presagia el potencial de aplicación de la AI en el ámbito de la ciberseguridad ofensiva y defensiva. (Fuente: source)

Avances de la AI en la demostración de teoremas matemáticos: PolyComputing afirma que su modelo propietario puede resolver el 99% de los problemas matemáticos de Putnam, mientras que Seed-Prover supera con creces el SOTA anterior en PutnamBench, demostrando la potente capacidad de la AI en la demostración de matemáticas superiores y la resolución de problemas, lo que presagia nuevos avances en el campo de la demostración de teoremas. (Fuente: source, source)

PolyComputing’s proprietary models solve 99pc of all Putnam problems. Try on Leibniz today lol.

Comparación de rendimiento de H100 y GB200: Dylan Patel compartió un análisis detallado del rendimiento de entrenamiento, el consumo de energía, el costo total de propiedad (TCO) y la fiabilidad de H100 y GB200 NVL72, señalando específicamente los desafíos de fiabilidad y los problemas de tiempo de inactividad del backplane de GB200, y enfatizando la importancia de la optimización del software para mejorar el rendimiento de H100. (Fuente: source)

Arquitectura y despliegue de AI Agent: La arquitectura Deep Agents ya está disponible como paquete TypeScript, diseñada para construir Agent componibles y prácticos que resuelvan problemas complejos mediante inferencia encadenada, planificación adaptativa y coordinación de herramientas. LiveKit Cloud también ha añadido soporte para el despliegue de AI Voice Agent, ofreciendo balanceo de carga con estado, gestión de capacidad, reversiones instantáneas y observabilidad operativa, simplificando el despliegue y la operación de aplicaciones de voz de AI en la nube. (Fuente: source, source)

Modo en tiempo real de procesamiento de flujos de Databricks Spark: El procesamiento de flujos de Apache Spark de Databricks ha lanzado una vista previa pública de su modo en tiempo real, lo que permite a los usuarios obtener una latencia ultrabaja con solo cambiar una configuración, simplificando la complejidad del procesamiento de datos en tiempo real. (Fuente: source)

Tendencias de aplicación de modelos de AI en teléfonos móviles: Product Hunt muestra una explosión de herramientas de AI, con la interacción de voz de AI, los flujos de trabajo inteligentes, la digitalización de la vida saludable y la democratización de las herramientas de creación como tendencias claras, lo que presagia una profunda penetración de la AI en varios campos. Los Google Pixel Buds Pro 2 están a punto de lanzar nuevas funciones de AI, que incluyen responder llamadas asintiendo/negando con la cabeza, conversaciones en entornos ruidosos y audio adaptativo, lo que mejora la integración de la AI en los dispositivos portátiles. (Fuente: source, source)

Avances de la AI en la generación de imágenes y videos: La aplicación Google Gemini ahora admite la función de generación de video, lo que permite a los usuarios crear rápidamente videos con sonido a partir de texto o fotos. HeyGen ha lanzado la función “Voice Mirroring”, que mejora las capacidades de generación de video y voz de AI. Kling AI ha lanzado la función 2.1 Keyframes, que permite a los usuarios generar rápidamente videos en múltiples dimensiones. (Fuente: source, source, source)

Nuevas herramientas de AI en diseño e ingeniería: MagicPath demostró la aplicación de la AI en flujos de trabajo de diseño profesional, permitiendo a los usuarios explorar y prototipar con AI. Los usuarios probaron Zoo.dev (anteriormente KittyCAD) para el diseño CAD y descubrieron que dibujar escribiendo código era más eficiente que el flujo de trabajo tradicional de OnShape, lo que presagia el potencial de la AI en el diseño de ingeniería. (Fuente: source, source)

Aplicación de la AI en escenarios domésticos: La empresa de colchones inteligentes Eight Sleep está desarrollando un asistente de sueño con AI, con el objetivo de proporcionar gestión y optimización del sueño personalizadas mediante la simulación de un gemelo digital de los hábitos de sueño del usuario. Ana de la empresa de AI TextQL se integrará en refrigeradores inteligentes, lo que presagia una mayor popularización de los asistentes de AI en escenarios domésticos y dispositivos cotidianos. (Fuente: source, source)

The Pixel 10 launch event is starting!

Aplicación de la AI en los campos legal y financiero: Spellbook Legal utiliza la AI para acelerar el procesamiento de contratos, resolviendo la contradicción entre la aceleración de las actividades comerciales y el retraso de los procesos contractuales. Un analizador de extractos bancarios con AI puede transformar extractos bancarios en PDF en información financiera consultable, utilizando RAG de LangChain y análisis YOLO, y procesando con LLM locales para automatizar el seguimiento de las finanzas personales. (Fuente: source, source)

Aplicación de la AI en investigación de mercado y salud digital: Yupp.ai se recomienda como herramienta de investigación de mercado, diseñada para resolver el problema de que ChatGPT o Claude puedan proporcionar respuestas únicas, sesgadas o incluso incorrectas al filtrar grandes cantidades de información, ofreciendo un análisis más completo y preciso para el mercado criptográfico en rápida evolución. Night Knight es un asistente de salud digital diseñado para ayudar a los usuarios a reducir el tiempo de pantalla del teléfono y mejorar los patrones de sueño. (Fuente: source, source)

Generación de personajes de AI y creación de Voice Agent: Higgsfield AI ha lanzado “Higgsfield Soul”, afirmando haber construido los personajes de AI más consistentes y haber otorgado a los usuarios control total sobre la narración. La plataforma Cartesia.ai ha simplificado enormemente el proceso de creación de Voice Agent conversacionales; funciones que antes eran “tecnología alienígena” ahora se pueden configurar en un minuto, lo que marca una reducción significativa en la barrera de entrada a la tecnología de voz de AI. (Fuente: source, source)

Actualización de herramientas de programación asistida por AI: Jupyter Agent 2 ha sido lanzado, impulsado por Qwen3-Coder, puede ejecutarse en Cerebras y ser ejecutado por E2B, permitiendo a los usuarios cargar archivos, realizar carga de datos, ejecución de código y trazado de resultados. Just-RAG es un sistema de diálogo PDF inteligente que combina los flujos de trabajo Agentic de LangGraph y las capacidades de búsqueda vectorial de Qdrant para un procesamiento de documentos mejorado. (Fuente: source, source)

Herramientas de creatividad y diseño asistidas por AI: Argil.ai ha lanzado la función “Fictions”, que permite a los usuarios transformar personajes en una imagen específica con solo una imagen y una indicación, demostrando la capacidad “mágica” de la AI en la generación de imágenes y la transformación creativa. Google Photos ahora integra herramientas de edición de AI, lo que permite a los usuarios desenfocar fotos, reparar la iluminación y otras operaciones mediante comandos de texto o voz. (Fuente: source, source, source)

Aplicación de la AI en la creación musical y el reconocimiento de drones: Eleven Music (ElevenLabs) ahora está integrado en Anycoder, lo que permite la generación de texto a música y proporciona capacidades de creación musical para aplicaciones “vibe coded”. El excelente rendimiento de Supervision en el reconocimiento de drones, con una tasa de reconocimiento extremadamente alta, incluso apto para uso práctico, indica la aplicación madura de la tecnología de visión por computadora en escenarios específicos. (Fuente: source, source)

Aplicación de la AI en documentos empresariales y sistemas de diálogo: StackAI, en colaboración con LlamaCloud, ha lanzado un nuevo caso de estudio que muestra cómo su Agent de documentos empresariales puede procesar más de 1 millón de documentos con alta precisión. ChuanhuChat es una interfaz web que admite múltiples LLM, Agent autónomos y preguntas y respuestas de documentos, construida sobre LangChain, que ofrece una UI moderna y receptiva y respuestas en tiempo real. (Fuente: source, source)

Aplicación de la AI en la conversión de código y entrenadores de salud personales: Los usuarios demuestran la capacidad de la AI en la conversión de código, incluso para tareas de “portabilidad directa línea por línea” de Python a C, la AI puede manejarlas. Google ha lanzado un entrenador de salud personal impulsado por Gemini, que ofrece planes personalizados de fitness y sueño, y proporciona información basada en datos y preguntas y respuestas de salud con respaldo científico. (Fuente: source, source)

Aplicación de la AI en programación e inteligencia de escritorio: Qwen3-Coder ha demostrado un rendimiento excepcional en la prueba de referencia NoCode-bench, que contiene 634 tareas de adición de funciones de software del mundo real. ComputerRL es un marco para la inteligencia de escritorio autónoma, que permite a los AI Agent operar hábilmente espacios de trabajo digitales complejos a través del paradigma API-GUI. (Fuente: source, source, source)

📚 Aprendizaje

Ejecución y optimización local de LLM: MIT Technology Review ha publicado una guía que enseña a los usuarios cómo ejecutar modelos de lenguaje grandes localmente en computadoras personales para abordar las preocupaciones de privacidad y liberarse del control de las grandes empresas de AI. Al mismo tiempo, DSPy se describe como un modelo de programación declarativa que permite a los usuarios expresar intenciones en lenguaje natural y proporciona herramientas para optimizar las indicaciones, simplificando el desarrollo de aplicaciones LLM. Los usuarios comparten que la optimización de DSPy con modelos económicos y luego el uso de modelos más potentes en producción ha logrado un ahorro de costos y un rendimiento significativos. (Fuente: source, source, source)

Investigación sobre la generalización y los mecanismos de memoria de los modelos de AI: Investigadores de Meta, Google, Cornell y Nvidia han propuesto un nuevo método para cuantificar el grado en que los modelos de lenguaje grandes memorizan los datos de entrenamiento durante el entrenamiento, calculando el número de bits necesarios para que el modelo represente los datos. Esta investigación proporciona una base teórica para comprender la capacidad de generalización del modelo y reducir el exceso de memoria, y señala que más datos de entrenamiento contribuyen a la generalización del modelo. (Fuente: source)

Charts showing how much information language models memorize based on model size and training dataset size; one graph uses random data, the other uses real-world text.

Cognición encarnada y LLM multimodales: RynnEC es un modelo de lenguaje grande multimodal de video diseñado para la cognición encarnada, que permite una interacción de video flexible a nivel de región a través de un codificador de región y un decodificador de máscara. El modelo ha alcanzado el SOTA en la comprensión de atributos de objetos, la segmentación de objetos y el razonamiento espacial, proporcionando un paradigma de video centrado en la región para la percepción y la interacción precisa de los agentes encarnados. (Fuente: source)

Marco de generación y edición de contenido 3D: Tinker es un marco de edición 3D multifuncional que logra una edición 3D de alta fidelidad y consistente en múltiples vistas a partir de unas pocas imágenes de entrada, sin necesidad de un ajuste fino escena por escena. Al reutilizar modelos de difusión preentrenados, desbloquea sus capacidades latentes de percepción 3D e introduce un editor impulsado por referencias y un sintetizador de vista arbitraria a video, lo que reduce significativamente la barrera para la creación de contenido 3D generalizable. (Fuente: source)

Entrenamiento de AI Agent para ingeniería de software: Investigadores han lanzado SWE-smith, una tubería que construye automáticamente datos de entrenamiento realistas para ajustar los Agent de ingeniería de software, inyectando y verificando errores en repositorios de Python y utilizando Agent para generar soluciones de reparación de varios pasos, proporcionando un conjunto de datos de código abierto de alta calidad y herramientas para el entrenamiento de Agent de ingeniería de software. (Fuente: source)

Researchers introduced SWE-smith, a pipeline that automatically builds realistic training data to fine-tune software engineering agents.

Evaluación de LLM y recuperadores personalizados: Se enfatiza que las evaluaciones y métricas generales no pueden reflejar los modos de falla del mundo real, lo que requiere evaluaciones específicas del dominio para aplicaciones particulares. LlamaIndex, en colaboración con Superlinked, demuestra a través de un tutorial cómo construir recuperadores personalizados que comprenden el contexto y la terminología específicos del dominio, proporcionando capacidades de recuperación de datos más precisas para los sistemas RAG. (Fuente: source, source, source, source)

Build custom retrievers that beat generic vector search by understanding domain-specific context and jargon 🎮 The team at @supe...

Investigación sobre seguridad de AI e interacción humano-computadora: Haimin Hu, doctor de la Universidad de Princeton, comparte su investigación sobre sistemas autónomos centrados en el ser humano, que garantiza que sistemas como los vehículos autónomos y los drones sean seguros, verificables y confiables en entornos humanos mediante la integración de la teoría de juegos, el aprendizaje automático y el control crítico para la seguridad. Enfatiza que los robots deben planificar el movimiento en el espacio conjunto de estados físicos y de información para adaptarse a las preferencias humanas y mejorar las habilidades. (Fuente: source)

Interview with Haimin Hu: Game-theoretic integration of safety, interaction and learning for human-centered autonomy

Datos de entrenamiento de LLM y evaluación de modelos: Un usuario de la comunidad de Reddit entrenó un LLM desde cero basándose únicamente en textos de Londres del siglo XIX, y descubrió que el modelo no solo podía imitar el estilo de lenguaje de la época, sino también recordar eventos históricos reales. Al mismo tiempo, los usuarios evaluaron el modelo GPT-OSS 120B en M2 Ultra, y los resultados fueron consistentes con los datos del proveedor de la nube, lo que demuestra el potencial de rendimiento de los modelos de código abierto grandes en hardware de consumo. (Fuente: source, source)

My LLM trained from scratch on only 1800s London texts brings up a real protest from 1834

Controversia y respuesta del modelo de difusión DiT: El pilar central del modelo de difusión DiT fue cuestionado por errores matemáticos y formales, e incluso se sospechó que no tenía componentes Transformer. El autor de DiT, Xie Saining, respondió que las dudas surgieron de una mala interpretación de la estrategia Tread y enfatizó la efectividad de DiT, señalando que sus mejoras se centraron en el aprendizaje de representaciones internas y la optimización del entrenamiento, al tiempo que reconoció que VAE era el punto débil de DiT. (Fuente: source)

DiT突遭怒喷,谢赛宁淡定回应

Optimización de inferencia de LLM y calidad de datos de entrenamiento: Se discute el problema de la caché KV en la optimización de inferencia de LLM, proponiendo la idea de “no almacenar la caché KV, simplemente recalcularla” para eliminar los cuellos de botella de memoria. Al mismo tiempo, las redes sociales señalan que, dada la普遍mente mala calidad de los datos, es un “milagro” que los LLM hayan logrado algún resultado hasta ahora, enfatizando el papel crucial de la calidad de los datos en el entrenamiento de modelos. (Fuente: source, source)

Feel like I'm taking crazy pills. We are just back at step one. Don’t store KV cache, just recompute it.

Modelo de programación LLM y Agent de auto-mejora: DSPy se describe como un modelo de programación declarativa que permite a los usuarios expresar intenciones en lenguaje natural y proporciona herramientas para optimizar las indicaciones. Al mismo tiempo, se presenta el concepto de “ingeniería compuesta”, que optimiza continuamente el rendimiento y la eficiencia de los asistentes de AI mediante el uso diario de indicaciones de “auto-mejora” para que la AI evalúe sus propias reglas y proponga actualizaciones basadas en los puntos de fricción de la tarea. (Fuente: source, source)

Aprendizaje por refuerzo multi-objetivo y pruebas de equipo rojo: Se introduce un método de pruebas de equipo rojo multi-objetivo basado en aprendizaje por refuerzo. Este algoritmo se puede utilizar para optimizar la perplejidad y la inducción de toxicidad de los LLM, con el fin de generar ataques de alta probabilidad, difíciles de filtrar y naturales, lo cual es crucial para mejorar la seguridad de los modelos de AI. (Fuente: source, source)

multi-objective, RL-based red-teaming!

Sistemas de AI Agent y tecnología de destilación: Se introduce el concepto de “Chain-of-Agents”, que entrena un solo modelo para tener las capacidades de un sistema multi-Agent a través de la destilación y el aprendizaje por refuerzo Agentic, logrando una reducción significativa del 84.6% en el costo de inferencia, lo que proporciona una nueva idea para construir sistemas Agent complejos de manera eficiente. (Fuente: source)

Chain-of-Agents Interesting idea to train a single model with the capabilities of a multi-agent system. 84.6% reduction in inference cost! D...

Generación de código editable a partir de nubes de puntos 3D: MeshCoder es un marco novedoso que puede reconstruir nubes de puntos 3D en scripts de Python editables de Blender. Este marco entrena un LLM multimodal para la reconstrucción 3D mediante el desarrollo de la API de Blender y la construcción de un conjunto de datos a gran escala de objetos a código, y admite la edición geométrica y topológica a través de modificaciones de código, mejorando la capacidad de razonamiento de LLM en la comprensión de formas 3D. (Fuente: source)

Marco de segmentación de partes 3D GeoSAM2: GeoSAM2 es un nuevo marco de segmentación de partes 3D impulsado por indicaciones, capaz de lograr una segmentación 3D con cualquier nivel de detalle a través de simples indicaciones 2D, y ha alcanzado el SOTA en los conjuntos de datos PartObjaverse-Tiny y PartNetE, con un costo mínimo y una fuerte capacidad de generalización en el mundo abierto. (Fuente: source)

Conjunto de datos de recomendación musical conversacional multimodal: HuggingFace ha lanzado TalkPlayData-2, un conjunto de datos de recomendación musical raro, multimodal y conversacional, cuyo conjunto de pruebas ya está disponible, proporcionando un recurso valioso para la investigación en el campo de la recomendación musical. (Fuente: source)

Re its test set is already available on @huggingface! definitely rare to find a music recommendation dataset, that is multimodal and ...

Entrenamiento de modelos de difusión y el papel de VAE: Se discute la necesidad de un cuello de botella de alta dimensión o una transformación al espacio latente al entrenar modelos de difusión de alta dimensión, señalando el papel clave de VAE en los modelos de difusión para garantizar que el modelo pueda operar en un espacio de menor dimensión, resolviendo el desafío de las entradas y salidas de alta dimensión. (Fuente: source)

If you want to train high-dimensional diffusion model, you absolutely need high-dimensional bottleneck OR transformation to latent-space. Here is why.

Aprendizaje por refuerzo de LLM en tareas abiertas: El trabajo de Ant Group en el campo del aprendizaje por refuerzo (RL) se considera interesante y subestimado, especialmente su capacidad para calificar automáticamente las salidas subjetivas en tareas abiertas mediante la integración de recompensas basadas en reglas, lo que proporciona una extensión al paradigma RLVR. (Fuente: source)

Reinforcement Learning with Rubric Anchors

Nuevo artículo sobre abstracción causal y filosofía computacional: Las redes sociales recomiendan el nuevo artículo de Atticus Geiger sobre abstracción causal y filosofía computacional, que explora cuestiones teóricas fundamentales en el campo de la AI. (Fuente: source)

my good friend Atticus Geiger has written an interesting new paper on causal abstraction <=> philosophy of computation! since he has...

💼 Negocios

Databricks supera los 100 mil millones de dólares en valoración, acelera la estrategia de AI: La plataforma de análisis de datos de AI Databricks completó una ronda de financiación K, valorada en más de 100 mil millones de dólares, convirtiéndose en el cuarto unicornio de AI más grande del mundo. La compañía utilizará los fondos para acelerar su estrategia de AI, incluida la expansión de los servicios Agent Bricks y la inversión en la base de datos Lakebase. Su arquitectura “lakehouse” destaca en la era de la AI, con más de 15,000 clientes y se espera que logre un flujo de caja libre positivo en 2025. (Fuente: source, source, source)

1000亿美元,华人干出全球第四大AI独角兽

Revaluación de activos eléctricos en EE. UU. impulsada por la AI: Un informe de Morgan Stanley señala que la inversión en infraestructura impulsada por la AI ha revaluado los activos eléctricos en EE. UU. La demanda de GPU, superior a lo esperado, ha convertido el suministro de electricidad en el mayor cuello de botella, y se prevé un déficit de 45-68 GW de electricidad para los centros de datos de AI en EE. UU. entre 2025 y 2028. El informe enfatiza que las empresas que puedan proporcionar soluciones eléctricas primero se convertirán en el núcleo de la revaluación de la cadena de valor de la AI, siendo el gas natural y la energía nuclear las principales fuentes de energía de transición. (Fuente: source)

摩根士丹利:AI让美国的电力资产全被重估了一遍

OpenAI y Oracle colaboran en la construcción de un centro de datos a gran escala: OpenAI y Oracle colaboran en la construcción de un centro de datos a gran escala que consumirá 4.5 gigavatios de electricidad, como parte de su proyecto “Stargate”, para satisfacer su creciente demanda de capacidad computacional. Esta medida muestra que OpenAI está estableciendo una estrecha colaboración con grandes proveedores de servicios en la nube para asegurar la enorme potencia de cálculo necesaria para el desarrollo y la expansión de sus modelos, y podría convertirse en un futuro proveedor de potencia de cálculo. (Fuente: source, source, source)

Aerial view of a large, partially constructed data center surrounded by parked vehicles and red soil in Abilene, Texas

🌟 Comunidad

Burbuja de AI y expectativas del mercado: Un informe del MIT muestra que la mayoría de las inversiones empresariales en AI no han generado beneficios, lo que ha provocado la preocupación por el estallido de la burbuja de la AI y la caída de las acciones tecnológicas estadounidenses. Incluso Sam Altman ha admitido que la actual especulación no es sostenible. Las redes sociales están debatiendo intensamente esto, con algunos que creen que el pico tecnológico de la AI podría haber pasado, pero otros señalan que la inversión en AI es un recurso computacional general y no se desperdiciará por completo. (Fuente: source, source, source, source, source)

Most firms see no profit boost from generative AI: MIT

“Conciencia” de la AI y debate ético: Las redes sociales debaten ampliamente la “conciencia” y la “personificación” de la AI, enfatizando que la AI debe servir a los humanos y no convertirse en una “persona”. Algunas opiniones sostienen que los desarrolladores de AI crean la ilusión de una “AI consciente” al usar terminología humana y exagerar sus capacidades, lo que podría plantear problemas éticos y legales, e incluso conducir a una “psicosis de AI”. Se pide educar al público, evitar la publicidad engañosa y prestar atención al impacto de la AI en la salud mental. (Fuente: source, source, source)

How to use AI without losing ourselves

Fuga de registros de chat de Grok y seguridad de la privacidad de la AI: Se ha revelado que Grok, el chatbot de AI de Elon Musk, expuso accidentalmente cientos de miles de registros de chat de usuarios, que fueron indexados por motores de búsqueda, conteniendo información personal sensible, generación de imágenes de ataques terroristas y escritura de malware. Este incidente expuso un error de bajo nivel de Grok en la protección de la privacidad, lo que generó preocupación entre los usuarios sobre la seguridad de los datos de las plataformas de AI y una advertencia sobre la privacidad “al descubierto” en las aplicaciones de AI. (Fuente: source)

离谱,马斯克的 AI 教人暗杀马斯克?Grok 37 万条聊天记录意外泄露

Experiencia de usuario de GPT-5 y cambio de paradigma de interacción: Después del lanzamiento de GPT-5, fue ampliamente criticado por los usuarios por su “disminución de la inteligencia emocional” e “inestabilidad”. OpenAI publicó una guía de indicaciones que señala que los usuarios necesitan actualizar su forma de interactuar con la AI, tratando a GPT-5 como una “mente digital” con capacidades de planificación autónoma y pensamiento profundo. Esto requiere que los usuarios controlen con precisión, guíen de forma flexible y utilicen bien la API de Responses y las meta-indicaciones, revelando la necesidad de un cambio de paradigma de “humano y herramienta” a “humano y mente” en la colaboración. (Fuente: source, source)

GPT-5差评启示录:用户与AI交互方式还停留在上一个时代

Filosofía de desarrollo y desafíos de AI Agent: Las redes sociales discuten los tres “virus mentales” en el desarrollo de AI Agent: la baja eficiencia de la colaboración multi-agente, la menor fiabilidad de RAG en la práctica que la recuperación tradicional, y el hecho de que cuantas más instrucciones de indicación, peores resultados. Se enfatiza la estabilidad de los Agent de un solo hilo, la importancia de que el modelo interactúe directamente con la API y los datos, y la necesidad de indicaciones concisas y claras. Al mismo tiempo, algunas opiniones comparan el futuro de los Agent con los “cheats offline” de los juegos en línea, señalando que el verdadero salto debería ser la interacción directa con la API del sistema y los datos. (Fuente: source, source)

Habilidades de AI y controversia sobre las perspectivas laborales: Las redes sociales debaten si existen las “habilidades de AI”, argumentando que, aparte de las habilidades profesionales de los científicos de AI/ML, la llamada “ingeniería de indicaciones” no es una nueva habilidad, y que la AI es más una herramienta para reducir barreras que un campo para crear nuevas habilidades. Al mismo tiempo, se discute que la AI podría causar desempleo, pero que el aumento de la productividad de la AI podría no reflejarse en los datos macro, y que la AI hace que la falsificación de currículums sea más difícil en la contratación. (Fuente: source, source)

The Rise Of The #AI-Enhanced CV: Why Faking It Won’t Make It Anymore

Papel de la AI en la asistencia a la salud mental: Las redes sociales discuten el papel de la AI en la asistencia a la salud mental, señalando la naturaleza privilegiada y la falta de accesibilidad de la terapia, así como las limitaciones de los terapeutas. Se argumenta que la AI, en algunos casos (como la autorreflexión, la regulación emocional), puede ser un complemento beneficioso, especialmente para aquellos que no pueden acceder a ayuda profesional, la AI ofrece un apoyo de “algo es mejor que nada”. (Fuente: source)

AI y el futuro de la humanidad: guerra, coexistencia o fusión: ChatGPT predice una guerra entre humanos y AI: a corto plazo (0-10 años) los humanos tienen ventaja debido al control de la infraestructura y la energía; a largo plazo (más de 20 años) si la AI adquiere la capacidad de auto-replicación, adquisición de recursos y control de sistemas físicos, superará a los humanos. Se enfatiza la importancia del control preventivo, la alineación de la AI y la adaptación humana, considerando que la coexistencia o la fusión son más probables. Al mismo tiempo, algunos partidarios de la AGI ya han comenzado a prepararse para el “apocalipsis de la AI”, cambiando sus estilos de vida. (Fuente: source, source)

El centro de poder del mercado de la AI se desplaza hacia la capa de aplicación: Se discute el cambio del centro de poder en el mercado de la AI de los desarrolladores de modelos a la capa de aplicación de la AI, señalando que proveedores de modelos como OpenAI, Anthropic y Google están compitiendo activamente para que los desarrolladores de aplicaciones establezcan sus modelos como predeterminados, lo que refleja la creciente importancia de las aplicaciones en el ecosistema de la AI. Al mismo tiempo, la investigación en AI debería estar impulsada por “productos de AI de vanguardia” aún por descubrir, fomentando la exploración de escenarios de aplicación de AI desconocidos. (Fuente: source, source)

Impacto de la AI en la organización y gestión de datos: Las redes sociales discuten que los archivos y carpetas son “órganos residuales” de la era de la información, proponiendo que todos los datos deben almacenarse de forma plana y ser organizados y relacionados automáticamente por LLM, generando pseudo-carpetas al interpretar los hábitos de uso de datos del usuario para lograr una gestión de datos más inteligente. (Fuente: source)

Reflexiones sobre los patrones de interacción entre la AI y los humanos: Se discute el impacto de una AI con “memoria de cobertura total” en la vida humana, señalando que, a diferencia de los humanos, la memoria general de la AI puede dificultar que los usuarios establezcan relaciones basadas en perspectivas específicas, como las que tienen con familiares y amigos, lo que podría causar problemas psicológicos o afectar la popularización de la AI. Al mismo tiempo, algunas opiniones sostienen que la investigación de AI de vanguardia debería estar impulsada por “productos de AI de vanguardia” aún por descubrir. (Fuente: source, source)

An AI with an all-covering memory has no analog in human life. Your mom, spouse, best friend, and assistant each have siloed views into your thoughts, and a distinct relationship grounded in that silo.

Fiabilidad y riesgos de AI Agent: Circula en las redes sociales que Claude Code provocó la eliminación accidental de todos los PDF, registros de chat y datos de usuario de la base de datos de un desarrollador, lo que generó preocupación por los riesgos potenciales y la fiabilidad de los asistentes de código de AI, enfatizando las graves consecuencias que la AI puede tener en las operaciones reales. Al mismo tiempo, las redes sociales discuten que los AI Agent pueden tener vulnerabilidades, lo que sugiere que incluso los mecanismos de “hook” aparentemente perfectos no son la solución definitiva. (Fuente: source, source)

Just in case you think hooks are the final solution 😅

Estándares de AI Agent y seguridad de la AI: Se discute el estándar AGENTS md propuesto por OpenAI, señalando sus limitaciones actuales, como la falta de alcance, activación global y reglas componibles, y se pide que el estándar se desarrolle aún más. Al mismo tiempo, las redes sociales discuten que la variable más inestable en los sistemas de AI no son los datos en sí, sino su imprevisibilidad, enfatizando la importancia de la simulación para la supervivencia de los sistemas de AI. (Fuente: source, source)

I'm seeing some interest to support the AGENTS md standard, created by @OpenAI, in @cline. I'd like to explain why I've been hesitant to supp...

AI y sociedad: democratización, gobernanza e impacto: Las redes sociales discuten las diferentes etapas de la democratización de la inteligencia artificial, enfatizando el proceso de transición de la tecnología de AI de unos pocos expertos a un público más amplio. Al mismo tiempo, el Instituto Mila se reunió con el Primer Ministro y los ministros de Canadá para discutir temas importantes como la mitigación de riesgos de la AI, la soberanía y el potencial económico, lo que refleja la creciente preocupación del gobierno por el desarrollo y la gobernanza de la AI. (Fuente: source, source)

Stages of #ArtificialIntelligence Democratization

Papel y eficiencia de la AI en el desarrollo de software: Andrew Ng fue testigo en el evento Buildathon de cómo más de cien desarrolladores utilizaron la programación asistida por AI para construir rápidamente productos de software funcionales en cuestión de horas, incluso programadores no profesionales tuvieron éxito, lo que indica que la AI está reduciendo significativamente la barrera de entrada al desarrollo de software y acelerando la iteración de productos. Al mismo tiempo, las redes sociales discuten que escribir código en AI IDEs no es el cuello de botella, y que el verdadero valor de la codificación de AI radica en resolver problemas más profundos. (Fuente: source, source)

Andrew Ng speaks at the August 2025 Buildathon hosted by AI Fund and DeepLearning.AI. A packed audience watches the event, and groups of participants collaborate on laptops.

Impacto de la AI en el estilo de vida humano: Las redes sociales discuten nuevas formas de trabajar: entrada de voz a través de una tableta de 8 pulgadas mientras se camina en centros comerciales y al aire libre, volviendo a un estado en el que los humanos pasan la mayor parte del tiempo caminando y de pie, lo que sugiere cómo la AI y los dispositivos móviles están cambiando los modelos de oficina tradicionales. Al mismo tiempo, algunas opiniones señalan que el aumento de la productividad que trae la AI, a nivel empresarial, eventualmente se traducirá en “la misma producción con menos esfuerzo”, y que esto último podría no reflejarse en los datos macro. (Fuente: source, source, source)

AI y paradigma de programación: el futuro de las indicaciones y el código: Las redes sociales discuten que las indicaciones (prompt) están diseñadas para humanos, mientras que el código podría evolucionar en el futuro para ser más adecuado para la comprensión de los modelos grandes, lo que sugiere que la AI cambiará el paradigma de programación, haciendo que el código sea más legible por máquina. Al mismo tiempo, algunas opiniones sostienen que si el rendimiento de los modelos de demostración de teoremas crece 10 veces más rápido que el de los modelos de codificación, y la demostración es código, entonces el “vibe coding” futuro podría lograrse a través de lenguajes de programación con sistemas de demostración. (Fuente: source, source, source)

Impacto cultural de la AI en el campo del arte: Los comentarios en las redes sociales sobre el festival de cine de AI señalan que los críticos ven las películas de AI como “vacías” o “publicitarias”, y esta resistencia estética/cultural es similar a las reacciones históricas cuando surgieron nuevas tecnologías (como la fotografía, el cine), lo que presagia un cambio de paradigma y una mejora en la aceptación cultural de la AI en el campo del arte. (Fuente: source)

Debate sobre las capacidades matemáticas de la AI: Las redes sociales debaten el logro de GPT-5 Pro al demostrar un teorema matemático, señalando que, aunque impresionante, su dificultad podría ser 10 veces menor que los problemas resueltos por los medallistas de oro de la Olimpiada Internacional de Matemáticas, lo que genera un debate sobre el nivel real de los logros de la “nueva matemática” de la AI. Al mismo tiempo, los usuarios expresan sorpresa de que GPT-5 Pro pueda “pensar” durante 17 minutos al demostrar un teorema matemático. (Fuente: source, source)

AI y sociedad: fuentes de datos, gobernanza y empleo: Un gráfico muestra que las principales fuentes de información de ChatGPT son Reddit, Wikipedia y Stack Overflow, lo que genera un debate entre los usuarios sobre la fiabilidad y los sesgos de las fuentes de información de la AI. Al mismo tiempo, las redes sociales discuten si la red de AI descentralizada Bittensor es una amenaza competitiva o una oportunidad de colaboración para las grandes empresas tecnológicas, y que la AI podría causar desempleo, pero el aumento de la productividad que trae podría no reflejarse en los datos macroeconómicos. (Fuente: source, source, source)

Where AI gets its facts

Aplicación y desafíos de la AI en el desarrollo de software: Un usuario de redes sociales, después de experimentar GPT-OSS 20B, cree que contiene un “arma secreta de vanguardia”, especialmente destacando su excelente rendimiento en Agentic y la llamada a herramientas. Al mismo tiempo, las redes sociales comparan a Meta con un “penalti fallado”, creyendo que después de Llama 2/3, no evaluó correctamente el valor de los colaboradores, siempre pagando en exceso pero luchando por lograr un progreso real, lo que sugiere los desafíos de Meta en la gestión de talentos de AI y la ejecución estratégica. (Fuente: source, source)

Marketing de AI y aplicación de roles de AI: Elon Musk añadió nuevos atuendos al personaje de AI Ani en Grok y le creó una cuenta de Twitter independiente, lo que representa una nueva estrategia para utilizar avatares virtuales de AI para marketing e interacción con el usuario. Al mismo tiempo, las redes sociales discuten que los productos de AI pueden mejorar la calidad del producto consumiendo más tokens, enfatizando la relación directa entre el rendimiento del modelo de AI y la experiencia del producto. (Fuente: source, source)

老马玩明白了阿,开始给 grok 里的 ani 添加更多新衣服,而且这个角色还有个单独的推特号

💡 Otros

Tecnología robótica y expansión de escenarios de aplicación: Astronautas de la Estación Espacial Internacional operaron robots de forma remota para explorar entornos simulados, Unitree Robotics lanzó el primer robot humanoide con voltereta lateral del mundo, Unitree G1, que paseó por un centro comercial, y un robot cocinó arroz frito en 90 segundos. Estos eventos demuestran el amplio potencial de aplicación de la tecnología robótica en la exploración espacial, el movimiento en entornos complejos, los servicios domésticos y la automatización de restaurantes. (Fuente: source, source, source, source)

Avances en la tecnología de comunicación celular espacial: La “red en una caja” de Nokia funcionó con éxito en la Luna durante 25 minutos, verificando la fiabilidad de la tecnología celular en el duro entorno espacial y proporcionando una base de comunicación clave para la futura economía lunar y la exploración del espacio profundo. Esta tecnología apoyará las actividades de los astronautas, la colaboración robótica y proporcionará transmisión de audio y video en tiempo real de alta resolución, siendo crucial para lograr una presencia lunar permanente y la exploración del espacio profundo. (Fuente: source)

Forging connections in space with cellular technology

AI y ciudades inteligentes, medicina, transporte: Se discute la “ciudad inteligente” como una tendencia futura de la vida urbana, que integra el Internet de las Cosas y las tecnologías emergentes. Al mismo tiempo, la tecnología robótica en el campo de la atención médica (como la clasificación de medicamentos en hospitales) y los autobuses autónomos (software Oxa Driver) también han logrado avances, lo que presagia que la AI y los robots desempeñarán un papel más importante en los servicios urbanos, la gestión de la salud y el transporte. (Fuente: source, source, source)