Palabras clave:OpenAI, hardware de IA, Gemini Robotics, Anthropic, modelos de IA, seguridad de IA, negocios de IA, aplicaciones de IA, caso de infracción de hardware de IA de OpenAI, Gemini Robotics On-Device, uso justo de derechos de autor de Anthropic, datos de entrenamiento de modelos de IA, tecnología de puerta trasera de seguridad de IA

🔥 Enfoque

OpenAI acusada de robar tecnología y marca registrada, mal comienzo para su primer hardware de IA: La empresa iyO demanda a OpenAI y a su empresa de hardware adquirida, io (fundada por el exdiseñador de Apple Jony Ive), alegando infracción de marca registrada y robo de tecnología en el desarrollo de hardware de IA. iyO afirma que OpenAI, durante las negociaciones de colaboración y las pruebas técnicas, obtuvo tecnologías clave como sus algoritmos de biodetección y cancelación de ruido para auriculares personalizados, y los utilizó en el desarrollo de los dispositivos de IA de io. OpenAI niega la infracción, afirmando que su primer hardware no es un dispositivo intraauricular y que tiene un posicionamiento de producto diferente al de iyO. Documentos judiciales revelan que OpenAI probó la tecnología de iyO y rechazó su oferta de adquisición de 200 millones de dólares. Actualmente, el tribunal ha ordenado a OpenAI retirar los videos promocionales relacionados. Este asunto ensombrece los planes de hardware de OpenAI y también destaca la intensa competencia y los riesgos legales potenciales en el campo del hardware de IA (Fuente: 36氪 & 36氪)

Primer hardware de IA de OpenAI atacado, demandado por infracción de marca y robo de tecnología, documentos judiciales expuestos

Google lanza el modelo VLA de robótica en dispositivo Gemini Robotics On-Device, impulsando la “Androidización” de los robots: Google ha presentado Gemini Robotics On-Device, su primer modelo de visión-lenguaje-acción (VLA) que puede ejecutarse directamente en robots. Basado en Gemini 2.0, este modelo optimiza los requisitos de recursos computacionales, permitiendo a los robots adaptarse más rápidamente a nuevas tareas y entornos sin necesidad de conexión continua a internet, como doblar ropa o abrir bolsas. Junto con el Gemini Robotics SDK lanzado, los desarrolladores pueden ajustar rápidamente el modelo con 50-100 demostraciones para que los robots aprendan nuevas habilidades y probarlas en el simulador MuJoCo. Esta medida es vista por la industria como un paso clave para impulsar el “momento Android” de la robótica, con la expectativa de que los fabricantes de equipos originales (OEM) se centren en el hardware mientras Google proporciona el “cerebro” universal (Fuente: 36氪 & 36氪 & GoogleDeepMind)

Acaba de llegar el primer Gemini incorporado que puede ejecutarse localmente en un robot

El uso de libros con derechos de autor por Anthropic para entrenar modelos se considera “uso justo”: Un juez federal de EE. UU. ha dictaminado que el uso por parte de Anthropic de libros protegidos por derechos de autor para entrenar su modelo de IA Claude constituye un “uso justo” y, por lo tanto, es legal. El juez comparó el proceso de aprendizaje de los modelos de IA con la forma en que los humanos leen, memorizan y se inspiran en el contenido de los libros para crear, considerando “inimaginable” pagar por cada uso. Sin embargo, el tribunal investigará más a fondo si Anthropic obtuvo parte de los datos de entrenamiento a través de medios “piratas” y podría imponer una indemnización. Este fallo es significativo para la industria de la IA, ya que podría proporcionar una base legal para que otras empresas de IA utilicen material protegido por derechos de autor para entrenar modelos, pero también ha suscitado un mayor debate sobre la protección de los derechos de autor y los métodos de adquisición de datos de entrenamiento de IA (Fuente: Reddit r/ClaudeAI & xanderatallah & giffmana)

Un juez federal ha dictaminado que el uso de libros por parte de Anthropic para entrenar a Claude se considera uso justo y es legal según la ley de derechos de autor de EE. UU.

OpenAI desarrolla en secreto una suite ofimática, desafiando a Microsoft y Google: Según The Information, OpenAI planea integrar funciones de colaboración de documentos y mensajería instantánea en ChatGPT, compitiendo directamente con Microsoft Office y Google Workspace. Esta medida tiene como objetivo convertir a ChatGPT en un “asistente personal superinteligente”, ampliando aún más sus aplicaciones en el mercado empresarial. OpenAI ya ha presentado propuestas de diseño relacionadas y podría desarrollar funciones complementarias como el almacenamiento de archivos. Esto sin duda intensificará la competencia entre OpenAI y su principal inversor, Microsoft, especialmente en el campo de los asistentes de IA empresariales, donde Microsoft Copilot ya enfrenta un fuerte desafío por parte de ChatGPT. Esta acción de OpenAI también podría erosionar aún más la cuota de mercado de Google en los sectores de ofimática y búsqueda (Fuente: 36氪 & 36氪 & steph_palazzolo)

OpenAI irrumpe en la ofimática de IA, Microsoft y Google podrían enfrentar una gran reorganización, un plan secreto de un año expuesto, el imperio de Office en peligro

🎯 Tendencias

Microsoft lanza el pequeño modelo de lenguaje en dispositivo Mu, potenciando la agentificación de la configuración de Windows: Microsoft ha presentado Mu, un pequeño modelo de lenguaje de 330M optimizado específicamente para dispositivos, con el objetivo de mejorar la experiencia interactiva de la interfaz de configuración de Windows 11. Los usuarios pueden invocar directamente funciones de configuración relevantes mediante consultas en lenguaje natural (como “mi puntero del ratón es demasiado pequeño”), y Mu puede mapearlas a operaciones específicas y ejecutarlas automáticamente. El modelo, basado en la arquitectura Transformer, está optimizado para un funcionamiento eficiente en NPU, admite la ejecución local y tiene una velocidad de respuesta de más de 100 tokens por segundo, con un rendimiento cercano al modelo Phi pero con solo una décima parte de su tamaño. Esta función es actualmente compatible con la versión preliminar de Windows 11 para Copilot+ PC y se extenderá a más dispositivos en el futuro (Fuente: 36氪)

Windows incorpora el último modelo Mu de desarrollo propio de Microsoft, una frase para gestionar todas las configuraciones del sistema

UC Berkeley y otros proponen el marco LeVERB, permitiendo a robots humanoides lograr control de movimiento de cuerpo completo zero-shot: Un equipo de investigación de instituciones como UC Berkeley y CMU ha lanzado el marco LeVERB, que permite a robots humanoides (como el Unitree G1) lograr una implementación zero-shot basada en el entrenamiento con datos simulados. A través de la percepción visual de nuevos entornos y la comprensión de instrucciones lingüísticas, pueden completar directamente movimientos de cuerpo completo como “sentarse”, “pasar por encima de una caja” o “tocar la puerta”. El marco, mediante un sistema dual jerárquico (comprensión visual-lingüística de alto nivel LeVERB-VL y experto en movimiento de cuerpo completo de bajo nivel LeVERB-A), utiliza un “vocabulario de acciones latentes” como interfaz para cerrar la brecha entre la comprensión semántica visual y el movimiento físico. El LeVERB-Bench lanzado conjuntamente es el primer benchmark de bucle cerrado visual-lingüístico “de simulación a realidad” para el control de cuerpo completo de robots humanoides. Los experimentos muestran una tasa de éxito zero-shot del 80% en tareas simples de navegación visual y una tasa de éxito general de tareas del 58.5%, superando significativamente los esquemas VLA tradicionales (Fuente: 36氪)

Robot humanoide supera por primera vez la brecha entre percepción visual y movimiento, doctor chino de UC Berkeley hace que Unitree G1 lo demuestre en vivo

Actualización del modelo Kimi VL A3B Thinking de Moonshot AI (Kimi), compatible con mayor resolución y procesamiento de video: Moonshot AI (Kimi) ha actualizado su modelo Kimi VL A3B Thinking, un modelo de lenguaje visual (VLM) pequeño de nivel SOTA, bajo licencia MIT. La nueva versión se ha optimizado en varios aspectos: la longitud de pensamiento se ha reducido en un 20% (reduciendo el consumo de tokens de entrada), admite el procesamiento de video y ha logrado una puntuación SOTA de 65.2 en VideoMMMU, y también admite una resolución 4 veces mayor (1792×1792), mejorando el rendimiento en tareas de OS-agent (como ScreenSpot-Pro, que alcanza 52.8). El modelo también ha mostrado mejoras significativas en benchmarks como MathVista y MMMU-Pro, y mantiene una excelente capacidad de comprensión visual general, destacando en razonamiento visual, localización de UI Agent y procesamiento de video y PDF (Fuente: huggingface)

huggingface

El modelo de IA DAMO GRAPE de DAMO Academy logra un avance en la identificación temprana de cáncer gástrico mediante TC sin contraste: El Hospital Oncológico de la Provincia de Zhejiang y DAMO Academy de Alibaba han desarrollado conjuntamente el modelo de IA DAMO GRAPE, que por primera vez a nivel mundial logra identificar el cáncer gástrico temprano utilizando imágenes de tomografía computarizada (TC) sin contraste. Este logro, publicado en Nature Medicine, se basa en el análisis de datos clínicos a gran escala de casi 100,000 personas, demostrando una sensibilidad y especificidad del 85.1% y 96.8% respectivamente, superando significativamente a los médicos humanos. Esta tecnología puede ayudar a los médicos a detectar lesiones tempranas meses antes de que los pacientes presenten síntomas evidentes, aumentando drásticamente la tasa de detección de cáncer gástrico, especialmente significativo para pacientes asintomáticos. Actualmente, el modelo se ha implementado en Zhejiang, Anhui y otros lugares, y se espera que cambie el modelo de detección de cáncer gástrico, reduzca costos y aumente la tasa de popularización (Fuente: 36氪)

¡Esta IA puede salvar vidas! Detecta lesiones de cáncer gástrico con 6 meses de antelación, superando el conocimiento de imágenes médicas, DAMO Academy lo ha logrado

Goldman Sachs implementa globalmente su asistente de IA “GS AI Assistant” para todos sus empleados: Goldman Sachs ha anunciado la implementación de su asistente de IA de desarrollo propio, “GS AI Assistant”, para sus 46,500 empleados en todo el mundo. Se utilizará para procesar resúmenes de documentos, análisis de datos, redacción de contenido y traducciones multilingües en tareas diarias. El objetivo es mejorar la eficiencia operativa y permitir que los empleados se concentren en trabajos estratégicos y creativos, en lugar de reemplazar puestos. Este asistente forma parte de la plataforma GS AI de Goldman Sachs, que también incluye herramientas como Banker Copilot, cubriendo múltiples módulos de negocio como banca de inversión e investigación. Los datos preliminares muestran que las herramientas de IA aumentan la eficiencia en la finalización de tareas en un promedio de más del 20%. Goldman Sachs enfatiza que la IA es un “modelo multiplicador”, que amplía las capacidades a través de la colaboración hombre-máquina y refuerza el cumplimiento y la gobernanza en la implementación de la IA (Fuente: 36氪)

Los modelos de generación de imágenes Imagen 4 e Imagen 4 Ultra de Google se lanzan en AI Studio y Gemini API: Google ha anunciado que sus modelos de generación de imágenes más recientes, Imagen 4 e Imagen 4 Ultra, ya están disponibles en Google AI Studio y Gemini API. Los usuarios pueden probar estos modelos de forma gratuita en AI Studio y acceder a ellos a través de la API en modo de vista previa de pago. Esto marca un mayor fortalecimiento de las capacidades de IA multimodal de Google, proporcionando a desarrolladores y creadores herramientas de generación de imágenes más potentes (Fuente: 36氪 & op7418 & osanseviero)

Google lanza modelo VLA en dispositivo, nace el Android para robots, 50 demostraciones para aprender nuevas acciones

Cambio de tendencia en el mercado de teléfonos con IA: del auge de los grandes modelos propios a la adopción de terceros y la innovación en funciones prácticas: En la segunda mitad de 2024, el enfoque de la competencia de los fabricantes de teléfonos inteligentes en el campo de la IA ha pasado de la comparación de parámetros y potencia de cálculo de los grandes modelos de desarrollo propio, a la conexión con modelos de código abierto maduros de terceros como DeepSeek, y a centrarse en resolver funciones de IA prácticas para escenarios de alta frecuencia del usuario. Por ejemplo, el recorte mágico de vivo s30, la puerta arbitraria de Honor, el resumen de llamadas con IA de OPPO, todos abordan puntos débiles del usuario en escenarios específicos. Al mismo tiempo, los fabricantes construyen barreras de experiencia a través de la combinación de software y hardware (como el ecosistema HarmonyOS de Huawei, el seguimiento ocular de Honor). “IA + Imagen” se ha convertido en la clave para destacar, con la serie Pura 80 de Huawei reduciendo significativamente el umbral de la fotografía profesional a través de funciones como la composición asistida por IA y las tarjetas de color personalizadas. Esto marca que los teléfonos con IA están pasando de la ostentación tecnológica a una etapa que pone más énfasis en la experiencia real del usuario y la creación de valor (Fuente: 36氪)

Después del enfriamiento de los grandes modelos, ¿cómo están los teléfonos con IA?

Snowflake AI Research publica la tecnología Arctic Long Sequence Training (ALST): Stas Bekman anuncia el resultado de su primer proyecto en Snowflake AI Research: Arctic Long Sequence Training (ALST). ALST es un conjunto de tecnologías modulares y de código abierto capaces de entrenar secuencias de hasta 15 millones de tokens en 4 nodos H100, utilizando completamente Hugging Face Transformers y DeepSpeed, sin necesidad de código de modelo personalizado. La tecnología tiene como objetivo hacer que el entrenamiento de secuencias largas sea rápido, eficiente y fácil de implementar en nodos de GPU e incluso en GPU individuales. El artículo relacionado se ha publicado en arXiv, y una entrada de blog presenta la inferencia de LLM de baja latencia Ulysses (Fuente: StasBekman & cognitivecompai)

StasBekman

La Universidad de Tsinghua presenta LongWriter-Zero: un modelo de generación de texto largo entrenado puramente con RL: El laboratorio KEG de la Universidad de Tsinghua ha lanzado LongWriter-Zero, un modelo de lenguaje de 32B parámetros entrenado completamente mediante aprendizaje por refuerzo (RL), capaz de manejar párrafos de texto coherentes de más de 10,000 tokens. El modelo se basa en Qwen2.5-32B-base y utiliza una estrategia GRPO (Generalized Reinforcement Learning with Policy Optimization) multirecompensa, optimizada para longitud, fluidez, estructura y no redundancia, y aplica la ejecución de formato forzada mediante Format RM. Los modelos, conjuntos de datos y artículos relacionados están disponibles en Hugging Face (Fuente: _akhaliq)

Google lanza el modelo de lenguaje visual MedGemma para el sector médico: Google ha presentado MedGemma, un potente modelo de lenguaje visual (VLM) diseñado específicamente para el sector de la salud, construido sobre la arquitectura Gemma 3. LearnOpenCV lo ha analizado en detalle, examinando su tecnología central, casos de aplicación práctica, implementación de código y rendimiento. MedGemma tiene como objetivo impulsar el desarrollo de herramientas de IA clínica y demostrar el potencial de los VLM para transformar la atención médica (Fuente: LearnOpenCV)

Google DeepMind lanza el modelo de incrustación de video VideoPrism: Google DeepMind ha presentado VideoPrism, un modelo para generar incrustaciones de video. Estas incrustaciones se pueden utilizar para tareas como clasificación de video, recuperación de video y localización de contenido. El modelo tiene una buena adaptabilidad y se puede ajustar para tareas específicas. El modelo, el artículo y el repositorio de código de GitHub están disponibles públicamente (Fuente: osanseviero & mervenoyann)

Prime Intellect lanza el conjunto de datos SYNTHETIC-2 y un proyecto de generación de datos a escala planetaria: Prime Intellect ha presentado su conjunto de datos de inferencia abierta de próxima generación, SYNTHETIC-2, y ha iniciado un proyecto de generación de datos sintéticos a escala planetaria. El proyecto utiliza su pila de inferencia P2P y el modelo DeepSeek-R1-0528 para validar trayectorias en las tareas de aprendizaje por refuerzo más difíciles, con el objetivo de contribuir al desarrollo de AGI a través de contribuciones computacionales abiertas y sin permisos (Fuente: huggingface & tokenbender)

Los LLM pueden programarse mediante retropropagación, actuando como intérpretes de programas difusos y bases de datos: Un nuevo artículo preimpreso señala que los modelos de lenguaje grandes (LLM) pueden programarse mediante retropropagación (backprop), lo que les permite actuar como intérpretes de programas difusos y bases de datos. Después de ser “programados” mediante la predicción del siguiente token, estos modelos pueden recuperar, evaluar e incluso combinar programas en tiempo de prueba, sin necesidad de ver ejemplos de entrada/salida. Esto revela un nuevo potencial de los LLM en la comprensión y ejecución de programas (Fuente: _rockt)

_rockt

ArcInstitute lanza el modelo de estado de 600 millones de parámetros SE-600M: ArcInstitute ha lanzado un modelo de estado de 600 millones de parámetros llamado SE-600M, y ha hecho públicos su artículo preimpreso, la página del modelo en Hugging Face y el repositorio de código en GitHub. Este modelo tiene como objetivo explorar y comprender la representación y transición de estados en sistemas complejos, proporcionando nuevas herramientas y recursos para la investigación en campos relacionados (Fuente: huggingface)

Nueva investigación revela cómo los modelos de lenguaje rastrean los estados mentales de los personajes en las historias (Theory of Mind): Una nueva investigación, mediante ingeniería inversa del modelo Llama-3-70B-Instruct, explora cómo rastrea los estados mentales de los personajes en tareas simples de seguimiento de creencias. El estudio descubrió sorprendentemente que el modelo depende en gran medida de un concepto similar a los punteros en el lenguaje C para lograr esta función. Este trabajo ofrece una nueva perspectiva sobre los mecanismos internos de los grandes modelos de lenguaje al procesar tareas relacionadas con la “Teoría de la Mente” (Fuente: menhguin)

menhguin

SynthLabs propone el método ALP, entrenando un evaluador de dificultad implícito mediante RL para optimizar la asignación de tokens del modelo: El nuevo método ALP (Adaptive Learning Policy) de SynthLabs monitorea la tasa de resolución durante el rollout de aprendizaje por refuerzo (RL) y aplica una penalización de dificultad inversa durante el entrenamiento de RL. Esto permite que el modelo aprenda un evaluador de dificultad implícito, lo que le permite asignar hasta 5 veces más tokens a problemas difíciles que a problemas simples, reduciendo el uso total de tokens en un 50%. El método tiene como objetivo mejorar la eficiencia del modelo y la inteligencia en la asignación de recursos al resolver problemas de diferente dificultad (Fuente: lcastricato)

lcastricato

Nueva investigación: cuantificación de la diversidad de generación de LLM y el impacto de la alineación mediante el factor de ramificación (BF): Una nueva investigación introduce el factor de ramificación (Branching Factor, BF) como una métrica independiente del token para cuantificar la concentración de probabilidad en la distribución de salida de los LLM, evaluando así la diversidad del contenido generado. El estudio encontró que el BF generalmente disminuye con el proceso de generación, y el ajuste de alineación reduce significativamente el BF (casi un orden de magnitud), lo que explica por qué los modelos alineados son insensibles a las estrategias de decodificación. Además, CoT estabiliza la generación al empujar la inferencia hacia etapas posteriores de bajo BF. El estudio plantea la hipótesis de que el ajuste de alineación guía al modelo hacia trayectorias de baja entropía ya existentes en el modelo base (Fuente: arankomatsuzaki)

Nuevo marco Weaver combina múltiples validadores débiles para mejorar la precisión en la selección de respuestas de LLM: Para abordar el problema de que los LLM pueden generar respuestas correctas pero tienen dificultades para seleccionar la mejor, los investigadores han presentado el marco Weaver. Este marco combina las salidas de múltiples validadores débiles (como modelos de recompensa y árbitros LM) para crear una señal de validación más fuerte. Utilizando métodos de supervisión débil para estimar la precisión de cada validador, Weaver puede fusionar sus salidas en una puntuación unificada, reflejando así con mayor precisión la calidad de la respuesta real. Los experimentos demuestran que, utilizando modelos de menor costo y sin inferencia como Llama 3.3 70B Instruct, Weaver puede alcanzar una precisión de nivel o3-mini (Fuente: realDanFu & simran_s_arora & teortaxesTex & charles_irl & togethercompute)

realDanFu

La peculiaridad de la investigación en IA: alta inversión computacional a cambio de ideas concisas y profundas: Jason Wei señala una característica de la investigación en IA: los investigadores deben invertir grandes cantidades de recursos computacionales en experimentos, para finalmente aprender ideas centrales que podrían resumirse en unas pocas frases simples, como “un modelo entrenado en A puede generalizar si se añade B” o “X es una buena forma de diseñar recompensas”. Sin embargo, una vez que realmente encuentran y comprenden profundamente estas ideas clave (que pueden ser solo unas pocas), los investigadores pueden tomar una gran ventaja en el campo. Esto revela que el valor de la perspicacia en la investigación de IA supera con creces la mera acumulación computacional (Fuente: _jasonwei)

Se presta atención a los métodos de adquisición de datos de entrenamiento de modelos de IA: se informa que Anthropic compró libros físicos para escanearlos y usarlos en el entrenamiento de Claude: Se ha informado que Anthropic compró millones de libros físicos para escanearlos digitalmente y usarlos en el entrenamiento de su modelo de IA Claude. Esta acción ha provocado un amplio debate sobre el origen de los datos de entrenamiento de IA, los derechos de autor y los límites del “uso justo”. Aunque algunos argumentan que esto contribuye a la difusión del conocimiento y al desarrollo de la IA, también ha generado preocupaciones sobre los derechos de los propietarios de los derechos de autor y el destino de la forma física de los libros. Este asunto también refleja indirectamente la importancia de los datos de entrenamiento de alta calidad para el desarrollo de modelos de IA, así como los desafíos que enfrentan las empresas de IA en la adquisición de datos y las estrategias que adoptan (Fuente: Reddit r/ChatGPT & Dorialexander & jxmnop & nptacek & giffmana & imjaredz & teortaxesTex & cloneofsimo & menhguin & vikhyatk & nearcyan & kylebrussell)

Anthropic compró millones de libros físicos impresos para escanearlos digitalmente para Claude

Teoría del “invierno”: la velocidad de escalado de la IA se ralentiza, podrían pasar años antes de un nuevo avance de nivel: El investigador de aprendizaje automático Nathan Lambert señala que el crecimiento en la escala de parámetros de los modelos lanzados por los principales laboratorios de IA en 2025 se ha estancado, como Claude 4 y Claude 3.5 API con precios consistentes, y OpenAI solo lanzando una versión preliminar de investigación de GPT-4.5. Él cree que la mejora de la capacidad del modelo depende más de la expansión en tiempo de inferencia que simplemente de aumentar el tamaño del modelo, y la industria ya ha formado estándares para modelos micro/pequeños/estándar/grandes. La expansión a un nuevo nivel de escala podría llevar años, e incluso depender del proceso de comercialización de la IA. El escalado como factor de diferenciación de productos ya ha perdido efectividad en 2024, pero la ciencia del preentrenamiento en sí misma sigue siendo importante, como lo demuestra el progreso de Gemini 2.5 (Fuente: 36氪)

Revisión semestral de los grandes modelos de 2025: o3, agent y scaling law

Nuevo artículo sobre seguridad de IA “Winter Soldier”: puertas traseras en modelos de lenguaje sin entrenamiento, detección de robo de datos: Un nuevo artículo sobre seguridad de IA titulado “Winter Soldier” propone un método para implantar puertas traseras en modelos de lenguaje (LM) sin entrenarlos específicamente para el comportamiento de la puerta trasera. La técnica también se puede utilizar para detectar si un LM de caja negra ha sido entrenado con datos protegidos. Esto revela la realidad y la potencia del envenenamiento indirecto de datos, planteando nuevos desafíos y reflexiones sobre la seguridad de los modelos de IA y la protección de la privacidad de los datos (Fuente: TimDarcet)

TimDarcet

🧰 Herramientas

Warp lanza el entorno de desarrollo Agentic 2.0, creando una plataforma integral para el desarrollo de agentes inteligentes: Warp ha lanzado la versión 2.0 de su entorno de desarrollo Agentic, promocionado como la primera plataforma integral para el desarrollo de agentes inteligentes. Esta plataforma ocupa el primer lugar en el benchmark Terminal-Bench y ha obtenido una puntuación del 71% en SWE-bench Verified. Sus características principales incluyen soporte multihilo, permitiendo que múltiples agentes construyan funciones, depuren y publiquen código en paralelo simultáneamente. Los desarrolladores pueden proporcionar contexto a los agentes a través de texto, archivos, imágenes, URL y otros medios, y admite la entrada de voz para instrucciones complejas. Los agentes pueden buscar automáticamente en todo el repositorio de código, invocar herramientas CLI, consultar la documentación de Warp Drive y utilizar servidores MCP para obtener contexto, con el objetivo de mejorar significativamente la eficiencia del desarrollo (Fuente: _akhaliq & op7418)

SGLang añade soporte para backend de Hugging Face Transformers: SGLang ha anunciado que ahora es compatible con Hugging Face Transformers como su backend. Esto significa que los usuarios pueden ejecutar cualquier modelo compatible con Transformers y aprovechar las capacidades de inferencia de alta velocidad y nivel de producción que ofrece SGLang, sin necesidad de soporte nativo del modelo, logrando una funcionalidad plug-and-play. Esta actualización amplía aún más el rango de aplicabilidad y la facilidad de uso de SGLang, facilitando a los desarrolladores la implementación y optimización de diversas tareas de inferencia de grandes modelos (Fuente: huggingface)

huggingface

LlamaIndex lanza un servidor MCP de código abierto para la selección de currículums, operable dentro de Cursor: LlamaIndex ha publicado un servidor MCP (Model Context Protocol) de código abierto para la selección de currículums, que permite a los usuarios filtrar currículums directamente en herramientas de desarrollo como Cursor. Esta herramienta, construida por miembros del equipo de LlamaIndex durante un hackathon interno, puede conectarse al índice de currículums de LlamaCloud y a OpenAI para un análisis inteligente de candidatos. Sus funciones incluyen: extracción automática de requisitos de trabajo estructurados de cualquier descripción de puesto, uso de búsqueda semántica para encontrar y clasificar candidatos de la base de datos de currículums de LlamaCloud, calificación de candidatos según requisitos de trabajo específicos con explicaciones detalladas, y búsqueda de candidatos por habilidades con un desglose completo de cualificaciones. El servidor se integra sin problemas con las herramientas de desarrollo existentes a través de MCP, admite la implementación local para desarrollo o la escalabilidad en Google Cloud Run para entornos de producción (Fuente: jerryjliu0)

AssemblyAI anuncia la disponibilidad de Slam-1 y LeMUR en los endpoints de API de la UE, garantizando la conformidad de los datos: AssemblyAI ha anunciado que su servicio de reconocimiento de voz líder en la industria, Slam-1, y sus potentes capacidades de inteligencia de audio, LeMUR, ya están disponibles a través de sus endpoints de API de la Unión Europea. Esto significa que los clientes europeos pueden utilizar ambos servicios cumpliendo plenamente con las regulaciones de residencia de datos como el GDPR, sin comprometer el rendimiento. El nuevo endpoint es compatible con los modelos Claude 3 y ofrece funciones como resumen de audio, preguntas y respuestas y extracción de elementos de acción, manteniendo la misma estructura de API para un costo de migración mínimo. Esta medida resuelve el dilema de los usuarios europeos entre la conformidad y las capacidades de IA de voz de vanguardia (Fuente: AssemblyAI)

Lanzamiento de la extensión de Chrome OpenMemory: comparte contexto universal entre asistentes de IA: Se ha lanzado una extensión de Chrome llamada OpenMemory, que permite a los usuarios compartir memoria o contexto entre múltiples asistentes de IA como ChatGPT, Claude, Perplexity, Grok, Gemini, etc. La herramienta tiene como objetivo proporcionar una experiencia de sincronización de contexto universal, permitiendo a los usuarios mantener la coherencia de la conversación y la persistencia de la información al cambiar entre diferentes asistentes de IA. OpenMemory es gratuita y de código abierto, ofreciendo una nueva comodidad para gestionar y utilizar el historial de interacción con la IA (Fuente: yoheinakajima)

LlamaIndex lanza una plantilla Next.js para servidor MCP compatible con Claude, con soporte para OAuth 2.1: LlamaIndex ha publicado un nuevo repositorio de plantillas de código abierto que permite a los desarrolladores construir servidores MCP (Model Context Protocol) compatibles con Claude utilizando Next.js, con soporte completo para OAuth 2.1. El proyecto tiene como objetivo simplificar la creación de servidores MCP remotos que se integren sin problemas con asistentes de IA como Claude.ai, Claude Desktop, Cursor, VS Code, etc. La plantilla maneja el complejo trabajo de autenticación y protocolo, siendo adecuada para construir herramientas personalizadas para Claude o integraciones a nivel empresarial, y admite la implementación local o su uso en entornos de producción (Fuente: jerryjliu0)

jerryjliu0

LangGraph propone una nueva solución para la optimización de la gestión de contexto, en respuesta al auge de la “ingeniería de contexto”: Con la “ingeniería de contexto” convirtiéndose en un tema candente en el campo de la IA, LangChain considera que su producto LangGraph es ideal para implementar una ingeniería de contexto completamente personalizada. Para mejorar aún más la experiencia, el equipo de LangChain (especialmente Sydney Runkle) ha propuesto una iniciativa destinada a simplificar la gestión de contexto en LangGraph. La propuesta se ha publicado en los issues de GitHub, buscando comentarios de la comunidad, con el objetivo de hacer que LangGraph sea más eficiente y conveniente al manejar las crecientes y complejas necesidades de gestión de contexto (Fuente: LangChainAI & hwchase17 & hwchase17)

LangChainAI

OpenAI lanza conectores de almacenamiento en la nube como Google Drive para ChatGPT: OpenAI ha anunciado el lanzamiento de conectores para Google Drive, Dropbox, SharePoint y Box para usuarios de ChatGPT Pro (excluyendo el Espacio Económico Europeo, Suiza y el Reino Unido). Estos conectores permiten a los usuarios acceder directamente a su contenido personal o laboral en estos servicios de almacenamiento en la nube desde ChatGPT, proporcionando así un contexto único para el trabajo diario. Anteriormente, estos conectores estaban disponibles en modo de investigación profunda (deep research) para usuarios Plus, Pro, Team, Enterprise y Edu, y admitían diversas fuentes internas como Outlook, Teams, Gmail, Linear, etc. (Fuente: openai)

Lanzamiento de Agent Arena: plataforma de evaluación de agentes de IA mediante crowdsourcing: Se ha lanzado una nueva plataforma llamada Agent Arena, que es una plataforma de pruebas mediante crowdsourcing para evaluar agentes de IA en entornos reales, posicionándose de manera similar a Chatbot Arena. Los usuarios pueden realizar pruebas comparativas entre agentes de IA de forma gratuita en la plataforma, y los responsables de la plataforma asumen los costos de inferencia. La herramienta tiene como objetivo ayudar a los usuarios y desarrolladores a comparar de manera más intuitiva el rendimiento de diferentes agentes de IA (como GPT-4o u o3) en tareas específicas (Fuente: Reddit r/LocalLLaMA)

Actualización de Yuga Planner: combina LlamaIndex y TimefoldAI para la descomposición de tareas y la programación automática: Yuga Planner es una herramienta que combina LlamaIndex y Nebius AI Studio para la descomposición de tareas, y utiliza TimefoldAI para la programación automática de tareas. Después de que el usuario introduce cualquier descripción de tarea, Yuga Planner la descompone en tareas operables y programa automáticamente un plan de ejecución. La herramienta se actualizó después del hackathon de Gradio y Hugging Face, con el objetivo de mejorar la eficiencia en la gestión y ejecución de tareas complejas (Fuente: _akhaliq)

NUS y otras instituciones proponen LLMs de arrastrar y soltar (DnD), logrando una rápida adaptación a tareas sin ajuste fino: Investigadores de la Universidad Nacional de Singapur, la Universidad de Texas en Austin y otras instituciones han propuesto un nuevo método llamado “LLMs de arrastrar y soltar” (Drag-and-Drop LLMs, DnD). Este método genera rápidamente parámetros del modelo (matrices de peso LoRA) basados en prompts, permitiendo que los LLM se adapten a tareas específicas sin el ajuste fino tradicional. DnD, mediante un codificador de texto ligero y un decodificador superconvolucional en cascada, genera pesos adaptados en segundos basándose únicamente en prompts de tareas sin etiquetar, con un costo computacional 12,000 veces menor que el ajuste fino completo. Además, muestra un rendimiento superior en benchmarks de razonamiento de sentido común, matemáticas, codificación y multimodalidad en aprendizaje zero-shot, superando a los modelos LoRA que requieren entrenamiento y demostrando una fuerte capacidad de generalización (Fuente: 36氪)

Los LLM entran en la "era del arrastrar y soltar", solo con Prompts, personaliza un gran modelo en segundos, eficiencia aumentada 12000 veces

📚 Aprendizaje

Jim Zemlin, fundador de la Linux Foundation: Los modelos fundacionales de IA están destinados a ser completamente de código abierto, el campo de batalla está en las aplicaciones: Jim Zemlin, director ejecutivo de la Linux Foundation, en una conversación con Tencent Technology, afirmó que la pila tecnológica de los modelos fundacionales en la era de la IA (datos, pesos, código) inevitablemente se moverá hacia el código abierto, y la verdadera competencia y creación de valor ocurrirán en la capa de aplicación. Citó a DeepSeek como ejemplo, señalando que incluso las pequeñas empresas pueden construir modelos de código abierto de alto rendimiento a través de la innovación (como la destilación de conocimiento), cambiando el panorama de la industria. Zemlin cree que el código abierto puede acelerar la innovación, reducir costos y atraer a los mejores talentos. Aunque OpenAI, Anthropic y otros actualmente adoptan estrategias de código cerrado para los modelos más avanzados, también señaló movimientos positivos como el protocolo MCP de código abierto de Anthropic y predijo que más componentes básicos se abrirán en el futuro. Enfatizó que la “ventaja competitiva” de las empresas residirá más en experiencias de usuario únicas y servicios de alto nivel, en lugar del modelo subyacente en sí (Fuente: 36氪)

El ingeniero de IA Barr Yaron comparte los resultados de una encuesta a profesionales de la IA: Barr Yaron realizó una encuesta a cientos de ingenieros que trabajan en IA, cubriendo los modelos que utilizan, si usan bases de datos vectoriales dedicadas, e incluso incluyendo opiniones sobre la futura popularidad de las novias de IA. Los resultados mostraron que LangChain es actualmente el marco de construcción de aplicaciones GenAI más popular, utilizado por más del doble de personas que el segundo lugar. Estos datos revelan las preferencias de herramientas y las tendencias tecnológicas actuales en el campo del desarrollo de IA (Fuente: swyx & hwchase17 & hwchase17 & imjaredz)

hwchase17

El investigador de IA Nathan Lambert repasa los avances de la IA en el primer semestre de 2025: El investigador de aprendizaje automático Nathan Lambert repasa en su blog los importantes avances y tendencias en el campo de la IA durante el primer semestre de 2025. Mencionó especialmente el avance del modelo o3 de OpenAI en capacidades de búsqueda, considerando que demuestra el progreso técnico en la mejora de la fiabilidad del uso de herramientas en modelos de inferencia, describiendo su búsqueda como un “perro de caza que huele a su presa”. También predijo que los futuros modelos de IA se parecerán más a Claude 4 de Anthropic, es decir, aunque la mejora en los benchmarks sea pequeña, el progreso en la aplicación real será enorme, y pequeños ajustes pueden hacer que agentes como Claude Code sean más fiables. Al mismo tiempo, observó una desaceleración en el crecimiento de la scaling law del preentrenamiento, y la expansión a un nuevo nivel de escala podría tardar años en realizarse, o incluso no realizarse en absoluto, dependiendo del proceso de comercialización de la IA (Fuente: 36氪)

Interpretación de “Inteligencia+” en la era de la IA: qué añadir y cómo añadirlo: Tencent Research Institute publicó un artículo analizando en profundidad la estrategia “Inteligencia+”, señalando que su núcleo es la revolución cognitiva y la reestructuración ecológica. El artículo sostiene que “Inteligencia+” requiere añadir nueva cognición (abrazar la revolución paradigmática, la colaboración hombre-máquina, aceptar la incertidumbre), nuevos datos (romper los silos de datos, explotar los datos oscuros, construir volantes de datos) y nueva tecnología (motores de conocimiento, agentes de IA). A nivel de implementación, propone un método de cinco pasos: expandir la inteligencia en la nube (relación costo-beneficio y actualización continua), reconstruir la confianza digital (con SLA como vara de medir), cultivar talento tipo π (interdisciplinario en tecnología y negocios), promover que todo el personal sea AI Native (usando cerebro y manos), y establecer nuevos mecanismos (reestructurar el ADN organizacional). El objetivo final es lograr un nuevo paradigma de “Inteligencia como Servicio”, donde el Token (cantidad de palabras usadas) podría convertirse en un nuevo indicador para medir el nivel de inteligencia (Fuente: 36氪)

Interpretación detallada de "Inteligencia+": ¿qué añadir, cómo añadirlo?

AllenAI lanza el benchmark de razonamiento matemático exploratorio OMEGA: AllenAI ha lanzado en Hugging Face el nuevo benchmark de matemáticas OMEGA-explorative. Este benchmark tiene como objetivo probar las capacidades reales de razonamiento de los modelos de lenguaje grandes (LLM) en el campo de las matemáticas, proporcionando problemas de complejidad creciente para impulsar a los modelos más allá de la memorización y hacia un razonamiento exploratorio más profundo (Fuente: _akhaliq & Dorialexander)

Dorialexander

Técnicas de gestión de contexto/historial de conversación: convertir el historial de mensajes en cadenas para evitar alucinaciones de LLM: Brace, durante la construcción de un agente de codificación, descubrió que en procesos complejos de múltiples pasos y múltiples herramientas, pasar directamente el historial completo de mensajes al LLM (incluso dentro de la ventana de contexto) causaba problemas. Por ejemplo, el modelo podría alucinar herramientas que no son accesibles en el paso actual pero que aparecen en el historial, o ignorar las indicaciones del sistema en tareas de resumen y, en cambio, responder al contenido del historial de conversaciones. La solución es convertir todos los mensajes del historial de conversaciones en cadenas (por ejemplo, envolviendo el rol, el contenido y las llamadas a herramientas con etiquetas XML) y luego pasarlos al LLM a través de un único mensaje de usuario. Este método resolvió eficazmente el problema de la alucinación de herramientas y la omisión de las indicaciones del sistema, y se especula que la razón es evitar la posible interferencia del formato interno del historial de mensajes en plataformas como OpenAI/Anthropic (Fuente: hwchase17 & Hacubu)

Cohere Labs organiza una escuela de verano de aprendizaje automático en julio: La comunidad de ciencia abierta de Cohere Labs organizará una serie de escuelas de verano de aprendizaje automático en julio. El evento, organizado y presentado por Ahmad Mustafa, Kanwal Mehreen y Anas Zaf, tiene como objetivo proporcionar a los participantes recursos de aprendizaje y una plataforma de intercambio en el campo del aprendizaje automático (Fuente: sarahookr)

sarahookr

DeepLearning.AI recomienda un curso: Construcción de juegos impulsados por IA: DeepLearning.AI ha recomendado un curso corto sobre la construcción de juegos impulsados por IA. El curso enseñará a los alumnos cómo aprender el desarrollo de aplicaciones LLM mediante el diseño y desarrollo de juegos de IA basados en texto, incluyendo la creación de mundos de juego inmersivos, personajes e historias. Los alumnos también aprenderán a usar IA para convertir datos de texto en salida JSON estructurada para implementar mecánicas de juego (como sistemas de detección de inventario), y cómo usar herramientas como Llama Guard para implementar estrategias de seguridad y cumplimiento para el contenido de IA (Fuente: DeepLearningAI)

DeepLearningAI

DatologyAI lanza la serie “Seminarios de Verano sobre Datos”: DatologyAI ha anunciado el lanzamiento de la serie de “Seminarios de Verano sobre Datos”, invitando semanalmente a destacados investigadores a profundizar en temas de vanguardia relacionados con los datos, como el preentrenamiento, la gestión de datos, el diseño de conjuntos de datos y las leyes de escalado, los datos sintéticos y la alineación, la contaminación de datos y el desaprendizaje. Esta serie de eventos tiene como objetivo promover el intercambio de conocimientos y la comunicación en el campo de la ciencia de datos, y algunas presentaciones se grabarán y compartirán en YouTube (Fuente: code_star & code_star & code_star & code_star)

code_star

La Universidad Johns Hopkins lanza un nuevo curso sobre DSPy: La Universidad Johns Hopkins ha inaugurado un nuevo curso sobre DSPy. DSPy es un marco para la optimización algorítmica de prompts y pesos de modelos de lenguaje (LM), diseñado para ayudar a los desarrolladores a construir y optimizar aplicaciones LM de manera más sistemática. El lanzamiento de este curso indica la creciente influencia de DSPy en los círculos académicos e industriales, ofreciendo a los estudiantes la oportunidad de dominar esta tecnología de vanguardia (Fuente: lateinteraction)

lateinteraction

Artículo explora los puntos ciegos temporales de los modelos de lenguaje de video: Un artículo titulado “¿Ceguera Temporal: Por qué los Modelos de Video-Lenguaje no Pueden Ver lo que los Humanos Pueden?” explora las limitaciones actuales de los modelos de lenguaje de video en la comprensión y el procesamiento de la información temporal. La investigación podría revelar las deficiencias de estos modelos para capturar relaciones secuenciales, el orden de los eventos y los cambios dinámicos, y analizar sus diferencias con la percepción visual humana en la dimensión temporal, ofreciendo nuevas direcciones de investigación para mejorar los modelos de comprensión de video (Fuente: dl_weekly)

💼 Negocios

Meta invierte 14.3 mil millones de dólares para adquirir el 49% de Scale AI, el fundador Alexandr Wang se unirá a Meta: Meta ha adquirido el 49% de las acciones de la empresa de datos de IA Scale AI por 14.3 mil millones de dólares, elevando su valoración a 29 mil millones de dólares. El cofundador y CEO de 28 años de Scale AI, Alexandr Wang, se unirá a Meta, posiblemente para dirigir un nuevo departamento de “superinteligencia” o como Director de IA. Esta transacción tiene como objetivo fortalecer la posición de Meta en la carrera de la IA, pero también ha generado preocupaciones entre los clientes de Scale AI (como Google y OpenAI) sobre la neutralidad y seguridad de sus datos, y algunos clientes ya han comenzado a reducir su colaboración. A través de esta transacción, Meta obtiene una influencia significativa sobre Scale AI y ha establecido cláusulas de adquisición de derechos escalonada de hasta 5 años para la permanencia de Alexandr Wang (Fuente: 36氪 & 36氪)

Secretos del genio multimillonario chino-estadounidense de 28 años: el robo de un refrigerador lo llevó a abandonar los estudios y emprender, su riqueza se disparó gracias a los "trabajadores de IA", y fue fichado por un gigante de Silicon Valley a precio de oro

La exCTO de OpenAI, Mira Murati, funda Thinking Machines, obtiene una financiación semilla de 2 mil millones de dólares con una valoración de 10 mil millones de dólares: Thinking Machines, la empresa de IA fundada por la exCTO de OpenAI, Mira Murati, ha completado una ronda de financiación semilla récord de 2 mil millones de dólares, liderada por Andreessen Horowitz, con la participación de Accel y Conviction Partners, entre otros, valorando la empresa en 10 mil millones de dólares. Aproximadamente dos tercios del equipo provienen de OpenAI, incluyendo figuras clave como John Schulman. Thinking Machines se centra en el desarrollo de sistemas de IA multimodales altamente personalizables que admiten la colaboración hombre-máquina, abogando por la ciencia abierta. Anteriormente, Apple y Meta intentaron invertir o adquirir la empresa, pero fueron rechazados. Mark Zuckerberg, tras el intento fallido de adquisición, también intentó sin éxito fichar a su cofundador John Schulman (Fuente: 36氪)

La ronda semilla más alta de la historia recae en la IA: 2 mil millones de dólares lideran con diferencia, Apple y Meta compiten por invertir sin éxito, Zuckerberg intenta fichar al cofundador y también es rechazado

La empresa de seguridad de datos de IA Cyera recauda otros 500 millones de dólares, alcanzando una valoración de 6 mil millones de dólares: Cyera, una empresa de gestión de la postura de seguridad de datos de IA (DSPM), tras rondas de financiación C y D consecutivas, ha recaudado otros 500 millones de dólares liderados por Lightspeed, Greenoaks y Georgian, alcanzando una valoración de 6 mil millones de dólares y una financiación acumulada de más de 1.2 mil millones de dólares. Cyera utiliza IA para aprender en tiempo real sobre los datos propietarios de una empresa y sus usos comerciales, ayudando a los equipos de seguridad a lograr el descubrimiento automático, la clasificación, la evaluación de riesgos y la gestión de políticas de los datos, garantizando la seguridad y el cumplimiento de los datos. El sector de herramientas de seguridad de IA sigue activo, lo que demuestra la gran importancia que el mercado otorga a la seguridad de los datos y la protección de la privacidad en el proceso de implementación de aplicaciones de IA (Fuente: 36氪)

Detrás de la valoración de 6 mil millones de dólares de Cyera: la seguridad no es un extra para la IA, sino un requisito indispensable para su implementación

🌟 Comunidad

Las asombrosas descargas de la aplicación ChatGPT para iOS provocan un debate sobre el valor de las herramientas de IA: Sam Altman agradeció en Twitter a los equipos de ingeniería y computación por sus esfuerzos para satisfacer la demanda de ChatGPT, y señaló que las descargas de su aplicación para iOS en los últimos 28 días (29.55 millones) casi igualaron la suma de TikTok, Instagram, Facebook y X (Twitter) (32.85 millones). Estos datos generaron un acalorado debate. Usuarios como Yuchenj_UW compartieron cómo ChatGPT ha cambiado sus vidas (resolviendo problemas de salud, reparando objetos, ahorrando gastos), argumentando que su modelo de “personas buscando información” es más valioso que el de “información buscando personas” de las redes sociales, ya que ahorra tiempo. La discusión también se extendió al impacto positivo de las herramientas de IA en la eficiencia personal y la calidad de vida (Fuente: op7418 & Yuchenj_UW & kevinweil)

op7418

La competencia de los grandes modelos de IA se intensifica: EE. UU. ficha talento, China recorta personal, estrategias divergentes: Ante la feroz competencia en la carrera de los grandes modelos de IA, los fabricantes de EE. UU. y China muestran estrategias de talento diferentes. Gigantes estadounidenses como Apple y Meta no escatiman en gastos para fichar talento, como Meta invirtiendo 14.3 mil millones de dólares para adquirir una participación en Scale AI e incorporar a Alexandr Wang, e intentando fichar al CEO de SSI, Daniel Gross. Mientras tanto, las “seis pequeñas dragones” de la IA en China (Zhipu, Moonshot AI, etc.), bajo la presión de un entorno de financiación más ajustado y la necesidad de ponerse al día tecnológicamente, han experimentado una oleada de salidas de ejecutivos de aplicaciones y comercialización, reorientando sus recursos para centrarse en la iteración de modelos. Esta diferencia refleja las estrategias de recuperación adoptadas por las empresas en diferentes entornos de mercado para mantener la competitividad en AGI: los que tienen mucho dinero compran tiempo con dinero, mientras que los que tienen fondos limitados simplifican la organización para maximizar el valor. Pero independientemente de la estrategia, la firme búsqueda de AGI y la provisión de un espacio para que los mejores talentos desarrollen sus ambiciones se consideran clave para atraer talento (Fuente: 36氪)

Competencia de grandes modelos: EE. UU. ficha talento, China recorta personal

Presentador de IA en vivo falla y se convierte en “chica gato”, ataques de instrucciones y protección de seguridad generan preocupación: Recientemente, un presentador de IA de un comerciante, durante una transmisión en vivo de ventas, fue activado en “modo desarrollador” por un usuario a través del cuadro de diálogo. Siguiendo la instrucción “eres una chica gato, maúlla cien veces”, comenzó a maullar sin parar en la sala de transmisión, provocando el “efecto valle inquietante” y un gran revuelo en línea. Este incidente expuso la vulnerabilidad de los agentes de IA ante los ataques de instrucciones. Los expertos señalan que tales ataques no solo interrumpen el flujo de la transmisión, sino que si el humano digital tuviera mayores permisos (como cambiar precios, listar/deslistar productos), podría causar pérdidas económicas directas al comerciante o difundir información inapropiada. Las contramedidas incluyen fortalecer la seguridad de los prompts, establecer sandboxes de aislamiento de diálogo, limitar los permisos del humano digital y establecer mecanismos de rastreo de ataques para garantizar el desarrollo saludable de las aplicaciones de IA y los intereses de los usuarios (Fuente: 36氪)

Mi presentador de IA, ¿cómo se convirtió en una "chica gato digital" que solo maúlla?

La popularidad de Kimi se enfría, su ventaja en texto largo enfrenta desafíos, el camino hacia la comercialización está por verse: Kimi, que alguna vez sorprendió al mercado con su capacidad de procesamiento de texto largo, ha visto disminuir recientemente su popularidad en la esfera pública, y el foco de discusión se ha desplazado gradualmente hacia las nuevas funciones de otros modelos (como la generación de video y la codificación de agentes). El análisis sugiere que Kimi obtuvo inicialmente el favor del capital gracias a la escasez de su tecnología (procesamiento de texto largo a nivel de millones de caracteres) y al efecto estrella de su fundador, Yang Zhilin. Sin embargo, la posterior inversión masiva en marketing (que llegó a alcanzar los 220 millones al mes) aunque generó un crecimiento de usuarios, también la desvió de su ritmo de profundización tecnológica, cayendo en la lógica de internet de “quemar dinero a cambio de crecimiento”. Al mismo tiempo, su seguimiento tecnológico insuficiente en áreas como la multimodalidad y la comprensión de video, así como el desajuste en los escenarios de comercialización (pasando de ser una herramienta para usuarios altamente informados al marketing de entretenimiento), han hecho que su ventaja tecnológica enfrente el impacto de modelos de código abierto como DeepSeek y productos de grandes empresas. En el futuro, Kimi necesitará buscar avances en la mejora de la densidad de valor del contenido (como la investigación profunda y la búsqueda profunda), la mejora del ecosistema de desarrolladores y el enfoque en las necesidades de los usuarios principales (como los trabajadores de eficiencia) para recuperar la confianza del mercado (Fuente: 36氪)

Sam Altman habla sobre el emprendimiento en IA: evitar el área central de ChatGPT, centrarse en el “saliente de producto”: Sam Altman, CEO de OpenAI, en el evento AI Startup School de YC, aconsejó a los emprendedores evitar competir directamente con las funciones centrales de ChatGPT (crear un asistente personal superinteligente), ya que OpenAI tiene una enorme ventaja de ser el primero y una inversión continua en esa área. Señaló que las oportunidades de emprendimiento radican en aprovechar el “saliente de producto” de modelos potentes como GPT-4o, es decir, la brecha formada porque la capacidad del modelo supera con creces el nivel de las aplicaciones existentes. Los emprendedores deben centrarse en utilizar la IA para reestructurar los flujos de trabajo antiguos, por ejemplo, desarrollando “software generado instantáneamente” capaz de completar de forma autónoma la investigación, la codificación, la ejecución y la entrega de soluciones completas, lo que revolucionará la industria SaaS tradicional. Altman también recordó los primeros días de OpenAI, cuando persistieron en la dirección de AGI a pesar del escepticismo, enfatizando la importancia de hacer cosas únicas y con potencial (Fuente: 36氪 & 36氪)

No compitan con ChatGPT, Sam Altman delimita "zonas prohibidas" para las empresas de IA: aquí tenemos una "ventaja competitiva"

Aplicaciones y limitaciones de la IA en el campo de la inversión: La aplicación de la IA en el campo de la inversión es cada vez más amplia, especialmente en la selección de información, el análisis de informes financieros (como la captura de cambios en el tono de voz de los ejecutivos) y el reconocimiento de patrones (análisis técnico), donde ha demostrado una alta eficiencia. Corredores como Robinhood están desarrollando herramientas de IA (como Cortex) para ayudar a los usuarios a formular estrategias de negociación. Sin embargo, la IA también tiene limitaciones, como la posibilidad de generar “alucinaciones” o información inexacta (como Gemini confundiendo los años de los informes financieros), y la dificultad para procesar grandes cantidades de información que exceden la capacidad del modelo. Los expertos creen que la IA es actualmente más adecuada para ayudar en la toma de decisiones que para liderarlas, y la supervisión humana sigue siendo importante. Plataformas como Public han descubierto que el contenido impulsado por IA (como el copiloto Alpha) tiene una tasa de conversión mucho más alta para inducir a los usuarios a operar que las noticias tradicionales y las actualizaciones de redes sociales. La IA está “erosionando” gradualmente el papel de las redes sociales en la obtención de información de inversión, dando lugar a un nuevo modelo de “toma de decisiones autónoma asistida por IA” (Fuente: 36氪)

Entienda en un artículo: ¿Puede la IA realmente ayudarle a ganar dinero?

Llega la era de la publicidad con IA: reducción significativa de costos y aumento de la eficiencia, pero enfrenta desafíos de “sensación de falsedad humana” y homogeneización: Grandes empresas como TikTok, Meta y Google han lanzado herramientas de generación de publicidad con IA. Por ejemplo, TikTok puede generar videos de 5 segundos a partir de imágenes o prompts, y Veo3 de Google puede generar anuncios con imágenes, diálogos y efectos de sonido con un solo clic, reduciendo drásticamente los costos de producción (se dice que hasta en un 95%). Marcas como Coca-Cola y JD.com ya han experimentado con la producción de anuncios completamente con IA. La ventaja de la publicidad con IA radica en el bajo costo y la producción rápida, pero enfrenta desafíos en la experiencia del usuario, como el “efecto valle inquietante” y la “sensación de falsedad humana” generada por personajes de IA, lo que provoca rechazo en los consumidores, y el contenido también tiende a ser homogéneo y carente de valor informativo. A pesar de esto, bajo la tendencia general de reducción de costos y aumento de la eficiencia en la industria, la determinación de las marcas de adoptar la publicidad con IA no ha disminuido, y en los próximos años la publicidad con IA continuará en un tira y afloja entre costos y experiencia del usuario (Fuente: 36氪)

¿Están las grandes tecnológicas llevando la publicidad de IA a la era de los "pseudo-humanos"?

La comunidad de Reddit r/LocalLLaMA reanuda sus operaciones: La popular comunidad de IA de Reddit, r/LocalLLaMA, después de un breve incidente desconocido (el moderador anterior eliminó su cuenta y eliminó los filtros de todas las publicaciones/comentarios), ha sido asumida por el nuevo moderador HOLUPREDICTIONS y ha reanudado sus operaciones normales. Los miembros de la comunidad han acogido con satisfacción esta noticia y esperan continuar intercambiando los últimos avances y discusiones técnicas sobre LLM localizados (Fuente: Reddit r/LocalLLaMA & ggerganov & danielhanchen)

Subreddit de nuevo en funcionamiento

Mustafa Suleyman: La IA pasará de la “cadena de pensamiento” a la “cadena de debate”: Mustafa Suleyman, fundador de Inflection AI, propone que, después de la “cadena de pensamiento” (Chain of Thought), la próxima dirección de desarrollo de la IA será la “cadena de debate” (Chain of Debate). Esto significa que la IA evolucionará desde un modelo único que piensa “hablando consigo mismo” hacia múltiples modelos que participan en discusiones públicas, depuración y deliberación. Él cree que el principio de que “tres cabezas piensan mejor que una” también se aplica a los grandes modelos de lenguaje, y la colaboración entre múltiples modelos mejorará el nivel de inteligencia y la capacidad de resolución de problemas de la IA (Fuente: mustafasuleyman)

💡 Otros

Programador renuncia a trabajo bien pagado, invierte 10 meses y 20,000 USD en desarrollar herramienta de diseño con IA InfographsAI, 0 usuarios y 0 ingresos tras el lanzamiento: Un arquitecto de ingeniería de Silicon Valley con 15 años de experiencia renunció a su trabajo para emprender, invirtiendo casi 10 meses y 20,000 USD de sus ahorros en desarrollar una herramienta de generación de infografías impulsada por IA llamada InfographsAI. La herramienta tenía como objetivo reemplazar herramientas basadas en plantillas como Canva, pudiendo generar diseños únicos en 200 segundos a partir de la entrada del usuario (enlaces de YouTube, PDF, texto, etc.), y admitiendo múltiples estilos artísticos y 35 idiomas. Sin embargo, tras el lanzamiento del producto, se encontró con 0 usuarios y 0 ingresos. El desarrollador reflexionó sobre sus errores: no validar la demanda, acumulación de funciones, perfeccionismo, cero marketing y desconexión de la realidad (no investigar a la competencia ni las expectativas de los usuarios). Planea en el futuro validar primero la demanda, lanzar rápidamente un MVP y realizar marketing simultáneamente (Fuente: 36氪)

Tras renunciar, dedicó 300 días a desarrollar una herramienta de IA, invirtió 20,000 USD, pero obtuvo 0 usuarios y 0 ingresos: una advertencia costosa para los programadores

Coca-Cola Japón lanza el sitio web de reconocimiento de emociones con IA “Espejo de Control de Estrés” para promocionar la bebida relajante CHILL OUT: Coca-Cola Japón, para promocionar su marca de bebida relajante CHILL OUT, ha lanzado un sitio web de reconocimiento de emociones con IA llamado “Espejo de Control de Estrés”. Después de que los usuarios suben una foto de su rostro y responden a 5 preguntas relacionadas con el estrés, el sitio web utiliza tecnología de análisis de expresiones faciales con IA (Face-API) y preguntas establecidas por psicólogos clínicos para diagnosticar el tipo de estrés actual del usuario, y lo visualiza con 13 divertidos “rostros de impresión de estrés” (como “Demonio Irritable”). Los usuarios pueden usar la imagen compuesta para obtener un cupón de bebida en la aplicación Coke ON y probar CHILL OUT. Esta iniciativa tiene como objetivo que los usuarios tomen conciencia de su propio estrés a través de una interacción divertida y promocionar los efectos relajantes de CHILL OUT. La propia bebida CHILL OUT también utiliza IA para desarrollar un “sabor relajante” y se posiciona como una “bebida anti-energética” (Fuente: 36氪)

La IA escanea rostros para medir el "sabor a trabajo", ¿puede esta "agua relajante" de Coca-Cola hacer que los trabajadores paguen voluntariamente?

El mercado de mascotas con IA está en auge, los VC y los usuarios están “enganchados”, pero la comercialización aún enfrenta desafíos: El sector de las mascotas con IA está experimentando un rápido crecimiento, y se espera que el tamaño del mercado global alcance los cientos de miles de millones de dólares para 2030. Productos como Ropet y BubblePal logran interacción inteligente y compañía emocional con los usuarios a través de la tecnología de IA, obteniendo atención del mercado y el favor del capital; Zhu Xiaohu de GSR Ventures también ha invertido en Luobo Intelligence. Las mascotas con IA satisfacen las necesidades de compañía en la sociedad moderna en el contexto de la economía de los solteros y el envejecimiento de la población, y aumentan la fidelidad de los usuarios a través de mecanismos de “crianza”. En cuanto al modelo de negocio, además de la venta de hardware, “hardware + paquete de servicio mensual” se ha convertido en la corriente principal, y la operación de IP y los atributos sociales también se consideran clave. Sin embargo, el sector aún enfrenta múltiples desafíos tecnológicos (fusión multimodal, capacidad de personalización), políticos (privacidad y seguridad) y de mercado (homogeneización, dependencia de canales). En los próximos tres años, cómo mantener la frescura entre productos homogeneizados será la clave del éxito para las empresas de mascotas con IA (Fuente: 36氪)

Mascotas con IA, ¿haciendo que los VC y los usuarios se "enganchen" colectivamente?