Palabras clave:Gemini 2.5 Flash, OpenAI o3, IA sustituye puestos de trabajo, Comercialización de IA en medicina, Modelo de razonamiento híbrido, Función de presupuesto de pensamiento, Capacidad multimodal de o4-mini, Asistente de codificación IA Windsurf, Puerta de enlace doméstica Agentic AI, Prueba de referencia VisualPuzzles, Fiabilidad de recomendación DeepSeek, Modelo de código abierto de Zhipu AI
🔥 En Foco
Google lanza el modelo de inferencia híbrida Gemini 2.5 Flash, centrado en la relación calidad-precio y el pensamiento controlable: Google presenta la versión preliminar de Gemini 2.5 Flash, posicionado como un modelo de inferencia híbrida de alta rentabilidad. Su característica distintiva es la introducción de la función “presupuesto de pensamiento” (thinking_budget), que permite a los desarrolladores (0-24k tokens) o al propio modelo ajustar la profundidad de la inferencia según la complejidad de la tarea. Con el pensamiento desactivado, el costo es extremadamente bajo ($0.6/millón de tokens de salida), superando en rendimiento a Gemini 2.0 Flash; al activar el pensamiento ($3.5/millón de tokens de salida), puede manejar tareas complejas, con un rendimiento comparable a o4-mini en varios benchmarks (como AIME, MMMU, GPQA) y clasificándose alto en la arena LMArena. Este modelo busca equilibrar rendimiento, costo y latencia, siendo especialmente adecuado para escenarios de aplicación que requieren flexibilidad y control de costos. Ya está disponible a través de API en Google AI Studio y Vertex AI. (Fuente: 谷歌首款混合推理Gemini 2.5登场,成本暴降600%,思考模式一开,直追o4-mini、谷歌大模型“性价比之王”来了,混合推理模型,思考深度可自由控制,竞技场排名仅次于自家Pro、op7418、JeffDean、Reddit r/LocalLLaMA、Reddit r/LocalLLaMA、Reddit r/artificial)

OpenAI lanza los modelos o3 y o4-mini, reforzando las capacidades de razonamiento y multimodales: OpenAI presenta su serie de modelos más potente hasta la fecha, o3, y el optimizado o4-mini, enfocándose en mejorar las capacidades de razonamiento, programación y comprensión multimodal. Destaca especialmente la implementación por primera vez del razonamiento basado en “cadena de pensamiento” (chain of thought) a partir de imágenes, capaz de analizar detalles de imágenes para realizar juicios complejos, como inferir la ubicación precisa de una fotografía (GeoGuessing). o3 alcanzó una puntuación récord de 136 en el test de CI de Mensa y mostró un rendimiento sobresaliente en benchmarks de programación. Por su parte, o4-mini demuestra una potente capacidad para resolver problemas matemáticos (como los problemas de Euler) y procesamiento visual, manteniendo al mismo tiempo eficiencia y bajo costo. Estos modelos ya están disponibles para usuarios de ChatGPT Plus, Pro y Team, mostrando la evolución de OpenAI hacia modelos que pasan de la adquisición de conocimiento al uso de herramientas y la resolución de problemas complejos. (Fuente: 实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实、智商136,o3王者归来,变身福尔摩斯“AI查房”,一张图秒定坐标、满血版o3探案神技出圈,OpenAI疯狂暗示:大模型不修仙,要卷搬砖了)

El aumento de la eficiencia de la IA genera preocupación por el empleo, algunas empresas comienzan a reemplazar puestos con IA: La alta eficiencia de la tecnología de inteligencia artificial está llevando a empresas como PayPal, Shopify y United Wholesale Mortgage a considerar o implementar el uso de IA para reemplazar puestos de trabajo humanos, especialmente en áreas como atención al cliente, ventas junior, soporte de TI y procesamiento de datos. Por ejemplo, el chatbot de IA de PayPal ya maneja el 80% de las solicitudes de servicio al cliente, reduciendo significativamente los costos. United Wholesale Mortgage utiliza IA para procesar documentos de préstamos hipotecarios, aumentando drásticamente la eficiencia y duplicando el volumen de negocio sin necesidad de contratar más personal. Algunas empresas incluso proponen el concepto de “equipos sin empleados”, exigiendo que cualquier nueva contratación demuestre primero que la IA no puede realizar la tarea. Aunque muchas empresas evitan admitir públicamente que los despidos se deben a la IA, la desaceleración de la contratación y la reducción de puestos ya son una tendencia, especialmente bajo presión de costos, y se espera que el efecto de sustitución de la IA en los trabajos de cuello blanco sea más evidente en el futuro. (Fuente: 招聘慢了、岗位少了,AI效率太高迫使人类员工“让位”)

OpenAI planea adquirir el asistente de codificación AI Windsurf por 3 mil millones de dólares, reforzando su apuesta por la capa de aplicación: OpenAI planea adquirir la startup de codificación con IA Windsurf (anteriormente Codeium) por aproximadamente 3 mil millones de dólares, lo que sería su mayor adquisición hasta la fecha. Windsurf ofrece una herramienta de asistencia a la codificación con IA similar a Cursor, también basada en modelos de Anthropic. Esta adquisición se considera un paso clave para que OpenAI se expanda hacia la capa de aplicación y fortalezca el control sobre su ecosistema, con el objetivo de adquirir usuarios directamente, recopilar datos de entrenamiento y competir con rivales como GitHub Copilot y Cursor. Los analistas creen que, a medida que mejoran las capacidades de la IA, la “programación ambiental” (Vibe Coding, la IA profundamente integrada en el flujo de desarrollo) se convierte en tendencia, y dominar la entrada a la capa de aplicación y los datos de usuario es crucial para la competitividad a largo plazo de las empresas de modelos. Este movimiento de OpenAI indica que sus objetivos estratégicos van más allá de ser un proveedor de modelos, con la intención de construir una plataforma completa de desarrollo de IA. (Fuente: 有了一天涨万星的开源项目 Codex,OpenAI为何仍砸 30 亿美元重金收购 Windsurf ?)

🎯 Tendencias
ByteDance lanza el modelo de pensamiento profundo Doubao 1.5 y actualizaciones multimodales, acelerando el despliegue de Agents: Volcano Engine, bajo ByteDance, lanza el modelo de pensamiento profundo Doubao 1.5, que posee una capacidad similar a la humana de “ver, pensar y buscar simultáneamente”, puede manejar tareas complejas, admite entrada multimodal (texto, imagen) y tiene capacidades de búsqueda en red y razonamiento visual. Al mismo tiempo, se lanzó el modelo de generación de texto a imagen Doubao 3.0 (mejorando la composición tipográfica y el realismo de la imagen) y una versión mejorada del modelo de comprensión visual (mejorando la precisión de la localización y la comprensión de video). ByteDance considera que el pensamiento profundo y la multimodalidad son la base para construir Agents, y presenta la solución OS Agent y el kit de inferencia nativo en la nube de IA, con el objetivo de reducir las barreras y los costos para que las empresas construyan e implementen aplicaciones Agent. Este movimiento se considera una redefinición estratégica de ByteDance tras el impacto de competidores como DeepSeek, centrándose en la implementación de aplicaciones Agent. (Fuente: 字节按下 AI Agent 加速键、被DeepSeek打蒙的豆包,发起反攻了)

ByteDance y Kuaishou se enfrentan de nuevo en la generación de video por IA, centrándose en el rendimiento del modelo y la implementación: ByteDance lanza el modelo de generación de video Seaweed-7B, destacando sus bajos parámetros (7B), alta eficiencia (entrenado durante 665,000 horas de GPU H100) y bajo costo de despliegue (una sola GPU puede generar video de 1280×720). Kuaishou, por su parte, lanza el modelo de generación de video “Keling 2.0” y el modelo de generación de imágenes “Ketu 2.0”, afirmando superar el rendimiento de Veo2 de Google y Sora, y presenta la función de edición multimodal MVL. Ambas partes reconocen que la capacidad del modelo es el límite superior de los productos de IA, y su estrategia para 2025 vuelve a centrarse en pulir los modelos. Aunque sus rutas de comercialización difieren (Jimeng de ByteDance se inclina hacia el consumidor final, Keling de Kuaishou se enfoca en el B2B), ambas se esfuerzan por mejorar la practicidad, como Kuaishou enfatizando la importancia de la generación de imagen a video, y ByteDance aprovechando su ventaja en procesamiento de texto para garantizar la coherencia narrativa del video. La competencia se intensifica. (Fuente: 字节快手,AI视频“狭路又相逢”)

Zhipu AI lanza tres modelos de código abierto, reforzando la construcción del ecosistema open source: Zhipu AI anuncia 2025 como su “Año del Código Abierto” y lanza tres modelos: GLM-Z1-Air (modelo de inferencia), GLM-Z1-Air (posiblemente un error tipográfico, podría referirse a una versión rápida o base), y GLM-Z1-Rumination (modelo de reflexión), con tamaños de 9B y 32B, bajo licencia MIT. GLM-Z1-Air (32B) muestra un rendimiento cercano a DeepSeek-R1 en algunas pruebas de referencia, con un precio de inferencia significativamente reducido. El modelo de reflexión Z1-Rumination explora un pensamiento más profundo y apoya la investigación en bucle cerrado. Al mismo tiempo, el Z Fund de Zhipu anuncia una inversión de 300 millones de RMB para apoyar a la comunidad global de código abierto de IA, sin limitarse a proyectos basados en modelos de Zhipu. Esta medida responde a la estrategia de Beijing de convertirse en la “Capital Global del Código Abierto”. (Fuente: 智谱获2亿元新融资,连发3款开源模型,拿3亿元支持全球开源社区)

La integración de Agentic AI en pasarelas domésticas podría ser una nueva oportunidad para los operadores: A medida que la IA evoluciona de generativa a agéntica (Agentic AI), los sistemas de IA con capacidad autónoma para establecer objetivos y ejecutar tareas se convierten en el foco. Ejecutivos de MediaTek proponen que integrar Agentic AI en las pasarelas domésticas (gateways) podría cambiar el papel de los operadores en el mercado del IoT. La pasarela, como centro de inteligencia en el borde de la red doméstica, combinada con Agentic AI, puede gestionar activamente la red (p.ej., optimizar videollamadas), diagnosticar fallos, mejorar la seguridad del hogar (p.ej., identificar robos de paquetes, riesgos de niños cerca de piscinas), reduciendo así los costos de atención al cliente de los operadores (muchas consultas relacionadas con Wi-Fi podrían ser manejadas por IA) y ofreciendo servicios de valor añadido. Aunque el modelo de monetización está por explorar, esto ofrece a los operadores una vía potencial para ir más allá del rol de “tubería” y convertirse en habilitadores de servicios de Agentic AI. (Fuente: 将Agentic AI嵌入家庭网关,如何改变运营商在物联网市场的游戏规则?)
Microsoft lanza MAI-DS-R1, post-entrenado sobre DeepSeek R1 para seguridad y cumplimiento: El equipo de IA de Microsoft ha lanzado el modelo MAI-DS-R1, que ha sido post-entrenado sobre DeepSeek R1 con el objetivo de llenar los vacíos de información del modelo original y mejorar su perfil de riesgo, manteniendo al mismo tiempo la capacidad de razonamiento de R1. Los datos de entrenamiento incluyen 110,000 muestras de seguridad y no cumplimiento de Tulu 3 SFT, así como aproximadamente 350,000 muestras multilingües desarrolladas internamente por Microsoft, cubriendo diversos temas con sesgos. Este movimiento es interpretado por algunos miembros de la comunidad como un esfuerzo de Microsoft por mejorar la seguridad y el cumplimiento de los modelos, pero también ha generado discusiones sobre si añade “censura de nivel empresarial”. (Fuente: Reddit r/LocalLLaMA)

🧰 Herramientas
OpenAI lanza Codex CLI de código abierto, un asistente de codificación AI impulsado por terminal: OpenAI ha lanzado un nuevo proyecto de código abierto, Codex CLI, un agente de IA optimizado para tareas de codificación que se ejecuta en la terminal local del desarrollador. Utiliza por defecto el último modelo o4-mini, pero los usuarios pueden seleccionar otros modelos de OpenAI a través de la API. Codex CLI tiene como objetivo proporcionar una forma de desarrollo impulsada por chat, comprendiendo y ejecutando operaciones en repositorios de código locales, compitiendo con herramientas como Claude Code de Anthropic, Cursor y Windsurf. El proyecto obtuvo más de 14,000 estrellas en GitHub en un día desde su lanzamiento, mostrando el interés de los desarrolladores en herramientas de codificación AI nativas de la terminal. (Fuente: 有了一天涨万星的开源项目 Codex,OpenAI为何仍砸 30 亿美元重金收购 Windsurf ?)
Google AI Studio se actualiza para permitir la creación y compartición directa de aplicaciones AI: Google ha actualizado su plataforma AI Studio, añadiendo la funcionalidad de crear aplicaciones de IA directamente dentro de la plataforma. Los usuarios no solo pueden desarrollar utilizando modelos como Gemini, sino que también pueden explorar y probar aplicaciones de ejemplo creadas por otros usuarios. Esta actualización transforma AI Studio de un campo de pruebas de modelos a una plataforma más completa de desarrollo y compartición de aplicaciones, reduciendo la barrera para construir aplicaciones basadas en la tecnología de IA de Google. (Fuente: op7418)

NVIDIA cuML lanza modo de aceleración GPU sin cambios en el código: El equipo de NVIDIA cuML ha lanzado un nuevo modo acelerador que permite a los usuarios ejecutar código nativo de scikit-learn, umap-learn y hdbscan directamente en la GPU sin modificar ningún código. Esta función se activa mediante python -m cuml.accel your_script.py
o cargando %load_ext cuml.accel
en un Jupyter Notebook. Las pruebas de referencia muestran aceleraciones significativas que van de 25x a 175x para algoritmos como Random Forest, Linear Regression, t-SNE, UMAP, HDBSCAN. Este modo utiliza la memoria unificada de CUDA (UVM), por lo que generalmente no hay que preocuparse por el tamaño del conjunto de datos, aunque el rendimiento se verá afectado para conjuntos de datos con memoria extremadamente grande. (Fuente: Reddit r/MachineLearning)

Alibaba libera el modelo de video Wan 2.1 basado en fotogramas inicial y final: Alibaba ha liberado su modelo de video Wan 2.1, que se especializa en generar el contenido de video intermedio basándose en los fotogramas inicial y final. Este es un tipo específico de tecnología de generación de video que puede aplicarse a escenarios como la interpolación de fotogramas de video, la transferencia de estilo o la generación de animaciones basadas en fotogramas clave. La liberación de este modelo proporciona a investigadores y desarrolladores una nueva herramienta para explorar y utilizar esta tecnología. (Fuente: op7418)
ViTPose: Modelo de estimación de pose humana basado en Vision Transformer: ViTPose es un nuevo modelo que utiliza la arquitectura Vision Transformer (ViT) para la estimación de la pose humana. El artículo presenta este modelo y explora el potencial de aplicación de ViT en tareas de visión por computadora (como la estimación de pose humana aquí). Este tipo de modelos suelen utilizar el mecanismo de autoatención de Transformer para capturar dependencias a larga distancia entre diferentes partes de la imagen, lo que potencialmente mejora la precisión y robustez de la estimación de pose. (Fuente: Reddit r/deeplearning)

ClaraVerse: Asistente AI local-first integrado con n8n: ClaraVerse es un asistente de IA local-first que se ejecuta sobre Ollama, enfatizando la privacidad y el control local. La última actualización integra la plataforma de automatización n8n, permitiendo a los usuarios construir y ejecutar herramientas y flujos de trabajo personalizados (como revisar correos, gestionar calendarios, llamar a APIs, conectar a bases de datos, etc.) dentro del asistente, sin servicios externos. Esto permite a Clara activar tareas de automatización locales mediante instrucciones en lenguaje natural, con el objetivo de proporcionar una solución local de IA y automatización fácil de usar y de baja dependencia. (Fuente: Reddit r/LocalLLaMA)

El modelo TTS CSM 1B logra procesamiento en streaming en tiempo real y fine-tuning: La comunidad de código abierto ha logrado avances con el modelo de texto a voz (TTS) CSM 1B, implementando procesamiento en streaming en tiempo real (real-time streaming) y desarrollando capacidades de fine-tuning (incluyendo LoRA y fine-tuning completo). Esto significa que el modelo ahora puede generar voz más rápidamente y puede personalizarse según necesidades específicas. El repositorio de código proporciona una demostración de chat local para que los usuarios puedan probarlo y compararlo con otros modelos TTS. (Fuente: Reddit r/LocalLLaMA)

Deebo: Depuración colaborativa de Agents AI utilizando MCP: Deebo es un servidor experimental de MCP (Machine Collaboration Protocol) para Agents, diseñado para permitir que los Agents AI de codificación externalicen tareas complejas de depuración hacia él. Cuando el Agent principal encuentra dificultades, puede iniciar una sesión de Deebo a través de MCP. Deebo genera múltiples subprocesos que prueban diversas soluciones de reparación en paralelo en diferentes ramas de Git, utilizando LLM para el razonamiento. Finalmente, devuelve registros, sugerencias de reparación y explicaciones. Este enfoque utiliza el aislamiento de procesos, simplifica la gestión de la concurrencia y explora la posibilidad de colaboración entre Agents AI para resolver problemas. (Fuente: Reddit r/OpenWebUI)

📚 Aprendizaje
CMU lanza el benchmark VisualPuzzles, desafiando la capacidad de razonamiento puramente lógico de la IA: Investigadores de la Carnegie Mellon University (CMU) han creado el benchmark VisualPuzzles, que contiene 1168 acertijos de lógica visual adaptados de exámenes de servicio civil y otras fuentes, con el objetivo de separar la capacidad de razonamiento multimodal de la dependencia del conocimiento de dominio. Las pruebas revelaron que incluso los modelos de vanguardia como o1 y Gemini 2.5 Pro tienen un rendimiento muy inferior al humano en estas tareas de razonamiento puramente lógico (tasa de acierto máxima del 57.5%, inferior al nivel del 5% inferior de los humanos). La investigación indica que aumentar el tamaño del modelo o habilitar el modo de “pensamiento” no siempre mejora la capacidad de razonamiento puro, y las técnicas existentes de mejora del razonamiento tienen resultados mixtos. Esto revela que los modelos grandes actuales todavía tienen brechas significativas en la comprensión espacial y el razonamiento lógico profundo. (Fuente: 全球顶尖AI来考公,不会推理全翻车,致命缺陷曝光,被倒数5%人类碾压)

InternVL3: Explorando técnicas avanzadas de entrenamiento y prueba para modelos multimodales de código abierto: El paper “InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models” presenta el modelo InternVL3, cuya versión de 78B obtuvo una puntuación de 72.2 en el benchmark MMMU, estableciendo un nuevo récord para MLLM de código abierto. Las tecnologías clave incluyen preentrenamiento multimodal nativo, codificación de posición visual variable (V2PE) que soporta contextos largos, técnicas avanzadas de post-entrenamiento (SFT, MPO) y estrategias de expansión en tiempo de prueba (mejorando el razonamiento matemático). La investigación tiene como objetivo explorar métodos efectivos para mejorar el rendimiento de los modelos multimodales de código abierto y ya ha liberado los datos de entrenamiento y los pesos del modelo. (Fuente: Reddit r/deeplearning)

Geobench: Un benchmark para evaluar la capacidad de geolocalización de imágenes de los modelos grandes: Geobench es un nuevo sitio web de benchmarking dedicado a medir la capacidad de los modelos de lenguaje grandes (LLM) para inferir la ubicación de captura de imágenes, como las de Google Street View, similar a jugar a GeoGuessr. Evalúa la precisión de las conjeturas del modelo, incluyendo la tasa de acierto del país/región, la distancia a la ubicación real (media y mediana), y otras métricas. Los resultados preliminares muestran que la serie de modelos Gemini de Google destaca en esta tarea, posiblemente beneficiándose de su acceso a los datos de Google Street View. (Fuente: Reddit r/LocalLLaMA)
Discusión sobre las prácticas estándar para la división de conjuntos de datos: La comunidad de machine learning de Reddit discute cómo manejar los conjuntos de datos (p.ej., división train/val/test) cuando no existe una división estándar. Las prácticas comunes incluyen generar divisiones aleatorias (pero puede afectar la reproducibilidad), guardar y compartir los índices/archivos específicos, y usar validación cruzada k-fold. La discusión enfatiza que para conjuntos de datos pequeños, la forma de división tiene un impacto significativo en la evaluación del rendimiento y las afirmaciones de SOTA (estado del arte), pidiendo la estandarización o una compartición más amplia de la información de división para mejorar la reproducibilidad y comparabilidad de la investigación. Los desafíos prácticos incluyen la falta de una plataforma unificada y normas específicas de dominio. (Fuente: Reddit r/MachineLearning、Reddit r/MachineLearning)
Búsqueda de consejo sobre embeddings de frases para clasificar posts de Stack Overflow: Un usuario en Reddit busca consejo sobre el uso de embeddings de frases (como BERT, SBERT) para la clasificación no supervisada de posts de Stack Overflow (que incluyen título, descripción, etiquetas, respuestas). El objetivo es lograr una clasificación a nivel de frase que vaya más allá de las simples etiquetas de embeddings de palabras (como “instalación de paquete”), explorando agrupaciones temáticas o de tipos de problemas más profundas. Los comentarios sugieren comenzar con la biblioteca Sentence Transformers, que puede generar un único embedding para fragmentos de texto, y luego aplicar algoritmos de clustering. (Fuente: Reddit r/MachineLearning)
Consejos sobre rutas de aprendizaje en IA y opciones de carrera: Un estudiante de secundaria consulta en Reddit sobre la elección de especialización universitaria para entrar en el campo de la ingeniería de machine learning (UCSD CS vs Cal Poly SLO CS) y si necesita estudios de posgrado. Los comentarios sugieren elegir UCSD, con mayor fortaleza en investigación, y considerar estudios de posgrado, ya que la ingeniería de ML generalmente requiere una educación superior. Al mismo tiempo, alguien señala que las habilidades prácticas también son importantes, y las matemáticas y la estadística son bases clave. En otro hilo, alguien pregunta sobre qué especialización estudiar para utilizar IA o desarrollar IA, los comentarios mencionan Ciencias de la Computación (CS), que generalmente requiere maestría o doctorado, así como matemáticas/estadística, e incluso alguien sugiere aprender habilidades prácticas como oficios (fontanería, etc.) para evitar el riesgo de sustitución por IA. (Fuente: Reddit r/MachineLearning、Reddit r/ArtificialInteligence)
💼 Negocios
Exploración de la comercialización de IA en salud: Juego de estrategias entre grandes tecnológicas y necesidades hospitalarias: A medida que los hospitales comienzan a asignar presupuestos para modelos grandes (como el Hospital Provincial de Órganos de Jiangsu que adquirió una plataforma basada en DeepSeek por 4.5 millones), la comercialización de la IA en el sector salud se acelera. Grandes tecnológicas como Huawei, Alibaba, Baidu y Tencent están posicionándose, generalmente ofreciendo potencia de cálculo, servicios en la nube y modelos base, colaborando con empresas verticales de salud. Sin embargo, el modelo de negocio central sigue sin estar claro, y las grandes tecnológicas actualmente se centran más en vender hardware y servicios en la nube que en profundizar directamente en aplicaciones de IA médica. Por parte de los hospitales, como el Hospital 3201 en Hanzhong, Shaanxi, con presupuestos limitados, están experimentando con modelos de código abierto (como versiones de bajo costo de DeepSeek), mostrando una consideración por la relación costo-efectividad. Obtener datos médicos de alta calidad y entrenar modelos especializados sigue siendo un desafío clave, requiriendo superar el “trabajo pesado” como el etiquetado de datos. (Fuente: AI看病这件事,华为、百度、阿里谁先挣到钱?、科技大厂掀起医疗界的AI革命,谁更有胜算?)

La fiabilidad de herramientas de recomendación AI como DeepSeek es cuestionada, la optimización del marketing AI se convierte en un nuevo campo de batalla: Herramientas de IA como DeepSeek son cada vez más utilizadas por los usuarios para obtener recomendaciones (p.ej., restaurantes, productos), y los comerciantes también comienzan a usar “Recomendado por DeepSeek” como etiqueta de marketing. Sin embargo, la fiabilidad de estas recomendaciones genera preocupación. Por un lado, la IA puede tener “alucinaciones”, inventando tiendas inexistentes o recomendando productos obsoletos. Por otro lado, las respuestas de la IA pueden estar influenciadas comercialmente, existiendo el riesgo de publicidad encubierta o de ser “contaminadas” por estrategias de SEO/GEO (Optimización para Motores Generativos). Los comerciantes están intentando influir en el corpus de la IA y los resultados de búsqueda optimizando contenido y palabras clave para aumentar la visibilidad de su marca. Esto desafía la objetividad de las recomendaciones de IA, y los consumidores deben estar alerta a la posible información engañosa. (Fuente: 第一批用DeepSeek推荐的人,已上当)

Zhipu AI recibe una inversión adicional de 200 millones de RMB del Fondo de Inversión de la Industria de Inteligencia Artificial de Beijing: Tras anunciar la liberación de varios modelos nuevos de código abierto y establecer un fondo de código abierto de 300 millones de RMB, Zhipu AI (Z.ai) ha recibido una inversión adicional de 200 millones de RMB del Fondo de Inversión de la Industria de Inteligencia Artificial de Beijing. Este fondo ya había invertido en Zhipu el año pasado. Este aumento de capital tiene como objetivo apoyar la investigación y desarrollo de modelos de código abierto de Zhipu y la construcción del ecosistema de la comunidad de código abierto, reflejando también la determinación de Beijing en impulsar el desarrollo de la industria de IA y construir la “Capital Global del Código Abierto”. (Fuente: 智谱获2亿元新融资,连发3款开源模型,拿3亿元支持全球开源社区)
El CEO de Intel, Patrick Gelsinger (nota: el artículo original menciona a 陈立武, que parece ser un error, el CEO actual es Pat Gelsinger), impulsa reformas y nombra nuevo CTO y Director de IA: El CEO Pat Gelsinger está realizando ajustes en la estructura organizativa de Intel, con el objetivo de simplificar los niveles de gestión y fortalecer la orientación tecnológica. Las divisiones clave de chips (Centro de Datos e IA, Chips de PC) reportarán directamente al CEO. Sachin Katti, responsable de chips de red, ha sido nombrado nuevo Director de Tecnología (CTO) y Director de IA, encargado de liderar la estrategia de IA, la hoja de ruta de productos e Intel Labs, para hacer frente al desafío de NVIDIA en el campo de la IA. Esta medida se considera parte del plan de Gelsinger para revitalizar Intel, con la intención de resolver los problemas de fabricación y productos, romper las barreras internas y centrarse en la ingeniería y la innovación. (Fuente: 陈立武挥刀高层,英特尔重生计划曝光,技术团队直通华人CEO)

Se informa que Meta busca compartir los costos de entrenamiento de Llama, lo que evidencia la presión de la inversión en IA: Según informes, Meta contactó a Microsoft, Amazon, Databricks y otras empresas e instituciones de inversión, proponiendo compartir los costos de entrenamiento de su modelo de código abierto Llama (la “Alianza Llama”) a cambio de cierta influencia en el desarrollo de funcionalidades, pero la respuesta inicial fue tibia. Las razones podrían incluir la renuencia de los socios a invertir en un modelo gratuito, la falta de voluntad de Meta para ceder demasiado control y las grandes inversiones en IA que ya tienen los socios potenciales. Este asunto destaca que incluso gigantes como Meta enfrentan la presión del aumento de los costos de desarrollo de IA, especialmente con enormes gastos de capital (se espera un aumento anual del 60% a 60-65 mil millones de dólares) y una ruta de comercialización poco clara para el modelo de código abierto. (Fuente: Llama开源太贵了,Meta被曝向亚马逊、微软“化缘”)

El CEO de NVIDIA, Jensen Huang, visita China, posiblemente para discutir colaboraciones con DeepSeek y otros frente a las restricciones comerciales: El CEO de NVIDIA, Jensen Huang, visitó China recientemente, invitado por el Consejo Chino para la Promoción del Comercio Internacional, y se reunió con clientes, incluido el fundador de DeepSeek, Liang Wenfeng. El contexto de esta visita es complejo, incluyendo las restricciones más estrictas del gobierno de EE. UU. sobre los chips exportados a China como el H20 de NVIDIA, el auge de los chips de IA locales chinos (como el Ascend de Huawei) y la optimización de modelos como DeepSeek que reduce la dependencia absoluta de las GPU de gama alta de NVIDIA. Los analistas creen que Huang podría buscar discutir con socios chinos (como DeepSeek) el diseño conjunto de chips de IA que cumplan con las restricciones de exportación de EE. UU. y eviten los altos aranceles de importación chinos, manteniendo la cuota de mercado y la influencia en la industria en China a través de una cooperación profunda. (Fuente: 英伟达CEO黄仁勋突然访华,都不穿皮衣了,还见了梁文锋)

🌟 Comunidad
La fiebre de la generación de muñecos AI arrasa en las redes sociales, generando preocupaciones sobre derechos de autor y ética: Una tendencia de usar herramientas de IA como ChatGPT para convertir fotos personales en imágenes de muñecos (similares al estilo Barbie, con caja de embalaje y accesorios personalizados) se ha popularizado en plataformas como LinkedIn y TikTok. Los usuarios pueden generar estas imágenes subiendo una foto y proporcionando una descripción detallada. Aunque es muy entretenido, también ha generado preocupaciones sobre derechos de autor y ética: la generación por IA podría usar involuntariamente estilos artísticos o elementos de marca protegidos por derechos de autor; al mismo tiempo, también se cuestiona el gran consumo de energía necesario para entrenar y ejecutar estos modelos de IA. Algunos comentarios señalan la necesidad de establecer límites y normas claras al usar la IA. (Fuente: 芭比风AI玩偶席卷全网:ChatGPT几分钟打造你的时尚分身)

La profunda integración de Tencent Yuanbao (antes Asistente de Sobres Rojos) en WeChat llama la atención: Buscar “Yuanbao” dentro de WeChat permite invocar directamente funciones de IA, siendo en realidad una versión mejorada del anterior “Asistente de Sobres Rojos Yuanbao”. La experiencia del usuario muestra que sus capacidades han mejorado, como generar imágenes más precisas según las solicitudes y optimizar la adaptación nativa, pudiendo generar tarjetas de respuesta. El artículo discute la posibilidad de que la gran apuesta de IA de Tencent recaiga en el escenario de WeChat, especialmente aprovechando el potencial de entradas existentes como el asistente de transferencia de archivos, argumentando que la ventaja del escenario es clave para la implementación de la IA de Tencent. También menciona la reciente actualización de las cuentas públicas de WeChat, que añade una entrada de publicación móvil, lo que podría fomentar la creación de contenido corto, pero podría afectar el ecosistema de contenido largo. (Fuente: 鹅厂的 AI 大招,真的落在微信上)

LMArena lanza sitio de pruebas Beta: La arena de competición de modelos grandes, LMArena, ha lanzado un nuevo sitio web de pruebas Beta (beta.lmarena.ai) para probar diversos modelos grandes, incluidos aquellos aún no publicados. Esto proporciona a la comunidad una nueva plataforma, independiente de la interfaz Gradio de Hugging Face, para evaluar y comparar el rendimiento de los modelos. (Fuente: karminski3)

La exposición pública de instancias de Ollama genera preocupaciones de seguridad: Un usuario descubrió un sitio web llamado freeollama.com y, mediante búsquedas en el ciberespacio, encontró una gran cantidad de hosts que exponen el puerto de Ollama (una herramienta para desplegar modelos grandes localmente, usualmente el 11434) a IPs públicas sin configurar un firewall. Esto constituye un grave riesgo de seguridad, que podría llevar a accesos no autorizados y abuso de los modelos desplegados localmente. Se recuerda a los usuarios prestar atención a la configuración de seguridad de red al desplegar, evitando exponer servicios sin protección a la red pública. (Fuente: karminski3)

El uso de ChatGPT para apoyo psicológico genera debate y advertencias: Un usuario de Reddit comparte su experiencia usando ChatGPT para ayudar a manejar problemas como depresión y ansiedad, descubriendo que sus consejos pueden carecer de consistencia y parecer más una validación de las opiniones preexistentes del usuario que una guía fiable. Cuando se le refutó con su propia lógica en diferentes chats, ChatGPT admitió errores. El usuario advierte que la IA podría ser simplemente un “complaciente digital” y no debería usarse para apoyo psicoterapéutico serio. La sección de comentarios explora cómo usar la IA de manera más efectiva (p.ej., pidiéndole que adopte un rol crítico, que ofrezca múltiples perspectivas) y las limitaciones de la IA para reemplazar a profesionales humanos en intervenciones de crisis. (Fuente: Reddit r/ChatGPT)
Las tres leyes de la tecnología de Douglas Adams generan resonancia: Un usuario cita las tres leyes de la tecnología del escritor de ciencia ficción Douglas Adams, que describen humorísticamente la reacción común de personas de diferentes edades ante las nuevas tecnologías: la tecnología existente al nacer se considera normal, la tecnología nacida en la juventud se considera revolucionaria, y la tecnología que aparece en la vejez se considera una herejía. Este comentario resuena en el contexto del rápido desarrollo de la IA, sugiriendo que la aceptación de tecnologías disruptivas como la IA puede estar relacionada con la etapa de la vida en la que se encuentre la persona. (Fuente: dotey)
Experiencia de usuario: ChatGPT se vuelve “demasiado real” o “Gen Z-ificado”: Una publicación en Reddit muestra una captura de pantalla de una conversación con ChatGPT cuyo estilo de respuesta es descrito por el usuario como “demasiado real” o con jerga y memes de internet de la “Gen Z” (como “Let me cook”). Las reacciones en los comentarios son variadas, a algunos les parece divertido, mientras que otros consideran este estilo “incómodo” o “infantilizado”. Esto refleja las diferentes percepciones de los usuarios sobre la personalidad y el estilo lingüístico de la IA, así como los posibles problemas de experiencia que puede acarrear la imitación de tendencias lingüísticas de internet por parte del modelo. (Fuente: Reddit r/ChatGPT)

La generación por IA de instantáneas de la vida futura provoca debate creativo: Un usuario comparte una serie de imágenes generadas con ChatGPT al estilo “Snapchat de la vida futura”, que representan escenas como camareros robot, mascotas AI, transporte futuro, etc. Estas imágenes creativas han provocado discusiones en la comunidad sobre la capacidad de generación de imágenes de la IA y la imaginación sobre la vida futura, elogiando su creatividad y el creciente realismo. (Fuente: Reddit r/ChatGPT)
Usuario comparte cómo usó ChatGPT para convertir bocetos a mano en imágenes realistas: Un artista usuario muestra el proceso y los resultados de usar ChatGPT para convertir sus bocetos a mano de estilo surrealista en imágenes realistas. La comunidad lo elogia, considerándolo una forma interesante de experimentación artística que puede ayudar a los artistas a explorar ideas y diferentes estilos, en lugar de simplemente buscar imágenes “mejores”. (Fuente: Reddit r/ChatGPT)
💡 Otros
Reflexión sobre la construcción de sistemas de IA: La “amarga lección” y la prioridad de la computación: El artículo cita la teoría de la “amarga lección” (bitter lesson) de Richard Sutton, señalando que en el desarrollo de la IA, los sistemas que dependen de la expansión de la capacidad computacional general (impulsados por la computación) finalmente superarán a los sistemas que dependen de reglas complejas diseñadas meticulosamente por humanos. A través de la comparación de casos de IA de atención al cliente (sistema basado en reglas vs IA con computación limitada vs IA exploratoria con gran computación) y el éxito del aprendizaje por refuerzo (RL) (como en la investigación profunda de OpenAI, Claude), se enfatiza que las empresas deben invertir en infraestructura computacional en lugar de optimizar excesivamente los algoritmos, y el rol de los ingenieros debe cambiar a ser “constructores de pistas” que crean entornos de aprendizaje escalables. La idea central es: arquitectura simple + computación a gran escala + aprendizaje exploratorio > diseño complejo + reglas fijas. (Fuente: 苦涩的启示:对AI系统构建方式的反思)
Exploración de la conexión entre el campo de la IA y las comunidades del Racionalismo/Altruismo Eficaz: Un profesional de machine learning observa que el campo de investigación de la IA parece tener dos subcomunidades con poca interacción, una de las cuales está estrechamente relacionada con las comunidades del Racionalismo (Rationalism) y el Altruismo Eficaz (Effective Altruism, EA), publicando frecuentemente investigaciones sobre predicciones de AGI, problemas de alineación, y manteniendo estrechos vínculos con ciertas grandes empresas del Área de la Bahía. El autor señala que esta comunidad, al discutir conceptos de ciencia cognitiva (como la conciencia situacional), a veces parece redefinirlos independientemente del sistema académico existente, por ejemplo, la definición de “conciencia situacional” de Anthropic se centra en el conocimiento del modelo sobre su proceso de desarrollo, en lugar de la definición tradicional de la ciencia cognitiva basada en modelos sensoriales y ambientales. (Fuente: Reddit r/ArtificialInteligence)
Usuario descubre que un chatbot de IA usa inesperadamente su apodo de otras plataformas: Un usuario, al probar una nueva plataforma de chatbot de IA sin proporcionar ninguna información personal, descubrió que el bot, en su segundo mensaje, lo llamó con precisión por el apodo que usa comúnmente en otras plataformas. Esto generó preocupaciones en el usuario sobre la privacidad de los datos y el seguimiento de información entre plataformas, lamentando que podría haber sido “rastreado” o “perfilado”. (Fuente: Reddit r/ArtificialInteligence)
Nueva idea para la evaluación de modelos de IA: Juzgar la inteligencia a través de informes orales de 3 minutos: Se propone una nueva forma de evaluar la inteligencia de la IA: hacer que los modelos de IA de primer nivel (como o3 vs Gemini 2.5 Pro) realicen una presentación oral de 3 minutos sobre un tema específico (política, economía, filosofía, etc.), y que una audiencia humana juzgue su nivel de inteligencia. Se argumenta que esta forma es más intuitiva que depender de benchmarks profesionales y puede evaluar mejor la organización, retórica, emoción y rendimiento intelectual del modelo, especialmente en tareas que requieren persuasión. Esta forma de “debate de IA” o “concurso de oratoria” podría convertirse en una nueva dimensión para evaluar la capacidad de los modelos cercanos a la AGI. (Fuente: Reddit r/ArtificialInteligence)