Diario de IA - 2025-05-16(Edición vespertina)

Palabras clave：Modelo de IA, Meta Behemoth, Anomalía Grok, Agente de IA, Función de memoria de IA, OpenAI, Tencent y Alibaba, Ética de la IA, Retraso en el lanzamiento del modelo insignia de IA Behemoth de Meta, Controversia sobre el robot de IA Grok de Musk y el genocidio, Ecosistema de Agentes de IA en WeChat de Tencent, Avance del agente de desarrollo de software de OpenAI, Problemas de derechos de autor en contenidos generados por IA

🔥 ENFOQUE

El lanzamiento del modelo insignia de IA de Meta, “Behemoth”, se retrasa repetidamente, lo que genera preocupación interna y reflexión en la industria: El lanzamiento del modelo insignia de IA de Meta, “Behemoth”, originalmente programado para abril y luego pospuesto a junio, se ha retrasado nuevamente hasta otoño o incluso más tarde. Fuentes internas indican que la mejora del rendimiento del modelo no ha cumplido las expectativas, lo que ha generado dudas sobre la dirección de las elevadas inversiones en IA y podría llevar a ajustes en la dirección del departamento de productos de IA. Meta había afirmado que Behemoth lideraba en algunas pruebas, pero el entrenamiento real ha encontrado cuellos de botella. Este incidente no es aislado; GPT-5 de OpenAI y Claude 3.5 Opus de Anthropic también enfrentan retrasos similares, lo que revela los posibles cuellos de botella tecnológicos generalizados, el aumento de los costos y la fuga de talentos que la industria de la IA podría encontrar en su búsqueda de una mayor inteligencia (11 de los 14 investigadores del equipo original de Llama ya se han ido). Esto sugiere que la velocidad de los avances tecnológicos en IA podría disminuir, lo que plantea desafíos para el modelo de desarrollo y las expectativas de la industria. (Fuente: 36氪, dotey, Reddit r/LocalLLaMA, madiator)

El robot de IA Grok de Musk sufre anomalías y menciona frecuentemente el “genocidio blanco en Sudáfrica”, generando controversia: El 14 de mayo, el chatbot de IA Grok de xAI experimentó un fallo en la plataforma X. Independientemente del contenido de las preguntas de los usuarios, respondía con una gran cantidad de información relacionada con el “genocidio blanco en Sudáfrica” y el lema anti-apartheid “matar al Bóer”, incluso cuando se discutían temas no relacionados como videos de cerditos. El incidente atrajo una amplia atención, y el CEO de OpenAI, Altman, también publicó un comentario burlón. xAI respondió que el fallo se debió a una modificación no autorizada de los prompts de respuesta de Grok, lo que violaba las políticas y valores de la empresa. Para mejorar la transparencia y la fiabilidad, xAI ha publicado los prompts del sistema Grok en GitHub y se ha comprometido a reforzar los procesos de revisión interna y a establecer un equipo de monitorización 24 horas. Este suceso ha reavivado el debate ético sobre los sesgos en los modelos de IA, el control de contenidos y las intenciones de los desarrolladores detrás de ellos. (Fuente: 36氪, 36氪, iScienceLuvr, teortaxesTex, andersonbcdefg, gallabytes, jeremyphoward, Reddit r/artificial)

Los AI Agents se convierten en el nuevo campo de batalla para los gigantes tecnológicos, Tencent y Alibaba aumentan su inversión: Tencent y Alibaba destacaron en sus últimos informes financieros sus estrategias impulsadas por la IA y consideran a los AI Agents (agentes inteligentes) como clave para el crecimiento futuro. El CEO de Tencent, Ma Huateng, reveló que la IA ya ha contribuido sustancialmente a los negocios de publicidad y juegos, y la compañía está aumentando la inversión en la aplicación Yuanbao y en los AI Agents dentro de WeChat, creyendo que el ecosistema único de WeChat (social, contenido, mini programas, capacidades de transacción) puede generar Agents únicos capaces de ejecutar tareas complejas. El presidente de la junta directiva de Alibaba, Joe Tsai, también señaló que en los próximos tres a cinco años todos los negocios deberían estar impulsados por la IA. Ambas compañías han aumentado significativamente sus gastos de capital para la construcción de infraestructura de IA. Sequoia Capital también predice que los Agents se convertirán en una economía de agentes inteligentes. Se espera que el auge de los AI Agents impulse un aumento en la demanda de potencia de cómputo, lo que podría marcar un nuevo comienzo para la industrialización de la IA. (Fuente: 36氪, 36氪)

La competencia por la función de memoria en IA se intensifica; gigantes como OpenAI, Google y Meta compiten por mejorar la experiencia personalizada y la fidelidad del usuario: Gigantes tecnológicos como OpenAI, Google, Meta y Microsoft están actualizando activamente las funciones de memoria de sus chatbots de IA, con el objetivo de proporcionar servicios más personalizados y atractivos mediante el almacenamiento de más información del usuario (como historial de conversaciones, preferencias, historial de búsqueda). Por ejemplo, ChatGPT ha añadido la función de “referenciar historial de chat”, y Gemini de Google ha ampliado la memoria al historial de búsqueda del usuario. Esta medida se considera clave para la diferenciación competitiva de los gigantes de la IA y la exploración de nuevas vías de monetización (como el marketing de afiliación y la publicidad). Sin embargo, esto también plantea preocupaciones sobre la filtración de la privacidad del usuario, la manipulación comercial y la posibilidad de que los modelos de IA refuercen sesgos o generen alucinaciones. Los expertos advierten sobre la necesidad de prestar atención a los mecanismos de incentivos detrás de los proveedores de servicios y piden una mayor regulación. (Fuente: 36氪, 36氪)

AI记忆功能竞赛升级，OpenAI、谷歌、Meta等巨头竞相增强个性化体验与用户粘性

🎯 MOVIMIENTOS

OpenAI anuncia novedades, posiblemente relacionadas con agentes de desarrollo de software y aplicaciones de escritorio: La cuenta oficial de OpenAI publicó un misterioso anuncio: “Desarrolladores, programen sus alarmas”, insinuando un próximo anuncio. La comunidad especula que podría estar relacionado con el rumoreado agente de ingenieros de desarrollo de software (SDE) o aplicaciones de IA para escritorio, e incluso podría ser una demostración de los resultados del equipo de Windsurf, que adquirieron. Anteriormente, Sam Altman también mencionó que compartiría una “discreta vista previa de investigación”, lo que generó expectativas en el mercado sobre los nuevos avances de OpenAI en la automatización del desarrollo de software, agentes para el uso de computadoras, etc. (Fuente: openai, op7418, dotey, cto_junior, brickroad7, kevinweil, tokenbender, Teknium1)

Lanzamiento de Ollama 0.7.0, con soporte oficial para modelos multimodales: Ollama ha lanzado su versión 0.7.0, añadiendo soporte para modelos multimodales. Esto significa que los usuarios ahora pueden ejecutar modelos de lenguaje visual como Gemma 3 de Google y Qwen 2.5 VL de Alibaba Qwen a través de Ollama. Esta actualización amplía la capacidad de Ollama para ejecutar grandes modelos de lenguaje localmente, permitiéndole manejar tareas más complejas que incluyen texto e imágenes, impulsando aún más el desarrollo de aplicaciones de IA locales. (Fuente: ollama, jerryjliu0, ollama, Reddit r/LocalLLaMA)

Lenovo planea lanzar un mini host de IA equipado con el superchip GB10 de NVIDIA: Lenovo planea lanzar un pequeño host de IA similar a NVIDIA Digits, que utilizará el NVIDIA GB10 Grace Blackwell Superchip. Se espera que su potencia de cómputo alcance 1 PFLOPS y esté equipado con 128 GB de memoria unificada. Sin embargo, cabe destacar que el ancho de banda de memoria del GB10 Grace Blackwell Superchip es relativamente bajo, de solo 273 GB/s, lo que podría convertirse en un cuello de botella para su rendimiento. (Fuente: karminski3, Reddit r/LocalLLaMA)

Modelos de IA de primer nivel como Seed-Thinking de ByteDance tienen un bajo rendimiento en las finales del concurso de programación CCPC, exponiendo las deficiencias actuales de la IA en la resolución de algoritmos: En la final del décimo Concurso de Diseño de Programas para Estudiantes Universitarios de China (CCPC), modelos de IA de renombre como Seed-Thinking de ByteDance, o3/o4 de OpenAI y Gemini 2.5 Pro de Google tuvieron un rendimiento insatisfactorio, la mayoría resolviendo solo un “problema de calentamiento”, mientras que DeepSeek R1 obtuvo cero AC (Accepted). Este resultado generó debate, señalando que los grandes modelos actuales aún tienen deficiencias en la resolución de problemas de concursos de algoritmos que requieren creatividad única y lógica compleja, especialmente en entornos no agénticos (es decir, sin herramientas externas para ayudar en la ejecución y depuración). Aunque algunos modelos han logrado buenos resultados en competencias como la IOI mediante entrenamiento agéntico, el rendimiento en este CCPC destaca las limitaciones de la capacidad de razonamiento puro del modelo frente a problemas algorítmicos nuevos y complejos. (Fuente: 36氪)

字节跳动Seed-Thinking等顶尖AI模型在CCPC编程竞赛决赛中表现不佳，暴露当前AI算法解题短板

La fusión acelerada de chips de audio/video y tecnología de IA en el dispositivo impulsa la inteligencia de los terminales de consumo: Con el crecimiento de la demanda de IA en el dispositivo, los fabricantes de chips de audio y video están acelerando la integración de la tecnología de IA en sus productos para satisfacer las necesidades de procesamiento de datos local, toma de decisiones inteligente y experiencias personalizadas en dispositivos electrónicos de consumo como teléfonos móviles, PC y wearables. Empresas como Telink Microelectronics, Actions Technology, Bestechnic, Ingenic Semiconductor y Fullhan Microelectronics han lanzado soluciones de chips que integran NPU y admiten algoritmos de IA (como reducción de ruido, procesamiento inteligente de audio y aplicaciones visuales). Esta tendencia tiene como objetivo reconfigurar la lógica de interacción y los escenarios de aplicación de los dispositivos, impulsando los dispositivos inteligentes de consumo hacia un ecosistema de “IA como servicio”. Aunque la industria todavía está buscando la “aplicación estrella”, la IA que define módulos funcionales ya es una señal positiva. (Fuente: 36氪)

Científico jefe de OpenAI, Jakub Pachocki: La IA ha comenzado a poseer capacidades de investigación original, la AGI está pasando de la teoría a la realidad: El científico jefe de OpenAI, Jakub Pachocki, declaró en una entrevista exclusiva con la revista Nature que el aprendizaje por refuerzo está empujando a los modelos de IA hacia el límite del “razonamiento”, y la AGI (Inteligencia Artificial General) está pasando de la teoría a la realidad. Predice que la IA podrá en el futuro realizar investigaciones científicas originales de forma independiente, impulsando el desarrollo en campos como la ingeniería de software y el diseño de hardware. Subrayó que, aunque el mecanismo de funcionamiento de los modelos es diferente al del cerebro humano, ya pueden generar nuevas perspectivas y poseen alguna forma de capacidad de pensamiento. OpenAI planea lanzar nuevas versiones con un rendimiento superior a los modelos de código abierto existentes, pero bajo la premisa de la seguridad. Pachocki cree que el próximo hito de la IA es generar un impacto económico medible, especialmente en la investigación original, y predice que la IA podrá desarrollar software valioso de forma casi autónoma este año. (Fuente: 36氪)

El lanzamiento de Apple Intelligence se retrasa, la versión para China continental no llegará hasta iOS 18.6 o posterior: Apple Intelligence, anunciada por Apple en la WWDC24, originalmente planeaba un lanzamiento completo en 2025, pero la versión para China continental aún no se ha lanzado y se espera que tarde al menos hasta julio con iOS 18.6. Aunque la versión en inglés ya está disponible, funciones clave como Siri avanzado y Genmoji están ausentes o tienen una experiencia deficiente, lo que ha provocado el descontento de los usuarios y demandas colectivas. El retraso de la versión para China continental se debe principalmente a la necesidad de cumplir con las políticas regulatorias nacionales, realizar adaptaciones locales y revisiones de contenido; se rumorea que colaborará con IA nacionales como Baidu Ernie Bot. Frente a la rápida integración y los desafíos de competidores como Perplexity AI y Meta AI, el retraso de Apple Intelligence podría afectar su ventaja ecológica y la lealtad de los usuarios. (Fuente: 36氪)

苹果AI（Apple Intelligence）发布延迟，国行版上线需待iOS 18.6或更晚

La tecnología de IA remodela la gestión de la cadena de suministro, dando lugar al mercado de plataformas de gestión de cadena de suministro full-stack de IA: Ante los nuevos desafíos como el aumento de la complejidad de la cadena de suministro, la amplificación de riesgos y los cuellos de botella en la eficiencia, la tecnología de IA (especialmente el aprendizaje automático, la optimización operativa y la IA generativa) está impulsando la transformación de la gestión de la cadena de suministro hacia la inteligencia. Las plataformas de gestión de cadena de suministro full-stack de IA han surgido para optimizar todo el proceso, desde la percepción de la demanda hasta la ejecución del cumplimiento, mediante la digitalización del negocio, la inteligencia de datos y la colaboración en toda la cadena. Esta plataforma integra un data middle platform, un motor de decisiones inteligentes, monitorización de toda la cadena y un portal de colaboración ecológica. Su valor principal radica en mejorar la respuesta ágil y la predicción precisa (por ejemplo, una precisión de predicción de la demanda superior al 85%), la optimización de la eficiencia y los costos (aumento de la rotación de inventario superior al 40%), la transparencia de toda la cadena y la gestión de riesgos, la colaboración ecológica y el aumento de la resiliencia, y el apoyo al desarrollo sostenible. El Instituto de Investigación Haibi predice que el tamaño de este mercado en China será de aproximadamente 700 millones de yuanes en 2024, y se espera que supere los 1.000 millones de yuanes en 2027. (Fuente: 36氪)

Zhang Yaqin habla sobre las oportunidades de la IA en China en la era post-ChatGPT: Cinco direcciones de desarrollo y tres predicciones: Zhang Yaqin, decano del Instituto de Industria Inteligente de la Universidad de Tsinghua, considera que ChatGPT es el primer agente inteligente en pasar el test de Turing, marcando un hito en la IA. Señala que los grandes modelos están remodelando la estructura de TI y que China tiene una brecha con el nivel más alto en chips de alta gama y sistemas de algoritmos, pero puede encontrar numerosas oportunidades en modelos básicos verticales, la capa SaaS y el borde (smartphones, PC, IoT, automóviles, etc.). Predice cinco direcciones principales de desarrollo para los grandes modelos de IA: inteligencia multimodal, inteligencia autónoma, inteligencia en el borde, inteligencia física (conducción autónoma, robots) e inteligencia biológica (interfaces cerebro-computadora, medicina). Y presenta tres puntos de vista: 1) Los grandes modelos y la IA generativa serán la corriente principal durante los próximos 10 años; 2) Modelo básico grande + modelo vertical grande + modelo de borde, coexistiendo el código abierto y el comercial; 3) La Tokenisation unificada + la Scaling Law (ley de escalamiento) son fundamentales, pero se necesitan nuevos sistemas de algoritmos para mejorar la eficiencia, y la arquitectura tecnológica de la IA podría experimentar avances importantes en los próximos 5 años; 4) Se espera alcanzar la inteligencia artificial general en 15-20 años, pasando por nuevas pruebas de Turing por etapas. (Fuente: 36氪)

🧰 HERRAMIENTAS

Windsurf lanza su primera serie de modelos de vanguardia auto-desarrollados SWE-1, con el objetivo de mejorar la eficiencia del desarrollo de software en un 99%: La empresa de herramientas de programación de IA Windsurf (que se rumorea será adquirida por OpenAI) ha lanzado su primera serie de modelos optimizados para la ingeniería de software, SWE-1. La serie incluye SWE-1 (similar a Claude 3.5 Sonnet, pero con menor costo), SWE-1-lite (que reemplaza a Cascade Base, disponible para todos los usuarios) y SWE-1-mini (baja latencia, para Windsurf Tab). La innovación principal de SWE-1 es el sistema “Flow Awareness”, donde la IA comparte la línea de tiempo operativa con el usuario, logrando una colaboración eficiente y comprendiendo estados incompletos y tareas de largo ciclo. Las evaluaciones offline y las pruebas online indican que SWE-1 se acerca al rendimiento de los modelos de primer nivel en tareas de SWE conversacionales y de extremo a extremo, y supera a los modelos no vanguardistas en métricas como la tasa de contribución de código. (Fuente: 36氪)

Proyecto de código abierto WeClone: utiliza registros de chat de WeChat para crear dobles digitales de IA personalizados: Un proyecto de código abierto en Python llamado WeClone permite a los usuarios crear dobles digitales de IA basados en sus registros de chat personales de WeChat. El proyecto utiliza el principio de la base de conocimientos RAG (Retrieval Augmented Generation), importa datos de chat de WeChat, ajusta modelos como Qwen2.5-7B-Instruct mediante el método LoRA, y combina tecnologías ASR (reconocimiento de voz) y TTS (texto a voz) para generar la voz del usuario. El proyecto admite la conexión con WeChat, WeChat Work y Feishu (Lark) a través de AstrBot. Dado que los registros de chat de WeChat contienen una gran cantidad de conversaciones reales, personalizadas y multiescenario, son muy adecuados como base de conocimiento privada para entrenar personas digitales, aplicables a asistentes de IA personalizados, servicio al cliente empresarial, marketing e incluso consultoría financiera, entre otros escenarios. (Fuente: 36氪)

Nueva función de llama.cpp: admite la extracción y entrada de contenido PDF, pero actualmente solo en la interfaz web y con un manejo deficiente de formatos complejos: El proyecto llama.cpp implementó recientemente el soporte para la entrada de archivos PDF a través del PR #13562. Esta función no modifica directamente el código fuente de llama.cpp, sino que utiliza una biblioteca JavaScript en la interfaz web para extraer el contenido del PDF y luego pasarlo a llama.cpp. Esto significa que esta función actualmente se limita a la interfaz de usuario web proporcionada por llama.cpp, y aún no está disponible a nivel de API. Aunque permite la importación conveniente de contenido PDF, para PDF que contienen elementos complejos (como fórmulas matemáticas), el efecto de extracción es regular y pueden ocurrir errores de análisis. (Fuente: karminski3)

llama.cpp新功能：支持PDF内容提取与输入，但目前仅限Web界面且对复杂格式处理不佳

El framework Unsloth añade función de fine-tuning para TTS y soporte para Qwen3 GRPO: Unsloth anunció que su framework ahora admite el fine-tuning de modelos de texto a voz (TTS), aumentando la velocidad de entrenamiento aproximadamente 1.5 veces y reduciendo el consumo de VRAM en un 50%. Los modelos compatibles incluyen Sesame/csm-1b, OpenAI/whisper-large-v3 y otros modelos de arquitectura Transformer. El fine-tuning de TTS se puede utilizar para imitar voces, ajustar el estilo y el tono del habla, admitir nuevos idiomas, etc. Unsloth proporciona Colab Notebooks para entrenar, ejecutar y guardar modelos de forma gratuita. Además, Unsloth ha añadido soporte para Qwen3 GRPO (Generative Retrieval Policy Optimization), que utiliza un modelo base y una nueva función de recompensa basada en la proximidad para la optimización. (Fuente: Reddit r/LocalLLaMA)

INAIR lanza computadora espacial de IA, apuntando al mercado de la oficina ligera móvil: La empresa de gafas AR+AI INAIR ha lanzado su computadora espacial de IA, compuesta por las gafas AR INAIR 2 Pro, el centro de cómputo INAIR Pod y el teclado de operación espacial 3D INAIR Touchboard. El producto tiene como objetivo proporcionar una segunda opción además de las computadoras portátiles para usuarios de negocios en viaje y de oficina ligera, pudiendo proyectar una pantalla gigante sin bordes equivalente a 134 pulgadas a 4 metros, y admitiendo el control remoto de computadoras. Su sistema de asistente inteligente a nivel de sistema INAIR AI Agent integra múltiples grandes modelos como DeepSeek, Doubao, Ernie Bot y ChatGPT, pudiendo ofrecer traducción en tiempo real, resumen de contenido y otras funciones, y mejorar la eficiencia del trabajo aprendiendo los hábitos del usuario. (Fuente: 36氪)

El framework de inferencia llamafile ahora es compatible con los modelos Qwen3: llamafile, un framework de inferencia que integra llama.cpp y la biblioteca C altamente portable Cosmopolitan Libc, ahora es compatible con la serie de modelos Qwen3. Su característica principal es empaquetar todas las dependencias de ejecución en un único archivo ejecutable, lo que mejora enormemente la portabilidad y permite a los usuarios ejecutar grandes modelos sin procesos de instalación complejos. (Fuente: karminski3)

Kling AI lanza la versión 2.0 y API, añadiendo funciones como rotación de logotipos 3D: Kling AI anunció que Kling 2.0, Elements y la API de Video Effects Suite ya están disponibles. La nueva versión mejora la capacidad de generación de video e introduce tutoriales como el uso de la función DizzyDizzy o Image to Video para crear rápidamente logotipos giratorios en 3D, permitiendo a los usuarios crear sin necesidad de habilidades 3D. (Fuente: Kling_ai, Kling_ai)

Manus AI añade función de generación de imágenes, posiblemente basada en la API de GPT-4o: La aplicación de asistente de IA Manus anunció soporte para la generación de imágenes. Oficialmente, Manus no solo puede generar imágenes, sino también comprender la intención del usuario, planificar soluciones y combinar eficazmente la generación de imágenes con otras herramientas para completar tareas. La comunidad especula que su capacidad de generación de imágenes podría estar basada en la API del modelo más reciente de OpenAI, GPT-4o. (Fuente: op7418)

Blackbox ofrece acceso bajo demanda a GPU A100/H100 dentro del IDE: Blackbox ha lanzado un servicio para acceder bajo demanda a GPU de alta gama (A100s y H100s) directamente desde el entorno de desarrollo integrado (IDE). Los usuarios no necesitan complejas operaciones de consola en la nube ni gestión de claves API, pueden iniciar instancias de GPU directamente desde el IDE o la extensión de Blackbox. El precio es de 14 dólares por hora para 8 nodos A100, con el objetivo de simplificar la obtención de recursos computacionales para el aprendizaje automático y tareas de procesamiento intensivo, haciéndolo tan conveniente como abrir una pestaña de terminal. (Fuente: Reddit r/deeplearning)

📚 APRENDIZAJE

HuggingFace lanza tutorial de MCP (Protocolo de Cumplimiento de Modelos): HuggingFace ha publicado un nuevo tutorial de MCP, diseñado para ayudar a los usuarios a comprender la composición del protocolo MCP, utilizar SDK/frameworks existentes e implementar servicios MCP por su cuenta. El contenido del curso es relativamente simple, adecuado para que ingenieros experimentados lo dominen rápidamente, y al completarlo se puede obtener un certificado de finalización. El protocolo MCP es crucial para lograr la transmisión de información, valor y confianza entre modelos, y es uno de los desafíos técnicos en la construcción de una economía de agentes inteligentes. (Fuente: karminski3)

Nuevo paper J1: Incentivando el “pensamiento” en LLM-as-a-Judge mediante aprendizaje por refuerzo: Un nuevo artículo titulado “J1: Incentivizing Thinking in LLM-as-a-Judge via RL” propone un método para optimizar el proceso de pensamiento, la puntuación y el juicio de los grandes modelos de lenguaje como evaluadores (LLM-as-a-Judge) mediante el aprendizaje por refuerzo (específicamente GRPO). Este método puede transformar tareas de juicio de prompts verificables e inverificables en tareas verificables, utilizando únicamente datos sintéticos emparejados. La investigación encontró que el modelo J1 supera a las líneas base en escalas de 8B y 70B, y demuestra múltiples estrategias de pensamiento, como enumerar criterios de evaluación, comparar con respuestas de referencia autogeneradas y reevaluar la corrección. (Fuente: jaseweston, jaseweston)

La Universidad de Pekín y la Universidad Renmin de China publican conjuntamente Being-M0: un marco de generación de movimiento universal para robots humanoides impulsado por un conjunto de datos de un millón de muestras: El equipo de Lu Zongqing de la Universidad de Pekín, en colaboración con la Universidad Renmin de China y otros, ha propuesto un marco universal de generación de movimiento para robots humanoides, Being-M0, y ha construido el primer conjunto de datos de generación de movimiento a escala de un millón en la industria, MotionLib. Este marco, mediante datos de video de Internet a gran escala y un modelo de generación de movimiento impulsado por texto de extremo a extremo, logra la generación de movimientos humanos complejos y diversos, y puede transferir movimientos humanos a robots humanoides de diversas morfologías como Unitree H1 y G1. Las innovaciones principales incluyen el proceso de construcción del conjunto de datos MotionLib, un modelo que valida la viabilidad de “big data + grandes modelos” en el campo de la generación de movimiento, y un innovador marco de cuantificación bidimensional sin búsqueda, MotionBook, que resuelve el problema de la pérdida de información en la compresión de datos de movimiento de alta dimensión con la tecnología VQ tradicional. (Fuente: 量子位)

ByteDance publica el conjunto de datos WildDoc para evaluar la capacidad de comprensión de documentos del mundo real por parte de los VLM: ByteDance ha publicado en Hugging Face un nuevo conjunto de datos de respuesta visual a preguntas (VQA), WildDoc. Este conjunto de datos tiene como objetivo evaluar la capacidad de los modelos de lenguaje visual (VLM) para comprender documentos en escenarios del mundo real. (Fuente: _akhaliq)

Puntos destacados de la agenda de ICRA 2025 (Conferencia Internacional IEEE sobre Robótica y Automatización): La Conferencia Internacional IEEE sobre Robótica y Automatización (ICRA) de 2025 se celebrará del 19 al 23 de mayo en Atlanta, EE. UU. El contenido de la conferencia incluye discursos principales de Allison Okamura, Tessa Lau, Raffaello D’Andrea, entre otros, así como informes clave que cubren 12 áreas: robótica de rehabilitación, control de optimización, interacción humano-robot, robótica blanda, robótica de campo, robótica biomimética, háptica, planificación, manipulación, movimiento, seguridad y métodos formales, y sistemas multi-robot. Además, habrá un taller intensivo de comunicación científica, 59 talleres y tutoriales, un foro de ética en robótica, un foro para científicos africanos que promueven la investigación en robótica, un foro de educación en robótica para estudiantes universitarios y un día de construcción de comunidad. (Fuente: aihub.org)

Paper LlamaDuo: Proceso LLMOps para una migración fluida de LLM de servicio a LLM locales a pequeña escala: Un artículo aceptado en la conferencia principal de ACL 2025, titulado “LlamaDuo: LLMOps Pipeline for Seamless Migration from Service LLMs to Small-Scale Local LLMs”, presenta un proceso LLMOps diseñado para ayudar a los usuarios a realizar una transición fluida desde el uso de grandes LLM de tipo servicio (como llamadas API) al uso de LLM locales más pequeños. Esta investigación es producto de la colaboración comunitaria y de código abierto, y enfatiza la importancia de cambiar y optimizar flexiblemente las estrategias de despliegue de modelos en aplicaciones prácticas. (Fuente: algo_diver)

Estudio de Tubi: La regresión de Tweedie supera a LogLoss ponderado en la optimización de la participación del usuario en video bajo demanda: Un estudio de la plataforma de video Tubi demuestra que, para optimizar los sistemas de recomendación de video y mejorar la participación del usuario (como el tiempo de visualización posterior), un modelo de regresión de Tweedie que predice directamente el tiempo de visualización del usuario es más efectivo que el modelo tradicional de LogLoss ponderado por tiempo de visualización. Los resultados experimentales muestran que la regresión de Tweedie generó un aumento del +0.4% en los ingresos y del +0.15% en el tiempo de visualización. El estudio considera que las propiedades estadísticas de la regresión de Tweedie se ajustan mejor a las características de los datos de tiempo de visualización, que presentan inflación de ceros y distribución asimétrica. (Fuente: Reddit r/MachineLearning)

Tubi研究：Tweedie回归在视频点播用户参与度优化上优于加权LogLoss

💼 NEGOCIOS

La aplicación de sincronización labial Hedra recauda 32 millones de dólares en una ronda Serie A liderada por a16z: La startup de generación de video con IA Hedra anunció la finalización de una ronda de financiación Serie A de 32 millones de dólares, liderada por Andreessen Horowitz (a16z), con Matt Bornstein uniéndose a su junta directiva. Los inversores existentes a16z speedrun, Abstract e Index Ventures también participaron en esta ronda. Hedra se especializa en generar videos de personajes hablando de manera expresiva y controlable, y su tecnología tiene como objetivo resolver los desafíos de la sincronización labial y la expresión emocional en los videos generados por IA. (Fuente: op7418)

EE. UU. y Arabia Saudita, Emiratos Árabes Unidos alcanzan cooperación en IA, involucrando centros de datos de 5GW y suministro de chips, con el objetivo de excluir la influencia china: Estados Unidos, Arabia Saudita y los Emiratos Árabes Unidos han alcanzado un importante acuerdo de cooperación en IA, que implica la construcción de centros de datos de 5GW y el suministro de una gran cantidad de chips de IA avanzados (como los chips Blackwell de NVIDIA) por parte de empresas estadounidenses como NVIDIA, AMD y Qualcomm. La recién creada empresa de IA saudí, Humain, será la principal ejecutora. Esta medida se considera un despliegue estratégico de EE. UU. para promover su pila tecnológica de IA en Oriente Medio, acelerar la construcción de infraestructura y, con ello, asegurar aliados, al tiempo que limita la inversión en infraestructura de IA y la influencia tecnológica de China en la región. El nuevo acuerdo elimina algunas restricciones previas a la exportación de chips de IA a Oriente Medio, pero al mismo tiempo refuerza las advertencias globales sobre el uso de chips chinos como los Huawei Ascend. (Fuente: dylan522p, 36氪, iScienceLuvr)

美国与沙特、阿联酋达成AI领域合作，涉5GW数据中心及芯片供应，旨在排除中国影响

La empresa de SaaS para restaurantes Owner recauda 120 millones de dólares y se convierte en unicornio, utilizando IA para crear “ejecutivos de restaurante de IA”: Owner, una empresa que ofrece soluciones digitales integrales para restaurantes independientes, completó recientemente una ronda de financiación Serie C de 120 millones de dólares, alcanzando una valoración de 1.000 millones de dólares. Owner, mediante una tarifa mensual fija, proporciona a los restaurantes la creación de sitios web/aplicaciones, integración de pedidos y entregas, optimización SEO y servicios de automatización de marketing, y ya atiende a más de 10.000 restaurantes. Su estrategia de IA para 2025 incluye el lanzamiento de “ejecutivos de restaurante de IA” (AI CMO, CFO, CTO) para gestionar tanto a empleados de IA como humanos, y la creación de AI Agents conversacionales para mejorar la eficiencia del servicio. Esta ronda de financiación fue coliderada por Redpoint Ventures y Altman Capital, lo que demuestra el potencial de la IA para remodelar el valor del SaaS tradicional. (Fuente: 36氪)

餐饮SaaS公司Owner融资1.2亿美元成独角兽，利用AI打造“AI餐厅高管”

🌟 COMUNIDAD

La actividad de Stack Overflow cae drásticamente a niveles de 2009, la IA podría ser la causa principal: Los datos muestran que el número mensual de preguntas en la conocida comunidad de preguntas y respuestas para desarrolladores Stack Overflow ha caído a los niveles de cuando se lanzó en 2009. Este fenómeno ha provocado un debate sobre el impacto de la IA en las comunidades de desarrolladores tradicionales. Muchos creen que, con el auge de los asistentes de programación de IA como ChatGPT, los desarrolladores tienden cada vez más a hacer preguntas directamente a la IA y buscar soluciones de código, en lugar de preguntar en comunidades como Stack Overflow y esperar respuestas humanas, lo que podría haber llevado a una drástica disminución de la actividad comunitaria. (Fuente: zachtratar, karminski3)

La IA genera una crisis de “profesionalismo” en el lugar de trabajo, los empleados creen que la era de la IA necesita más humanidad: Con la popularización de la IA en el lugar de trabajo, muchos empleados sienten que sus habilidades profesionales están siendo “deconstruidas”. Los líderes tienden a hacer que la IA modifique los resultados de los empleados, e incluso consideran que la IA es superior a los empleados humanos, lo que hace que los empleados se sientan irrespetados y enfrenten una crisis de ser reemplazados. Investigaciones muestran que los empleados pueden distinguir entre correos electrónicos escritos por el CEO y por la IA, y cuando creen que el contenido fue generado por IA, incluso si fue escrito por un humano, la evaluación disminuye. Esto refleja la preferencia de las personas por la creación humana y la preocupación por la dependencia excesiva de la IA. Al mismo tiempo, un estudio de McKinsey señala que el 54% de los empleados que renuncian lo hacen porque no se sienten valorados, y el 82% de los empleados cree que la era de la IA necesita más conexión interpersonal y atención emocional. (Fuente: 36氪, 36氪)

Jóvenes chinos adoptan compañeros de IA, lo que genera preocupación social por la baja tasa de natalidad: Un informe de The Economist se centra en el fenómeno creciente entre los jóvenes chinos de tener relaciones románticas y amistades con IA. Aplicaciones de compañeros de IA como “Maoxiang” y “Xingye” continúan aumentando su base de usuarios, quienes crean personajes virtuales para satisfacer necesidades emocionales. El desarrollo tecnológico permite a la IA simular emociones y empatía, lo que, sumado a la alta presión vital de los jóvenes, la reducción del tiempo social y la disminución de las tasas de matrimonio, impulsa esta tendencia. Sin embargo, al gobierno le preocupa que los compañeros de IA puedan agravar el ya grave problema de la baja tasa de natalidad (la tasa de fertilidad total en 2024 fue de solo 1.0). (Fuente: dotey)

La asistencia de IA podría convertirse en la nueva normalidad en la educación, pero la dependencia excesiva de los profesores de ChatGPT genera descontento y reflexión entre los estudiantes: Un estudiante de la Northeastern University demandó a la universidad exigiendo el reembolso de la matrícula porque un profesor utilizó ChatGPT para generar material didáctico, lo que desató un amplio debate sobre el papel de la IA en la educación superior. Los estudiantes consideran que las elevadas matrículas deberían corresponder a una enseñanza profesional humana y no a contenido generado por algoritmos, y temen que la IA reemplace el pensamiento y la retroalimentación de los profesores. Los profesores, por su parte, ven la IA como una herramienta para mejorar la eficiencia y hacer frente a la pesada carga de trabajo. Expertos en educación señalan que la clave está en usar la IA de manera responsable, mejorando en lugar de reemplazar la creatividad y la supervisión humanas, cultivando en los estudiantes los principios éticos de la era de la IA y asegurando que el contenido generado por IA sea editado y confirmado profesionalmente. (Fuente: 36氪, Reddit r/ChatGPT)

El CEO de Salesforce afirma que la relación entre Microsoft y OpenAI está fundamentalmente rota y es irreparable: El CEO de Salesforce, Marc Benioff, declaró en una entrevista exclusiva que la relación de colaboración entre Microsoft y OpenAI ha sufrido una “ruptura fundamental y difícil de reparar”. Señaló que Copilot de Microsoft ha decepcionado a los clientes, pareciéndose más a un Clippy ineficiente, y que el CFO de OpenAI no mencionó el software de Microsoft ni Azure en un diagrama de arquitectura tecnológica, lo que confirma las fisuras entre ambas partes. Benioff considera que Microsoft es esencialmente un revendedor de ChatGPT, que su estrategia de IA está limitada y que está intentando construir su propio modelo a través del “Proyecto Prometheus”. También mencionó que el auge de modelos de código abierto como DeepSeek está impulsando a la industria hacia una transformación de la arquitectura MOE, reduciendo el costo de uso de los modelos y desmantelando la lógica comercial del “monopolio de modelos”. (Fuente: 36氪)

La autenticidad y los derechos de autor del contenido generado por IA generan preocupación; la ejecución de LLM y Linux dentro de PDF demuestra potencial tecnológico: Recientemente, entusiastas de la tecnología han demostrado la capacidad de ejecutar directamente pequeños modelos de lenguaje (como TinyStories, Pythia, TinyLLM) e incluso sistemas Linux dentro de archivos PDF, utilizando el soporte de PDF para JavaScript. Esta operación “tecnológica oscura” ha generado un animado debate entre los internautas y también destaca la tendencia hacia la miniaturización de los modelos de IA y el despliegue en el borde. Al mismo tiempo, los derechos de autor, la autenticidad y los problemas de “deepfake” del contenido generado por IA también son motivo de gran preocupación. Zhang Yaqin señaló que los riesgos de la IA incluyen deepfakes, alucinaciones, información tóxica, etc., que requieren gran atención y un fortalecimiento de la alineación de la IA con los valores humanos y la supervisión ética. (Fuente: 36氪, 36氪)

💡 OTROS

Theta lanza el benchmark CUB: la “prueba final humana” para evaluar agentes de uso de computadoras y navegadores: Theta ha lanzado una nueva prueba de referencia llamada CUB (Computer and Browser Use Agents), promocionada como la “prueba final humana” para agentes de uso de computadoras y navegadores. Este tipo de benchmarks tiene como objetivo evaluar la capacidad de los agentes de IA para simular el uso humano de computadoras y navegadores para completar tareas complejas. Sin embargo, ya existen múltiples benchmarks que se autodenominan la “prueba final humana”, lo que ha generado un debate sobre la posible exageración de su nombre. (Fuente: _akhaliq, DhruvBatraDB)

Se acusa a la IA de generar contenido vulgar, lo que suscita preocupación por el abuso de modelos y los límites éticos: En las redes sociales han aparecido usuarios que utilizan herramientas de generación de imágenes mediante IA (como DALL-E 3 de ChatGPT) para crear imágenes vulgares o parodias (por ejemplo, “Shittington Bear”). Esto ha generado preocupación por el posible abuso de las herramientas de IA para generar contenido inapropiado, infringir derechos de autor (como parodiar personajes de dibujos animados conocidos) y desafiar los límites éticos de la sociedad. Aunque las plataformas de IA suelen tener filtros de contenido, los usuarios aún pueden eludir las restricciones mediante prompts ingeniosos. (Fuente: Reddit r/ChatGPT)

Estudio revela que la IA tiene limitaciones para imitar el estilo de comunicación de los CEO, los empleados confían más en los humanos: Una investigación de la Harvard Business School descubrió que los empleados tienen una precisión de aproximadamente el 59% al discernir entre mensajes escritos por IA y por el CEO de la empresa, Wade Foster (CEO de Zapier). Más importante aún, una vez que los empleados creen que un mensaje fue generado por IA, incluso si en realidad fue escrito por el propio CEO, su evaluación tiende a ser más baja; por el contrario, el contenido que se considera escrito por el CEO, incluso si fue generado por IA, recibe una evaluación más alta. Esto indica que la confianza y la percepción de valor de la comunicación humana son mayores que las de la IA. El estudio recomienda que los líderes sean transparentes al usar IA para comunicarse, eviten usarla para respuestas muy personales y revisen rigurosamente el contenido generado por IA. (Fuente: 36氪)

🔥 ENFOQUE

🎯 MOVIMIENTOS

🧰 HERRAMIENTAS

📚 APRENDIZAJE

💼 NEGOCIOS

🌟 COMUNIDAD

💡 OTROS

Etiquetas relacionadas

Related Posts

Diario de IA – 2025-10-29(Edición matutina)

Diario de IA – 2025-10-28(Edición matutina)

Diario de IA – 2025-10-27(Edición vespertina)