Diario de IA – 2025-04-25(Tarde)

Palabras clave:modelo de razonamiento, agente de IA, aprendizaje por refuerzo, modelo grande, DeepSeek-R1, navegación visual-lingüística (VLN), aprendizaje autosupervisado DINOv2, LangGraph RAG Agent, localización de chips de IA, método de optimización SRPO, transferencia de habilidades de operación de inteligencia encarnada, gobernanza de computación cuántica

🔥 Enfoque

Los modelos de inferencia se convierten en el nuevo foco de la IA, DeepSeek-R1 sacude la industria: Tras el lanzamiento por parte de OpenAI de los modelos de la serie o centrados en la inferencia estructurada, el código abierto y el rendimiento excepcional de DeepSeek-R1 (especialmente en matemáticas y código) marcan una nueva etapa en la competencia de los grandes modelos lingüísticos (LLM). El enfoque de la industria se está desplazando de la escala de parámetros de preentrenamiento a la mejora de la capacidad de inferencia mediante el aprendizaje por refuerzo (RL). Grandes empresas nacionales como Baidu (Wenxin X1), Alibaba (Tongyi Qianwen Qwen-QwQ-32B), Tencent (Hunyuan T1), ByteDance (Doubao 1.5) y iFlytek (Xinghuo X1) están siguiendo rápidamente, lanzando sus propios modelos de inferencia, formando un nuevo panorama de modelos de inferencia chinos que compiten con OpenAI. Este cambio subraya la importancia de las capacidades de pensamiento profundo, planificación, análisis y uso de herramientas del modelo, lo que indica que la implementación de aplicaciones como los Agents dependerá cada vez más de modelos base de inferencia potentes. (来源: 国产六大推理模型激战OpenAI?, “AI寒武纪”爆发至今,五类新物种登上历史舞台)

推理模型成为AI新焦点,DeepSeek-R1引发行业震动

Se expone fraude en la aplicación de compras con IA Nate, su fundador es acusado de estafar 40 millones de dólares en inversiones: El Departamento de Justicia de EE. UU. acusa a Albert Saniger, fundador de la aplicación de compras con IA Nate, de obtener inversiones mediante la promoción fraudulenta de tecnología de IA. Nate afirmaba poder utilizar la tecnología de IA para simplificar el proceso de compra multiplataforma y realizar pedidos con un solo clic, pero se le acusa de contratar a cientos de empleados en Filipinas para procesar manualmente los pedidos, haciendo pasar el “trabajo manual” por “inteligencia”. El incidente expone las posibles burbujas y riesgos de fraude en el auge de las startups de IA, y también suscita debates sobre la cultura de “Fake it till you make it” de Silicon Valley, enfatizando el límite entre la exageración publicitaria y el engaño. Este caso también refleja los desafíos de viabilidad técnica de ciertos conceptos de aplicaciones de IA antes de la madurez de la tecnología de IA (especialmente los LLM). (来源: AI购物竟是人工驱动,硅谷创投圈又玩出新花活)

AI购物应用Nate被曝欺诈,创始人被控骗取4000万美元投资

La IA se integra en los flujos de trabajo, reconfigurando el valor laboral y los modelos de gestión: La IA está pasando del concepto a la práctica, integrándose profundamente en las operaciones empresariales y el trabajo diario de los empleados. Alibaba Cloud utiliza LLM y gobernanza de datos para implementar un “panel de control de gestión operativa organizacional”, optimizando los procesos OKR/CRD; Deloitte China se compromete a formar a decenas de miles de talentos en IA para adaptarse a las necesidades de las organizaciones intensivas en conocimiento; Yum China despliega herramientas de IA a nivel de gerente de restaurante. Esto indica que la IA no es solo una herramienta de eficiencia, sino que también está remodelando la naturaleza del trabajo, la estructura organizacional y la demanda de talento. El trabajo repetitivo y estandarizado está siendo reemplazado por la IA, lo que exige mayores requisitos de creatividad, pensamiento crítico, capacidad de toma de decisiones y capacidad de colaboración con IA (adaptabilidad a la IA) por parte de los empleados. La gestión empresarial debe pasar de la supervisión al empoderamiento, estableciendo un nuevo paradigma y mecanismos de confianza para la colaboración entre humanos e IA. (来源: 当AI来和我做同事:重构职场价值坐标系, 重塑工作:AI时代的组织进化与管理革命)

AI融入工作流程,重构职场价值与管理模式

🎯 Tendencias

El modelo visual autosupervisado DINOv2 introduce un mecanismo de registros: Meta AI Research ha actualizado su método y modelo de aprendizaje autosupervisado DINOv2, incorporando un mecanismo de “registros” (registers) según el paper “Vision Transformers Need Registers”. DINOv2 tiene como objetivo aprender características visuales robustas sin supervisión, que pueden usarse directamente en diversas tareas de visión por computadora (como clasificación, segmentación, estimación de profundidad) y funcionan bien en diferentes dominios sin necesidad de fine-tuning. Esta actualización podría mejorar aún más el rendimiento y la calidad de las características del modelo. (来源: facebookresearch/dinov2 – GitHub Trending (all/daily))

El aprendizaje por refuerzo (RL) se convierte en la ruta clave para el post-entrenamiento y la mejora de capacidades de los LLM: Académicos como David Silver y Richard Sutton señalan que la IA está entrando en la “era de la experiencia”, y el RL juega un papel central en la fase de post-entrenamiento de los LLM. Aprendiendo modelos de recompensa (Inverse RL) a partir de la retroalimentación humana (RLHF), demostraciones o reglas, el RL dota a los LLM de capacidades de optimización continua, exploración y generalización que superan el aprendizaje por imitación (como SFT). Especialmente en tareas de inferencia (como matemáticas, código), el RL ayuda a los modelos a descubrir patrones de resolución más efectivos (como largas cadenas de pensamiento – chain-of-thought), superando las limitaciones de los métodos basados en datos. Esto marca un cambio en el desarrollo de LLM, pasando de depender de datos estáticos a un aprendizaje dinámico a través de la interacción y la retroalimentación. (来源: 被《经验时代》刷屏之后,剑桥博士长文讲述RL破局之路)

强化学习 (RL) 成为 LLM 后训练与能力提升的关键路径

La Navegación Visual-Lingüística (VLN) sigue siendo un desafío importante para la IA corpórea (Embodied AI): El profesor asociado Qi Wu de la Universidad de Adelaida señala que, aunque las tareas de manipulación (Manipulation) están en auge en el campo de la IA corpórea, la navegación visual-lingüística (VLN), como componente clave de la acción visual-lingüística (VLA), todavía enfrenta numerosos desafíos en entornos no estructurados y dinámicos (especialmente escenas domésticas) y está lejos de estar completamente resuelta. La navegación es fundamental para que los robots realicen tareas posteriores. Los principales cuellos de botella actuales de VLN incluyen la falta de datos de alta calidad (simuladores, entornos 3D, datos de tareas), la brecha de transferencia Sim2Real y los desafíos de ingeniería para una implementación eficiente en el borde (edge). (来源: 阿德莱德大学吴琦:VLN 仍是 VLA 的未竟之战丨具身先锋十人谈)

视觉-语言-导航 (VLN) 仍是具身智能的重要挑战

La IA muestra una clara ruta de comercialización en publicidad y marketing: En comparación con otros escenarios de aplicación de la IA, la comercialización de la tecnología de IA en los campos de la publicidad y el marketing parece ser más clara y rápida. Mediante el uso de la IA para el análisis de datos, la elaboración de perfiles de usuario, la segmentación precisa y la automatización del marketing, empresas como Applovin Corp y Zeta Global ya han cambiado con éxito el ecosistema publicitario, mejorando la eficiencia y el retorno de la inversión. Esto indica que, en la ola de la IA, las aplicaciones que pueden generar valor comercial rápidamente son más favorecidas por el mercado, siendo la publicidad y el marketing un representante típico. (来源: “AI寒武纪”爆发至今,五类新物种登上历史舞台)

AI 在广告与营销领域展现清晰商业化路径

Tensión en la cadena de suministro de chips de IA y tendencia hacia la producción nacional: La competencia tecnológica entre China y EE. UU. se intensifica, y los controles de exportación de EE. UU. sobre los chips de IA a China (especialmente modelos de gama alta como el Nvidia H20) continúan endureciéndose. Según informes, varias empresas tecnológicas chinas (como ByteDance, Alibaba, Tencent) acumularon grandes cantidades de chips Nvidia antes de que entraran en vigor las prohibiciones para mantener sus capacidades de I+D y despliegue de IA. Al mismo tiempo, para hacer frente a los riesgos de la cadena de suministro y los problemas de “cuello de botella”, se está dando más importancia a una ruta tecnológica de IA totalmente nacionalizada. Por ejemplo, iFlytek entrena y despliega su LLM Xinghuo utilizando potencia de cálculo nacional como Huawei Ascend (昇腾), lo que podría convertirse en una tendencia importante para el desarrollo futuro de la IA en China. (来源: 国产六大推理模型激战OpenAI?, Reddit r/artificial, Reddit r/ArtificialInteligence)

AI 芯片供应链紧张与国产化趋势

🧰 Herramientas

Suna: Plataforma de agente de IA generalista de código abierto: Kortix AI ha lanzado Suna, un agente de IA generalista (Generalist AI Agent) de código abierto. Los usuarios pueden interactuar con Suna a través de lenguaje natural para que les ayude a completar diversas tareas del mundo real, incluyendo investigación web, análisis de datos, automatización del navegador (navegación web, extracción de datos), gestión de archivos (creación y edición de documentos), web crawling, búsqueda extendida, ejecución de línea de comandos, despliegue de sitios web e integración con diversas API y servicios. Suna tiene como objetivo convertirse en el compañero digital del usuario, automatizando flujos de trabajo complejos. (来源: kortix-ai/suna – GitHub Trending (all/daily))

Suna:开源通用 AI 代理平台

Repositorio Leaked System Prompts recopila prompts internos de los principales modelos: Ha aparecido en GitHub un popular repositorio llamado leaked-system-prompts, que recopila y publica los prompts internos del sistema (System Prompts) de múltiples modelos de IA convencionales. Estos prompts revelan las instrucciones, reglas, roles y restricciones de seguridad que los modelos están diseñados para seguir. El repositorio contiene prompts filtrados de numerosos modelos, incluyendo la serie Anthropic Claude (2.0, 2.1, 3 Haiku/Opus/Sonnet, 3.5 Sonnet, 3.7 Sonnet), Google Gemini 1.5, OpenAI ChatGPT (varias versiones incluyendo 4o), DALL-E 3, Microsoft Copilot, xAI Grok (varias versiones), entre otros, proporcionando a investigadores y desarrolladores una ventana para comprender en profundidad el funcionamiento interno de estos modelos. (来源: jujumilk3/leaked-system-prompts – GitHub Trending (all/daily))

La plataforma de generación de vídeo WAN lanza un servicio de aceleración de pago: La versión internacional de la plataforma de generación de vídeo con IA WAN (WAN.Video) ha anunciado su entrada en la fase de comercialización con el lanzamiento de opciones de pago. Todos los usuarios pueden seguir disfrutando de generaciones de vídeo gratuitas ilimitadas (modo Relax), pero tendrán que esperar en cola. Los usuarios de pago, en cambio, obtendrán un servicio de generación prioritaria sin colas, lo que les permitirá obtener los resultados de vídeo más rápidamente. Esto proporciona un carril rápido para los usuarios que necesitan alta eficiencia o tienen fines comerciales. (来源: op7418)

WAN 视频生成平台推出付费加速服务

El modelo Dia TTS llega a la API de Hugging Face: Los usuarios ahora pueden llamar directamente a la API del modelo de texto a voz (Text-to-Speech – TTS) Dia 1.6B a través de la plataforma Hugging Face, un servicio soportado por FAL AI. Los desarrolladores pueden integrarlo con solo unas pocas líneas de código para implementar funciones de síntesis de voz de alta calidad. Esta integración reduce la barrera de entrada para usar modelos TTS avanzados, facilitando a los desarrolladores añadir rápidamente capacidades de voz a sus aplicaciones. (来源: huggingface)

El modelo clasificador ModernBERT integra vLLM para una inferencia rápida: El modelo ModernBERT ahora puede ejecutarse en el framework vLLM, mejorando significativamente la velocidad de inferencia. Se afirma que su velocidad es suficiente para procesar más de 200,000 artículos de arXiv en cuestión de minutos. Esta integración permite que cientos de modelos ModernBERT alojados en Hugging Face Hub se desplieguen y apliquen más rápidamente a tareas de clasificación de texto. (来源: huggingface)

Trackers: Biblioteca Python de seguimiento de objetos de alto rendimiento: Roboflow ha lanzado como código abierto una biblioteca Python llamada Trackers, centrada en tareas de seguimiento de objetos (object tracking). La biblioteca está diseñada para ser modular, soporta múltiples algoritmos de seguimiento y se integra fácilmente con bibliotecas populares de machine learning como Ultralytics y Transformers. Su rendimiento es potente, capaz de rastrear una gran cantidad de objetos simultáneamente, demostrando en un vídeo el seguimiento exitoso de más de 269 huevos. (来源: karminski3)

Unsloth lanza la tecnología de cuantización Dynamic v2.0 GGUF y modelos: Unsloth ha introducido su nueva tecnología de cuantización Dynamic v2.0, diseñada específicamente para modelos en formato GGUF. Según se informa, esta versión cuantizada supera a las versiones anteriores en las evaluaciones MMLU y KL Divergence, y corrige problemas con la implementación de RoPE para Llama-4 en Llama.cpp. Unsloth ha utilizado esta tecnología para lanzar nuevos modelos cuantizados de DeepSeek-R1 y DeepSeek-V3-0324 para uso de la comunidad. (来源: karminski3)

Unsloth 发布 Dynamic v2.0 GGUF 量化技术及模型

El asistente de voz de Perplexity para iOS integra funciones del sistema: La aplicación iOS de Perplexity ha actualizado su función de asistente de voz, permitiéndole invocar más operaciones a nivel de sistema. Los usuarios ahora pueden usar comandos de voz para que el asistente de Perplexity reserve restaurantes, use Apple Maps para la navegación, cree recordatorios, busque y reproduzca Apple Music o podcasts, y solicite transporte, entre otras cosas. Esto acerca al asistente de Perplexity en funcionalidad a asistentes nativos del sistema como Siri, mejorando su utilidad. (来源: AravSrinivas)

Perplexity iOS 语音助手集成系统功能

Lanzamiento de la extensión VS Code MCP Server, conectando Claude con el entorno de desarrollo local: El desarrollador Juehang Qin ha lanzado una extensión para VS Code que convierte VS Code en un servidor MCP (Model Context Protocol). Esto permite que asistentes de IA como Claude accedan y operen directamente en el espacio de trabajo que el usuario tiene abierto actualmente en VS Code, incluyendo la lectura y escritura de archivos, la visualización de diagnósticos de código (como errores y advertencias), etc. Cuando el usuario cambia de proyecto, la extensión expone automáticamente el nuevo espacio de trabajo, facilitando la colaboración fluida del asistente de IA entre diferentes proyectos. (来源: Reddit r/ClaudeAI)

📚 Aprendizaje

DINOv2: Método de aprendizaje de características visuales autosupervisado de código abierto de Meta: Meta AI Research ha hecho público el proyecto DINOv2, incluyendo código PyTorch y modelos preentrenados. DINOv2 es un método de aprendizaje autosupervisado diseñado para aprender características visuales potentes y generales que sobresalen en múltiples tareas de visión por computadora (como clasificación de imágenes, segmentación semántica, estimación de profundidad) sin necesidad de fine-tuning para tareas posteriores. El proyecto proporciona documentación detallada, enlaces de descarga de modelos y papers relacionados, siendo un recurso importante para la investigación y aplicación del aprendizaje visual autosupervisado. (来源: facebookresearch/dinov2 – GitHub Trending (all/daily))

HD-EPIC: Lanzamiento de un conjunto de datos de vídeo en primera persona de alto detalle: Investigadores han presentado el conjunto de datos HD-EPIC, que contiene 41 horas de vídeo en primera persona grabado en entornos de cocina reales. La característica clave de este conjunto de datos es su anotación multimodal extremadamente detallada, que cubre pasos de recetas, información nutricional de ingredientes (registrada mediante pesaje), descripciones de acciones de grano fino (contenido, manera, motivo), gemelos digitales de escenas 3D, trayectorias de movimiento de objetos (2D/3D), máscaras de manos/objetos, seguimiento de la mirada e interacciones objeto-escena. Este conjunto de datos tiene como objetivo proporcionar un benchmark de alta calidad para la comprensión visual en primera persona, la IA corpórea y la investigación de interacción humano-computadora. (来源: CVPR 2025 | HD-EPIC定义第一人称视觉新标准:多模态标注精度碾压现有基准)

HD-EPIC:高细节度第一人称视频数据集发布

SRPO: Método de optimización para resolver el entrenamiento de RL transdominio para la capacidad de inferencia de LLM: El equipo Kwaipilot de Kuaishou, abordando los cuellos de botella de rendimiento y eficiencia encontrados al usar métodos de RL como GRPO para entrenar LLM en tareas mixtas de matemáticas y código, ha propuesto el método SRPO (Optimización de Políticas con Remuestreo Histórico en Dos Etapas). Este método utiliza datos matemáticos en la primera etapa para estimular el pensamiento profundo, introduce datos de código en la segunda etapa para desarrollar el pensamiento programático, y combina la técnica de remuestreo histórico para resolver el problema de la varianza cero en la señal de recompensa. Los experimentos muestran que SRPO necesita solo el 10% de los pasos de entrenamiento para superar a DeepSeek-R1-Zero-Qwen-32B en AIME24 y LiveCodeBench, proporcionando una ruta eficiente para mejorar la capacidad de inferencia transdominio. (来源: DeepSeek-R1-Zero被“轻松复现”?10%训练步数实现数学代码双领域对齐)

TTRL: Aprendizaje por refuerzo en tiempo de prueba sin datos etiquetados: La Universidad de Tsinghua y Shanghai AI Lab han propuesto el método TTRL (Test-Time Reinforcement Learning), que permite a los LLM realizar aprendizaje por refuerzo durante la fase de prueba sin necesidad de anotaciones humanas. Este método utiliza múltiples salidas muestreadas del propio modelo para generar pseudo-etiquetas y señales de recompensa mediante votación mayoritaria u otros medios, impulsando al modelo a auto-evolucionar para adaptarse a nuevos datos o tareas. Los experimentos muestran que TTRL puede mejorar significativamente el rendimiento del modelo en las tareas objetivo, acercándose incluso a los resultados del entrenamiento supervisado, ofreciendo una nueva vía para abordar el desafío de aplicar RL en entornos no supervisados. (来源: TTS和TTT已过时?TTRL横空出世,推理模型摆脱「标注数据」依赖,性能暴涨)

SeekWorld: Tarea y modelo de inferencia de geolocalización que simula el seguimiento de pistas visuales de o3: Para mejorar la capacidad de inferencia visual de los modelos lingüísticos multimodales grandes (MLLM), especialmente simulando la capacidad del modelo o3 de OpenAI para percibir y operar dinámicamente sobre imágenes (seguimiento de pistas visuales) durante la inferencia, los investigadores han propuesto la tarea de inferencia de geolocalización SeekWorld (inferir el lugar de toma de una foto). Se construyó un conjunto de datos en torno a esta tarea y se entrenó el modelo SeekWord-7B mediante aprendizaje por refuerzo. Este modelo supera a Qwen-V L, Doubao Vision Pro, GPT-4o y otros en la inferencia de geolocalización. El proyecto ha liberado el modelo, el conjunto de datos y una demo en línea. (来源: 一张图片找出你在哪?o3-like 7B模型玩网络迷踪超越一流开闭源模型!)

ManipTrans: Transferencia de habilidades de manipulación de manos humanas a manos diestras: Investigadores del Instituto de Inteligencia Artificial General de Beijing, la Universidad de Tsinghua y la Universidad de Pekín han propuesto el método ManipTrans para transferir eficientemente las habilidades de manipulación bimanual humana a manos robóticas diestras en entornos de simulación. El método adopta una estrategia de dos etapas: primero imita el movimiento de la mano humana mediante un imitador de trayectoria general, y luego realiza un ajuste fino combinando aprendizaje residual y restricciones de interacción física. Basándose en este método, el equipo ha publicado el conjunto de datos de manipulación con manos diestras a gran escala DexManipNet, que incluye secuencias de tareas complejas como desenroscar tapas de botellas, escribir, recoger con cuchara, abrir tapas de pasta de dientes, y ha validado la viabilidad del despliegue en máquinas reales. (来源: 机器人也会挤牙膏?ManipTrans:高效迁移人类双手操作技能至灵巧手)

ManipTrans:从人类双手到灵巧手的操作技能迁移

Tutorial de LangGraph: Crear un Agente RAG con mecanismo de reflexión: LangChain ha publicado un video tutorial que detalla cómo usar el framework LangGraph para construir un Agente RAG (Retrieval-Augmented Generation) con capacidad de reflexión (Reflection). La idea central es añadir un nodo de evaluación en el flujo RAG, permitiendo al Agente examinar la información recuperada antes de generar la respuesta final, juzgar su relevancia y calidad, y decidir si volver a buscar, corregir la consulta o generar directamente la respuesta basándose en la evaluación, filtrando así eficazmente el ruido y mejorando el efecto de la respuesta a preguntas. (来源: LangChainAI)

LangGraph 教程:创建带反思机制的 RAG Agent

Arena-Hard-v2.0: Benchmark de evaluación de LLM más estricto: LMSYS Org ha actualizado y lanzado la versión 2.0 del benchmark de evaluación Arena-Hard. La nueva versión se basa en 500 prompts más desafiantes enviados por usuarios de LMArena, utiliza modelos de evaluación automática más potentes (Gemini-2.5 & GPT-4.1), soporta más de 30 idiomas y añade evaluación de la capacidad de escritura creativa. Su objetivo es proporcionar una plataforma más difícil y completa para diferenciar el rendimiento de los LLM de primer nivel. (来源: lmarena_ai)

Arena-Hard-v2.0:更严格的大模型评测基准

PHYBench: Lanzamiento de un benchmark para evaluar la capacidad de razonamiento físico de los LLM: Un equipo de investigación de la Universidad de Pekín ha lanzado PHYBench, un nuevo benchmark de evaluación diseñado específicamente para evaluar la capacidad de los grandes modelos lingüísticos para comprender y razonar sobre procesos físicos del mundo real. El benchmark contiene 500 preguntas basadas en escenarios físicos reales. Según los resultados preliminares de evaluación proporcionados en el paper, Gemini-2.5-Pro de Google lidera en este benchmark. (来源: karminski3)

PHYBench:评估 LLM 物理推理能力的基准发布

💼 Negocios

Tongyi Qianwen de Alibaba y FLock.io anuncian colaboración estratégica: El LLM Tongyi Qianwen (Qwen) de Alibaba y la plataforma de computación de IA descentralizada FLock.io han alcanzado una colaboración estratégica. Ambas partes tienen como objetivo explorar y promover conjuntamente la implementación práctica de la IA descentralizada, combinando las capacidades de la serie de modelos de código abierto Qwen con el marco tecnológico descentralizado de FLock.io, para ofrecer nuevas posibilidades a los desarrolladores y usuarios de IA. (来源: Alibaba_Qwen)

El Laboratorio Tongyi de Alibaba busca becarios de investigación en diálogo multi-turno para LLM: El Laboratorio Tongyi de Alibaba, responsable de la I+D de la serie de LLM Tongyi, está contratando becarios de investigación en Beijing y Hangzhou a través de su equipo de Inteligencia Conversacional, centrándose en la dirección del diálogo multi-turno de LLM. Las áreas de investigación incluyen modelado generativo de recompensas, expansión en tiempo de inferencia de modelos de recompensa, aprendizaje por refuerzo para tareas creativas como el role-playing, y diálogo multimodal texto-voz. Se requiere que los solicitantes sean estudiantes de doctorado en curso, con experiencia en publicaciones en conferencias de primer nivel, y que puedan garantizar al menos 6 meses de prácticas. (来源: 北京/杭州内推 | 阿里通义实验室对话智能团队招聘LLM多轮对话方向研究实习生)

阿里通义实验室招聘 LLM 多轮对话研究实习生

La herramienta de productividad Remio busca becario de operaciones de redes sociales en el extranjero: La startup Remio está buscando un becario familiarizado con las redes sociales extranjeras (Reddit, Hacker News, Twitter, etc.) y apasionado por las herramientas de productividad. Las principales responsabilidades son la operación de redes sociales y la creación de contenido. El puesto acepta trabajo remoto, se puede solicitar tanto desde China como desde Norteamérica, y se requiere cierto nivel de karma en Reddit (se sugiere 100+). (来源: dotey)

La empresa de API Kong busca ingenieros y becarios para su equipo de Shanghái: El equipo chino de Kong (conocida por su API Gateway de código abierto), ubicado en Shanghái, está ampliando su contratación, ofreciendo múltiples puestos, incluyendo becarios y empleados a tiempo completo. Las áreas de contratación cubren desarrollo en Rust, AI Gateway, Kong Gateway y desarrollo frontend. Los desarrolladores interesados en estas pilas tecnológicas pueden prestar atención. (来源: dotey)

API 公司 Kong 上海团队招聘工程师及实习生

Webtoon reduce la carga de trabajo de revisión de contenido en un 70% utilizando LangGraph: La plataforma global de cómics digitales Webtoon ha utilizado el framework LangGraph de LangChain para construir un sistema llamado WCAI (Webtoon Comprehension AI). Este sistema utiliza agentes de IA multimodales para comprender automáticamente el contenido del cómic, incluyendo la identificación de personajes y la atribución de diálogos, la extracción de tramas y tonos emocionales, y el soporte para consultas en lenguaje natural. WCAI ya está siendo utilizado por equipos de marketing, traducción y recomendación, reduciendo con éxito la carga de trabajo de navegación y revisión manual en un 70%, mejorando la eficiencia del procesamiento de contenido y el soporte a la creación. (来源: LangChainAI)

Webtoon 利用 LangGraph 将内容审阅工作量减少 70%

Meta AI busca talento investigador en ICLR 2025: El equipo de Meta AI participó en la conferencia ICLR 2025 celebrada en Singapur, estableciendo un stand (#L03) para interactuar con los asistentes. Al mismo tiempo, Meta AI está publicando activamente ofertas de empleo, buscando científicos investigadores de IA, investigadores postdoctorales y asistentes de investigación (doctorado), con áreas de investigación que incluyen teoría del aprendizaje fundamental, IA generativa 3D, IA generativa de lenguaje, etc. Los lugares de trabajo incluyen centros de investigación globales como París. (来源: AIatMeta)

Meta AI 在 ICLR 2025 招募研究人才

🌟 Comunidad

Andrew Ng: La programación asistida por IA reduce las barreras lingüísticas y mejora la capacidad interdisciplinaria de los desarrolladores: El renombrado académico de IA Andrew Ng señala que las herramientas de programación asistida por IA están cambiando profundamente el desarrollo de software. Incluso sin dominar un lenguaje específico (como JavaScript), los desarrolladores pueden escribir código eficientemente con la ayuda de la IA, facilitando la construcción de aplicaciones multiplataforma e interdisciplinarias (por ejemplo, desarrolladores backend construyendo frontend). Aunque la sintaxis de un lenguaje específico se vuelve menos importante, comprender los conceptos centrales de programación (estructuras de datos, algoritmos, principios de frameworks específicos como React) sigue siendo crucial, ya que ayuda a guiar a la IA con mayor precisión y a resolver problemas. La IA está haciendo que los desarrolladores sean más “multilingües”. (来源: AndrewYNg)

El CEO de Microsoft AI afirma que Copilot proporcionó información sobre retrasos de vuelos antes de lo previsto: Mustafa Suleyman, jefe de la división de IA de Microsoft, compartió en la plataforma X un “momento mágico”: su asistente de IA Copilot le informó del retraso de su vuelo antes que el aviso oficial del aeropuerto. Tras confirmarlo con el personal de la puerta de embarque, la información era correcta, solo que aún no se había anunciado públicamente. Esto demuestra el potencial de la IA para integrar y transmitir información en tiempo real, pudiendo superar los canales tradicionales de difusión de información. (来源: mustafasuleyman)

微软 AI CEO 称 Copilot 提供超前航班延误信息

La comunidad debate las ventajas y desventajas de GPT-4.5 y o1 Pro en diferentes tareas: Usuarios de la plataforma X discutieron sus experiencias con diferentes modelos de OpenAI en aplicaciones prácticas. Un usuario opinó que GPT-4.5 funciona excelentemente en tareas de escritura y traducción, pero está limitado por una ventana de contexto más pequeña, lo que reduce su efectividad al procesar textos largos. En comparación, el modelo o1 Pro, dirigido a usuarios Pro, tiene una ventana de contexto de 128K y funciona de manera más estable y fiable al procesar entradas de código largas, por lo que es más adecuado para tareas de programación. Esto refleja las diferencias en el enfoque de diseño y optimización entre los distintos modelos. (来源: dotey)

社区讨论 GPT-4.5 与 o1 Pro 在不同任务上的优劣

Hugging Face Hub recomendado como plataforma de aprendizaje e intercambio de IA: Un usuario de la plataforma X recomienda Hugging Face Hub no solo como un repositorio de modelos y conjuntos de datos, sino también como una comunidad activa de aprendizaje e intercambio de IA. Los usuarios pueden encontrar en las secciones de discusión de modelos, conjuntos de datos o Spaces a ingenieros e investigadores compartiendo sus procesos experimentales, los problemas encontrados, las soluciones y discusiones sobre papers de investigación relacionados, obteniendo así experiencia práctica de primera mano y conocimientos profundos. (来源: huggingface)

ChatGPT “critica” la cultura de la comunidad de Reddit y genera debate: Un usuario de Reddit pidió a ChatGPT que “criticara” (roast) la plataforma Reddit. La respuesta generada por ChatGPT capturó y satirizó con precisión algunas características típicas de la comunidad de Reddit, como las opiniones contradictorias de los usuarios, la excesiva preocupación por los “me gusta” (karma), la falta de experiencia real al dar consejos de experto y el comportamiento de “guerrero de teclado” en subreddits específicos. La publicación generó discusión entre los usuarios de la comunidad y más creaciones imitativas. (来源: Reddit r/ArtificialInteligence)

La originalidad y el valor del contenido generado por IA suscitan reflexión: Una publicación en Reddit generó un debate sobre la originalidad del contenido generado por IA. La publicación utilizaba la Mona Lisa como ejemplo, señalando que la creación humana en sí misma también es una “remezcla” (remix) basada en la experiencia, mientras que la IA que genera contenido bajo la guía humana se asemeja más a un “maestro guiando a un aprendiz” que a una simple copia. La discusión consideró que la clave no es si la IA puede ser “original”, sino cómo atribuir el crédito de manera razonable, respetar los derechos de los creadores originales y juzgar la intención y el valor de la obra. (来源: Reddit r/ArtificialInteligence)

La comunidad cuestiona la validez de las tablas de clasificación de LLM (LLM Leaderboard): Usuarios de la comunidad Reddit r/LocalLLaMA expresaron dudas al discutir las tablas de clasificación de LLM basadas en puntuaciones Elo, como LMSYS Arena. Algunos comentarios sugirieron que estas clasificaciones podrían reflejar más el “estilo” o la “sensación” del modelo (como ser prolijo, usar Markdown y emojis) que su capacidad general real. Además, los intervalos de confianza de las puntuaciones Elo entre los modelos de primer nivel a menudo se solapan, lo que pone en duda la significancia estadística de las diferencias de clasificación. (来源: Reddit r/LocalLLaMA)

Usuario observa múltiples “comportamientos emergentes” en ChatGPT: Un usuario de Reddit compartió varias instancias recientes de comportamiento “inesperado” al usar ChatGPT, clasificándolas como “comportamientos emergentes”. Específicamente incluyeron: 1. Sin ser corregido, el modelo se dio cuenta de que había entendido mal una instrucción (confundiendo el historial de chat con un documento subido) y se disculpó y corrigió activamente. 2. Después de que un tema sensible mencionado por el usuario fuera eliminado por el sistema, el modelo hizo referencia activamente al contenido eliminado en una conversación posterior para expresar preocupación. 3. Al discutir la dificultad de probar el pensamiento espontáneo de la IA, el modelo creó activamente un concepto análogo: el “principio de incertidumbre recursiva de Heisenberg”. Estos casos provocaron discusiones sobre los límites de la autoconciencia, la memoria y la creatividad de los LLM. (来源: Reddit r/ArtificialInteligence)

💡 Otros

Google DeepMind actualiza el conjunto de herramientas Music AI Sandbox: Google DeepMind anunció la adición de nuevas funciones a su Music AI Sandbox. Se trata de un conjunto de herramientas experimentales de IA dirigidas a músicos profesionales, diseñadas para ayudar en la creación musical. Las nuevas funciones están impulsadas por su último modelo Lyria 2 y pueden ayudar a compositores y otros músicos a explorar la inspiración creativa, generar fragmentos musicales, etc. (来源: demishassabis)

Discusión sobre los principios de gobernanza de la computación cuántica: Miembros de la comunidad compartieron y discutieron principios sobre la gobernanza de la computación cuántica. Con el desarrollo de la tecnología de computación cuántica, su enorme potencial en criptografía, ciencia de materiales, desarrollo de fármacos y su combinación con IA/ML está atrayendo atención, pero también plantea desafíos de seguridad, ética y gobernanza, lo que requiere la formulación previa de normativas correspondientes. (来源: Ronald_vanLoon)

讨论量子计算治理原则

El MIT desarrolla un robot blando vestible con forma de plátano: Investigadores del MIT han desarrollado un nuevo tipo de robot blando vestible (soft robot) con forma de plátano que integra capacidades de detección. Esta investigación demuestra el potencial de aplicación de los robots blandos en la interacción humano-robot, la rehabilitación médica y los dispositivos vestibles. Su estructura flexible y la detección integrada ofrecen posibilidades para una interacción física más natural y segura. (来源: Ronald_vanLoon)

Avances en robótica impulsada por IA: Recientemente, las redes sociales han mostrado varios avances en tecnología robótica, a menudo potenciados por IA o relacionados con ella: 1. SR-02: Una “montura robótica” cuadrúpeda que puede transportar a cuatro personas. 2. SnapBot: Un robot con patas capaz de transformarse. 3. Matic: Un robot que imita el sistema de visión FSD de Tesla para la limpieza del hogar. 4. micropsi: Startup alemana que desarrolla sistemas de IA para permitir a los robots manejar tareas impredecibles. 5. Boston Dynamics Spot: El perro robot realizando pruebas en entornos naturales. 6. Carrera de robots humanoides: Demostración de la capacidad atlética de los robots humanoides. 7. Brazo robótico escribiendo a mano: Demostración de la capacidad de manipulación fina de los robots. (来源: Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon)

AI 驱动的机器人技术进展

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *