Palabras clave:Agente de IA inteligente, Microsoft Build 2025, AlphaEvolve, GPT-4, Azure AI Foundry, NVIDIA Computex 2025, Herramientas de programación con IA, Inteligencia encarnada, Extensión GitHub Copilot para VSCode, Protocolo de Contexto de Modelo (MCP), Red de Lenguaje Natural (NLWeb), Plataforma NoCode de Meituan, Asistente inteligente QBot de Tencent

🔥 Enfoque

Microsoft Build 2025 inaugura la era de la “red de agentes inteligentes”, abrazando plenamente el desarrollo nativo de IA: Microsoft, en su conferencia de desarrolladores Build 2025, anunció su visión de una “Open Agentic Web” (Red Abierta de Agentes), presentando más de 50 actualizaciones. El núcleo de estas incluye la apertura del código de la extensión de GitHub Copilot para VSCode, el lanzamiento del protocolo de contexto de modelo (MCP) y los estándares abiertos de red de lenguaje natural (NLWeb), así como la incorporación de más de 1900 modelos, incluyendo Grok de xAI, a Azure AI Foundry. Estas iniciativas buscan unificar la cadena de desarrollo desde el modelo hasta el agente inteligente, permitiendo la operación autónoma e interoperabilidad de los AI Agent en múltiples escenarios. El CEO de Microsoft, Nadella, destacó que los AI Agent transformarán la forma de resolver problemas y, junto con el CEO de OpenAI, Altman, el CEO de NVIDIA, Jensen Huang, y el fundador de xAI, Musk, exploró el futuro de los agentes de IA en el desarrollo de software, la infraestructura y sus aplicaciones en el mundo físico. (Fuente: 36氪 | GitHub Blog | VS Code Blog | The Verge)

Google DeepMind presenta AlphaEvolve, un agente de IA que rompe el récord de 56 años en eficiencia de multiplicación de matrices: Google DeepMind ha lanzado AlphaEvolve, un agente de codificación impulsado por Gemini, que mediante algoritmos evolutivos y un sistema de evaluación automatizado, ha descubierto un algoritmo de multiplicación de matrices complejas de 4×4 más eficiente que el algoritmo de Strassen, utilizado durante 56 años. Este avance reduce el número de multiplicaciones escalares necesarias de 49 a 48. Este hito no solo es significativo en la teoría matemática, sino que ya ha demostrado su valor en aplicaciones internas de Google, como la aceleración de operaciones de multiplicación de matrices grandes en la arquitectura Gemini en un 23%, la reducción del tiempo de entrenamiento de Gemini en un 1% y la mejora del rendimiento de FlashAttention en un 32.5%. AlphaEvolve demuestra el enorme potencial de la IA en el descubrimiento científico automatizado y la optimización de algoritmos, capaz de abordar problemas complejos que van desde desafíos matemáticos hasta la programación de recursos en centros de datos y la aceleración del entrenamiento de modelos de IA. (Fuente: Google DeepMind Blog | 量子位)

Un estudio revela que GPT-4 es un 64% más persuasivo que los humanos en debates personalizados: Un estudio publicado en Nature Human Behaviour indica que cuando GPT-4 de OpenAI tiene acceso a información personal del oponente en un debate, como género, edad y nivel educativo, y ajusta sus argumentos en consecuencia, su capacidad de persuasión supera a la de los humanos en un 64%. Esta investigación, realizada en colaboración por instituciones como la Escuela Politécnica Federal de Lausana y con la participación de 900 personas, confirma aún más la potente capacidad de los modelos de lenguaje grandes (LLM) en el ámbito de la persuasión. Los investigadores advierten que esto revela cómo las herramientas de IA, al obtener una pequeña cantidad de información del usuario, pueden construir argumentos complejos y persuasivos, lo que representa una amenaza potencial para la propagación de desinformación personalizada. Hacen un llamado a los legisladores y plataformas para que presten atención a este riesgo y exploren el uso de LLM para generar contenido de contra-narrativa personalizado para combatir la desinformación. (Fuente: Nature Human Behaviour | MIT Technology Review)

Microsoft y Hugging Face profundizan su colaboración, Azure AI Foundry integra más de diez mil modelos de código abierto: En la conferencia Microsoft Build, Microsoft anunció la expansión de su colaboración con Hugging Face. Azure AI Foundry ahora integra más de 10,000 modelos de código abierto de Hugging Face, abarcando múltiples modalidades como texto, audio e imagen, y diversas tareas. Esta medida tiene como objetivo facilitar a los usuarios de Azure la implementación segura y conveniente de una amplia gama de modelos de código abierto para construir aplicaciones de IA y agentes inteligentes. Todos los modelos integrados han pasado pruebas de seguridad, utilizan el formato safetensors y no contienen código remoto, garantizando la seguridad para aplicaciones a nivel empresarial. Ambas partes planean continuar introduciendo los modelos más recientes y populares, soportar más modalidades (como video y 3D) y fortalecer la optimización para agentes y herramientas de IA en el futuro. (Fuente: HuggingFace Blog)

Microsoft y Hugging Face amplían su colaboración

🎯 Tendencias

NVIDIA presenta múltiples novedades de IA en Computex 2025, acelerando la transformación hacia fábricas de IA: El CEO Jensen Huang, en Computex 2025, presentó la GPU GeForce RTX 5060, la superplataforma de computación Grace Blackwell GB300, la supercomputadora personal de IA DGX Spark (equipada con GB10, disponible en semanas) y la DGX Station (784GB de memoria, capaz de ejecutar DeepSeek R1). Huang enfatizó que NVIDIA está transformándose de un proveedor de GPU a un proveedor global de infraestructura de IA, con el objetivo de crear fábricas de IA “listas para usar”. Al mismo tiempo, NVIDIA, en colaboración con DeepMind y Disney, abrirá el código de su motor de física Newton en julio y lanzará el modelo base para robots humanoides Isaac GR00T, impulsando el desarrollo de la IA física. NVIDIA también anunció la construcción de una nueva oficina en Taiwán, China, y destacó la importancia del talento chino en IA. (Fuente: 36氪 | 36氪)

Microsoft planea permitir a los usuarios de la UE cambiar el asistente de voz predeterminado en dispositivos como el iPhone: Según Bloomberg, Apple planea permitir a los usuarios de la Unión Europea cambiar el asistente de voz predeterminado en dispositivos como iPhone, iPad y Mac, de Siri a otras opciones como Google Assistant o Amazon Alexa. Esta medida podría ser una respuesta a la presión antimonopolio de la Ley de Mercados Digitales (DMA) de la UE. Siri ha sido criticada en los últimos años por su funcionalidad obsoleta e inteligencia insuficiente, y existen desacuerdos internos en Apple sobre la dirección de desarrollo de Siri, además de que su arquitectura actual dificulta una integración efectiva con los modelos de lenguaje grandes (LLM). Aunque Apple está desarrollando un nuevo Siri basado en LLM y ha lanzado Apple Intelligence, permitir a los usuarios cambiar el asistente predeterminado podría impactar su ecosistema. (Fuente: 36氪)

Apple prueba internamente un chatbot de IA propio, con capacidades posiblemente comparables a ChatGPT: El periodista de Bloomberg Mark Gurman reveló que Apple está probando internamente su proyecto de chatbot de IA. Bajo el liderazgo del nuevo jefe de IA, John Giannandrea, el proyecto ha logrado avances significativos en los últimos seis meses, y algunos ejecutivos consideran que la capacidad de su versión actual se acerca a la última versión de ChatGPT. Este robot podría tener la capacidad de realizar búsquedas web instantáneas e integrar información. Esta medida podría tener como objetivo reducir la dependencia de servicios externos como OpenAI y mejorar la competitividad de Siri. Aunque es posible que la WWDC 2025 no se centre en las actualizaciones de Siri, la inversión de Apple en IA continúa aumentando, con la esperanza de revitalizar su asistente de voz en la era de la IA. (Fuente: 36氪)

Windows soportará nativamente el protocolo de contexto de modelo (MCP): Microsoft anunció en la conferencia Build 2025 que el sistema operativo Windows soportará nativamente el protocolo de contexto de modelo (MCP), con el objetivo de simplificar el desarrollo y despliegue de aplicaciones de IA en Windows. MCP se compara con un “USB-C para aplicaciones de IA”, intentando proporcionar una forma estandarizada de interacción para diferentes modelos y aplicaciones de IA. La plataforma Windows AI Foundry integrará este soporte, permitiendo a los desarrolladores ejecutar y gestionar más fácilmente modelos de IA locales y agentes inteligentes en dispositivos Windows. (Fuente: op7418 | Reddit r/LocalLLaMA)

👀 Microsoft acaba de crear un Registro MCP para Windows

Microsoft Azure AI Foundry incorpora el modelo grande Grok de xAI: Microsoft anunció en la conferencia de desarrolladores Build 2025 que los modelos grandes Grok 3 y Grok 3 mini de la empresa xAI de Elon Musk se unirán a la plataforma Azure AI Foundry. Los usuarios de Azure podrán usar y pagar directamente estos modelos a través de la plataforma en la nube. Esta medida amplía aún más el número de modelos de IA disponibles en Azure (ya superan los 1900), que anteriormente incluían a OpenAI, Meta y DeepSeek, entre otros. Musk, a través de una conexión por video, expresó su esperanza de que los desarrolladores proporcionen retroalimentación y espera ofrecer los servicios de Grok a más empresas en el futuro. (Fuente: 36氪)

El equipo de Percy Liang lanza el proyecto Marin para promover el desarrollo de modelos de IA abiertos: El profesor de la Universidad de Stanford, Percy Liang, ha liderado el lanzamiento del proyecto Marin, con el objetivo de construir modelos abiertos de una “manera radicalmente participativa”. El proyecto enfatiza un proceso de desarrollo abierto, permitiendo que cualquiera contribuya. Los primeros modelos Marin ya han sido lanzados, y el modelo 8B está disponible en la plataforma Together AI para pruebas. Esta iniciativa responde al llamado de una mayor apertura en el campo de la IA, no solo abriendo pesos, código y datos, sino todo el ecosistema de investigación y desarrollo. (Fuente: vipulved)

vipulved

Intel lanza la tarjeta gráfica profesional Arc Pro B60, KTransformers anuncia soporte para GPU Intel: Intel ha lanzado su nueva tarjeta gráfica de nivel profesional Arc Pro B60, con 24GB de VRAM y un ancho de banda de memoria de 456 GB/s, con un precio por tarjeta de aproximadamente 500 dólares, ofreciendo una nueva opción de hardware para la computación de IA. Al mismo tiempo, el framework KTransformers ha anunciado soporte para GPU Intel. Las pruebas muestran que en una plataforma Xeon 5 + DDR5 + Arc A770, la ejecución del modelo cuantizado DeepSeek-R1 Q4 puede alcanzar aproximadamente 7.5 tokens/s, ofreciendo más posibilidades de hardware para ejecutar modelos grandes localmente. (Fuente: karminski3 | karminski3)

karminski3

DeepMind anticipa la conferencia Google I/O: La cuenta oficial de Google DeepMind ha anticipado la próxima conferencia Google I/O, que se celebrará el 20 de mayo (10 a.m. hora del Pacífico) y se transmitirá en vivo en la plataforma X. Se espera que la conferencia anuncie una serie de importantes actualizaciones y productos relacionados con la IA, continuando el fuerte impulso de Google en el campo de la IA. (Fuente: GoogleDeepMind)

🧰 Herramientas

AgenticSeek: Agente de IA de ejecución puramente local, comparable a Manus AI: AgenticSeek es un proyecto de código abierto que tiene como objetivo proporcionar un asistente de IA que se ejecuta completamente de forma local, con la capacidad de navegar por la web de forma autónoma, escribir código y planificar tareas, manteniendo todos los datos en el dispositivo del usuario para garantizar la privacidad. Esta herramienta está diseñada específicamente para modelos de inferencia local, admite la interacción por voz y se esfuerza por reducir el costo de uso de los agentes de IA (solo el consumo de energía) y el riesgo de fuga de datos. (Fuente: GitHub Trending)

Fosowl/agenticSeek - GitHub Trending (all/monthly)

Meituan prueba internamente la herramienta de programación de IA NoCode, posicionada como Vibe Coding: 36Kr informa en exclusiva que Meituan lanzará próximamente una herramienta de programación de IA llamada “NoCode”, cuyo dominio nocode.cn ya ha sido registrado y se encuentra en fase de pruebas graduales. Este producto, desarrollado por el equipo de Calidad y Eficiencia de I+D de Meituan, se posiciona de manera similar a Lovable como “programación ambiental” (vibe coding), dirigida a personas no técnicas. A través de una interacción conversacional, completa automáticamente tareas de codificación e implementación, como análisis de datos, prototipos de productos y generación de herramientas operativas. NoCode utiliza una arquitectura de Code Agent, capaz de realizar razonamiento lógico de múltiples pasos, y planea abrirse a comerciantes y al público en general, reduciendo la barrera de TI para las pequeñas y medianas empresas. (Fuente: 36氪)

美团要开放AI编程能力,将推出新产品NoCode|36氪独家

El navegador QQ de Tencent se actualiza a un navegador de IA, integrando el asistente inteligente QBot: El navegador QQ ha anunciado su actualización a un navegador de IA y ha lanzado un asistente de IA llamado QBot, basado en los modelos duales Hunyuan de Tencent y DeepSeek. QBot integra funciones como búsqueda con IA, navegación con IA, ofimática con IA, aprendizaje con IA y escritura con IA, e introduce capacidades de AI Agent similares a Manus, capaz de ejecutar tareas complejas. El primer lote de pruebas graduales de Agents incluye “AI Gaokao Tong”, que puede generar planes personalizados de solicitud de admisión universitaria para los usuarios. El navegador QQ tiene más de 400 millones de usuarios, y esta actualización tiene como objetivo mejorar la eficiencia con la que los usuarios obtienen información y procesan tareas a través de la IA. (Fuente: 36氪)

OpenAI Codex llega a la versión iOS de ChatGPT, soportando tareas de programación en móviles: OpenAI ha anunciado que su asistente de programación Codex ya está integrado en la aplicación iOS de ChatGPT. Los usuarios pueden iniciar directamente nuevas tareas de codificación, ver diferencias de código, solicitar modificaciones e incluso enviar PRs desde sus teléfonos. La función también admite el seguimiento de actividades en tiempo real en la pantalla de bloqueo, lo que facilita a los usuarios mantenerse al tanto del progreso del trabajo de Codex y continuar las tareas pendientes al volver a sus computadoras. Esto marca un paso importante hacia la programación con IA en dispositivos móviles y la colaboración en múltiples escenarios. (Fuente: karinanguyen_ | gdb)

karinanguyen_

La aplicación móvil NotebookLM se lanza, compatible con Android e iOS: La herramienta de notas con IA de Google, NotebookLM, ha lanzado oficialmente su aplicación móvil, que ya está disponible progresivamente en las plataformas Android e iOS. La versión móvil ofrece funciones principales como resúmenes de audio y conversaciones, facilitando a los usuarios el análisis de contenido y el aprendizaje con IA en cualquier momento y lugar. Una característica conveniente es que los usuarios pueden reenviar directamente el contenido que están viendo (excepto cuentas oficiales de WeChat) a NotebookLM para su procesamiento. (Fuente: op7418)

op7418

Public lanza la herramienta de inversión con IA “Generated Assets”: La plataforma de inversión Public ha lanzado un nuevo producto llamado “Generated Assets”, que permite a los usuarios proponer ideas de inversión a la IA. La IA, a su vez, devuelve sugerencias de inversión, índices de inversión personalizados, y puede comparar rendimientos históricos y realizar un seguimiento del rendimiento en tiempo real. Esto es similar a una implementación de IA de “inversión ambiental” o “inversión temática”, con el objetivo de reducir la barrera para que los usuarios construyan y gestionen carteras de inversión personalizadas. (Fuente: op7418)

op7418

ClaraVerse: Una aplicación “todo en uno” que integra múltiples herramientas de IA: Se ha compartido en la comunidad un conjunto de herramientas de IA llamado ClaraVerse, que integra una interfaz de chat, componentes de IA, Ollama (para ejecutar modelos grandes localmente), n8n (para flujos de trabajo/tareas programadas), plantillas de AI Agent, ComfyUI (para generación de imágenes) y una biblioteca de imágenes con indexación por IA. Su objetivo es proporcionar a los usuarios una plataforma de trabajo de IA integral, simplificando el uso y el cambio entre diferentes herramientas de IA. (Fuente: karminski3)

karminski3

La base de datos vectorial Qdrant integra el protocolo NLWeb de Microsoft: La base de datos vectorial Qdrant ha anunciado que se convierte en uno de los primeros socios del protocolo abierto NLWeb, presentado por Microsoft en su conferencia Build. NLWeb tiene como objetivo transformar los cuadros de búsqueda tradicionales en interfaces semánticas basadas en lenguaje natural y conscientes de la intención. Mediante la integración con Qdrant, los sitios web pueden utilizarlo para búsquedas vectoriales rápidas y con filtros, proporcionando resultados semánticamente relevantes sin necesidad de modificar significativamente la lógica del frontend o backend. (Fuente: qdrant_engine)

qdrant_engine

📚 Aprendizaje

DeepMind propone Visual Planning: un paradigma de razonamiento puramente basado en secuencias de imágenes: Investigadores como Yi Xu han propuesto un nuevo paradigma de razonamiento llamado “Visual Planning” (Planificación Visual), cuyo objetivo es permitir que los modelos piensen y planifiquen completamente a través de secuencias de imágenes, simulando la forma en que los humanos conciben los pasos mentalmente, sin necesidad de pensamiento lingüístico o textual. Este método explora la posibilidad de que la IA realice razonamientos complejos bajo sistemas simbólicos no lingüísticos, ofreciendo nuevas ideas para el desarrollo de la IA multimodal. (Fuente: madiator)

madiator

Stanford y otras instituciones lanzan Terminal-Bench: un benchmark para evaluar la capacidad de los agentes de IA en tareas de terminal: Investigadores de la Universidad de Stanford y Laude han lanzado Terminal-Bench, un marco y benchmark para evaluar la capacidad de los agentes de IA para completar tareas complejas en entornos de terminal del mundo real. Dado que muchos agentes de IA (como Claude Code, Codex CLI) ejecutan tareas valiosas interactuando con la terminal, este benchmark tiene como objetivo cuantificar su eficacia real, impulsando la mejora de las capacidades de los agentes orientados a la implementación práctica. (Fuente: madiator | andersonbcdefg)

madiator

Análisis técnico de DeepSeek-V3: diseño colaborativo de software y hardware para un modelo eficiente: El modelo DeepSeek-V3 se entrenó utilizando solo 2048 GPUs NVIDIA H800 gracias a un diseño colaborativo de software y hardware. Sus innovaciones clave incluyen la atención latente multi-cabeza (MLA), la mezcla de expertos (MoE), el entrenamiento con precisión mixta FP8 y una topología de red multi-plano. Estas tecnologías trabajan conjuntamente con el objetivo de lograr un rendimiento superior del modelo a un costo menor, representando una nueva tendencia en el diseño de modelos de IA hacia una mayor eficiencia de costos. (Fuente: TheTuringPost)

TheTuringPost

Nuevo artículo discute el optimismo representacional en el aprendizaje profundo: la hipótesis de las representaciones enmarañadas rotas: Kenneth Stanley y otros publicaron un documento de postura titulado “Cuestionando el optimismo representacional en el aprendizaje profundo: la hipótesis de las representaciones enmarañadas rotas”. El estudio señala que las redes descubiertas mediante búsquedas abiertas no convencionales, capaces de generar una única imagen, tienen representaciones elegantes y modulares; mientras que las redes que aprenden la misma salida mediante SGD tienen representaciones caóticas y enmarañadas. Esto sugiere que un buen comportamiento de salida puede ocultar representaciones internas deficientes, pero también revela la posibilidad de que las representaciones puedan ser mejores, lo que tiene profundas implicaciones para la generalización, la creatividad y la capacidad de aprendizaje de los modelos, ofreciendo nuevas ideas para mejorar los modelos fundamentales y los LLM. (Fuente: hardmaru | togelius | bengoertzel)

hardmaru

Actualización del tutorial de RL, con énfasis en el capítulo de LLM (DPO, GRPO, cadena de pensamiento, etc.): Sirbayes ha publicado una nueva versión de su tutorial de Aprendizaje por Refuerzo (RL). Esta actualización se centra principalmente en el capítulo de Modelos de Lenguaje Grandes (LLM), incorporando contenidos recientes como DPO (Direct Preference Optimization), GRPO (Group Relative Policy Optimization) y cadena de pensamiento (Thinking). Al mismo tiempo, los capítulos sobre Aprendizaje por Refuerzo Multi-Agente (MARL), Aprendizaje por Refuerzo Basado en Modelos (MBRL), Aprendizaje por Refuerzo Offline y DPG (Deep Deterministic Policy Gradient) también han recibido pequeñas actualizaciones. (Fuente: sirbayes)

sirbayes

ByteDance propone la estrategia de promediado de modelos preentrenados (Pre-trained Model Averaging, PMA): El equipo de investigación de ByteDance ha publicado un artículo proponiendo un nuevo marco para la fusión de modelos durante el preentrenamiento de modelos de lenguaje grandes: la estrategia de promediado de modelos preentrenados (PMA). La investigación descubre que la fusión de checkpoints entrenados con una tasa de aprendizaje constante no solo puede alcanzar un rendimiento comparable o incluso superior al entrenamiento continuo, sino que también puede mejorar significativamente la eficiencia del entrenamiento. Este estudio ofrece nuevas ideas para la optimización de la eficiencia en el preentrenamiento de modelos grandes y valida el potencial de la fusión de modelos para mejorar el rendimiento y la eficiencia. (Fuente: teortaxesTex)

teortaxesTex

Nueva investigación del laboratorio Tongyi de Alibaba, ZeroSearch: LLM actúa como motor de búsqueda, mejorando la capacidad de razonamiento sin API: El laboratorio Tongyi de Alibaba propone el marco ZeroSearch, que permite a los LLM simular el comportamiento de un motor de búsqueda durante el proceso de aprendizaje por refuerzo sin necesidad de llamar realmente a la API de un motor de búsqueda, reduciendo así los costos y mejorando la estabilidad del entrenamiento. Este método, mediante un ajuste fino ligero, permite al LLM generar resultados útiles e interferencias de ruido, y adopta un entrenamiento anti-ruido curricularizado, mejorando gradualmente la capacidad de razonamiento y anti-interferencia del modelo en escenarios de recuperación complejos. Los experimentos demuestran que un LLM con solo 3B de parámetros como módulo de recuperación puede mejorar eficazmente la capacidad de búsqueda. (Fuente: 量子位)

通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索API

Nuevo algoritmo RXTX de la Universidad China de Hong Kong optimiza el cálculo de multiplicación de matrices XXt: Investigadores de la Universidad China de Hong Kong han propuesto un nuevo algoritmo, RXTX, para acelerar el cálculo del producto de una matriz por su transpuesta (XXt). El algoritmo se basa en la multiplicación recursiva de matrices por bloques de 4×4, combinada con técnicas de búsqueda de aprendizaje automático y optimización combinatoria. En comparación con los algoritmos existentes basados en la recursión de Strassen, RXTX reduce la constante de multiplicación asintótica en aproximadamente un 5% y muestra una ventaja en el número total de operaciones para n≥256. En pruebas con matrices de 6144×6144, fue un 9% más rápido que la implementación predeterminada de BLAS. Esta investigación tiene un impacto potencial en áreas como el análisis de datos, el diseño de chips y el entrenamiento de LLM. (Fuente: 量子位)

矩阵乘法可以算得更快了!港中文10页论文证明:能源、时间均可节省

Artículo AdaptThink: Enseñando a los modelos de razonamiento cuándo “pensar”: Esta investigación propone AdaptThink, un marco que, mediante aprendizaje por refuerzo, enseña a los modelos de razonamiento a elegir adaptativamente si realizar un pensamiento profundo (como Chain-of-Thought) según la dificultad del problema. Su núcleo incluye un objetivo de optimización restringida (que fomenta la reducción del pensamiento mientras se mantiene el rendimiento) y una estrategia de muestreo por importancia (que equilibra las muestras de pensamiento y no pensamiento). Los experimentos demuestran que AdaptThink puede reducir significativamente los costos de inferencia y mejorar el rendimiento; por ejemplo, en conjuntos de datos matemáticos, reduce la longitud promedio de respuesta de DeepSeek-R1-Distill-Qwen-1.5B en un 53% y aumenta la precisión en un 2.4%. (Fuente: HuggingFace Daily Papers)

Artículo VisionReasoner: Unificando la percepción visual y el razonamiento mediante aprendizaje por refuerzo: VisionReasoner es un marco unificado diseñado para procesar múltiples tareas de percepción visual con un modelo compartido. Adopta una estrategia de aprendizaje cognitivo multi-objeto y una reestructuración sistemática de tareas, mejorando la capacidad del modelo para analizar entradas visuales y realizar razonamientos estructurados para abordar diez tareas diferentes como detección, segmentación y conteo. Los resultados experimentales muestran que VisionReasoner supera a modelos como Qwen2.5VL en benchmarks como COCO (detección), ReasonSeg (segmentación) y CountBench (conteo). (Fuente: HuggingFace Daily Papers)

Artículo AdaCoT: Logrando una activación adaptativa de la cadena de pensamiento Pareto-óptima mediante aprendizaje por refuerzo: Para resolver el gasto computacional innecesario de la cadena de pensamiento (CoT) en los modelos de lenguaje grandes (LLM) al procesar consultas simples, se propone el marco AdaCoT. Utiliza aprendizaje por refuerzo (PPO) para permitir que el LLM decida adaptativamente si invocar CoT según la complejidad implícita de la consulta, con el objetivo de equilibrar el rendimiento del modelo y el costo de invocación de CoT. Mediante la técnica de enmascaramiento selectivo de pérdidas (SLM) para evitar el colapso del límite de decisión, los experimentos demuestran que AdaCoT puede reducir drásticamente la tasa de activación innecesaria de CoT (hasta un 3.18%) y el número de tokens de respuesta (reducción del 69.06%), manteniendo al mismo tiempo un alto rendimiento en tareas complejas. (Fuente: HuggingFace Daily Papers)

Artículo GIE-Bench: Un benchmark de evaluación fundamentado para la edición de imágenes guiada por texto: Para evaluar con mayor precisión los modelos de edición de imágenes guiados por texto, se propone GIE-Bench. Este benchmark evalúa desde dos dimensiones: la corrección funcional (verificando si la edición fue exitosa mediante preguntas de opción múltiple generadas automáticamente) y la preservación del contenido de la imagen (utilizando técnicas de enmascaramiento consciente de objetos y puntuaciones de preservación para asegurar la consistencia de las regiones no objetivo). Incluye más de 1000 ejemplos de edición de alta calidad, cubriendo 20 categorías. La evaluación de modelos como GPT-Image-1 muestra que lideran en el seguimiento de instrucciones, pero tienen margen de mejora en la preservación de regiones irrelevantes. (Fuente: HuggingFace Daily Papers)

Artículo InstanceGen: Generación de imágenes con instrucciones a nivel de instancia: Para abordar el problema de que los modelos preentrenados de texto a imagen tienen dificultades para capturar con precisión la semántica en prompts complejos que contienen múltiples objetos y atributos a nivel de instancia, InstanceGen propone una nueva técnica. Esta técnica combina una inicialización estructurada de grano fino basada en imágenes (proporcionada directamente por los modelos contemporáneos de generación de imágenes) con instrucciones a nivel de instancia basadas en LLM, lo que permite que las imágenes generadas sigan mejor todas las partes de los prompts de texto, incluido el número de objetos, los atributos a nivel de instancia y las relaciones espaciales entre instancias. (Fuente: HuggingFace Daily Papers)

💼 Negocios

La empresa de inteligencia corporeizada «Qianjue Technology», surgida de Tsinghua, completa una ronda de financiación Pre-A+ de varios cientos de millones de yuanes: La empresa de “cerebros corporeizados” «Qianjue Technology» ha completado recientemente una nueva ronda de financiación Pre-A+, con inversiones de Junshan Investment, Xiangfeng Investment y Shixi Capital, acumulando una financiación total de varios cientos de millones de yuanes. La empresa fue incubada por miembros clave del Departamento de Automatización de la Universidad de Tsinghua e instituciones de investigación de IA relacionadas. Se centra en el desarrollo de sistemas de “cerebro corporeizado” de propósito general, enfatizando la percepción multimodal en tiempo real, la planificación continua de tareas y la capacidad de ejecución autónoma. Ya ha logrado la implementación a nivel de producto en escenarios como servicios domésticos y logística, y colabora con varios fabricantes de robots de primer nivel y empresas de electrónica de consumo. (Fuente: 36氪)

清华系具身大脑团队累计融资数亿规模,对标美国头部公司,已在行业头部厂商落地|硬氪首发

Los AI Agent podrían remodelar el panorama del mercado SaaS: El CEO de Microsoft, Nadella, predijo que las aplicaciones SaaS se enfrentarán a una disrupción en la era de los AI Agent, lo que ha provocado un amplio debate en la industria sobre el futuro de los AI Agent y el SaaS. Gracias a su capacidad de percepción, toma de decisiones y acción autónomas, se espera que los AI Agent resuelvan los puntos débiles del SaaS tradicional en cuanto a personalización, interoperabilidad de datos y experiencia del usuario, como la creación automática de flujos de trabajo mediante interacción en lenguaje natural, la integración de datos entre aplicaciones y la provisión proactiva de sugerencias comerciales. Aunque actualmente los AI Agent enfrentan desafíos en aplicaciones empresariales como las limitaciones de capacidad de los LLM, los costos y la seguridad de los datos, fabricantes como Salesforce, Microsoft y Yonyou ya han comenzado a integrar AI Agent en sus productos SaaS, explorando nuevos modelos de fusión o disrupción del SaaS. (Fuente: 36氪)

AI Agent,会是SaaS的终结者吗?

La IA remodela la gestión de la compensación: del análisis de datos a la toma de decisiones y comunicación inteligentes: La inteligencia artificial está transformando profundamente la gestión de la compensación. Un informe de Korn Ferry muestra que la aplicación de la IA en la comunicación de la compensación, la evaluación comparativa externa y la arquitectura de habilidades laborales está aumentando gradualmente. En el futuro, se espera que la IA, al procesar datos a mayor escala y más diversos (incluidas plataformas sociales e investigaciones de terceros), logre una transición del impulso por datos a la toma de decisiones inteligentes, como predecir el riesgo de rotación de empleados, evaluar la efectividad de los incentivos, ajustar dinámicamente los rangos salariales y lograr incentivos personalizados. Al mismo tiempo, la IA también enfrenta desafíos como la privacidad de los datos, la “caja negra” de los algoritmos y la credibilidad de los resultados. Una comunicación eficaz de la compensación es aún más importante en la era digital e inteligente, y las herramientas de IA pueden ayudar a los gerentes a realizar una comunicación sistemática y personalizada, mejorando el sentido de equidad y la satisfacción de los empleados. (Fuente: 36氪)

🌟 Comunidad

Sundar Pichai publica una foto de “pensamiento profundo”, anticipando Google I/O: El CEO de Google, Sundar Pichai, publicó en redes sociales una foto suya en “pensamiento profundo”, generando una amplia expectación en la comunidad sobre la próxima conferencia Google I/O. Esta foto fue compartida e interpretada por múltiples líderes de opinión en el campo de la IA, quienes generalmente consideran que presagia anuncios importantes de Google en el ámbito de la IA, especialmente en relación con el modelo Gemini y sus aplicaciones. Los miembros de la comunidad especulan sobre posibles nuevas funciones, modelos o estrategias. (Fuente: demishassabis | YiTayML | zacharynado | lmthang | scaling01 | brickroad7 | jack_w_rae | TheTuringPost | shaneguML | op7418)

demishassabis

La capacidad de programación de los AI Agent genera debate, Sama se muestra optimista sobre su capacidad para completar proyectos inacabados automáticamente: El CEO de OpenAI, Sam Altman, expresó su expectación por la capacidad de los agentes de programación de IA (como Codex) para completar aquellos proyectos que están al 80% pero no finalizados, y para realizar su mantenimiento automático. La comunidad ha comparado y discutido las capacidades de diferentes agentes de programación de IA (como Codex, Jules, Claude Code), centrándose en aspectos como la capacidad de planificación de tareas, el entorno de máquina virtual (por ejemplo, si están conectados a internet) y su rendimiento en tareas complejas a largo plazo. Existe un consenso general sobre el enorme potencial de los AI Agent en el campo del desarrollo de software, aunque los diferentes modelos aún presentan diferencias en su implementación y efectividad concretas. (Fuente: sama | mathemagic1an)

La introducción de la detección de contenido generado por IA en las universidades genera controversia, “El prefacio al Pabellón del Príncipe Teng” es calificado con un 100% de IA: Múltiples universidades en China han incorporado la “tasa de detección de contenido generado por IA” en la evaluación de tesis, lo que ha llevado a los estudiantes a adoptar diversos métodos para evadir la detección, mientras los profesores luchan entre el veredicto de la IA y el juicio humano. Las herramientas de detección de IA, debido a su dependencia de la comparación con bases de datos y sesgos de patrones, a menudo clasifican erróneamente obras clásicas (como “El prefacio al Pabellón del Príncipe Teng” con un 100% de IA, o “Estanque de lotos bajo la luz de la luna” de Zhu Ziqing con un 62.88%) y la escritura académica normativa como generadas por IA. Este fenómeno ha dado lugar a una industria gris de “reducción de la tasa de IA”, provocando una profunda reflexión sobre las limitaciones de la tecnología de detección de IA, los estándares de evaluación académica y la esencia de la educación. (Fuente: 36氪)

《滕王阁序》AI生成率竟达100%,高校AI检测逼疯师生

Se debate la forma de pensar de la próxima generación que crece en la era de la IA: La comunidad de Reddit debate acaloradamente cómo la nueva generación de niños que crecen en un entorno de IA tendrá una forma de pensar significativamente diferente a las generaciones anteriores. Se acostumbrarán a interactuar con asistentes de IA, y el enfoque del aprendizaje podría pasar de memorizar hechos a hacer preguntas y navegar sistemas, del aprendizaje por ensayo y error a la iteración rápida. Esta temprana fusión con la lógica de las máquinas podría remodelar profundamente su curiosidad, memoria, intuición e incluso su definición de la inteligencia misma, lo que plantea interrogantes sobre la formación de sus futuras creencias, su capacidad para construir sistemas y su confianza en sus propios pensamientos. (Fuente: Reddit r/ArtificialInteligence)

El rápido desarrollo de la IA en el campo de la ingeniería de software genera una sensación de crisis laboral entre los desarrolladores: Un ingeniero de software de 42 años, que anteriormente ganaba 150,000 dólares anuales, después de ser desplazado por tendencias relacionadas con la IA, envió más de 800 currículums con escasas oportunidades de entrevista, y actualmente se gana la vida repartiendo comida a domicilio. Su experiencia ha provocado un debate sobre si la IA (como GitHub Copilot, Claude, ChatGPT) ya ha comenzado a reemplazar a los programadores a gran escala. El CEO de Anthropic predijo anteriormente que la IA podría generar la mayor parte del código. Aunque los datos de la Oficina de Estadísticas Laborales todavía muestran que la ingeniería de software es una de las profesiones de más rápido crecimiento, la ola de despidos en la industria tecnológica continúa, y las empresas están utilizando la IA para reducir costos y aumentar la eficiencia, lo que impulsa una reflexión sobre cómo la sociedad debería abordar el desempleo estructural inducido por la IA y la construcción de nuevos paradigmas de colaboración “humano + IA”. (Fuente: 36氪)

42岁程序员被AI淘汰,曾年薪15万美元,如今800份简历打水漂、只能靠送外卖糊口……

El problema del sesgo de género en los algoritmos de IA: la invisibilidad y ausencia de los “datos de ella”: En el desarrollo de la inteligencia artificial, el problema del sesgo de género en los algoritmos se vuelve cada vez más prominente. Debido a razones históricas y sociales, la representatividad de los datos femeninos en la recopilación de datos es insuficiente (como en ensayos clínicos, entradas de Wikipedia), lo que lleva a que la IA pueda producir sesgos contra las mujeres en el diagnóstico médico, la recomendación de contenido, etc. Por ejemplo, los sistemas de reconocimiento de imágenes pueden identificar erróneamente a un hombre en una cocina como una mujer, y los resultados de imágenes de los motores de búsqueda refuerzan los estereotipos de género. El desequilibrio de género en la industria de la IA también se considera una de las causas. Resolver este problema requiere múltiples enfoques, como aumentar la conciencia de los desarrolladores, garantizar oportunidades profesionales equitativas para las mujeres, perfeccionar las leyes y regulaciones, establecer mecanismos de auditoría de género para los sistemas de IA y optimizar los algoritmos (como el remuestreo de datos y la aplicación del razonamiento causal). (Fuente: 36氪)

人工智能的“歧视”:“她数据”在算法运行中隐形

Los AI Agent provocan un debate sobre la transformación de la industria SaaS: El CEO de Microsoft, Nadella, predice que el SaaS se enfrentará a una disrupción en la era de los AI Agent. Gracias a su capacidad de percepción, toma de decisiones y acción autónomas, se espera que los AI Agent resuelvan los puntos débiles del SaaS en cuanto a personalización, interoperabilidad de datos y experiencia del usuario. Por ejemplo, los AI Agent pueden crear automáticamente flujos de trabajo mediante interacción en lenguaje natural, integrar datos entre aplicaciones y proporcionar proactivamente sugerencias comerciales. Actualmente, proveedores de SaaS como Salesforce, Microsoft y Yonyou han comenzado a integrar AI Agent, explorando nuevos modelos de fusión o disrupción del SaaS. Aunque los AI Agent aún enfrentan desafíos en aplicaciones empresariales como la capacidad de los LLM, los costos y la seguridad de los datos, su potencial transformador ya ha atraído una amplia atención en la industria. (Fuente: finbarrtimbers)

💡 Otros

IA genera cartas del tarot estilo ópera china: El usuario @op7418 utilizó la herramienta de IA Lovart para crear un juego de cartas del tarot con estilo de ópera china. Su concepto de diseño combina el contenido tradicional de la ópera con el significado expresado por la carta del tarot correspondiente, mostrando el potencial de aplicación de la IA en el diseño creativo y la fusión cultural. (Fuente: op7418)

op7418

Reestructuración de la organización en la era de la IA: el auge de los Equipos de Ejecución Estratégica (SET): El artículo explora cómo, en una era de acelerado desarrollo de la IA, las estructuras organizativas tradicionales luchan por adaptarse a la complejidad que esta conlleva. Propone un modelo organizativo de tres niveles centrado en los “Equipos de Ejecución Estratégica” (SET), con el objetivo de convertir la IA en parte del equipo, logrando una ejecución ágil y una expansión inteligente mediante mecanismos razonables de colaboración humano-máquina. Los SET son responsables de traducir la estrategia en acciones interdepartamentales, monitorear la entropía organizacional, ajustar estrategias de manera flexible y coordinar la colaboración entre personas, procesos y agentes de IA, para liberar el potencial de la IA e impulsar la implementación de la estrategia. (Fuente: 36氪)

设计在人工智能时代蓬勃发展的组织结构

¿Puede la verificación de hechos colaborativa (crowdsourcing) frenar la desinformación en las redes sociales?: Preslav Nakov, profesor de la Universidad de Inteligencia Artificial Mohamed bin Zayed, analiza el impacto de que Meta reemplace a los verificadores de hechos de terceros con Community Notes. Considera que Community Notes (originado en Birdwatch de X), este tipo de modelo colaborativo, tiene potencial, pero la moderación de contenido requiere una combinación de métodos, incluyendo filtrado automático, crowdsourcing y verificación de hechos profesional. Haciendo una analogía con el filtrado de spam y el manejo de contenido dañino por parte de los LLM, señala que cada método tiene sus ventajas y desventajas, y deberían trabajar en conjunto. La investigación indica que Community Notes puede amplificar el impacto del trabajo de los verificadores de hechos profesionales; ambos tienen enfoques diferentes pero conclusiones similares, y pueden complementarse mutuamente. (Fuente: MIT Technology Review)

Can crowdsourced fact-checking curb misinformation on social media?

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *