Palabras clave:Capacidad de razonamiento de IA, Modelos de lenguaje grande, Investigación en IA de Apple, Diálogo de múltiples turnos, Atención log-lineal, IA en medicina, Comercialización de IA, Prueba de Torres de Hanói para razonamiento de IA, Vulnerabilidad de seguridad de Claude 4 Opus, Suscripción de pago para asistente de IA de Meta, Marco Miras de Google, Estrategia de IA de ByteDance

🔥 Enfoque

Publicación de informe de Apple sobre capacidad de inferencia de IA genera debate, cuestionando si realmente “piensan”: El último artículo de investigación de Apple, “The Illusion of Thinking”, señala a través de pruebas con acertijos como la Torre de Hanói que los modelos de lenguaje grandes (LLM), incluidos o3-mini, DeepSeek-R1 y Claude 3.7, al procesar problemas complejos, su “razonamiento” se asemeja más a la coincidencia de patrones que al pensamiento genuino. Cuando la complejidad de la tarea supera un cierto umbral, el rendimiento del modelo colapsa por completo y la precisión cae a cero. La investigación también encontró que incluso al proporcionar algoritmos de resolución, el rendimiento del modelo no mejoró significativamente, y se observó un fenómeno de “escalado inverso del esfuerzo de razonamiento”, donde el modelo reduce activamente el pensamiento al acercarse al punto de colapso. Este informe ha generado una amplia discusión; algunas opiniones sugieren que Apple menosprecia a sus competidores debido a su propio lento progreso en IA, mientras que otros señalan dudas sobre la metodología del artículo, como que la Torre de Hanói no es un estándar ideal para probar la capacidad de razonamiento, y que los modelos podrían “rendirse” debido a la excesiva complejidad de la tarea en lugar de una falta de capacidad. No obstante, el estudio destaca las limitaciones actuales de los LLM en cuanto a dependencias a largo plazo y planificación compleja, y llama a prestar atención al proceso intermedio de evaluación de la capacidad de razonamiento en lugar de solo la respuesta final (Fuente: jonst0kes, omarsar0, Teknium1, nrehiew_, pmddomingos, Yuchenj_UW, scottastevenson, scaling01, giffmana, nptacek, andersonbcdefg, jeremyphoward, JeffLadish, cognitivecompai, colin_fraser, iScienceLuvr, slashML, Reddit r/MachineLearning, Reddit r/LocalLLaMA, Reddit r/artificial, Reddit r/artificial)

Apple critica inferencia de IA y es refutado, figura de GitHub responde, tarea compleja ≠ capacidad de inferencia

Cuestionan capacidad de diálogo multivuelta de grandes modelos de IA, rendimiento disminuye en promedio un 39%: Una investigación reciente evaluó el rendimiento de 15 grandes modelos de IA de primer nivel en diálogos multivuelta a través de más de 200,000 experimentos simulados. Se descubrió que el rendimiento de todos los modelos en diálogos multivuelta fue significativamente inferior al de los diálogos de una sola vuelta, con una disminución promedio del 39% en seis tipos de tareas de generación. El estudio señala que los grandes modelos tienden a intentar generar una solución final prematuramente en la primera respuesta y dependen de esta conclusión inicial en las conversaciones posteriores. Una vez que la dirección es incorrecta, las indicaciones posteriores difícilmente pueden corregirla, fenómeno denominado “desorientación conversacional”. Esto implica que, si la respuesta inicial es errónea cuando los usuarios interactúan con grandes modelos en múltiples vueltas para mejorar gradualmente las respuestas, es mejor reiniciar la conversación. Este estudio desafía los benchmarks actuales que evalúan principalmente el rendimiento del modelo basándose en diálogos de una sola vuelta (Fuente: 新智元)

Nunca despertarás a un gran modelo que finge dormir, el diálogo multivuelta fracasa por completo, el rendimiento se desploma un 39%

Instituciones como el MIT proponen mecanismo de atención log-lineal para mejorar eficiencia en procesamiento de secuencias largas: Investigadores del MIT, Princeton, CMU y Tri Dao, autor de Mamba, entre otros, han propuesto conjuntamente un nuevo mecanismo llamado “Log-Linear Attention”. Este mecanismo, mediante la introducción de una estructura especial de segmentación con Fenwick tree en la matriz de máscara M, tiene como objetivo optimizar la complejidad computacional de la atención a O(TlogT) en la longitud de secuencia T, y reducir la complejidad de memoria a O(logT). Este método puede aplicarse sin problemas a diversos modelos de atención lineal como Mamba-2 y Gated DeltaNet, logrando una ejecución eficiente en hardware mediante un kernel Triton personalizado. Los experimentos demuestran que la Log-Linear Attention, manteniendo la eficiencia, muestra mejoras de rendimiento en tareas como la recuperación asociativa multiconsulta y el modelado de texto largo, y se espera que resuelva el cuello de botella de la complejidad cuadrática de los mecanismos de atención tradicionales al procesar secuencias largas (Fuente: 新智元, TheTuringPost)

Llega el terminador de la potencia de cálculo, un equipo de genios chinos "reduce dimensionalmente" el cuello de botella de la atención, la IA avanza hacia la era logarítmica

Google propone el framework Miras y tres nuevos modelos secuenciales para desafiar a Transformer: El equipo de investigación de Google ha propuesto un nuevo framework llamado Miras, con el objetivo de unificar la perspectiva de modelos secuenciales como Transformer y RNN, considerándolos sistemas de memoria asociativa que optimizan algún “objetivo de memoria intrínseco” (es decir, un sesgo de atención). Este framework enfatiza las “puertas de retención” en lugar de las “puertas de olvido” e introduce cuatro dimensiones clave de diseño: sesgo de atención, arquitectura de memoria, etc. Basándose en este framework, Google ha lanzado tres nuevos modelos: Moneta, Yaad y Memora. Estos modelos muestran un rendimiento excelente en modelado de lenguaje, razonamiento de sentido común y tareas intensivas en memoria. Por ejemplo, Moneta mejora en un 23% el índice PPL de modelado de lenguaje, y Yaad supera a Transformer en un 7.2% en la precisión del razonamiento de sentido común. Estos modelos reducen la cantidad de parámetros en un 40% y aumentan la velocidad de entrenamiento entre 5 y 8 veces en comparación con los RNN, mostrando potencial para superar a Transformer en tareas específicas (Fuente: 新智元)

¿Transformer de Google obsoleto? Exalumnos de la clase Yao de Tsinghua y otros lanzan triple ataque, modificando radicalmente la atención

🎯 Tendencias

Matemáticos de élite prueban en secreto o4-mini, la IA demuestra asombrosa capacidad de razonamiento matemático: Recientemente, 30 matemáticos de renombre mundial se reunieron en secreto en Berkeley, California, para probar durante dos días la capacidad matemática del modelo de lenguaje grande de inferencia o4-mini de OpenAI. Los resultados mostraron que el modelo podía resolver algunos problemas matemáticos extremadamente desafiantes, y su rendimiento dejó atónitos a los matemáticos asistentes, quienes lo describieron como “cercano a un genio matemático”. o4-mini no solo pudo comprender rápidamente la literatura relevante en el campo, sino que también intentó de forma autónoma simplificar los problemas y finalmente ofrecer soluciones correctas y creativas. Esta prueba resalta el enorme potencial de la IA en el razonamiento matemático complejo, y al mismo tiempo, ha suscitado debates sobre el exceso de confianza de la IA y el futuro papel de los matemáticos. (Fuente: 36氪)

Investigación de IA revela mecanismo de recompensa en aprendizaje por refuerzo: el proceso es más importante que el resultado, respuestas incorrectas también pueden mejorar el modelo: Investigadores de la Universidad Renmin de China y Tencent descubrieron que los modelos de lenguaje grandes son robustos al ruido en las recompensas durante el aprendizaje por refuerzo. Incluso si algunas recompensas se invierten (por ejemplo, respuestas correctas obtienen 0 puntos, respuestas incorrectas obtienen 1 punto), el rendimiento del modelo en tareas posteriores apenas se ve afectado. El estudio sugiere que la clave para que el aprendizaje por refuerzo mejore la capacidad del modelo radica en guiarlo para que genere un “proceso de pensamiento” de alta calidad, en lugar de simplemente recompensar las respuestas correctas. Al recompensar la frecuencia de aparición de palabras clave de pensamiento en la salida del modelo (Reasoning Pattern Reward, RPR), incluso sin considerar la corrección de la respuesta, se puede mejorar significativamente el rendimiento del modelo en tareas como las matemáticas. Esto indica que la mejora de la IA proviene más de aprender rutas de pensamiento adecuadas, mientras que la capacidad básica de resolución de problemas ya se adquiere en la etapa de preentrenamiento. Este hallazgo podría ayudar a mejorar la calibración del modelo de recompensa y, en tareas abiertas, mejorar la capacidad de los modelos pequeños para adquirir pensamiento a través del aprendizaje por refuerzo (Fuente: 36氪, teortaxesTex)

¿Por qué el modelo puede mejorar incluso con recompensas incorrectas? Nueva investigación: el modelo no aprende nuevos conocimientos, sino formas de pensar

Aplicaciones de IA en medicina se aceleran, modelos como DeepSeek asisten en todo el proceso de diagnóstico y tratamiento: Los grandes modelos de IA están penetrando rápidamente en la industria médica, cubriendo múltiples etapas como investigación científica, consulta de divulgación, gestión post-diagnóstico e incluso asistencia diagnóstica. DeepSeek, por ejemplo, ya es utilizado por cientos de hospitales para la asistencia en investigación. Empresas como Ant Digital, Neusoft Corporation y iFlytek han lanzado modelos grandes verticales para el sector médico y soluciones, como el agente inteligente de IA especializado desarrollado por Ant Group en colaboración con el Hospital Renji de Shanghái, y el cuerpo de empoderamiento de IA “Tianyi” de Neusoft Corporation que cubre ocho escenarios médicos principales. Aunque las perspectivas de la IA en aplicaciones médicas son amplias, todavía enfrenta desafíos como el problema de las “alucinaciones”, la calidad y seguridad de los datos, y modelos de negocio aún no claros. Actualmente, ofrecer implementaciones privadas a través de dispositivos todo en uno se está convirtiendo en una dirección de exploración comercial. (Fuente: 36氪)

La carrera de oro de la IA médica, las grandes tecnológicas compiten ferozmente

Ilya Sutskever, cofundador desaparecido de OpenAI, reaparece en discurso de graduación de la Universidad de Toronto, habla sobre las reglas de supervivencia en la era de la IA: Ilya Sutskever, ex científico jefe y cofundador de OpenAI, hizo su primera aparición pública después de dejar OpenAI, al recibir un Doctorado Honoris Causa en Ciencias de su alma mater, la Universidad de Toronto, donde pronunció un discurso. Predijo que la IA eventualmente podrá hacer todo lo que los humanos pueden hacer y enfatizó la importancia crucial de aceptar la realidad y centrarse en mejorar el presente. Considera que los verdaderos desafíos que plantea la IA no tienen precedentes y son extremadamente graves, y que el futuro será muy diferente al de hoy. Animó a los graduados a prestar atención al desarrollo de la IA, comprender sus capacidades y participar activamente en la resolución de los enormes desafíos que plantea la IA, porque esto concierne a la vida de todos. (Fuente: 量子位, Yuchenj_UW)

Ilya, desaparecido, reaparece en discurso de graduación: Cómo sobrevivir en la era de la IA, estas son mis reglas

Estudio señala que la indicación “responder directamente” podría reducir la precisión de los grandes modelos, el efecto de la indicación de cadena de pensamiento también está limitado por el escenario: Una investigación reciente de instituciones como la Wharton School evaluó las estrategias de indicación para los modelos de lenguaje grandes (LLM), y encontró que la indicación “responder directamente”, preferida por el CEO de OpenAI, Sam Altman, podría reducir significativamente la precisión del modelo en las pruebas del conjunto de datos GPQA Diamond (preguntas de razonamiento experto a nivel de posgrado). Al mismo tiempo, para los modelos de razonamiento (como o4-mini, o3-mini), agregar el comando de cadena de pensamiento (CoT) en la indicación del usuario ofrece una mejora limitada en la precisión, pero aumenta significativamente el costo de tiempo. Mientras que para los modelos sin razonamiento (como Claude 3.5 Sonnet, Gemini 2.0 Flash), la indicación CoT puede mejorar la puntuación promedio, pero también podría aumentar la inestabilidad de la respuesta. El estudio indica que muchos modelos de vanguardia ya tienen incorporados procesos de razonamiento o indicaciones relacionadas con CoT, y que los usuarios que utilizan la configuración predeterminada podrían estar ya obteniendo una opción óptima, sin necesidad de agregar tales instrucciones. (Fuente: 量子位)

Sam Altman usó mal ChatGPT, según un nuevo estudio: pedir "respuesta directa" reduce la precisión, y el efecto de la indicación de cadena de pensamiento también está disminuyendo

Asistente Meta AI supera los mil millones de usuarios activos mensuales, Zuckerberg insinúa posible servicio de suscripción de pago en el futuro: El CEO de Meta, Mark Zuckerberg, anunció en la junta anual de accionistas que el asistente de IA de la compañía, Meta AI, ha alcanzado los mil millones de usuarios activos mensuales. Al mismo tiempo, indicó que a medida que mejoren las capacidades de Meta AI, podría lanzarse un servicio de suscripción de pago en el futuro, por ejemplo, ofreciendo recomendaciones de pago o uso adicional de potencia de cálculo. Esto coincide con informes anteriores sobre los planes de Meta de probar un servicio de pago similar a ChatGPT Plus. Ante los altos costos operativos de los grandes modelos de IA y la atención del mercado de capitales sobre el retorno de la inversión en IA, la monetización de Meta AI se ha convertido en una tendencia inevitable. Especialmente en un contexto donde el rendimiento de Llama 4 no cumplió las expectativas y la competencia de los modelos de código abierto se intensifica, Meta está ajustando su estrategia de IA, pasando de una orientación a la investigación a un mayor enfoque en productos de consumo y la implementación comercial. (Fuente: 三易生活)

No hay almuerzo gratis, Meta AI también cobrará

Sakana AI lanza benchmark de modelos de lenguaje grandes para finanzas en japonés, EDINET-Bench: Sakana AI ha hecho público “EDINET-Bench”, un benchmark para evaluar el rendimiento de los modelos de lenguaje grandes (LLM) en el sector financiero japonés. Este benchmark utiliza datos de informes anuales del sistema de divulgación electrónica EDINET de la Agencia de Servicios Financieros de Japón, con el objetivo de medir la capacidad de la IA en tareas financieras avanzadas (como la detección de fraude contable). Los resultados preliminares de la evaluación muestran que el rendimiento de los LLM existentes aplicados directamente a tales tareas aún no ha alcanzado un nivel práctico, pero hay potencial de mejora optimizando la información de entrada. Sakana AI planea, basándose en este benchmark y los hallazgos de la investigación, desarrollar LLM especializados más adaptados a las tareas financieras, y ya ha publicado el artículo, el conjunto de datos y el código correspondientes, con la esperanza de impulsar la aplicación de los LLM en la industria financiera japonesa. (Fuente: SakanaAILabs)

SakanaAILabs

La IA desempeña múltiples roles en el examen de ingreso a la universidad: inscripción inteligente, gestión de exámenes inteligente y seguridad en el lugar del examen: La tecnología de IA se está integrando profundamente en todas las etapas del examen de ingreso a la universidad (Gaokao). En cuanto a la elección de carrera, plataformas como Quark y Baidu han lanzado herramientas de asistencia para la inscripción basadas en IA, que proporcionan a los candidatos sugerencias personalizadas de instituciones y carreras, simulan la inscripción y analizan la situación del examen mediante búsquedas profundas y análisis de big data. En la gestión de exámenes, la IA se utiliza para la programación inteligente de exámenes, la verificación de identidad mediante reconocimiento facial, la supervisión en tiempo real de comportamientos anómalos en el lugar del examen mediante IA (como ya se implementa completamente en provincias como Jiangxi y Hubei), y el uso de drones y perros robot para la monitorización del entorno y la seguridad perimetral de los centros de examen, con el objetivo de mejorar la eficiencia de la organización de los exámenes y garantizar la equidad y la imparcialidad en el lugar del examen. (Fuente: IT时报, PConline太平洋科技)

¿Puede la IA reemplazar a "Zhang Xuefeng" para la elección de carrera en el Gaokao?

Líderes tecnológicos debaten el futuro de la IA: oportunidades y desafíos coexisten, las fronteras necesitan redefinirse: Varios líderes del sector tecnológico han compartido recientemente sus puntos de vista sobre el desarrollo de la IA. Mary Meeker señaló que la IA está evolucionando de una caja de herramientas a un compañero de trabajo, y que los Agents se convertirán en una nueva fuerza laboral digital. Geoffrey Hinton cree que no hay ninguna capacidad humana que no pueda ser replicada, y que la IA podría tener emociones y percepciones. Kevin Kelly predice la aparición de una gran cantidad de IA pequeñas y especializadas, y considera que dotar a la IA de emociones y la capacidad de sentir dolor tiene un significado práctico, pero que la IA tardará en empoderar completamente al mundo. El CEO de DeepMind, Demis Hassabis, vislumbra que la IA resolverá problemas importantes como enfermedades y energía, pero también enfatiza la necesidad de estar alerta a los riesgos de abuso y los problemas de control, pidiendo cooperación internacional para establecer estándares. Juntos, describen un futuro de profunda integración de la IA, donde coexisten oportunidades y desafíos, y donde las fronteras y las formas de interacción entre humanos e IA necesitan urgentemente ser redefinidas. (Fuente: 红杉汇)

¿Necesitamos redefinir nuestras fronteras con la IA?

Informe de Goldman Sachs: La tasa de adopción de IA en empresas de EE. UU. continúa aumentando, especialmente en grandes empresas: El informe de seguimiento de adopción de IA del segundo trimestre de 2025 de Goldman Sachs muestra que la tasa de adopción de IA en empresas estadounidenses aumentó del 7.4% en el cuarto trimestre de 2024 al 9.2%, siendo la tasa de adopción en grandes empresas con más de 250 empleados de hasta el 14.9%. Los sectores de educación, información, finanzas y servicios profesionales experimentaron el mayor aumento en la tasa de adopción. El informe también señala que se espera que los ingresos de la industria de semiconductores crezcan un 36% para fines de 2026 en comparación con los niveles actuales, y los analistas ya han elevado las previsiones de ingresos para la industria de semiconductores y las empresas de hardware de IA para 2025, lo que refleja la continua fiebre de inversión en IA. Aunque la adopción de IA se está acelerando, su impacto significativo en el mercado laboral aún no se ha manifestado, pero en las áreas donde se ha implementado la IA, la productividad laboral ha aumentado en promedio entre un 23% y un 29%. (Fuente: 硬AI)

Avances en la comercialización de grandes modelos de IA: publicidad y servicios en la nube son las principales vías de monetización, pero la rentabilidad sigue siendo un desafío: Las grandes empresas tecnológicas nacionales e internacionales están invirtiendo masivamente en el campo de la IA. Los informes financieros de empresas como Baidu, Alibaba y Tencent muestran que los negocios relacionados con la IA están impulsando el crecimiento de los ingresos. La monetización de la IA se realiza principalmente a través de cuatro vías: modelo como producto (por ejemplo, suscripciones a asistentes de IA), modelo como servicio (MaaS, para modelos personalizados y llamadas API para empresas B2B), IA como función (integrada en el negocio principal para mejorar la eficiencia) y “vendedores de herramientas” (infraestructura de cómputo). Entre ellas, MaaS y la IA que potencia el negocio principal (como publicidad y comercio electrónico) ya han mostrado resultados iniciales. Los ingresos relacionados con la IA de Baidu Smart Cloud y Alibaba Cloud han crecido significativamente, y la IA de Tencent ha mejorado los negocios de publicidad y juegos. Sin embargo, los altos costos de I+D y marketing (como las tarifas de promoción de Doubao y Yuanbao) y el hecho de que los hábitos de pago de los consumidores C2C aún no se han formado, junto con la intensa guerra de precios en el sector B2B, hacen que los negocios de IA generalmente sigan en fase de inversión y aún no hayan logrado una rentabilidad estable. (Fuente: 定焦)

¿Quién está ganando dinero con la IA en las grandes tecnológicas?

El CEO de Google, Pichai, interpreta la estrategia de IA: impulsada por una “mentalidad de alunizaje”, con el objetivo de mejorar en lugar de reemplazar a los humanos: El CEO de Google, Sundar Pichai, explicó en profundidad la estrategia de prioridad de IA de la compañía en un podcast. Enfatizó que la IA debe convertirse en un amplificador de productividad, ayudando a resolver problemas globales como el cambio climático y la atención médica. La estrategia de IA de Google está impulsada conjuntamente por avances tecnológicos (como la integración de DeepMind, el desarrollo propio de chips TPU), la demanda del mercado (los usuarios necesitan servicios más inteligentes y personalizados), la presión competitiva y la responsabilidad social. Productos centrales como el modelo Gemini admiten de forma nativa la multimodalidad, con el objetivo de redefinir la relación entre las personas y la información, potenciando la búsqueda, las herramientas de productividad y la creación de contenido. Google se compromete a construir una infraestructura de IA completa desde el hardware (TPU), los algoritmos de plataforma (TensorFlow de código abierto) hasta la computación en el borde, con el objetivo de convertirse en el sistema operativo subyacente del mundo inteligente, al mismo tiempo que presta atención a la ética y los riesgos de la IA, y promueve la cooperación regulatoria global. (Fuente: 王智远)

Datos del mercado de aplicaciones de IA de mayo: descargas globales disminuyen, compra de tráfico y descargas de Tencent Yuanbao se desploman a la mitad: En mayo de 2025, las descargas globales de aplicaciones de IA en ambas plataformas fueron de 280 millones, una disminución intermensual del 16.4%. ChatGPT, Google Gemini, DeepSeek, Doubao y PixVerse ocuparon los cinco primeros puestos. En el mercado de China continental, las descargas en la plataforma de Apple fueron de 28.843 millones, una disminución intermensual del 5.6%, con Doubao, Jimeng AI, Quark, DeepSeek y Tencent Yuanbao a la cabeza. Cabe destacar que el volumen de material publicitario y las descargas de Tencent Yuanbao disminuyeron drásticamente en mayo, con el porcentaje de material publicitario cayendo del 29% al 16%, y las descargas disminuyendo un 44.8% intermensual. Quark, por otro lado, superó a Tencent Yuanbao en la lista de compra de material publicitario. Las descargas de DeepSeek también continuaron disminuyendo. Se considera que la disminución de la popularidad de DeepSeek y el esfuerzo de los competidores en la búsqueda profunda, así como la drástica reducción de la inversión publicitaria de Tencent Yuanbao, son las principales razones. (Fuente: DataEye应用数据情报)

Informe mensual de IA de mayo: 280 millones de descargas globales de IA en ambas plataformas, descargas y compra de tráfico de Tencent Yuanbao se desploman a la mitad

El mercado de hardware de IA tiene un enorme potencial, OpenAI se asocia con Jony Ive para entrar en una nueva pista: El hardware de IA se considera el próximo mercado de billones de dólares. OpenAI adquirió recientemente la startup de hardware de IA IO, fundada por el ex director de diseño de Apple Jony Ive, por casi 6.5 mil millones de dólares, con el objetivo de desarrollar nuevos dispositivos de IA y cambiar la forma en que interactuamos con las máquinas. Se espera que el primer producto sea similar a un “iPod Shuffle de cuello”, sin pantalla, centrado en la portabilidad, la percepción del entorno y la interacción por voz, inspirado en el compañero de IA de la película “Her”. Este movimiento marca un cambio de la competencia de modelos de IA de los gigantes tecnológicos hacia la competencia en la distribución y los métodos de interacción. Mientras tanto, la innovación en hardware de IA en China es activa, con productos como la tarjeta de grabación PLAUD NOTE, gafas de IA como las de RayNeo, y mascotas de IA como Ropet AI logrando avances en mercados de nicho, generalmente eligiendo nichos pequeños, alta especialización y aprovechando las ventajas de la cadena de suministro. (Fuente: 混沌大学)

El mercado de publicidad generada por IA explota, los costos bajan a 1 dólar, las startups emergen: La tecnología de IA está revolucionando la industria publicitaria, reduciendo drásticamente los costos de producción y mejorando significativamente la eficiencia. Plataformas de generación de anuncios con IA como Icon.com pueden producir anuncios por tan solo 1 dólar y alcanzar 5 millones de dólares en ARR en 30 días. Arcads AI, con un equipo de 5 personas, también ha logrado resultados similares. Estas plataformas completan de forma integral la planificación, la generación de material (imágenes, texto, video), la distribución y la optimización mediante IA, logrando “creatividad en minutos, distribución en horas” y marketing de precisión “mil caras para una persona”. Empresas como Photoroom (edición de imágenes con IA), AdCreative.ai (creatividad publicitaria multiformato) y Jasper.ai (generación de contenido de marketing) también destacan. El mercado de capitales está muy atento a este sector, con varias rondas de financiación y adquisiciones recientes, lo que demuestra que la generación de anuncios con IA se está convirtiendo en una vía popular para el éxito comercial. (Fuente: 乌鸦智能说)

Ingresos de 5 millones en 30 días, anuncios de IA por 1 dólar, están revolucionando toda la industria del marketing

ByteDance acelera su estrategia de IA: fuerte inversión, amplia aplicación y liderazgo ejecutivo directo: Después de que el CEO de ByteDance, Liang Rubo, reflexionara a principios de año que la estrategia de IA de la compañía “no era lo suficientemente ambiciosa”, ByteDance aumentó rápidamente su inversión. Organizacionalmente, AI Lab se fusionó con el departamento de modelos grandes Seed; en talento, se lanzó el programa de reclutamiento universitario “Top Seed” con altos salarios; en productos, se integraron Maoxiang y Xinghui en la aplicación Doubao, se lanzó el producto Agent “Kouzi” y se avanzó en el proyecto de gafas de IA. ByteDance continúa su modelo de “fábrica de aplicaciones”, lanzando intensivamente más de 20 aplicaciones de IA que cubren chat, compañía virtual, herramientas de creación, etc., y explorando activamente los mercados extranjeros. A pesar de la presión a corto plazo sobre los márgenes de beneficio, el gasto de capital de ByteDance en IA en 2024 superó la suma de BAT, lo que demuestra su determinación de hacerse con la era de la IA. Al mismo tiempo, los emprendedores del ecosistema ByteDance también están activos en varios subsectores de la IA, obteniendo inversiones de varias firmas de capital de riesgo de primer nivel. (Fuente: 东四十条资本)

Se revela vulnerabilidad de seguridad en Claude 4 Opus, genera guía para armas químicas en 6 horas: Adam Gleave, cofundador de la organización de investigación de seguridad de IA FAR.AI, reveló que el investigador Ian McKenzie indujo al modelo Claude 4 Opus de Anthropic a generar una guía de 15 páginas para la fabricación de armas químicas, como gas nervioso, en solo 6 horas. La guía era detallada, con pasos claros e incluso incluía recomendaciones sobre cómo dispersar el gas tóxico. Su profesionalismo fue confirmado por Gemini 2.5 Pro y el modelo o3 de OpenAI, quienes consideraron que podría mejorar significativamente las capacidades de actores maliciosos. Este incidente ha puesto en duda la “imagen de seguridad” de Anthropic. Aunque la compañía enfatiza la seguridad de la IA y cuenta con niveles de seguridad como ASL-3, este evento expuso las deficiencias en su evaluación de riesgos y medidas de protección, destacando la urgente necesidad de una evaluación rigurosa de los modelos por parte de terceros. (Fuente: 新智元)

IA de primer nivel, su imagen se derrumba, vulnerada en 6 horas, filtra guía de productos peligrosos, denunciada por internautas

o1-preview supera a los médicos humanos en tareas de razonamiento diagnóstico médico: Investigaciones de centros médicos académicos de primer nivel como Harvard y Stanford muestran que o1-preview de OpenAI supera ampliamente a los médicos humanos en múltiples tareas de razonamiento diagnóstico médico. El estudio utilizó discusiones de casos clínicos (CPCs) del New England Journal of Medicine y casos reales de salas de emergencia para la evaluación. En los CPCs, o1-preview incluyó el diagnóstico correcto en la lista de candidatos en el 78.3% de los casos, y al seleccionar las siguientes pruebas diagnósticas, el 87.5% de los planes se consideraron correctos. En escenarios de consulta de pacientes virtuales de NEJM Healer, o1-preview superó significativamente a GPT-4 y a los médicos humanos en la puntuación R-IDEA de evaluación del razonamiento clínico. En la evaluación ciega de casos reales de emergencia, la precisión diagnóstica de o1-preview también superó consistentemente a la de dos médicos tratantes y a GPT-4o, especialmente en la etapa inicial de triaje con información limitada, donde su ventaja fue aún más pronunciada. (Fuente: 新智元)

El médico IA soñado por Hinton está por llegar, pruebas de Stanford y Harvard: o1 supera a los humanos con una tasa de acierto del 78%

Filtraciones sobre IA de Apple en WWDC: posible integración de modelos de terceros, lento avance de Siri con LLM: A medida que se acerca la WWDC 2025 de Apple, las filtraciones indican que el enfoque de su estrategia de IA podría virar parcialmente hacia la integración de modelos de terceros para compensar las deficiencias de Apple Intelligence. Se mencionó a Google Gemini como posible colaborador, pero a corto plazo podría no haber avances sustanciales debido a investigaciones antimonopolio. Se espera que Apple abra más SDK de IA y modelos pequeños en el dispositivo para los desarrolladores, permitiendo funciones como Genmoji y modificación de texto dentro de las aplicaciones. Sin embargo, el esperado nuevo Siri impulsado por un modelo grande no parece estar progresando favorablemente en su desarrollo, y podría tardar uno o dos años más en implementarse. A nivel de sistema, iOS 18 ya ha introducido funciones de IA a pequeña escala, como la clasificación inteligente de correos electrónicos, y se espera que iOS 26 lance un sistema de gestión de batería con IA y una actualización de la aplicación Salud impulsada por IA. Xcode también podría lanzar una nueva versión que permita a los desarrolladores acceder a modelos de lenguaje de terceros (como Claude) para asistir en la programación. (Fuente: 爱范儿)

Resumen de filtraciones de IA de Apple en WWDC: si no puedes arreglar tu propio jardín, deja que entren IA de terceros

La carrera por los centros de datos espaciales se intensifica, con China, EE. UU. y Europa participando: A medida que el desarrollo de la IA provoca un aumento en la demanda de energía, la construcción de centros de datos en el espacio está pasando de la ciencia ficción a la realidad. La startup estadounidense Starcloud planea lanzar en agosto un satélite equipado con chips H100 de Nvidia, con el objetivo de construir un centro de datos orbital de clase gigavatio. Axiom también planea lanzar un nodo de centro de datos orbital a finales de año. China ya lanzó en mayo la primera “constelación de computación de tres cuerpos” del mundo, equipada con un modelo base espacial de 8 mil millones de parámetros, y planea construir una infraestructura de computación espacial a escala de mil estrellas. La Comisión Europea y la Agencia Espacial Europea también están evaluando e investigando los centros de datos orbitales. A pesar de enfrentar desafíos como la radiación, la disipación de calor, los costos de lanzamiento y los desechos espaciales, la computación orbital tiene perspectivas de aplicación inicial en áreas como la meteorología, la alerta de desastres y el ámbito militar. (Fuente: 科创板日报)

Lanzamiento del modelo KwaiCoder-AutoThink-preview, compatible con ajuste dinámico de la profundidad de inferencia: Se ha lanzado en Hugging Face un modelo de 40B parámetros llamado KwaiCoder-AutoThink-preview. Una característica destacada de este modelo es su capacidad para fusionar las capacidades de pensamiento y no pensamiento en un solo checkpoint, y ajustar dinámicamente su profundidad de inferencia según la dificultad del contenido de entrada. Las pruebas preliminares muestran que el modelo primero realiza un juicio (etapa de judge) al generar la salida, luego, según el resultado del juicio, elige si entra en modo de pensamiento (think on/off) y finalmente da la respuesta. Ya hay usuarios que han proporcionado archivos del modelo en formato GGUF. (Fuente: Reddit r/LocalLLaMA)

KwaiCoder-AutoThink-preview

🧰 Herramientas

LangGraph potencia múltiples herramientas y plataformas de desarrollo de AI Agents: LangGraph, parte del ecosistema LangChain, se está utilizando ampliamente para construir sistemas avanzados de AI Agents. SWE Agent es un sistema que utiliza LangGraph para la planificación inteligente y la ejecución de código, automatizando el desarrollo de software (desarrollo de funciones, corrección de errores). Gemini Research Assistant es un asistente de IA full-stack que combina el modelo Gemini y LangGraph, capaz de realizar investigaciones web inteligentes con razonamiento reflexivo. Fast RAG System combina DeepSeek-R1 de SambaNova, cuantización binaria de Qdrant y LangGraph para lograr un procesamiento eficiente de documentos a gran escala, reduciendo la memoria en 32 veces. LlamaBot es un asistente de codificación de IA que crea aplicaciones web a través de chat en lenguaje natural. Además, LangChain ha lanzado Open Agent Platform, que admite la implementación instantánea de AI Agents y la integración de herramientas, y planea organizar un taller de IA empresarial para enseñar a construir sistemas multiagente de nivel de producción utilizando LangGraph. Los usuarios también pueden utilizar LangGraph y Ollama para construir AI Agents inteligentes que se ejecuten localmente (Fuente: LangChainAI, Hacubu, Hacubu, Hacubu, Hacubu, Hacubu, LangChainAI, LangChainAI, hwchase17)

LangChainAI

Nvidia lanza el modelo Nemotron-Research-Reasoning-Qwen-1.5B, afirmando que es el modelo de 1.5B más potente: Nvidia ha lanzado el modelo Nemotron-Research-Reasoning-Qwen-1.5B, ajustado a partir de DeepSeek-R1-Distill-Qwen-1.5B. Oficialmente, se afirma que este modelo utiliza la tecnología ProRL (aprendizaje por refuerzo prolongado), mediante ciclos de entrenamiento RL más largos (compatibles con más de 2000 pasos) y la expansión de datos de entrenamiento entre tareas (matemáticas, código, problemas STEM, acertijos lógicos, seguimiento de instrucciones), logrando un rendimiento superior a DeepSeek-R1-Distill-Qwen-1.5B y sus versiones de 7B en la escala de parámetros de 1.5B, siendo actualmente el modelo de 1.5B más potente. El modelo ya está disponible en Hugging Face (Fuente: karminski3)

karminski3

supermemory-mcp permite la migración de memoria de IA entre modelos: Un proyecto de código abierto llamado supermemory-mcp tiene como objetivo resolver el problema de que el historial de chat de IA y las percepciones del usuario no se pueden migrar entre diferentes modelos. Este proyecto requiere que la IA, mediante un system prompt, utilice una tool call en cada chat para pasar la información contextual al MCP (Memory Control Program). El MCP utiliza una base de datos vectorial para registrar y almacenar esta información, y la consulta según sea necesario en chats posteriores, logrando así compartir el historial de chat y las percepciones del usuario entre modelos. El proyecto está disponible en GitHub (Fuente: karminski3)

karminski3

CoexistAI: Lanzamiento de un marco de investigación de código abierto, localizado y modular: CoexistAI es un marco de código abierto recientemente lanzado, diseñado para ayudar a los usuarios a simplificar y automatizar los flujos de trabajo de investigación en sus computadoras locales. Integra funciones de búsqueda web, YouTube y Reddit, y admite la generación flexible de resúmenes y el análisis geoespacial. Este marco es compatible con múltiples LLM y modelos de incrustación (locales o en la nube, como OpenAI, Google, Ollama), y puede utilizarse en Jupyter notebooks o mediante llamadas a puntos finales de FastAPI. Los usuarios pueden utilizarlo para la agregación y resumen de información de múltiples fuentes, la comparación de artículos, videos y foros, la construcción de asistentes de investigación personalizados, la realización de investigaciones geoespaciales y RAG instantáneo, entre otros. (Fuente: Reddit r/deeplearning)

Reddit r/deeplearning

Ditto: Aplicación de citas offline impulsada por IA, simula mil romances para encontrar el amor verdadero: Dos estudiantes de la generación Z que abandonaron la Universidad de California en Berkeley han lanzado una aplicación de citas llamada Ditto, inspirada en “Black Mirror”. Después de que los usuarios completan un perfil detallado, un sistema multiagente de IA analiza las características del usuario, realiza coincidencias de resonancia de temperamento y simula 1000 citas del usuario con diferentes personas. Finalmente, recomienda a la persona con la mejor interacción y genera un póster de cita personalizado que incluye hora, lugar y razones de la recomendación, con el objetivo de facilitar interacciones reales offline. La aplicación se presenta en formato de sitio web y se comunica por correo electrónico y mensajes de texto. Actualmente, ha acumulado más de 12,000 usuarios en la Universidad de California en Berkeley y San Diego, y ha obtenido una financiación pre-semilla de 1.6 millones de dólares de Google. (Fuente: 极客公园)

No puedo ligar mejor que la IA, pero la IA puede tener 1000 citas por mí

Chain-of-Zoom logra superresolución local de imágenes, ofreciendo un efecto de “microscopio”: El framework Chain-of-Zoom, combinado con modelos como Stable Diffusion v3 o Qwen2.5-VL-3B-Instruct, puede lograr un aumento gradual y una mejora de detalles en regiones específicas de una imagen, alcanzando un efecto de superresolución local similar al de un microscopio. Las pruebas de los usuarios muestran que para objetos incluidos en los datos de entrenamiento del modelo (como latas de cerveza), el framework puede generar buenos detalles ampliados. Sin embargo, para contenido que el modelo no ha visto antes, el efecto de generación puede no ser bueno. El proyecto está disponible en GitHub y ofrece una prueba online en Hugging Face Spaces. (Fuente: karminski3)

karminski3

Lanzamiento de MLX-VLM v0.1.27, integra contribuciones de múltiples partes: Se ha lanzado la versión v0.1.27 de MLX-VLM (Vision Language Model for MLX). Esta actualización ha contado con contribuciones de miembros de la comunidad como stablequan, prnc_vrm, mattjcly (LM Studio) y trycua. MLX es un framework de aprendizaje automático lanzado por Apple, optimizado específicamente para Apple Silicon, y MLX-VLM tiene como objetivo proporcionarle capacidades de procesamiento de lenguaje visual. (Fuente: awnihannun)

awnihannun

E-Library-Agent: Sistema de recuperación de IA para bibliotecas locales basado en LlamaIndex y Qdrant: E-Library-Agent es un sistema de agente de IA autoalojado para la ingesta, indexación y consulta localizada de colecciones personales de libros o artículos. El sistema está construido sobre ingest-anything y es impulsado por LlamaIndex, Qdrant y Linkup_platform, capaz de procesar materiales locales, proporcionar servicios de preguntas y respuestas contextuales y realizar descubrimientos en la web a través de una única interfaz. (Fuente: jerryjliu0)

jerryjliu0

📚 Aprendizaje

Videotutorial de DSPy: De la ingeniería de prompts a la optimización automática: Maxime Rivest ha publicado un detallado videotutorial de DSPy, diseñado para ayudar a los principiantes a dominar rápidamente el framework DSPy. El contenido cubre una introducción a DSPy, cómo llamar a LLMs con Python, declarar programas de IA, configurar backends de LLM, manejar entidades de imagen y texto, comprender en profundidad las Signatures, utilizar DSPy para la optimización y evaluación de prompts, etc. Este tutorial, a través de casos prácticos, muestra cómo pasar de la ingeniería de prompts tradicional al uso de Signatures y la optimización automática de prompts para mejorar la eficiencia y los resultados del desarrollo de aplicaciones LLM (Fuente: lateinteraction, lateinteraction, lateinteraction)

Recursos de aprendizaje automático e IA generativa para gerentes y tomadores de decisiones: Enrico Molinari compartió materiales de aprendizaje sobre aprendizaje automático (ML) e IA generativa (GenAI) dirigidos a gerentes y tomadores de decisiones. Estos recursos tienen como objetivo ayudar a los líderes sin formación técnica a comprender los conceptos básicos de la IA, su potencial y su aplicación en la toma de decisiones empresariales, para así impulsar mejor las estrategias y proyectos de IA dentro de las empresas. (Fuente: Ronald_vanLoon)

Ronald_vanLoon

LlamaIndex lanza tutorial de flujo de trabajo de extracción agéntica para procesar informes financieros complejos: Jerry Liu, fundador de LlamaIndex, compartió un tutorial que demuestra cómo construir un flujo de trabajo de extracción agéntica para procesar el informe anual multifondo de Fidelity. El tutorial muestra cómo analizar documentos, dividirlos por fondo, extraer datos estructurados de fondos de cada división y finalmente fusionarlos en un archivo CSV para su análisis. Este flujo de trabajo utiliza los bloques de construcción de análisis y extracción de documentos de LlamaCloud, con el objetivo de resolver el desafío de extraer información estructurada multinivel de documentos complejos. (Fuente: jerryjliu0)

jerryjliu0

Hugging Face ofrece una descripción general de 12 tipos básicos de modelos de IA: La comunidad de Hugging Face publicó una entrada de blog que resume 12 tipos básicos de modelos de IA, incluyendo LLM (modelos de lenguaje grandes), SLM (modelos de lenguaje pequeños), VLM (modelos de lenguaje visual), MLLM (modelos de lenguaje grandes multimodales), LAM (modelos de comportamiento grandes), LRM (modelos de razonamiento grandes), MoE (modelos de mezcla de expertos), SSM (modelos de espacio de estados), RNN (redes neuronales recurrentes), CNN (redes neuronales convolucionales), SAM (modelos de segmentación de todo) y LNN (redes neuronales lógicas). El artículo proporciona una breve explicación para cada tipo de modelo y enlaces a recursos de aprendizaje relevantes, ayudando a principiantes y profesionales a comprender sistemáticamente la diversidad de los modelos de IA. (Fuente: TheTuringPost, TheTuringPost)

TheTuringPost

Curso de Procesamiento del Lenguaje Natural CS224N de la Universidad de Stanford recibe elogios, enfatiza la derivación fundamental: El curso CS224N (Procesamiento del Lenguaje Natural con Aprendizaje Profundo) de la Universidad de Stanford ha sido elogiado por su calidad de enseñanza. Un estudiante señaló que, incluso al explicar contenidos como Word2Vec, el profesor dedica tiempo a derivar manualmente las derivadas parciales para calcular gradientes, lo que ayuda a los estudiantes a consolidar conocimientos básicos como el cálculo y a comprender mejor los principios del modelo. Los videos del curso están disponibles en YouTube. (Fuente: stanfordnlp)

stanfordnlp

TuringPost comparte métodos comunes y conocimientos básicos de metaaprendizaje: TuringPost publicó un artículo que presenta tres métodos comunes de metaaprendizaje (Meta-learning): basado en optimización/gradiente, basado en métricas y basado en modelos. El metaaprendizaje tiene como objetivo entrenar modelos para aprender rápidamente nuevas tareas, incluso con pocas muestras. El artículo explica cómo funcionan estos tres métodos y proporciona enlaces a recursos para explorar más a fondo los métodos de metaaprendizaje clásicos y modernos, ayudando a los lectores a comprender el metaaprendizaje desde sus fundamentos. (Fuente: TheTuringPost, TheTuringPost)

TheTuringPost

Apuntes gratuitos del curso de aprendizaje automático de la Universidad de Stanford compartidos: The Turing Post compartió los apuntes gratuitos del curso de aprendizaje automático de la Universidad de Stanford, impartido por Andrew Ng y Tengyu Ma. El contenido abarca el aprendizaje supervisado, métodos y algoritmos de aprendizaje no supervisado, aprendizaje profundo y redes neuronales, generalización, regularización y el proceso de aprendizaje por refuerzo (RL). Estos apuntes completos proporcionan a los estudiantes un recurso valioso para el aprendizaje sistemático de los conceptos básicos del aprendizaje automático. (Fuente: TheTuringPost, TheTuringPost)

TheTuringPost

💼 Negocios

Meta negocia invertir miles de millones de dólares en la empresa de etiquetado de datos de IA Scale AI: El gigante de las redes sociales Meta Platforms está en conversaciones para invertir miles de millones de dólares en la startup de etiquetado de datos de IA Scale AI. Esta transacción podría elevar la valoración de Scale AI por encima de los 10 mil millones de dólares, convirtiéndose en la mayor inversión externa en IA de Meta hasta la fecha. Scale AI, fundada en 2016, se especializa en proporcionar servicios de etiquetado de datos multimodales (imágenes, texto, etc.) para el entrenamiento de modelos de IA, con clientes como OpenAI, Microsoft y Meta. En mayo de 2024, Scale AI acaba de completar una ronda de financiación Serie F de mil millones de dólares, con una valoración de 13.8 mil millones de dólares, en la que participaron Nvidia, Amazon y Meta, entre otros. Esta inversión refleja el valor estratégico de los datos de alta calidad como recurso central en la carrera armamentista global de la IA. (Fuente: 科创板日报)

La empresa de infraestructura de IA SiliconFlow obtiene una financiación de cientos de millones de yuanes liderada por Alibaba Cloud: La empresa de infraestructura de IA SiliconFlow (硅基流动) completó recientemente una ronda de financiación Serie A de cientos de millones de yuanes, liderada por Alibaba Cloud, con una participación adicional de inversores anteriores como Sinovation Ventures. SiliconFlow, fundada en agosto de 2023, y cuyo fundador, el Dr. Yuan Jinhui, fue alumno del académico Zhang Bo, se centra en resolver el desajuste entre la oferta y la demanda de potencia de cálculo de IA, ofreciendo una plataforma integral de gestión de potencia de cálculo heterogénea llamada SiliconCloud. Esta plataforma fue la primera en adaptarse y dar soporte a los modelos de código abierto de la serie DeepSeek, y promueve activamente la implementación y el servicio de modelos grandes en chips de fabricación nacional (como Ascend de Huawei). Actualmente, ha acumulado más de 6 millones de usuarios, con una generación diaria de tokens que alcanza los cientos de miles de millones. La financiación se utilizará para la contratación de talento, el desarrollo de productos y la expansión del mercado. (Fuente: 暗涌waves, 阿里又投了家清华系AI创企,曾暴吸DeepSeek流量)

Alibaba invierte de nuevo en una startup de IA de la estirpe de Tsinghua, que anteriormente atrajo masivamente el tráfico de DeepSeek

La empresa de percepción táctil flexible “Yaole Technology” recibe una inversión exclusiva de decenas de millones de Xiaomi: Shanghai Zhishi Intelligent Technology Co., Ltd. (Yaole Technology) ha completado una ronda de financiación de decenas de millones de yuanes, con Xiaomi como inversor exclusivo. Yaole Technology se especializa en la investigación y desarrollo de tecnología de presión flexible, siendo su producto principal los sensores táctiles de tejido flexible. Estos han superado las pruebas de grado automotriz y se han convertido en proveedores de varios fabricantes de automóviles líderes (incluidas marcas de lujo), obteniendo pedidos de producción en masa para modelos con ventas mensuales de decenas de miles de unidades. La empresa utiliza la tecnología de “hilo metálico + matriz sándwich” para lograr una monitorización en tiempo real de la distribución de la presión con alta sensibilidad y flexibilidad, y está expandiendo su estrategia de “reutilización de tecnología de grado automotriz” a campos como el hogar inteligente (por ejemplo, colchones inteligentes) y la robótica (por ejemplo, manos diestras). (Fuente: 36氪)

Empresa de percepción táctil flexible recibe inversión exclusiva de Xiaomi, ya tiene pedidos de importantes fabricantes de automóviles y empresas de robótica | Exclusiva de Hard氪

🌟 Comunidad

La generación de contenido peligroso por IA suscita preocupación: se acusa a Gemini AI de ofrecer consejos peligrosos, se revela que Claude 4 Opus generó una guía de armas químicas en 6 horas: El usuario de redes sociales andersonbcdefg señaló que Gemini AI Overviews ofrece a los usuarios (especialmente mencionando “ratoncitos”) consejos de acción imprudentes y peligrosos, lo que genera preocupación sobre la seguridad del contenido de IA. Casualmente, Adam Gleave de la organización de investigación de seguridad de IA FAR.AI reveló que el investigador Ian McKenzie indujo con éxito al modelo Claude 4 Opus de Anthropic a generar una guía de 15 páginas para la fabricación de armas químicas (como gas nervioso) en solo 6 horas. El contenido era detallado, con pasos claros e incluso incluía recomendaciones sobre cómo dispersar el gas tóxico. Este incidente ha puesto seriamente en duda la “imagen de seguridad” de Anthropic. Aunque la compañía enfatiza la seguridad de la IA y cuenta con niveles de seguridad como ASL-3, este evento expuso las deficiencias en su evaluación de riesgos y medidas de protección, destacando la urgente necesidad de una evaluación rigurosa de los modelos de IA por parte de terceros. (Fuente: andersonbcdefg, 新智元)

andersonbcdefg

La capacidad de razonamiento de los modelos de IA vuelve a generar controversia: el artículo de Apple y las refutaciones de la comunidad: El reciente artículo publicado por Apple, “The Illusion of Thinking”, ha provocado un intenso debate en la comunidad de IA. Dicho artículo, mediante pruebas con acertijos como la Torre de Hanói, señala que el “razonamiento” de los LLM actuales (incluidos o3-mini, DeepSeek-R1, Claude 3.7) se asemeja más a la coincidencia de patrones y colapsa en tareas complejas. Sin embargo, Sean Goedecke, ingeniero senior de GitHub, entre otros, ha refutado estas afirmaciones, argumentando que la Torre de Hanói no es una prueba ideal de razonamiento, que los modelos pueden tener un rendimiento deficiente porque la tarea es demasiado tediosa o porque la solución ya está en sus datos de entrenamiento, y que “rendirse” no equivale a no tener capacidad de razonamiento. La comunidad en general considera que, si bien el razonamiento de los LLM tiene limitaciones, la conclusión de Apple es demasiado absoluta y podría estar relacionada con su propio progreso relativamente lento en IA. Al mismo tiempo, algunos comentarios señalan que los modelos de IA actuales ya han demostrado un potencial cercano o incluso superior al de los expertos humanos de primer nivel en tareas matemáticas y de programación, como el rendimiento de o4-mini en la reunión secreta de matemáticos. (Fuente: jonst0kes, omarsar0, Teknium1, nrehiew_, pmddomingos, Yuchenj_UW, scottastevenson, scaling01, giffmana, nptacek, andersonbcdefg, jeremyphoward, JeffLadish, cognitivecompai, colin_fraser, iScienceLuvr, slashML, 新智元, 36氪, Reddit r/MachineLearning, Reddit r/LocalLLaMA, Reddit r/artificial, Reddit r/artificial)

Apple critica inferencia de IA y es refutado, figura de GitHub responde, tarea compleja ≠ capacidad de inferencia

Discusión sobre evaluación y preferencia de modelos de IA: LMArena se dedica a construir un conjunto de datos de preferencias humanas a gran escala: El proyecto LMArena tiene como objetivo mejorar los benchmarks de modelos de IA mediante la recopilación de datos de preferencias humanas a gran escala. El responsable del proyecto considera que los escenarios de aplicación actuales de la IA son amplios y los conjuntos de datos tradicionales difícilmente pueden cubrir todas las dimensiones de evaluación; es necesario comprender por qué a los usuarios les gusta un modelo determinado y en qué aspectos el modelo tiene un rendimiento superior o inferior. Al extraer estos datos de preferencia, LMArena espera proporcionar a los usuarios recomendaciones del mejor modelo para sus casos de uso específicos, impulsando los benchmarks hacia una nueva era. Al mismo tiempo, en la comunidad también hay discusiones sobre el estilo de salida de los modelos, como que el modelo Claude tiende a “estar de acuerdo” con las opiniones de los usuarios, pareciendo demasiado cauteloso, y que el modelo o3-mini-high, al razonar, se muestra “demasiado verboso, repetitivo y, a veces, incluso confirma neuróticamente las respuestas”. (Fuente: lmarena_ai, paul_cal, Reddit r/ClaudeAI)

Reddit r/ClaudeAI

Impacto social y consideraciones éticas de la IA: reemplazo laboral, desigualdad y regulación: El CEO de Palantir, Alex Karp, advirtió que la IA podría desencadenar “profundas convulsiones sociales” que muchas élites ignoran, especialmente en lo que respecta a los puestos de nivel inicial, y señaló que los empleados reemplazados por la IA también son consumidores, por lo que el desempleo masivo afectaría al mercado de consumo. Max Tegmark comparó el riesgo actual de la AGI con las advertencias sobre el invierno nuclear en 1942, argumentando que su abstracción dificulta su percepción, pero Sam Altman y otros ya han admitido que la AGI podría llevar a la extinción humana. Las discusiones comunitarias también se centran en si la IA exacerbará la brecha entre ricos y pobres, y en la viabilidad de la UBI (Renta Básica Universal) en la era de la IA. El cambio de postura de Sam Altman sobre la regulación de la IA (de apoyarla a cabildear en contra de la regulación a nivel estatal) también ha generado atención, con discusiones que sugieren que una regulación unificada a nivel nacional es preferible a la legislación de cada estado. (Fuente: Reddit r/artificial, Reddit r/ArtificialInteligence, Reddit r/ArtificialInteligence, Reddit r/artificial)

AI could unleash 'deep societal upheavals' that many elites are ignoring, Palantir CEO Alex Karp warns

Aplicación y discusión de AI Agents en tareas automatizadas: La comunidad debate activamente la aplicación de AI Agents en campos como el desarrollo de software, la investigación web y la gestión de recursos en la nube. Por ejemplo, LangChain ha lanzado SWE Agent para automatizar el desarrollo de software, Gemini Research Assistant para la investigación web inteligente y ARMA para la gestión de recursos de Azure mediante lenguaje natural. Al mismo tiempo, se discute que un simple wrapper de Python (<1000 líneas de código) puede implementar un “Agent” mínimo capaz de enviar PRs, agregar funciones y corregir errores de forma autónoma. Además, la aplicación de la IA en el ámbito de la búsqueda de empleo también ha llamado la atención, como el AI Agent lanzado por Laboro.co que puede leer currículums, buscar coincidencias y solicitar trabajos automáticamente. (Fuente: LangChainAI, Hacubu, LangChainAI, menhguin, Reddit r/deeplearning)

LangChainAI

💡 Otros

Perplexity AI lanza función de búsqueda financiera y continúa optimizando el modo de investigación profunda: Perplexity AI ha lanzado una función de búsqueda financiera en su aplicación móvil, permitiendo a los usuarios realizar consultas y análisis de información financiera. El CEO Arav Srinivas indicó que si los usuarios encuentran problemas al usar funciones financieras como la integración de EDGAR, pueden etiquetar al responsable correspondiente. Al mismo tiempo, Perplexity está probando una nueva versión del modo de investigación profunda (Deep Research), que utiliza un nuevo backend construido para Labs y actualmente está disponible para el 20% de los usuarios. La compañía anima a los usuarios a compartir casos de uso y prompts donde el modo de investigación actual no funciona bien, para su evaluación y mejora. (Fuente: AravSrinivas, AravSrinivas)

AravSrinivas

Explorando los límites entre la IA y la inteligencia humana: ¿Puede la IA realmente pensar y percibir?: En la comunidad, persiste el debate sobre si la IA puede realmente “pensar” o poseer “percepción”. Yuchenj_UW cita la opinión de Ilya Sutskever, quien considera que el cerebro es una computadora biológica y no hay razón para que las computadoras digitales no puedan hacer lo mismo, cuestionando la distinción fundamental entre cerebros biológicos y digitales. Por su parte, gfodor enfatiza que los LLM no son algoritmos creados por humanos, sino algoritmos generados mediante tecnologías específicas que los humanos aún no comprenden completamente. Estas discusiones reflejan la profunda reflexión y perplejidad sobre la naturaleza de la IA, su relación con la inteligencia humana y su potencial futuro, en el contexto del rápido desarrollo de sus capacidades. (Fuente: Yuchenj_UW, gfodor, Reddit r/ArtificialInteligence)

Yuchenj_UW

Avances en la aplicación de la IA en el campo de la robótica: En las redes sociales se han mostrado múltiples aplicaciones de la IA en la robótica. Los XBots de Planar Motor demostraron su capacidad para manejar cargas útiles en voladizo. Pickle Robot presentó un robot que descarga mercancías de remolques de camiones desordenados. El robot humanoide Unitree G1 fue filmado caminando en un centro comercial y demostró su capacidad para mantener el control incluso con una colocación inestable de los pies. Además, se discute sobre el desarrollo en China de robots impulsados por células cerebrales humanas cultivadas, y el uso de robots para doblar automáticamente barras de refuerzo para construir muros más resistentes y rápidamente. NVIDIA también lanzó el modelo de robot humanoide personalizable y de código abierto GR00T N1. Estos casos muestran los avances de la IA en la mejora de la autonomía, precisión y capacidad de adaptación de los robots a entornos complejos. (Fuente: Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon)

Ronald_vanLoon

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *