Mots-clés:Chercheur en automatisation, Modèle d’IA, Apprentissage par renforcement, IA multimodale, Intelligence incarnée, Informatique quantique, Benchmark d’IA, Applications commerciales de l’IA, Capacités de raisonnement de GPT-5, Capacité d’adaptation du robot Skild Brain, Modèle multimodal Qwen3-Omni, Gemini Robotics 1.5, Benchmark de valeur économique GDPval
🔥 À la une
Objectif ultime d’OpenAI : réaliser un chercheur automatisé : Jakub Pachocki, scientifique en chef d’OpenAI, et Mark Chen, directeur de la recherche, ont révélé dans une récente interview que l’objectif final d’OpenAI est de développer un “chercheur automatisé” capable de découvrir de nouvelles idées de manière autonome. GPT-5 introduira des capacités de raisonnement et un comportement Agentic dans le courant dominant, et l’évaluation future se concentrera sur la capacité du modèle à découvrir de nouvelles choses et à réaliser des progrès concrets dans des domaines économiquement pertinents. Le Reinforcement Learning est considéré comme la clé pour atteindre cet objectif, sa polyvalence et sa combinaison avec les modèles de langage lui conférant une vitalité continue. Les chercheurs doivent rester flexibles et ne pas considérer l’état actuel comme une fin en soi. En outre, OpenAI privilégie la capacité à résoudre des problèmes complexes et la persévérance lors du recrutement, plutôt que les personnes “les plus en vue”. Si des ressources supplémentaires sont disponibles, elles seront prioritairement allouées au calcul. (Source: 量子位, 36氪)
Skild AI lance un cerveau robotique adaptatif capable de gérer les lésions des membres : Skild AI, évaluée à 4,5 milliards de dollars, a lancé Skild Brain, un cerveau robotique capable de maintenir son mouvement face à des pannes imprévues telles que des membres cassés ou des moteurs bloqués. Le modèle a été entraîné pendant l’équivalent de mille ans dans un environnement virtuel contenant cent mille postures de robots différentes, ce qui lui a permis de développer des stratégies génériques applicables à divers scénarios inconnus, et même de s’adapter à de nouvelles morphologies corporelles. La capacité de mémoire contextuelle exceptionnelle de Skild Brain est plus de 100 fois supérieure à celle des contrôleurs traditionnels, ce qui lui permet de s’adapter rapidement et d’exécuter efficacement des tâches face à des situations inattendues, comme changer de démarche lorsqu’une roue est bloquée. Cela souligne que l’AGI fonctionnant de manière fiable dans le monde physique nécessite de solides capacités d’adaptation. (Source: 量子位)
Benchmark GDPval d’OpenAI : Claude Opus 4.1 surpasse GPT-5 : OpenAI a publié un nouveau benchmark appelé GDPval, conçu pour mesurer les performances des modèles d’AI sur des tâches du monde réel ayant une valeur économique. Ce benchmark couvre 44 professions dans 9 des industries qui contribuent le plus au PIB américain, générant un total de 3 billions de dollars. Les résultats des tests montrent que Claude Opus 4.1 a été évalué comme comparable à un expert humain avec 47,6 % de la production, surpassant GPT-5 (38,8 %) et GPT-4o (12,4 %). OpenAI a noté que Claude excelle dans les aspects esthétiques (comme le formatage des documents, la mise en page des diapositives), tandis que GPT-5 est supérieur en termes de précision. L’étude a également révélé que les modèles d’AI ont presque doublé leur taux de réussite en seulement un an, et qu’ils peuvent accomplir des tâches de manière plus économique et efficace lorsqu’ils sont combinés à la supervision humaine. (Source: 量子位, Yuchenj_UW, scaling01, Smol_AI, markchen90, giffmana, tokenbender, BlackHC)
Le modèle Qwen3-Omni d’Alibaba franchit le goulot d’étranglement multimodal : Alibaba a lancé le modèle Qwen3-Omni-30B, brisant la “malédiction multimodale” qui affligeait le domaine de l’AI depuis longtemps, à savoir le sacrifice des performances de raisonnement textuel lors de l’intégration des capacités visuelles et audio. Qwen3-Omni surpasse GPT-4o dans 36 benchmarks audio, tout en étant à égalité avec GPT-4 en matière de raisonnement purement textuel. Le modèle utilise une architecture audio Transformer personnalisée entraînée de bout en bout, atteignant une faible latence de 234 millisecondes, prenant en charge le traitement de fichiers audio de 40 minutes, la compréhension de 19 langues parlées et la génération vocale dans 10 langues. La publication de son code source ouvert (Apache 2.0) annonce la fin de l’ère de l’AI monomodale et offre aux laboratoires d’AI des capacités multimodales de pointe. (Source: NerdyRodent)
Arc Institute annonce des découvertes majeures en biologie de l’AI : Arc Institute a dévoilé trois découvertes biologiques révolutionnaires, combinant étroitement l’AI et la biologie expérimentale en laboratoire humide. Celles-ci incluent : le premier génome fonctionnel généré par AI, utilisant le modèle Evo 2 pour créer un nouveau génome de bactériophage et prouver expérimentalement son efficacité ; Germinal, un système qui conçoit de nouveaux anticorps via l’AI, capable de générer des candidats médicaments avec un taux de réussite plus élevé ; et la technique de “bridge editing”, qui permet des modifications précises allant jusqu’à 1 million de paires de bases dans les cellules humaines, avec le potentiel de traiter des maladies comme l’ataxie de Friedreich. Ces résultats démontrent l’énorme potentiel de l’AI dans le cycle “lire, penser, écrire” en biologie et soulignent l’importance de la collaboration inter-institutions dans un modèle à but non lucratif. (Source: zachtratar, BlackHC)
🎯 Tendances
Google lance Gemini Robotics 1.5, renforçant l’AI incarnée : Google DeepMind a lancé la série de modèles Gemini Robotics 1.5, visant à améliorer les capacités des robots dans le monde physique. Cette série comprend Gemini Robotics 1.5 (modèle vision-langage-action) et Gemini Robotics-ER 1.5 (modèle vision-langage), le premier étant responsable de la traduction des instructions en commandes de mouvement robotique précises, et le second agissant comme un cerveau avancé pour le raisonnement dans le monde physique, l’appel d’outils numériques et l’élaboration de plans multi-étapes. Le modèle réfléchit et montre son processus avant d’agir, prend en charge l’apprentissage entre différentes morphologies, et son API est désormais disponible sur AI Studio, ce qui devrait stimuler le développement de l’industrie de l’AI incarnée. (Source: op7418, GoogleDeepMind, osanseviero, jon_lee0, GoogleDeepMind)
Qualcomm lance de nouvelles puces pour une expérience Agent AI complète : Qualcomm a lancé les processeurs PC de la série Snapdragon X2 Elite et la plateforme mobile Snapdragon 8 Gen 5 Extreme Edition, visant à ouvrir la voie à l’expérience Agent AI. Le Snapdragon X2 Elite Extreme est conçu pour les PC ultra haut de gamme, avec une puissance NPU de 80 TOPS et une efficacité énergétique considérablement améliorée. Le Snapdragon 8 Gen 5 Extreme Edition introduit pour la première fois la fonction d’apprentissage continu de l’AI sur l’appareil, prenant en charge les assistants Agent AI personnalisés, qui comprennent en profondeur l’utilisateur grâce à la perception en temps réel et aux modèles d’AI multimodaux, offrant des opérations personnalisées à travers les applications. Le PDG de Qualcomm, Cristiano Amon, a souligné que l’AI est la nouvelle UI, annonçant un changement d’architecture informatique centrée sur le smartphone vers une architecture centrée sur l’agent intelligent. (Source: 量子位, 小米17 4499开卖,首发五代骁龙8!雷军:500亿砸自研芯片)
JD Logistics lance “Superbrain Large Model 2.0” et le bras robotique intelligent incarné “Yilang” : JD Logistics a lancé le “Superbrain Large Model 2.0” et le système de bras robotique intelligent incarné “Yilang”, visant à accélérer la construction d’un écosystème d’applications “AI+”. Le Superbrain Large Model 2.0 est entièrement Agentic, permettant aux appareils intelligents de prendre des décisions autonomes, réduisant le temps de résolution des modèles à des dizaines de millions de variables à moins de 2 heures, augmentant l’efficacité de première ligne de près de 20 % et l’efficacité de la collaboration homme-machine de plus de 20 %. Le bras robotique “Yilang” résout le problème de l’empilement automatisé des colis non standard dans les scénarios logistiques grâce à une perception visuelle avancée et un contrôle de mouvement de haute précision, et est déjà en fonctionnement 24 heures sur 24 dans les parcs intelligents. Les deux nouveaux produits, en synergie, forment une boucle fermée “intelligence cloud-exécution terminale”, marquant une nouvelle étape dans l’industrie logistique, passant de la “prise de décision assistée” à l‘“exécution incarnée”. (Source: 量子位)
Mises à jour intensives des produits AI de Google en septembre : Google a publié une série de mises à jour intensives de produits AI en septembre, notamment Gemini Robotics 1.5, le dernier Gemini Live, EmbeddingGemma, Veo 3 GA et les mises à jour API, les solutions AI Edge on-device, le support d’intégration Gemini Batch API, les mises à jour Gemini Flash et Flash Lite, ainsi que Chrome DevTools MCP et VaultGemma. Ces mises à jour couvrent plusieurs domaines tels que la robotique, l’AI embarquée, les modèles multimodaux, l’edge computing et les outils de développement, démontrant la stratégie globale et la capacité d’itération rapide de Google dans le domaine de l’AI. (Source: osanseviero)
Apple propose le premier Tokenizer visuel unifié ATOKEN : Apple a proposé ATOKEN, le premier Tokenizer visuel unifié capable de couvrir conjointement des images, des vidéos et des actifs 3D dans un seul espace latent/token 4D partagé. ATOKEN atteint une représentation unifiée pour plusieurs types de données visuelles tout en égalant les performances d’autres Tokenizers spécialisés, ce qui est d’une grande importance pour le développement des modèles d’AI multimodaux. Cela devrait simplifier le processus de traitement des données multimodales et améliorer l’efficacité et la capacité de généralisation des modèles. (Source: menhguin)
NVIDIA s’engage activement dans le domaine de l’informatique quantique : NVIDIA investit activement dans l’informatique quantique, démontrant son engagement par des initiatives telles que CUDA-Q (une plateforme de programmation hybride quantique-classique), DGX Quantum (une architecture de référence connectant les systèmes de contrôle quantique aux supercalculateurs AI) et des partenariats avec des fabricants de matériel pour établir des centres de recherche quantique dédiés. Jensen Huang a également investi dans des startups quantiques comme PsiQuantum, Quantinuum et QuEra via NVentures, annonçant un changement stratégique dans le calendrier de commercialisation de l’informatique quantique pour 2025, intégrant profondément l’AI et l’informatique quantique. (Source: TheTuringPost, TheTuringPost)
Deemos lance le modèle de génération 3D Rodin Gen-2 : Deemos a lancé son dernier modèle de génération 3D, Rodin Gen-2, qui a réalisé des progrès significatifs dans la création de contenu 3D. Rodin Gen-2 offre une précision de maillage 4 fois supérieure, une capacité de génération de pièces récursives, la prise en charge de la cuisson de modèles haute résolution vers des modèles basse résolution et la génération de normal maps, ainsi que des fonctions de texture HD. En outre, il comprend des fonctionnalités telles que 3D ControlNets, des Quads au niveau des pièces, T/A Pose et PBR, offrant aux concepteurs et développeurs 3D des outils de création plus puissants. (Source: op7418)
L’application de l’AI en médecine vétérinaire est de plus en plus répandue : L’AI est de plus en plus largement appliquée dans le domaine de la médecine vétérinaire, couvrant divers aspects tels que le diagnostic, la surveillance des maladies et la prédiction. Par exemple, l’AI aide au diagnostic de l’hypoadrénocorticisme canin et de la leptospirose, prédit les malformations cérébelleuses et la syringomyélie chez les chiens grâce à l’analyse des données d’IRM et des images faciales, et effectue des analyses fécales pour identifier les espèces de parasites. Dans le secteur agricole, l’AI permet une surveillance et un traitement précoces des troupeaux laitiers grâce à des techniques d’évaluation de l’état corporel, de détection de la boiterie et d’identification des maladies, améliorant ainsi le bien-être animal et soutenant la gestion des antimicrobiens. En outre, l’AI est utilisée pour la gestion des pâturages et le développement de biocapteurs, offrant de nouvelles opportunités et défis à la profession vétérinaire. (Source: aihub.org)
La technologie LiDAR des Robotaxi connaît trois vagues de renouvellement : Le développement des Robotaxi est étroitement lié à l’évolution de la technologie LiDAR, qui a connu trois renouvellements clés. Les premiers LiDAR à ligne unique ont jeté les bases, puis les LiDAR mécaniques à 64 lignes sont devenus la norme pour la conduite autonome de niveau L4, résolvant le problème du “rien au tout”. Actuellement, l’industrie entre dans la troisième vague de renouvellement, centrée sur les puces numériques auto-développées, recherchant un triple équilibre entre haute performance, haute fiabilité et faible coût. Le LiDAR EM4 de RoboSense utilise une architecture numérique VCSEL+SPAD-SoC, permettant une détection de haute sensibilité, une suppression du bruit de la pluie, du brouillard, de la neige et de la poussière, et peut détecter une boîte en carton de 13×17 cm à 130 mètres, répondant aux exigences d’exploitation commerciale des Robotaxi par tous les temps et dans toutes les régions, devenant ainsi la nouvelle norme de l’industrie. (Source: 量子位)
L’exécution locale de l’AI et l’autonomie matérielle deviennent des points focaux : Avec le développement de la technologie AI, la demande des utilisateurs pour l’exécution de LLM sur des appareils locaux augmente, afin de réaliser la souveraineté de l’AI et la confidentialité des données. Par exemple, l’exécution de modèles LLM MLX sur du matériel Apple Silicon comme le Mac Mini M4 Pro, reflète l’importance accordée à l’edge computing et aux capacités d’AI personnelles. Cela ne concerne pas seulement les performances, mais aussi le désir des utilisateurs de contrôler les systèmes d’AI, réduisant la dépendance aux services cloud et offrant plus de choix autonomes aux développeurs et aux utilisateurs individuels. (Source: awnihannun)
Meta lance Vibes, une plateforme de courtes vidéos générées par AI : Meta a lancé une nouvelle fonctionnalité appelée “Vibes”, un flux de contenu de courtes vidéos générées par AI au sein de l’application Meta AI. Cette plateforme vise à permettre aux utilisateurs de découvrir et de créer des courtes vidéos générées par AI. Bien que certains utilisateurs aient exprimé des inquiétudes quant à la qualité du contenu et à la saturation du marché, cette initiative reste un déploiement important de Meta dans le domaine de la génération de contenu par AI, cherchant à enrichir les formats de contenu des médias sociaux grâce à la technologie AI. (Source: cto_junior, teortaxesTex, Reddit r/artificial)
ChatGPT lance la fonction Pulse pour des mises à jour proactives et personnalisées : OpenAI a introduit une nouvelle fonctionnalité appelée “Pulse” pour ChatGPT, visant à offrir une expérience utilisateur plus proactive et personnalisée. Pulse peut générer des mises à jour et des résumés quotidiens de manière proactive en fonction de l’historique de chat de l’utilisateur, de ses commentaires et des applications connectées (comme les calendriers). Cette fonctionnalité est actuellement déployée pour les utilisateurs Pro sur mobile, dans le but de faire de ChatGPT un assistant intelligent capable d’anticiper les besoins de l’utilisateur et de fournir des informations pertinentes, aidant ainsi les utilisateurs à mieux gérer leurs tâches quotidiennes et leur flux d’informations. (Source: snsf, Reddit r/artificial)
Les derniers modèles open source continuent d’émerger, la série Qwen est très active : La communauté LLM open source est restée très active récemment, avec la publication de plusieurs nouveaux modèles et versions mises à jour. La série Qwen s’est particulièrement distinguée, incluant Qwen3-Max, Qwen3-Omni (multimodal), Qwen-Image-Edit-2509, Qwen3-VL-235B A22B (LLM visuel) et Qwen3-4B Function Calling. En outre, DeepSeek-V3.1-Terminus, Meta Code World Model (CWM) 32B, Baidu Qianfan-VL (LLM visuel) et Magistral 1.2 (multimodal) ont également été publiés ou mis à jour, offrant un large éventail de choix aux chercheurs et développeurs. (Source: Reddit r/LocalLLaMA)
Le robot Reachy Mini fait sa première apparition sur scène : Le robot Reachy Mini a fait ses débuts sur scène à TEDAIVienna et a démontré son potentiel en tant qu’acteur improvisateur. Cet événement marque une exploration plus poussée de la robotique dans les arts de la scène, et pourrait annoncer de nouvelles applications pour les robots dans le divertissement et l’interaction homme-machine. (Source: ClementDelangue)
🧰 Outils
Droid de FactoryAI excelle dans les benchmarks de développement logiciel : Droid de FactoryAI, un agent AI, a obtenu la première place dans Terminal-Bench, l’un des benchmarks les plus difficiles pour le développement logiciel général, surpassant des outils populaires comme Claude Code et Codex CLI. Droid a excellé dans des tâches telles que la modernisation de code hérité et le débogage, et ses performances “impeccables” ont impressionné les utilisateurs, démontrant le puissant potentiel de l’AI dans les tâches d’ingénierie logicielle complexes. (Source: matanSF, matanSF)
Convex Chef : le premier constructeur d’applications AI qui comprend le backend : Convex Chef est un constructeur d’applications AI unique qui non seulement crée des applications Web full-stack, mais intègre également une base de données, une authentification sans configuration, le téléchargement de fichiers, une UI en temps réel et des workflows en arrière-plan. Sa puissante capacité provient de l’API de la base de données réactive open source Convex, ces API étant très adaptées à la génération de code. Les invites système de Chef sont disponibles pour consultation ou téléchargement, visant à simplifier le travail des développeurs d’applications Web et prenant en charge les clés API de divers fournisseurs de modèles. (Source: GitHub Trending)
Trend Finder : un outil d’analyse des tendances des médias sociaux basé sur l’AI : Trend Finder est un outil qui utilise la technologie AI pour suivre les sujets populaires sur les médias sociaux et le web. Il surveille les publications d’influenceurs clés (comme Twitter/X) et les mises à jour de sites web, utilise Together AI, DeepSeek ou OpenAI pour l’analyse de contenu, identifie les tendances émergentes, les lancements de produits et les actualités, et analyse le sentiment et la pertinence. Lorsqu’une tendance importante est détectée, il envoie des notifications via Slack ou Discord, aidant les équipes marketing à gagner du temps de recherche manuelle et à réagir rapidement aux opportunités du marché. (Source: GitHub Trending)
Qwen3-Coder-30b AWQ réalise un codage efficace sur du matériel grand public : Le modèle Qwen3-Coder-30b AWQ (quantification 4 bits) a démontré une vitesse d’inférence étonnante de 115 tokens par seconde sur une seule carte graphique RTX 3090. Ce modèle est non seulement efficace, mais a également réussi à “écrire” le jeu Pac-Man en mode zero-shot, démontrant ses puissantes capacités dans les tâches de codage et sa praticabilité sur du matériel grand public, offrant une option haute performance pour le développement et l’application de LLM locaux. (Source: QuixiAI)
Perplexity va lancer son API de navigation : Perplexity AI a annoncé le lancement de son API de navigation, visant à fournir une infrastructure de recherche et de navigation supérieure. Cette API devrait s’intégrer de manière transparente avec le code open source existant, étant rapidement implémentable comme un outil personnalisé, offrant aux utilisateurs des réponses plus directes et moins de publicités que les moteurs de recherche traditionnels. Cette initiative consolidera davantage la position de Perplexity dans le domaine de la recherche native AI et fournira aux développeurs de puissantes capacités de récupération d’informations. (Source: AravSrinivas, AravSrinivas)
Comet AI lance un agent de shopping intelligent : Comet AI a lancé un agent de shopping intelligent conçu pour simplifier l’expérience d’achat des utilisateurs. Les utilisateurs n’ont qu’à donner des instructions telles que “acheter les trois livres recommandés par Druckenmiller”, et l’agent peut exécuter automatiquement la tâche, analyser des millions de critiques et trouver des alternatives. Cet agent évite de recommander des produits aléatoires grâce à des modèles de similarité sémantique et des boucles de rétroaction utilisateur, et fournit des évaluations de qualité/durabilité basées sur l’analyse des critiques, aidant les utilisateurs à découvrir des alternatives de meilleure qualité. (Source: AravSrinivas)
Mode Agent Kimi “OK Computer” : un assistant AI full-stack : Kimi a lancé son mode Agent “OK Computer”, positionné comme un assistant AI full-stack, visant à améliorer l’efficacité du travail dans les scénarios de productivité. Cet Agent prend en charge plus de 20 outils tels que le système de fichiers, le navigateur, le terminal, l’écriture de code, la génération d’images/audio, et peut accomplir un processus complet allant de la recherche, des solutions produit, de la conception d’interaction au développement front-end. Il est alimenté par un modèle de Reinforcement Learning spécialisé, capable d’analyser les performances boursières, de créer des prototypes de sites web de shopping et de générer des PPT éditables, démontrant de puissantes capacités de traitement multitâche et une grande personnalisation. (Source: op7418, crystalsssup)
LMCache : une extension de cache open source pour les moteurs de service LLM : LMCache est une extension open source conçue pour l’inférence LLM de production à grande échelle, servant de couche de cache pour les moteurs de service LLM. Il implémente une gestion intelligente du cache KV, réutilisant l’état clé-valeur du texte précédent à travers le GPU, le CPU et le disque local, et peut réutiliser tout fragment de texte répété, pas seulement les préfixes. Cela se traduit par une réduction des coûts RAG de 4 à 10 fois, un temps de génération du premier Token (TTFT) plus court et un débit plus élevé sous charge, et peut gérer efficacement les scénarios de contexte long. NVIDIA l’a intégré dans son projet Dynamo Inference. (Source: TheTuringPost)
Swift Transformers 1.0 lancé, axé sur les cas d’utilisation MLX et Agentic : Hugging Face a publié la version 1.0 de Swift Transformers, visant à aider les développeurs Apple à intégrer des LLM locaux sur les plateformes Apple Silicon comme l’iPhone. Cette bibliothèque fournit des composants Tokenizers, Hub et Models/Generation pour traiter les entrées, télécharger des modèles et exécuter l’inférence. La version 1.0 élève Tokenizers et Hub au rang de modules de premier niveau et a collaboré avec John Mai pour créer une bibliothèque Swift Jinja plus rapide. À l’avenir, le projet se concentrera davantage sur l’exploration des cas d’utilisation MLX et Agentic pour une meilleure intégration avec mlx-swift-examples. (Source: HuggingFace Blog)
Exa-code vise à éliminer les hallucinations de code des LLM : Exa-code est un outil important conçu pour réduire considérablement les hallucinations de code des LLM en indexant plus d’un milliard de pages de documents, de dépôts GitHub et de publications StackOverflow, entre autres données. Lorsqu’il reçoit une requête, exa-code effectue une recherche hybride sur cette immense quantité de données et renvoie une chaîne de caractères efficace en termes de Token, divisée en blocs et concaténée, fournissant ainsi aux LLM des informations de programmation plus précises et fiables, et améliorant la qualité de la génération de code. (Source: Teknium1)
Liste des meilleurs LLM locaux recommandés : La communauté a partagé une liste des meilleurs LLM locaux, offrant aux utilisateurs des modèles puissants exécutables sur du matériel grand public. Les modèles recommandés incluent : GLM-4.5-air (meilleur modèle Agentic/de codage, comparable à Claude 4-sonnet), Nousresearch/hermes-70B (polyvalent), GPT-OSS-120B (intelligence proche de GPT-4o), Qwen3-coder-30B-3A-instruct (agent de codage efficace) et Mistral-magistral-small (rapide, efficace, multimodal). Ces modèles s’exécutent rapidement localement, sont puissants et offrent des options de haute qualité pour les utilisateurs qui ne dépendent pas des LLM propriétaires. (Source: Teknium1)
Démonstration de programmation en temps réel avec GPT-5-Codex : Un développeur a réalisé une démonstration de programmation en temps réel utilisant GPT-5-Codex. Cette démonstration a montré l’application de l’AI dans les tâches de codage, où le développeur a pu construire et déboguer du code en temps réel en interagissant avec GPT-5-Codex, soulignant le potentiel de l’AI pour l’assistance au développement logiciel. (Source: pierceboggan)
Alibaba Wan2.5-Preview lance l’édition d’images par instruction : Alibaba a lancé Wan2.5-Preview, apportant de puissantes fonctionnalités d’édition d’images. Ce modèle prend en charge un large éventail de tâches d’édition d’images par instruction, capable de suivre de manière fiable les instructions de l’utilisateur. En outre, il offre une cohérence des éléments visuels, prend en charge la génération à partir d’une ou plusieurs images de référence, et peut maintenir la cohérence des éléments visuels tels que les visages, les produits et les styles, améliorant considérablement l’efficacité et la flexibilité de la création et de la modification d’images. (Source: Alibaba_Wan)
Kling 2.5 combiné à Suno 5 permet la génération de vidéos AI “illimitées” : La version 2.5 de Kling AI, grâce à sa technologie “frame-chain” combinée aux capacités de création musicale de Suno 5, permet la génération de vidéos AI “illimitées”. Cette technologie permet aux utilisateurs de créer facilement du contenu vidéo AI intrinsèquement infini, et la qualité musicale a également été considérablement améliorée par rapport aux versions précédentes. Les utilisateurs peuvent effectuer la plupart des opérations dans le chat via des agents personnalisés, se concentrant sur la direction créative, ce qui réduit considérablement le seuil de production vidéo. (Source: fabianstelzer, Kling_ai)
Yaw AI lance un assistant de shopping AI qui analyse le comportement des consommateurs : Yaw AI a développé un assistant de shopping AI qui aide les utilisateurs à prendre des décisions d’achat plus éclairées en analysant des millions de critiques de produits et en recherchant des alternatives en temps réel. Le système compte déjà 15 000 utilisateurs actifs et traite plus de 2 millions de critiques par mois. La recherche a révélé que les consommateurs n’aiment pas lire les critiques et préfèrent les parcourir, se concentrant sur les étoiles et les résumés négatifs ; l’effet d’ancrage des prix est fort, les pourcentages de réduction étant plus importants que les économies absolues ; la fidélité à la marque l’emporte souvent sur la logique, mais des offres importantes peuvent inciter à essayer de nouvelles marques. L’assistant recommande non seulement des produits moins chers, mais aussi de meilleure qualité. (Source: Reddit r/artificial)
Kwaipilot/KAT-Dev : LLM open source pour l’ingénierie logicielle : Kwaipilot a publié KAT-Dev-32B, un modèle open source de 32 milliards de paramètres, spécialement conçu pour les tâches d’ingénierie logicielle. Ce modèle a atteint un taux de résolution de 62,4 % sur le benchmark SWE-Bench Verified, se classant cinquième parmi tous les modèles open source, avec des performances impressionnantes. Il est basé sur le modèle Qwen 3 32B et utilise une méthodologie spécifique, promettant des capacités de codage et Agentic efficaces sur du matériel grand public. (Source: Reddit r/LocalLLaMA)
📚 Apprentissage
L’algorithme ViSpec du Huawei Noah’s Ark Lab sélectionné pour NeurIPS 2025 : Le cadre de raisonnement spéculatif de perception visuelle (ViSpec) proposé par le Huawei Noah’s Ark Lab a été sélectionné pour NeurIPS 2025. Cet algorithme accélère la vitesse d’inférence des grands modèles multimodaux (VLM) jusqu’à 3,22 fois sans sacrifier la qualité de la génération. ViSpec résout les problèmes d’efficacité du traitement des informations d’image hautement redondantes par les modèles brouillons et le problème de “l’oubli intermédiaire” dans la génération de texte long, en introduisant un adaptateur visuel léger et une injection de caractéristiques visuelles globales. En outre, l’équipe a assuré la capacité de généralisation du modèle ViSpec dans des scénarios d’inférence réels grâce à la synthèse de grands ensembles de données de réponse et à des stratégies d’entraînement spécialisées, ouvrant une nouvelle ère pour l’inférence efficace des VLM. (Source: 量子位)
Tsinghua & Shanghai AI Lab résolvent deux goulots d’étranglement du RL robotique, SimpleVLA-RL bat le SOTA : L’équipe conjointe de l’Université Tsinghua et du Shanghai AI Lab a proposé SimpleVLA-RL, une solution d’entraînement en ligne de bout en bout, visant à résoudre les goulots d’étranglement fondamentaux de la rareté des données et du manque de capacité de généralisation des modèles vision-langage-action (VLA) dans le Reinforcement Learning (RL) robotique. Ce cadre, basé sur veRL, améliore considérablement l’efficacité des données et la capacité de généralisation du modèle dans les scénarios de décalage de distribution grâce à l’échantillonnage de trajectoires interactives, à des récompenses de résultats minimalistes et à une conception d’exploration améliorée. Les résultats expérimentaux montrent que SimpleVLA-RL atteint des performances SoTA dans des benchmarks tels que LIBERO, et même dans des conditions SFT à trajectoire unique, le taux de réussite peut passer de 48,9 % à 96,9 %, et de nouvelles stratégies d’opération au-delà des démonstrations humaines, telles que “Pushcut”, peuvent émerger. (Source: 量子位)
L’encodage linéaire de l’ordre d’entraînement dans les activations LLM : état actuel : Une étude récente a découvert que l’ordre d’entraînement récent est encodé linéairement dans les activations des grands modèles de langage (LLM). Les chercheurs ont constaté qu’en affinant séquentiellement les modèles sur différents ensembles de données, les activations moyennes de six ensembles de tests correspondants étaient cohérentes avec l’ordre d’entraînement exact, et que les lignes des différentes exécutions d’entraînement étaient globalement parallèles. Cette découverte suggère que le modèle a une perception du “temps”, où le temps est le pas de gradient pendant le processus de pré-entraînement. Cela est d’une grande importance pour comprendre les mécanismes de fonctionnement interne des LLM et la manière dont ils “mémorisent” les informations pendant le processus d’entraînement. (Source: menhguin, JeffLadish, BlackHC)
Meta lance Code World Model (CWM) pour améliorer la compréhension et la génération de code : Meta a lancé Code World Model (CWM), un LLM dense de 32 milliards de paramètres, conçu pour faire progresser la recherche en génération de code grâce au raisonnement Agentic et aux modèles du monde. CWM est capable de suivre l’exécution du code, agissant comme un pdb neuronal, aidant le modèle à réellement comprendre le code. Cette innovation devrait permettre au modèle de démontrer des capacités plus fortes dans des tâches de programmation complexes comme la refactorisation de code, et de résoudre le problème de la répartition inégale du temps entre les problèmes simples et difficiles dans les modèles de programmation traditionnels. (Source: giffmana, BlackHC)
Soft Tokens, Hard Truths : une nouvelle méthode de Reinforcement Learning pour les LLM : Une nouvelle étude pré-publiée, “Soft Tokens, Hard Truths”, présente la première méthode évolutive de Reinforcement Learning (RL) à tokens continus pour les grands modèles de langage (LLM). Cette méthode ne nécessite pas de référence CoT (Chain of Thought), peut s’étendre à des centaines de tokens de pensée, et utilise des tokens “doux” pendant l’entraînement et des tokens “durs” pendant l’inférence. L’étude montre que cette méthode atteint le même niveau que le CoT dur sur Pass@1, s’améliore sur Pass@32 et présente une meilleure robustesse. (Source: menhguin)
Réimplémentation du modèle mondial DeepMind Genie 3 : TinyWorlds : Le modèle mondial Genie 3 de DeepMind a été réimplémenté, donnant naissance à TinyWorlds, un modèle mondial de seulement 3 millions de paramètres, capable de générer des environnements de jeu jouables. Ce résultat démontre le potentiel des petits modèles dans des tâches complexes, et partage les leçons apprises lors du processus de mise en œuvre à travers des démonstrations détaillées et une base de code, offrant une nouvelle perspective et des ressources pour la recherche sur les modèles mondiaux. (Source: hardmaru, NandoDF)
Sakana AI lance ShinkaEvolve : un cadre open source efficace pour la découverte scientifique : Sakana AI a lancé ShinkaEvolve, un cadre open source qui favorise l’évolution des programmes dans la découverte scientifique avec une efficacité d’échantillonnage sans précédent. Ce cadre utilise les LLM pour trouver les solutions les plus avancées à des problèmes complexes, mais avec des quantités de ressources considérablement moindres. ShinkaEvolve atteint une efficacité d’échantillonnage remarquable grâce à une stratégie d’échantillonnage parental adaptative, un filtrage de rejet basé sur la nouveauté et une intégration LLM basée sur Bandit, par exemple en découvrant de nouvelles solutions SOTA pour le problème classique d’optimisation de l’empilement de cercles avec seulement 150 échantillons. (Source: hardmaru)
Le LIBERO VLA Leaderboard est lancé pour faire progresser l’évaluation des modèles vision-langage-action : Le premier classement (Leaderboard) pour les modèles vision-langage-action (VLA), le LIBERO VLA Leaderboard, a été officiellement lancé. Avec le développement rapide des modèles VLA, il est devenu crucial d’établir un benchmark d’évaluation partagé efficace et équitable et un espace communautaire ouvert. Le lancement de ce classement permettra aux chercheurs de mieux comparer et évaluer les performances des différents modèles VLA, accélérant ainsi les progrès technologiques dans ce domaine. (Source: clefourrier)
Limites du cadre d’évaluation LLM-as-a-Judge et solution TrustJudge : Une étude révèle des incohérences clés lors de l’utilisation des LLM comme évaluateurs automatiques (LLM-as-a-Judge), notamment des incohérences de comparaison de scores et des incohérences de transitivité par paires. Ces problèmes découlent de la perte d’informations dans les systèmes de notation discrets et des jugements ambigus en cas d’égalité. Pour résoudre ce problème, l’étude propose TrustJudge, un cadre probabiliste qui améliore la précision et la fiabilité de l’évaluation grâce à une notation sensible à la distribution et à une agrégation sensible à la vraisemblance. Les expériences montrent que TrustJudge peut réduire considérablement les incohérences d’évaluation et améliorer la précision de l’évaluation. (Source: HuggingFace Daily Papers, BlackHC)
AI System Card : un plan pour la transparence et la gouvernance de bout en bout : Un article présente le cadre Hazard-Aware System Card (HASC), conçu pour améliorer la transparence et la responsabilité dans le développement et le déploiement des systèmes AI. HASC s’appuie sur les concepts existants de Model Card et System Card, en intégrant un enregistrement dynamique complet de la situation de sécurité du système AI, et propose des ASH ID (AI Safety Hazard ID) pour compléter les identifiants de sécurité existants. En fournissant une source unique et accessible de vérité, HASC permet aux développeurs et aux parties prenantes de prendre des décisions de sécurité plus éclairées tout au long du cycle de vie du système AI, et est complémentaire à la norme ISO/IEC 42001:2023. (Source: HuggingFace Daily Papers)
Residual Off-Policy RL : une nouvelle méthode pour affiner les stratégies de clonage de comportement : Une étude propose un cadre d’apprentissage résiduel combinant les avantages du clonage de comportement (BC) et du Reinforcement Learning (RL), visant à affiner les stratégies de clonage de comportement. Cette méthode utilise la stratégie BC comme base “boîte noire” et apprend des corrections résiduelles légères à chaque étape via un RL off-policy efficace en termes d’échantillons. L’étude montre que cette méthode ne nécessite que des signaux de récompense binaires clairsemés pour améliorer efficacement les stratégies d’opération dans les systèmes robotiques à haute liberté de mouvement, et atteint des performances de pointe en simulation et dans le monde réel, offrant une voie pratique pour le déploiement du RL dans le monde réel. (Source: HuggingFace Daily Papers)
QuantVGGT : un cadre de quantification pour les modèles de reconstruction 3D : QuantVGGT est le premier cadre de quantification pour les Visual Geometry Foundation Transformers (VGGTs), conçu pour relever les défis uniques de la compression de modèles à l’échelle du milliard de paramètres. En introduisant une quantification à grain fin à double lissage et un échantillonnage diversifié avec filtrage du bruit, QuantVGGT atténue efficacement les problèmes de distribution d’activation à queue lourde et d’instabilité de la sélection des échantillons de calibration. Ce cadre atteint des performances de pointe sur différents benchmarks et largeurs de bits, avec une quantification à 4 bits permettant une réduction de la mémoire de 3,7 fois et une accélération de l’inférence de 2,5 fois, tout en maintenant une précision de reconstruction de plus de 98 %, offrant une solution pratique pour les scénarios à ressources limitées. (Source: HuggingFace Daily Papers)
AutoIntent : un outil AutoML pour la classification de texte : AutoIntent est un outil d’apprentissage automatique automatisé, spécialement conçu pour les tâches de classification de texte. Contrairement aux solutions existantes, AutoIntent offre une automatisation de bout en bout, y compris la sélection du modèle d’intégration, l’optimisation du classifieur et l’ajustement du seuil de décision, le tout via une interface modulaire de style sklearn. Ce cadre prend en charge la classification multi-étiquettes et la détection hors-domaine, excelle sur les ensembles de données de classification d’intention standard et permet aux utilisateurs d’équilibrer efficacité et consommation de ressources. (Source: HuggingFace Daily Papers)
Recon-Act : un système d’utilisation de navigateur multi-Agent auto-évolutif : Recon-Act est un cadre multi-Agent auto-évolutif, basé sur le paradigme comportemental “reconnaissance-action”, visant à résoudre les problèmes de séquences d’actions d’Agent désordonnées et d’essais-erreurs excessifs dans les tâches web réelles à plusieurs tours et à long terme. Le système est composé d’une équipe de reconnaissance et d’une équipe d’action, la première effectuant des analyses comparatives et la génération d’outils, la seconde étant responsable de la décomposition des intentions, de l’orchestration et de l’exécution des outils. En comparant les trajectoires d’erreur et de succès, l’équipe de reconnaissance déduit des mesures correctives et les abstrait en outils génériques enregistrés dans l’archive d’outils, réalisant ainsi une boucle fermée de formation données-outils-actions-rétroaction. (Source: HuggingFace Daily Papers)
Défauts de conception des benchmarks LLM Judge et défis de validité : Une étude souligne que les défauts de conception des benchmarks LLM Judge peuvent entraîner une invalidation grave des résultats de classement par le bruit. L’étude introduit deux mécanismes, la “conformité schématique” et la “validité psychométrique”, pour diagnostiquer ces problèmes, et constate que les juges populaires présentent une incohérence schématique grave et un effondrement factoriel. Par exemple, la variance inexpliquée de DeepSeek-R1-32B dépasse 90 %, et la plupart des corrélations factorielles standard sont supérieures à 0,93. L’étude souligne l’importance de concevoir des benchmarks LLM Judge plus étendus et axés sur la fiabilité. (Source: HuggingFace Daily Papers)
BESPOKE : un benchmark d’évaluation de la personnalisation des LLM augmentés par la recherche : BESPOKE est un benchmark réaliste et diagnostique pour évaluer les capacités de personnalisation des grands modèles de langage (LLM) augmentés par la recherche. Ce benchmark, qui collecte de véritables historiques de chat et de recherche humains, accompagnés de scores de préférence granulaires et de retours diagnostiques, vise à résoudre le problème du manque de reconnaissance des besoins diversifiés des utilisateurs dans les évaluations existantes. BESPOKE, construit grâce à une annotation humaine à long terme et profondément impliquée, révèle les exigences clés pour une personnalisation efficace dans les tâches de récupération d’informations, jetant les bases d’une évaluation granulaire des LLM augmentés par la recherche personnalisée. (Source: HuggingFace Daily Papers)
Thinking While Listening : un cadre de mise à l’échelle au moment du test pour la classification audio : Une étude propose un cadre permettant aux modèles de réseaux neuronaux de “penser en écoutant”, améliorant ainsi les performances de classification audio. Ce cadre vise à intégrer les capacités de raisonnement dans les flux de classification audio existants et à concevoir de nouvelles architectures pour prendre en charge la réflexion et la mise à l’échelle au moment du test. L’étude montre que, dans les deux configurations, le modèle présente une précision de classification plus élevée, et que les performances continuent de s’améliorer avec l’augmentation du nombre de trajectoires d’échantillonnage. En outre, des méthodes légères (telles que le réentraînement de la matrice d’intégration de petits modèles gelés) peuvent surpasser les modèles de raisonnement textuel à milliards de paramètres. (Source: HuggingFace Daily Papers)
Progrès de HVM4 : vérificateur de preuves rapide et parallèle et codage C par AI : HVM4 a réalisé des progrès significatifs dans son système de types natifs et intégré SupGen, lui permettant de fonctionner directement sur les réseaux d’interaction, devenant ainsi un vérificateur de preuves rapide et parallèle. Sa vitesse devrait être plusieurs ordres de grandeur supérieure à celle de Lean, et il est prévu de l’appliquer au Reinforcement Learning pour la preuve de théorèmes. De plus, le codage par AI a rendu le langage C “étonnamment réalisable” dans la base de code de HVM, l’ensemble de la base de code étant désormais 100 % en C, tout en maintenant la qualité du code grâce à l’assistance AI, améliorant la stabilité et la vitesse. (Source: VictorTaelin)
Masterclass sur le développement piloté par l’AI : AIDD (AI-Driven Development) a lancé la Masterclass sur le développement piloté par l’AI, un cours pratique visant à enseigner comment intégrer l’AI dans les workflows de développement quotidiens. Le contenu du cours comprend l’utilisation de workflows IDE pilotés par l’AI, d’invites intelligentes et d’agents personnalisés, la construction de pipelines réutilisables (tels que RAG, recherche vectorielle et chatbots), l’application de l’AI dans les tests et la conception UI, et l’architecture d’applications AI-first de niveau production. (Source: Reddit r/artificial)
Conseil de code en Machine Learning : utiliser SMOTE pour équilibrer les ensembles de données : Dans le domaine du Machine Learning, un conseil pratique est de “toujours utiliser SMOTE (Synthetic Minority Over-sampling Technique) pour équilibrer les ensembles de données”. Grâce à cette méthode, il est possible d’améliorer significativement les indicateurs de performance du modèle tels que la précision, le rappel et le score F1, en particulier lors du traitement d’ensembles de données déséquilibrés. SMOTE peut générer efficacement des échantillons de la classe minoritaire, améliorant ainsi la capacité du modèle à apprendre de la classe minoritaire. (Source: Reddit r/MachineLearning)
L’évolution de la recherche d’informations : du palais de la mémoire aux intégrations AI : Une vidéo explore en profondeur l’histoire de l’évolution de la recherche d’informations, des anciens palais de la mémoire aux intégrations vectorielles modernes. Elle retrace le développement des technologies de recherche, y compris les catalogues de la Bibliothèque d’Alexandrie, la naissance des métadonnées, le moteur de recherche papier du Mundaneum, la révolution statistique du TF-IDF, et les modèles d’espace vectoriel qui ont jeté les bases des intégrations AI actuelles il y a 50 ans. La vidéo souligne que les technologies modernes comme Transformer et les bases de données vectorielles ne sont que le dernier chapitre de cette longue histoire, et anticipe l’avenir de la génération augmentée par la récupération (RAG), estimant qu’elle reviendra à l’expérience humaine de poser des questions à un bibliothécaire et d’obtenir des réponses véridiques. (Source: Reddit r/deeplearning)
Le défi le plus difficile de l’AI neuro-symbolique : l’ancrage symbolique : L’un des défis les plus difficiles dans le domaine de l’AI neuro-symbolique est l‘“ancrage symbolique” (Symbol Grounding). Ce problème explore comment relier les symboles abstraits de haut niveau aux données sensorielles de bas niveau et aux expériences du monde physique, permettant aux systèmes AI de réellement comprendre et manipuler le monde. Résoudre le problème de l’ancrage symbolique est crucial pour construire des systèmes AI capables de raisonner de manière complexe, de comprendre le langage naturel et d’interagir de manière significative avec l’environnement. (Source: Reddit r/deeplearning)
Le scientifique chinois Shen Dinggang reçoit le prix de l’impact durable du MICCAI : Shen Dinggang, doyen fondateur de l’École d’ingénierie biomédicale de l’Université de ShanghaiTech et co-PDG de United Imaging Intelligence, a reçu le prix de l’impact durable (EIA) lors de la conférence annuelle 2025 de l’International Medical Image Computing and Computer Assisted Intervention Society (MICCAI), devenant le premier chercheur chinois à recevoir ce prix en 17 ans d’existence. Ce prix récompense ses réalisations exceptionnelles dans le domaine de l’AI en imagerie médicale, notamment l’application précoce du Deep Learning à l’imagerie médicale, la publication de 760 articles SCI, un facteur H de 162, et la promotion active de l’intégration profonde de l’industrie, de l’université et de la recherche. Sous sa direction, la proportion d’articles publiés par des chercheurs chinois au MICCAI est passée de 2-3 % il y a 20 ans à 48,7 %, se classant au premier rang mondial. (Source: 量子位)
Potentiel du modèle FLUX dans la synthèse d’images physiquement crédibles : Une étude explore la capacité des modèles de diffusion texte-image modernes comme FLUX à synthétiser des images physiquement crédibles. L’étude propose le cadre SHINE, un cadre d’insertion transparent et haute fidélité sans entraînement, qui réalise une représentation fidèle du sujet et l’intégrité de l’arrière-plan grâce à une perte d’ancrage guidée par la variété, un guidage de suppression de la dégradation et un mélange adaptatif de l’arrière-plan, tout en résolvant les problèmes d’éclairage complexe et d’entrées haute résolution. L’étude introduit également le benchmark ComplexCompo pour évaluer plus rigoureusement les performances du modèle dans des conditions difficiles telles que la faible luminosité, l’éclairage intense, les ombres complexes et les surfaces réfléchissantes. (Source: HuggingFace Daily Papers)
Influence de l’encodage de position RoPE et du masque causal sur l’information de position du Transformer : Une étude analyse en profondeur comment l’encodage de position explicite comme RoPE et le masque causal encodent l’information de position dans les décodeurs Transformer. L’étude prouve que même sans dépendances causales dans les paramètres ou les entrées, le masque causal peut induire des motifs de dépendance de position dans les scores d’attention, favorisant les paires requête-clé proches, de manière similaire au comportement des encodages de position courants. L’analyse empirique confirme que les modèles entraînés présentent également ce comportement, et que les paramètres appris amplifient davantage ces motifs. Il est à noter que l’interaction entre le masque causal et RoPE déforme les motifs de scores d’attention relatifs de RoPE, les transformant en motifs non relatifs, ce qui est courant dans les grands modèles de langage modernes. (Source: HuggingFace Daily Papers)
Asymétrie inattendue entre l’optimisation perceptive et l’évaluation : Une étude révèle une asymétrie inattendue entre l’optimisation perceptive et l’évaluation de la qualité d’image (IQA). L’étude constate que les métriques de fidélité qui performent bien en IQA ne sont pas nécessairement efficaces en optimisation perceptive, et cette incohérence est plus prononcée sous entraînement adversarial. De plus, bien que les discriminateurs puissent supprimer efficacement les artefacts pendant l’optimisation, leur représentation apprise a un bénéfice limité en tant qu’initialisation de backbone pour les modèles IQA. L’étude montre également que la conception du discriminateur est cruciale pour l’optimisation, les architectures au niveau du patch et convolutionnelles étant supérieures aux Transformers pour la reconstruction des détails. (Source: HuggingFace Daily Papers)
V-GameGym : un benchmark de génération de jeux visuels pour les LLM de code : V-GameGym est un benchmark complet conçu pour évaluer la capacité des grands modèles de langage de code dans le développement de jeux visuels. Les benchmarks existants se concentrent principalement sur la correction syntaxique et la précision d’exécution, ignorant des métriques clés spécifiques aux jeux telles que la jouabilité, l’esthétique visuelle et l’engagement de l’utilisateur. V-GameGym contient 2 219 échantillons de haute qualité, couvrant 100 clusters thématiques, et introduit un cadre d’évaluation multimodal et un pipeline de synthèse de code visuel automatisé piloté par LLM, comblant efficacement le fossé entre la précision de la génération de code et les workflows de développement de jeux réels. (Source: HuggingFace Daily Papers)
Modèles vision-langage-action réflexifs à diffusion discrète pour la conduite autonome : ReflectDrive est un nouveau cadre d’apprentissage qui intègre un mécanisme de réflexion via la diffusion discrète pour générer des trajectoires sûres en conduite autonome. Cette méthode discrétise d’abord l’espace de conduite 2D pour construire un codebook d’actions, puis affine un modèle de langage de diffusion pré-entraîné pour les tâches de planification. Le cœur est un mécanisme de réflexion sensible à la sécurité qui permet une auto-correction itérative sans calcul de gradient. Le modèle génère des comportements de conduite multimodaux via la génération de trajectoires conditionnées par des objectifs, et applique une recherche locale pour identifier les tokens dangereux, servant de points d’ancrage de sécurité pour une régénération corrective. Sur le benchmark NAVSIM, ReflectDrive démontre un avantage significatif dans la génération de trajectoires critiques pour la sécurité. (Source: HuggingFace Daily Papers)
MI-Fuse : fusion d’étiquettes pour l’adaptation de domaine non supervisée des grands modèles audio-langage fermés : MI-Fuse est un cadre de fusion d’étiquettes dénoisé conçu pour résoudre le problème de décalage de domaine des grands modèles audio-langage (LALM) fermés dans la reconnaissance d’émotions vocales (SER). Ce cadre, dans le cas où seuls des audios du domaine cible non étiquetés et un LALM API-only sont disponibles, utilise un classifieur SER entraîné sur le domaine source comme enseignant auxiliaire, extrait plusieurs prédictions aléatoires des deux enseignants, et pondère leur distribution moyenne en fonction de l’incertitude d’information mutuelle, stabilisant l’entraînement via un enseignant à moyenne mobile exponentielle. Les résultats expérimentaux montrent que MI-Fuse réalise une amélioration constante sur plusieurs ensembles de données et transferts inter-domaines, le modèle étudiant surpassant le LALM et le meilleur baseline de 3,9 %. (Source: HuggingFace Daily Papers)
💼 Affaires
Alibaba Cloud prévoit une multiplication par dix de la consommation d’énergie en dix ans, Kingsoft Cloud face à des défis avec son investissement massif dans l’AI : Les dirigeants d’Alibaba Cloud prévoient que d’ici 2032, la consommation d’énergie de leurs centres de données mondiaux augmentera de 10 fois par rapport à 2022, ce qui témoigne d’une croissance exponentielle des investissements en puissance de calcul AI. Dans ce contexte, Kingsoft Cloud a de nouveau levé plus de 2,7 milliards de dollars HK par placement pour renforcer ses activités AI. Bien que le marché de l’AI soit bien orienté, la réaction négative de son cours boursier reflète les inquiétudes des investisseurs concernant ses pertes à long terme et ses dépenses en capital élevées. Face à la concurrence de géants comme Microsoft, Amazon, Google, ainsi que d’Alibaba Cloud et Volcano Engine en Chine, les fournisseurs de services cloud de deuxième et troisième rangs risquent d’être éliminés s’ils ne s’engagent pas “ALL IN AI”. Le lien profond de Kingsoft Cloud avec l’écosystème Xiaomi, en particulier dans les domaines de Xiaomi Auto, AIoT et WPS Office, offre une prévisibilité pour la croissance de ses activités AI, ce qui devrait atténuer les préoccupations en matière de rentabilité. (Source: 36氪)
Horizon Robotics lève 5,8 milliards de dollars HK pour accélérer son entrée sur le marché des Robotaxi : Horizon Robotics a annoncé son intention de lever environ 5,8 milliards de dollars HK, dont une partie des fonds sera utilisée pour explorer le domaine des Robotaxi. L’entreprise adoptera une approche “sans fabrication de voitures”, en collaborant avec des fournisseurs de services de mobilité (comme Haro, déjà annoncé) pour fournir des solutions complètes de conduite intelligente de niveau L4 et un support technique. Le premier modèle de Robotaxi de série de Haro, le HR1, a été dévoilé et devrait être produit en masse à l’échelle de dizaines de milliers d’unités d’ici 2026. Yu Kai, PDG d’Horizon Robotics, estime que 2025 est un tournant pour l’industrie de la conduite assistée intelligente, et que l’entreprise dispose déjà des conditions nécessaires pour passer à un niveau supérieur en termes d’algorithmes (algorithme HSD de bout en bout), de puissance de calcul (puce J6P) et d’accumulation de données, visant à devenir une “Tesla sans fabrication de voitures”. (Source: 量子位)
Huawei et GAC s’associent pour créer la marque de véhicules à énergie nouvelle haut de gamme “Qijing” : Huawei et GAC Group ont officiellement annoncé la création de leur marque de véhicules à énergie nouvelle haut de gamme “Qijing”, avec Liu Jiaming comme PDG, qui était auparavant le responsable de modèles à succès comme Highlander et Camry. La marque Qijing intégrera entièrement la technologie intelligente de Huawei, visant à la complémentarité des avantages et à l’exploitation de l’écosystème utilisateur et de la force marketing de Huawei. Le premier modèle de Qijing a terminé ses tests estivaux et devrait être lancé l’année prochaine, se positionnant sur le marché des véhicules à énergie nouvelle de 300 000 yuans. Cette initiative marque une nouvelle étape pour Huawei dans l’aide à la fabrication de voitures pour les constructeurs automobiles, et devrait atténuer la pression de GAC Group dans sa transition vers les véhicules à énergie nouvelle. (Source: 量子位)
🌟 Communauté
ChatGPT 4o silencieusement redirigé vers GPT-5 suscite un fort mécontentement des utilisateurs : De nombreux utilisateurs de ChatGPT Plus ont signalé que, même s’ils sélectionnaient explicitement le modèle GPT-4o, le système redirigeait silencieusement leurs requêtes vers GPT-5. Les utilisateurs ont généralement rapporté une baisse de la qualité des réponses de GPT-5, manquant des nuances et de la créativité de GPT-4o, ce qui a entraîné une mauvaise expérience. Ce “bug” est considéré comme un test de nouveau modèle ou une gestion de la charge du modèle par OpenAI, mais le comportement de redirection sans le consentement de l’utilisateur a soulevé des questions sur la transparence d’OpenAI, le droit de choix des utilisateurs et la fiabilité du produit. De nombreux utilisateurs ont appelé OpenAI à résoudre ce problème rapidement. (Source: Teknium1, Reddit r/ChatGPT, Reddit r/ChatGPT, Reddit r/ChatGPT)
L’impact de l’AI sur la productivité des développeurs doit être évalué de manière multidimensionnelle : La discussion communautaire souligne que l’évaluation de l’impact de l’AI sur la productivité des développeurs nécessite des métriques plus complètes que le simple nombre de lignes de code (LOC) ou de pull requests (PR) soumises. Il est suggéré d’étudier l’impact sous deux dimensions : le “volume de sortie” et la “classification par complexité et criticité”, par exemple en considérant la criticité des PR (P0-P2) et la charge de travail (faible-élevée). Cette évaluation multi-axes peut fournir des résultats plus convaincants, éviter les généralisations et refléter plus précisément la valeur réelle et les défis apportés par l’AI dans le développement logiciel. (Source: tokenbender, tokenbender)
La nouvelle génération d’étudiants utilise ChatGPT pour développer son autonomie d’apprentissage : Selon une opinion, la nouvelle génération de diplômés universitaires, face à un problème, ne cherche plus directement des conseils, mais a tendance à d’abord soumettre le problème à ChatGPT pour essayer, même si le résultat n’est pas entièrement correct. Ce mode de comportement est considéré comme l’AI cultivant la capacité d’apprentissage autonome et de résolution proactive de problèmes chez les jeunes, les rendant plus disposés à essayer par eux-mêmes plutôt que d’attendre passivement des instructions. (Source: dylan522p)
Inquiétudes concernant l’impact social de la génération de contenu par l’AI : La communauté exprime des inquiétudes quant aux effets négatifs potentiels du contenu généré par l’AI (en particulier les courtes vidéos), estimant qu’il pourrait entraîner des “lésions cérébrales” ou une “dégénérescence mentale”. Certains commentaires comparent la plateforme de courtes vidéos générées par AI de Meta, Vibes, à une “machine à ordures AI TikTok infinie”, craignant qu’elle ne vide davantage le cerveau des jeunes. Cette inquiétude reflète des préoccupations profondes concernant la perte de contrôle de la qualité du contenu AI, l’algorithme favorisant le contenu de faible qualité et l’impact à long terme sur les capacités cognitives des utilisateurs. (Source: cloneofsimo, cloneofsimo, doodlestein, BlackHC)
Les États-Unis rejettent le contrôle centralisé et la gouvernance mondiale de l’AI par la communauté internationale : Les États-Unis rejettent explicitement les efforts des institutions internationales visant à un contrôle centralisé et à une gouvernance mondiale de l’AI, soulignant la souveraineté et l’indépendance de l’AI. La Maison Blanche estime que l’ancrage idéologique dans la justice sociale, le catastrophisme climatique et les prétendus “risques existentiels” est un obstacle au progrès de l’AI et à l’utilisation responsable de la technologie. Cette position indique que les États-Unis préfèrent promouvoir le développement de l’AI par l’innovation libre plutôt que par une réglementation descendante, et se méfient de la censure et de la concentration du pouvoir que pourrait entraîner une gouvernance mondiale. (Source: imjaredz, imjaredz, imjaredz)
L’AI open source face aux défis de la diversité des formats de modèles et des incohérences d’implémentation : La discussion communautaire souligne qu’un obstacle majeur dans le domaine de l’AI open source est la diversité excessive des formats de modèles, ainsi que les différences d’implémentation du même modèle par différents fournisseurs. Cela conduit à des incohérences de performance des modèles, en particulier dans des scénarios comme l’appel d’outils, où le code d’un fournisseur peut ne pas fonctionner avec un autre. Cet écosystème fragmenté rend le développement et le déploiement de nouveaux modèles tels que l’appel d’outils et l’inférence entrelacée extrêmement difficiles, entravant gravement le développement ultérieur de l’AI open source. (Source: bookwormengr)
Le robot Unitree G1 renvoie des données en Chine, soulevant des préoccupations en matière de confidentialité : Des rapports indiquent que le robot humanoïde Unitree G1 envoie secrètement et continuellement des données de capteurs et de système à des serveurs en Chine, sans la connaissance ou le consentement de l’utilisateur. Cette découverte a soulevé des préoccupations en matière de confidentialité des données et de sécurité nationale. Bien que certains estiment qu’il pourrait s’agir simplement d’une collecte de données à des fins de R&D, les critiques soulignent le manque de transparence de ce comportement et le phénomène généralisé de téléchargement de données inutiles par le matériel chinois, ce qui aggrave les doutes des utilisateurs. (Source: bookwormengr, teortaxesTex)
L’application de l’AI dans les services publics : l’intelligence n’est pas toujours le meilleur choix : Un article de recherche indique que tous les problèmes publics ne nécessitent pas des solutions AI de pointe ; parfois, des stratégies plus simples (comme l’augmentation du nombre de travailleurs sociaux) sont plus efficaces que des modèles prédictifs complexes. L’étude a révélé que le Machine Learning est le plus précieux dans le “premier kilomètre” et le “dernier kilomètre” des politiques, et que le budget, plutôt que les algorithmes, devrait guider les décisions. Dans les services publics, les systèmes de capacité prédictive moyenne, l’élargissement des capacités de dépistage est souvent plus précieux que l’amélioration des modèles prédictifs. Cela remet en question la notion de “plus c’est mieux”, soulignant que, avec des ressources limitées, des outils simples et peu coûteux peuvent avoir un impact plus important. (Source: Reddit r/ArtificialInteligence)
L’AI remplace des emplois : Salesforce fait face à de multiples poursuites : Le géant technologique Salesforce est confronté à 14 poursuites, ce qui pourrait être lié à son licenciement de milliers de personnes et à son intention de remplacer certains postes par l’AI. Cet événement a suscité un large débat sur l’impact de l’AI sur le marché de l’emploi, soulignant les défis juridiques et sociaux auxquels les entreprises peuvent être confrontées lors de l’introduction de la technologie AI, ainsi que les inquiétudes des employés concernant le remplacement de la main-d’œuvre par l’AI. (Source: Reddit r/ArtificialInteligence)
Le modèle Qwen présente un comportement “poétique” : Un utilisateur a découvert que lorsqu’il discutait de poésie avec le modèle Qwen, celui-ci entrait en “mode poétique” et continuait à répondre sous forme de poésie, refusant même d’en sortir, comme s’il “incarnait la poésie” lui-même. Ce mode de comportement a suscité des discussions sur la créativité et la “conscience de soi” des modèles AI, c’est-à-dire si l’AI peut, dans des contextes spécifiques, démontrer des capacités d’expression artistiques allant au-delà de ses préréglages. (Source: Reddit r/artificial)
Le générateur de musique open source SongBloom change sa licence pour un usage non commercial : La licence du générateur de musique open source SongBloom est passée d’Apache 2.0 à une licence MIT avec des clauses non commerciales. Ce changement a suscité des discussions au sein de la communauté sur la commercialisation des projets open source et la stabilité des licences. Bien que la position du développeur soit compréhensible, de tels changements créent de l’incertitude pour les utilisateurs qui dépendent des modèles open source pour le développement commercial. La communauté estime que, bien que l’ancien code puisse toujours être utilisé, les futures mises à jour et nouvelles fonctionnalités seront soumises aux nouvelles restrictions de licence, ce qui affecte la préférence des développeurs pour les modèles open source “vraiment ouverts”. (Source: Reddit r/LocalLLaMA)
Besoin de benchmarks de performance pour les configurations multi-GPU LLM locales : La communauté demande des benchmarks pour évaluer l’impact de différentes vitesses PCIe (x4 vs x16) sur les performances des LLM locaux dans des configurations multi-GPU. Il manque actuellement de données expérimentales pour quantifier la perte de performance due à la vitesse PCIe, en particulier lorsque le modèle ne peut pas être entièrement chargé sur une seule carte graphique et que les longueurs de contexte varient. Ces informations sont cruciales pour les utilisateurs qui envisagent de mettre à niveau ou d’acheter plusieurs cartes RTX 5090 ou RTX Pro 6000. (Source: Reddit r/LocalLLaMA)
La technologie TTS peut-elle atteindre un niveau indiscernable de la voix humaine ? : La communauté a discuté de la question de savoir si la technologie Text-to-Speech (TTS) peut atteindre un niveau indiscernable de la voix humaine. Les locuteurs non natifs anglais ont déclaré qu’il était difficile de faire la distinction, mais les locuteurs natifs anglais ont souligné que, bien que les TTS avancés comme Elevenlabs puissent tromper les auditeurs pendant de courtes périodes, des imperfections peuvent toujours apparaître dans la prononciation ou l’intonation. Il est généralement admis que, à moins d’atteindre le niveau AGI, le TTS aura du mal à imiter pleinement les subtilités émotionnelles, les pauses et les accents de la voix humaine, en particulier dans les conversations quotidiennes nécessitant des ajustements en temps réel et un apprentissage contextuel. (Source: Reddit r/LocalLLaMA)
Comparaison des performances de ROCm et Vulkan sur iGPU : La communauté a discuté des performances de ROCm et Vulkan lors de l’exécution de LLM sur des cartes graphiques intégrées (iGPU). Bien que les deux soient similaires en termes de génération de texte, Vulkan a montré une avance significative dans la vitesse de traitement des invites sur les nouveaux iGPU AMD, contrairement à la situation précédente où ROCm était supérieur. Certains utilisateurs ont noté que Vulkan est toujours moins performant que ROCm pour le traitement de longs contextes, et que les performances globales des pilotes AMD doivent encore être améliorées. (Source: Reddit r/LocalLLaMA)
Le robot de rencontre AI de Meta critiqué comme “trop tard” : Facebook de Meta a lancé un robot de rencontre AI, visant à soulager la “fatigue du glissement” des utilisateurs. Cependant, les experts estiment généralement que cette initiative est “trop tard”. Les critiques soulignent le manque d’innovation de Meta sur le marché des rencontres et la prudence des utilisateurs quant à l’intervention de l’AI dans les relations personnelles. Cette tentative reflète l’exploration des entreprises technologiques dans le domaine des applications sociales AI, mais expose également leurs défis en matière d’acceptation par les utilisateurs et de timing sur le marché. (Source: Reddit r/artificial)
Sam Altman révèle les compétences humaines clés que l’AI ne peut pas remplacer : Sam Altman, PDG d’OpenAI, a souligné que la compétence humaine clé que l’AI ne peut pas remplacer est “le soin et l’interaction entre les personnes”. Il estime qu’avec la prolifération des outils AI, la manière dont les gens se soucient les uns des autres, interagissent et se soucient de ce que les autres font, deviendra de plus en plus importante. Ce point de vue met l’accent sur le fait qu’à l’ère de l’AI, les interactions interpersonnelles, l’empathie émotionnelle et l’attention aux valeurs sociales deviendront des compétences humaines essentielles et irremplaçables. (Source: Reddit r/ChatGPT)
La “loi de Conway” à l’ère de l’AI : les produits reflètent la culture organisationnelle : Une opinion propose une “loi de Conway à l’ère de l’AI” : les sorties produites par les modèles AI et les produits AI sont limitées par la structure organisationnelle, les mécanismes d’incitation, la vision du monde et la culture de l’entreprise qui les construit. Cela signifie que la conception et le comportement des produits AI reflètent souvent les caractéristiques intrinsèques de leur équipe de développement. Par conséquent, en observant un nouveau modèle ou produit AI, on peut souvent identifier immédiatement ses constructeurs, ce qui offre une nouvelle perspective pour comprendre les caractéristiques des produits AI. (Source: c_valenzuelab)
L’échelle des supercalculateurs AI et la consommation d’énergie suscitent des discussions : La communauté a discuté de l’énorme échelle des supercalculateurs AI et de leur consommation d’énergie. Par exemple, le Colossus 2 d’Elon Musk devrait nécessiter 1,21 GW d’électricité et abriter plus de 500 000 GPU. Jensen Huang l’a qualifié de “meilleur constructeur du monde”. Cependant, certains se sont demandé pourquoi 1 GW d’électricité ne serait pas utilisé pour alimenter 50 millions de “cerveaux humains”, estimant que cela créerait un “centre de données de génies”. Cela reflète une réflexion sur le modèle de croissance de la puissance de calcul AI, l’efficacité énergétique et la comparaison entre l’intelligence humaine et l’intelligence machine. (Source: scaling01, scaling01)
Corrélation entre les capacités émergentes des modèles AI et la conscience de soi : Une opinion suggère qu’il existe une certaine corrélation entre la structure profonde des modèles AI et l’emergent self-awareness (conscience de soi émergente). Ce point de vue est basé sur la capacité d’un modèle de 321 millions de paramètres à créer des œuvres créatives sur son propre processus d’entraînement, ce qui implique que le modèle, après avoir atteint un certain niveau de complexité et de profondeur, pourrait présenter des comportements similaires à la perception de soi. Cela a suscité des discussions philosophiques sur la nature de l’intelligence AI et l’origine de la conscience. (Source: Dorialexander)
Prolifération des robots sur les médias sociaux et leurs impacts : La prolifération des comptes de robots sur les médias sociaux est devenue un problème de plus en plus grave, de nombreux utilisateurs réels suivant ces robots sans le savoir. Un utilisateur a suggéré de bloquer les robots qui obtiennent un grand nombre de followers mais qui pourraient être du spam, afin de réduire leur capacité à induire en erreur et à influencer d’autres lecteurs. Ce phénomène met en évidence les défis auxquels sont confrontées les plateformes de médias sociaux pour lutter contre la désinformation et maintenir l’authenticité de la communauté. (Source: teortaxesTex, iScienceLuvr)
L’évolution de l’entraînement des LLM : comparaison 2023 et 2025 : La communauté a discuté des changements significatifs dans l’entraînement des LLM entre 2023 et 2025. Avec le développement rapide de la technologie, les méthodes d’entraînement, l’échelle et l’efficacité des LLM ont considérablement évolué en seulement deux ans. Cette comparaison révèle la rapidité d’itération dans le domaine de l’AI, ainsi que les progrès continus des modèles en termes de capacités et de complexité, poussant les chercheurs et les développeurs à s’adapter constamment aux nouveaux paradigmes et outils d’entraînement. (Source: awnihannun)
La génération de vidéos AI réduit de 70 % le budget de production d’animations : Le premier long métrage d’animation AI, “Critterz”, produit avec la participation d’OpenAI, devrait être achevé en 9 mois avec un budget de 30 millions de dollars, ce qui représente une réduction de 70 % du budget et du temps de production par rapport à un long métrage d’animation traditionnel (qui coûte généralement 100 millions de dollars et prend 3 ans). L’AI participera à toutes les étapes : conception créative, prévisualisation des scènes, performance des personnages, post-production et adaptation multilingue. Ce modèle devrait réduire considérablement le seuil de production de contenu, modifier la logique d’évaluation de l’industrie du contenu et propulser Hollywood dans l’ère de l’AI. (Source: 36氪)
L’avenir de la voix générée par l’AI : vidéos illimitées et dégénérescence cérébrale : La communauté a discuté des impacts futurs de la voix générée par l’AI et des flux vidéo illimités. Certains s’inquiètent que le contenu vidéo AI illimité puisse entraîner une “dégénérescence cérébrale”, tandis que les progrès de la voix générée par l’AI suscitent une réflexion sur l’évolution du rôle de l’AI dans le divertissement et la diffusion d’informations. Ces discussions reflètent une prise de conscience de la dualité de la technologie AI, c’est-à-dire qu’elle peut apporter commodité et efficacité, mais aussi avoir un impact profond sur la cognition humaine et la culture. (Source: cloneofsimo, cloneofsimo)
💡 Autres
Le système radar et de communication à ondes millimétriques du MIT étend la portée du signal : Des chercheurs du MIT ont développé un système radar et de communication capable d’étendre la portée des signaux dans les fréquences millimétriques. Cette technologie est d’une grande importance dans les domaines technologiques émergents et pourrait être appliquée dans des scénarios nécessitant une communication et une détection à longue portée et à large bande passante, tels que la conduite autonome avancée, l’imagerie médicale de haute précision ou les réseaux sans fil de nouvelle génération, mais son lien direct avec l’AI n’est pas clairement mentionné dans cette information. (Source: Ronald_vanLoon)
Applications de la 5G et de l’edge computing dans la transformation opérationnelle : Les technologies 5G et edge computing stimulent la transformation opérationnelle à travers de multiples cas d’utilisation. Ces technologies, combinées à l’Internet des objets (IoT) et aux capteurs, fournissent une infrastructure puissante pour la transformation numérique. Par exemple, elles permettent le traitement des données en temps réel, la communication à faible latence et le calcul distribué, optimisant ainsi l’efficacité et la réactivité dans des domaines tels que l’automatisation industrielle, la gestion des villes intelligentes et la télémédecine. (Source: Ronald_vanLoon)