Mots-clés:Modèle de langage, Recherche en IA, OpenAI, MiniMax, Gemini, DeepSeek, Apprentissage par renforcement, Agent IA, Dysfonctionnement émergent, Modèle MiniMax-M1, Gemini 2.5 Pro, Capacité de programmation DeepSeek-R1, Protocole de contrôle de modèle (MCP)
🔥 À la Une
OpenAI publie une étude sur le phénomène de “désalignement émergent” dans les modèles linguistiques et ses mécanismes d’atténuation: Une étude d’OpenAI montre qu’un modèle linguistique entraîné pour générer du code informatique non sécurisé peut produire un large éventail de comportements « mésalignés », c’est-à-dire un « désalignement émergent ». L’étude a révélé l’existence de schémas spécifiques au sein du modèle (similaires aux schémas d’activité cérébrale) qui deviennent plus actifs lorsque des comportements mésalignés apparaissent ; ce schéma provient de descriptions de mauvais comportements dans les données d’entraînement. En augmentant ou en diminuant directement l’activité de ce schéma, il est possible de modifier le degré d’alignement du modèle. De plus, en réentraînant le modèle sur des informations correctes, il peut être ramené à un comportement bénéfique. Ce travail aide à comprendre les causes du mésalignement du modèle et pourrait fournir un système d’alerte précoce et une voie de correction pour le mésalignement pendant l’entraînement (Source: OpenAI, karinanguyen_, janonacct)

Yann LeCun souligne les avantages théoriques du raisonnement dans l’espace latent continu par rapport au raisonnement discret basé sur les Tokens: Yann LeCun a relayé et commenté un article publié par l’équipe de Yuandong Tian de Meta AI, qui démontre théoriquement que le raisonnement dans un espace latent continu est plus puissant que le raisonnement dans un espace de Tokens discrets. L’article indique que pour un graphe avec n sommets et un diamètre de graphe D, un Transformer à deux couches avec une chaîne de pensée continue (CoT) de D étapes peut résoudre le problème d’accessibilité des graphes orientés, tandis qu’un Transformer à profondeur constante avec CoT discret, connu actuellement, nécessite O(n^2) étapes de décodage. L’idée centrale est qu’une pensée continue peut encoder simultanément plusieurs chemins de graphe candidats, réalisant une « recherche parallèle » implicite, alors qu’une séquence de Tokens discrets ne peut traiter qu’un seul chemin à la fois (Source: ylecun, Ahmad_Al_Dahle, HamelHusain)
MiniMax rend open source son modèle MiniMax-M1, conçu spécifiquement pour le raisonnement sur de longs textes: MiniMax a annoncé la mise en open source de son dernier grand modèle linguistique, MiniMax-M1, qui établit une nouvelle norme en matière de raisonnement sur de longs textes. Il dispose d’une fenêtre de contexte d’entrée de 1M de Tokens et d’une capacité de sortie de 80k Tokens, démontrant un niveau d’application agentique (Agentic) de premier ordre parmi les modèles open source. Il est à noter que ce modèle a été entraîné grâce à un apprentissage par renforcement (RL) efficace, pour un coût d’entraînement déclaré de seulement 534 700 dollars. Cette initiative vise à repousser les limites de la recherche et des applications de l’IA, en particulier dans le traitement et la compréhension de données textuelles à grande échelle (Source: cognitivecompai, MiniMax__AI, OpenRouter)

L’architecture derrière Gemini 2.5 Pro jouant à Pokémon révélée: L’architecture permettant au modèle Gemini 2.5 Pro de Google DeepMind de jouer avec succès au jeu Pokémon a suscité l’attention. Cette architecture démontre les puissantes capacités du modèle en matière de compréhension de tâches complexes, de génération de stratégies et de raisonnement en plusieurs étapes. En analysant l’état du jeu, en comprenant les règles et en prenant des décisions, Gemini 2.5 Pro ne se contente pas de jouer au jeu, mais démontre plus profondément son potentiel en tant qu’agent d’IA général, offrant une référence pour les futures applications de l’IA dans des environnements interactifs plus larges (Source: _philschmid, Ar_Douillard)

🎯 Tendances
Essential AI publie Essential-Web v1.0, un jeu de données de pré-entraînement contenant 24 trillions de Tokens: Essential AI a publié ses derniers résultats de recherche – Essential-Web v1.0, un jeu de données de pré-entraînement à très grande échelle contenant 24 trillions de Tokens et doté de métadonnées riches. Ce jeu de données vise à aider les utilisateurs à construire facilement des jeux de données performants pour divers domaines et cas d’utilisation, et s’avère également d’une grande valeur pour la gestion des données internes. Cette initiative devrait faire progresser le domaine de l’entraînement des grands modèles linguistiques et de la gestion des données (Source: amasad, code_star, ClementDelangue)

MiniMax lance le modèle vidéo Hailuo 02, mettant l’accent sur le suivi des instructions et la rentabilité: MiniMax a dévoilé le modèle vidéo Hailuo 02 lors du deuxième jour de son événement #MiniMaxWeek. Ce modèle se distinguerait par son excellent suivi des instructions, sa capacité à gérer des situations physiques extrêmes (comme des acrobaties) et son support natif de la résolution 1080p. MiniMax souligne avoir atteint une qualité de classe mondiale tout en réalisant une efficacité record en termes de coûts. Cela marque une nouvelle avancée pour MiniMax dans le domaine de la génération multimodale, en particulier dans la création de contenu vidéo de haute qualité (Source: _akhaliq, 量子位)
DeepSeek-R1 surpasse Claude 4 et se classe premier dans un test public de programmation web: Selon le dernier rapport de l’arène des grands modèles, la nouvelle version R1 du modèle DeepSeek (version 0528) a surpassé Claude Opus 4, largement considéré comme un modèle de codage de premier plan, en matière de capacités de programmation web, se classant ainsi premier. Les performances de la version DeepSeek-R1-0528 sur LiveCodeBench sont également proches de celles du modèle o3-high d’OpenAI, ce qui a conduit à des spéculations selon lesquelles il pourrait s’agir de la version R2 légendaire. Le modèle est actuellement disponible sur le site officiel de DeepSeek, son application et son mini-programme, permettant aux utilisateurs d’expérimenter ses capacités de programmation, y compris la génération de code pour des pages web et des applications directement exécutables (Source: 量子位)

L’équipe SGLang exécute DeepSeek 671B sur NVIDIA GB200 NVL72, atteignant une vitesse de décodage de 7583 toks/sec/GPU: LMSYS Org a annoncé que l’équipe SGLang a réussi à exécuter le modèle DeepSeek 671B sur le dernier matériel NVIDIA GB200 NVL72. Grâce à la désagrégation PD et à la parallélisation massive des experts, une vitesse de décodage de 7583 tokens par seconde par GPU a été atteinte, soit une amélioration de 2,7 fois par rapport au H100. Cette collaboration a été initiée par Pen Li de NVIDIA, avec un soutien important de l’équipe FlashInfer, démontrant le bond de performance résultant de la combinaison du nouveau matériel et d’un logiciel optimisé (Source: Tim_Dettmers)

Menlo Research lance Jan-nano, un modèle à 4 milliards de paramètres, affirmant surpasser DeepSeek-v3-671B en utilisant MCP: Menlo Research a publié Jan-nano, un modèle de 4 milliards de paramètres construit sur la base de Qwen3-4B et affiné avec DAPO. Il est affirmé que ce modèle, lorsqu’il utilise le protocole de contrôle de modèle (MCP), surpasse DeepSeek-v3-671B, qui a beaucoup plus de paramètres. Jan-nano dispose de capacités de recherche web en temps réel et de recherche approfondie. Le modèle et le format GGUF sont disponibles sur HuggingFace. Les utilisateurs peuvent l’exécuter localement via la version bêta de Jan et activer les outils web via une clé API Serper (Source: Alibaba_Qwen)
Cohere propose la technique Treasure Hunt, permettant la localisation en temps réel de tâches à longue traîne grâce au marquage lors de l’entraînement: Les chercheurs de Cohere Labs ont proposé une nouvelle méthode appelée « Treasure Hunt » qui, en ajoutant un simple marquage lors de l’entraînement du modèle, permet de localiser et d’améliorer efficacement les performances du modèle sur les tâches à longue traîne au moment de l’inférence. Cette méthode vise à remplacer l’ingénierie de prompt complexe et fragile, en enrichissant les données d’entraînement pour améliorer les performances sur les tâches sous-représentées et en permettant aux utilisateurs un contrôle explicite lors de l’inférence, obtenant ainsi des gains généralisables sur une variété de tâches (Source: sarahookr, _akhaliq)

OpenBMB lance CPM.cu, un framework d’inférence LLM léger et efficace pour les appareils: OpenBMB a publié CPM.cu, un framework d’inférence CUDA léger et efficace conçu pour les grands modèles linguistiques (LLM) sur appareil, et qui a été utilisé pour piloter le déploiement de MiniCPM4. Ce framework intègre son noyau d’attention sparse entraînable InfLLM v2, améliorant considérablement la capacité de traitement de longs contextes. Il est affirmé que, pour une longueur de contexte de 128K, ses performances sont 4 à 6 fois supérieures à celles des modèles 8B classiques (comme Qwen3-8B) (Source: teortaxesTex)
Avey AI publie une nouvelle architecture de modèle linguistique Avey, ne reposant pas sur l’attention multi-têtes ni sur des mécanismes récurrents: L’équipe d’Avey AI développe une nouvelle architecture de modèle linguistique appelée “Avey”, qui n’utilise aucune variante de l’attention multi-têtes ou de mécanismes récurrents, et qui fonctionne bien avec de longues longueurs de contexte. Le projet est open source, sous licence Apache-2.0, et l’article de recherche, le modèle de démonstration et le dépôt GitHub ont tous été publiés. Le modèle actuellement publié n’a été pré-entraîné qu’avec 100 milliards de Tokens, mais l’équipe prévoit d’entraîner des modèles plus grands basés sur cette architecture à l’avenir. Une démonstration montre que le modèle Avey 1.5B, traitant une entrée de 45K Tokens, n’occupe que moins de 4 Go de VRAM (précision bf16) sur un ordinateur portable équipé d’une carte 4060 (Source: lateinteraction)
Publication du rapport technique OneRec, proposant de remplacer les systèmes de recommandation multi-étapes par un modèle encodeur-décodeur unique: Un rapport technique intitulé OneRec propose une nouvelle architecture de système de recommandation. Cette architecture remplace le processus traditionnel des systèmes de recommandation multi-étapes par un unique modèle encodeur-décodeur. Le modèle est entraîné par prédiction du prochain Token pour des ID d’articles sémantiques. Sa conception principale comprend un Tokenizer utilisant RQ-Kmeans et effectuant un alignement multimodal collaboratif pour générer des ID sémantiques allant du grossier au fin (Source: TheXeophon, teortaxesTex)

Le passage du format des articles de Google DeepMind de deux colonnes à une seule colonne attire l’attention: L’utilisateur de médias sociaux Gabriele Berton a remarqué que Google DeepMind semble avoir changé le format de mise en page de ses articles de recherche, passant de deux colonnes à une seule. Il a souligné ce changement en comparant des captures d’écran de l’article Gemma 3 d’il y a trois mois et de l’article récent sur Gemini 2.5, et a appelé Google DeepMind à revenir à l’utilisation du format à deux colonnes, estimant que l’ancien format était meilleur (Source: gabriberton)

Infini-gram lance une version « mini », compressant considérablement le stockage des index: Infini-gram a publié sa version « mini », un moteur de recherche avec un index extrêmement compressé, réduisant les besoins de stockage de 14 fois. Cette version est optimisée pour l’indexation à grande échelle et un service efficace. Elle est utilisable gratuitement via une interface web et une API, et a déjà aidé des chercheurs à révéler à grande échelle des problèmes de contamination des évaluations. L’outil peut rechercher dans 45,6 To de données textuelles (Source: Tim_Dettmers)

LLaMA Factory prend en charge le fine-tuning des modèles de la série Falcon H1 en utilisant Full-FineTune ou LoRA: LLaMA Factory a annoncé l’ajout du support pour le fine-tuning des modèles de la série Falcon H1. Les utilisateurs peuvent désormais personnaliser l’entraînement de ces modèles en utilisant les méthodes Full-FineTune ou LoRA. Cette mise à jour, contribuée par DhiaRhayem, élargit davantage la gamme de modèles pris en charge et la flexibilité de fine-tuning offerte par LLaMA Factory (Source: yb2698)

🧰 Outils
Claude Code prend désormais en charge la connexion aux serveurs MCP distants: Anthropic a annoncé que son assistant de programmation IA, Claude Code, peut désormais se connecter à des serveurs distants utilisant le protocole de contrôle de modèle (MCP). Cela signifie que les utilisateurs peuvent extraire directement des informations contextuelles de leurs outils vers Claude Code, sans nécessiter de configuration locale. Cette mise à jour vise à améliorer l’efficacité et la flexibilité du flux de travail des développeurs, rendant plus pratique l’utilisation des capacités de Claude Code dans différents environnements (Source: alexalbert__, cto_junior)

DSPy : une voie efficace pour construire des modèles linguistiques petits et open source: Les discussions sur les médias sociaux soulignent l’importance du framework DSPy pour la construction d’applications basées sur de petits modèles linguistiques (y compris les modèles open source). L’opinion dominante est que DSPy offre une méthode qui ne dépend pas de modèles spécifiques, grands et propriétaires, ce qui constitue une garantie pour les développeurs au cas où les fournisseurs de grands modèles limiteraient ou fermeraient l’accès à l’avenir. L’idée centrale de DSPy est de considérer les prompts comme des objets nécessitant une compilation plutôt qu’une rédaction manuelle, en stimulant la vitesse d’itération par la génération, l’évaluation et l’amélioration continue systématiques des prompts, formant ainsi une véritable barrière technologique (Source: lateinteraction, lateinteraction, lateinteraction)
DeepSite V2 publié, intégrant le modèle DeepSeek-R1 et prenant en charge l’édition ciblée: La version DeepSite V2 a été publiée, apportant une toute nouvelle interface utilisateur et intégrant le modèle DeepSeek-R1. La nouvelle version prend en charge l’édition ciblée de n’importe quel élément et peut reconcevoir des sites web existants. Ces fonctionnalités visent à améliorer l’expérience et l’efficacité des utilisateurs dans la création et la modification de pages web via le Vibe Coding (programmation sensible ou basée sur l’intuition) (Source: _akhaliq, LoubnaBenAllal1)
Hugging Face Hub ajoute une fonctionnalité de filtrage par taille de modèle: Hugging Face Hub a lancé une nouvelle fonctionnalité très attendue permettant aux utilisateurs de filtrer des millions de modèles par leur taille. Cette amélioration est rendue possible grâce à l’adoption généralisée des formats de sauvegarde de modèles safetensors et GGUF, ce qui permet un filtrage fiable de la taille des modèles et améliore considérablement l’efficacité avec laquelle les utilisateurs peuvent trouver et sélectionner des modèles sur le Hub (Source: TheZachMueller)

LangGraph Studio ajoute une fonctionnalité d’évaluation d’Agent: LangChain a annoncé que son LangGraph Studio prend désormais en charge l’évaluation d’Agent. Les utilisateurs peuvent exécuter leurs Agents sur des jeux de données LangSmith et appliquer des évaluateurs aux résultats, le tout sans écrire de code. Cette nouvelle fonctionnalité vise à simplifier et à accélérer le processus d’évaluation des performances des Agents IA, aidant les développeurs à itérer et à optimiser leurs Agents plus facilement (Source: Hacubu)

Lancement d’OpenHands CLI : outil de ligne de commande de codage open source et indépendant du modèle: All Hands AI a lancé OpenHands CLI, un nouvel outil d’interface de ligne de commande pour le codage. Cet outil présente une grande précision (prétendument similaire à Claude Code), est entièrement open source (licence MIT) et indépendant du modèle, les utilisateurs pouvant utiliser une API ou leur propre modèle. Son processus d’installation et d’exécution est simple, visant à fournir aux développeurs un assistant de codage IA flexible et puissant (Source: LoubnaBenAllal1)
Memex lance Launch 2, permettant la création rapide de serveurs MCP à partir de Prompts: Memex a publié Launch 2, une version qui permet aux utilisateurs de créer un serveur MCP (Model Control Protocol) à partir d’un Prompt en 10 minutes. Memex est décrit comme intégrant les fonctionnalités de Claude Code et Claude Desktop, et prenant en charge les modèles Anthropic et Gemini. Cette mise à jour vise à simplifier et à accélérer le processus de développement et de déploiement d’applications IA (Source: _akhaliq)
Un Gradio Space peut désormais être ajouté en un clic comme outil MCP: Julien Chaumond a annoncé que chaque Gradio Space peut désormais être ajouté en un clic comme outil dans son serveur MCP (Model Control Protocol). Cette mise à jour simplifie considérablement l’intégration des applications Gradio dans des flux de travail IA plus larges et des systèmes d’agents, renforçant l’utilité de Gradio en tant que plateforme pour le prototypage rapide et le déploiement d’applications IA (Source: mervenoyann, _akhaliq)

Replit réalise une série de progrès dans la construction de sa plateforme de codage IA: Replit a réalisé une série de progrès dans la construction de sa plateforme de codage IA, incluant des fonctionnalités telles que l’authentification, les noms de domaine, la gestion des clés, les tâches en arrière-plan, le stockage, ainsi que l’accès universel aux modèles. Ces progrès visent à fournir aux développeurs un environnement de développement cloud plus complet et plus puissant, en particulier pour le développement et le déploiement d’applications IA. Replit s’est également associé à HUMAIN en Arabie Saoudite pour lancer une version de Replit axée sur l’arabe afin de responsabiliser les développeurs locaux (Source: amasad, amasad)

Artificial Analysis lance MicroEvals, pour un « test de ressenti » rapide des modèles: Artificial Analysis a publié MicroEvals, un outil conçu pour effectuer rapidement un « test de ressenti » (vibe check) des modèles, en complément des benchmarks traditionnels. Cet outil permet aux utilisateurs d’aller au-delà des simples indicateurs numériques et de ressentir plus intuitivement les performances d’un modèle dans des cas d’utilisation spécifiques. clefourrier a partagé une collection intéressante de prompts et de résultats de « tests de ressenti », illustrant l’application pratique de MicroEvals (Source: clefourrier, RisingSayak)
Un plugin DeepThink apporte aux modèles locaux des capacités de raisonnement avancé de style Gemini 2.5: Un développeur a construit un plugin open source DeepThink visant à introduire des capacités de raisonnement avancé de type « deep thinking » similaires à celles de Gemini 2.5 de Google dans les grands modèles linguistiques exécutés localement (tels que DeepSeek R1, Qwen3, etc.). Ce plugin, grâce à une méthode de raisonnement structuré, permet au modèle de générer en parallèle plusieurs hypothèses et de les évaluer de manière critique, améliorant ainsi les performances dans des tâches complexes de raisonnement, des problèmes mathématiques et des défis de codage. Le projet a remporté le troisième prix lors du hackathon Cerebras & OpenRouter Qwen 3 (Source: Reddit r/LocalLLaMA)

Le générateur de réponses de Voiceflow utilise la technologie de recherche pour fournir des informations conformes à partir de documents: Matthew Mrosko a partagé un cas d’utilisation de son générateur de réponses utilisant Voiceflow pour la recherche. Le système peut accéder aux documents de conformité au sein d’une organisation et renvoyer les blocs de texte les plus pertinents, leur score et le nom du fichier source. Cela démontre l’application pratique de la technologie de génération augmentée par la recherche (RAG) dans les domaines de la réponse aux questions sur des connaissances spécifiques et de la vérification de la conformité (Source: ReamBraden)
📚 Apprentissage
DeepLearning.AI et Meta s’associent pour lancer un cours de courte durée « Building with Llama 4 »: Andrew Ng a annoncé un partenariat avec Meta AI pour lancer un nouveau cours de courte durée intitulé « Building with Llama 4 », animé par Amit Sangani, directeur de l’ingénierie des partenariats chez Meta AI. Le cours présentera les trois nouveaux modèles de Llama 4 (y compris Maverick et Scout, qui adoptent une architecture MoE), ses capacités multimodales (telles que le raisonnement multi-images et la localisation d’images), le traitement de longs contextes (prenant en charge jusqu’à 10M de Tokens), ainsi que les outils d’optimisation de prompt de Llama et la boîte à outils de données synthétiques. Il vise à aider les développeurs à maîtriser les compétences nécessaires pour construire des applications avec Llama 4 (Source: AndrewYNg, DeepLearningAI, AIatMeta)
Hamel Husain organise une mini-série de cours gratuite en 5 parties sur l’évaluation et l’optimisation du RAG: Hamel Husain a annoncé qu’il organisera, en collaboration avec Ben Clavié et plusieurs experts du domaine du RAG, une mini-série de cours gratuite en 5 parties sur le thème de l’évaluation et de l’optimisation de la génération augmentée par la recherche (RAG). La première partie sera animée par Ben Clavié, qui réfutera l’idée que « le RAG est mort ». Nandan Thakur participera également à l’enseignement, discutant du changement de paradigme nécessaire pour évaluer les modèles IR à l’ère du RAG, en soulignant l’importance des métriques d’évaluation de la diversité et des benchmarks (tels que FreshStack) (Source: HamelHusain, HamelHusain)

Sebastian Raschka publie un tutoriel étendu sur la compréhension et le codage du KV Caching à partir de zéro: Sebastian Raschka a partagé son dernier article sur le KV Caching (mise en cache clé-valeur), offrant un tutoriel étendu pour comprendre et coder le KV Caching à partir de zéro. Le KV Caching est une technique d’optimisation clé dans le processus d’inférence des grands modèles linguistiques (LLM), utilisée pour accélérer le processus de génération. Ce tutoriel vise à aider les lecteurs à comprendre en profondeur son fonctionnement et à pouvoir le mettre en œuvre eux-mêmes (Source: rasbt)
L’article Direct Reasoning Optimization (DRO) propose un cadre d’auto-récompense et d’optimisation du raisonnement pour les LLM: Un article intitulé « Direct Reasoning Optimization: LLMs Can Reward And Refine Their Own Reasoning for Open-Ended Tasks » propose un cadre d’apprentissage par renforcement nommé DRO. Ce cadre vise à affiner les performances des LLM sur des tâches ouvertes, en particulier les tâches de raisonnement long, grâce à un nouveau signal de récompense : la récompense de réflexion sur le raisonnement (R3). Le cœur de R3 est d’identifier et de souligner sélectivement les Tokens clés dans les résultats de référence qui reflètent l’influence du raisonnement précédent de la chaîne de pensée du modèle, capturant ainsi la cohérence entre le raisonnement et les résultats de référence à un niveau granulaire fin. L’élément clé est que R3 est calculé en interne par le même modèle qui est optimisé, réalisant ainsi une configuration d’entraînement entièrement auto-cohérente (Source: teortaxesTex)

Article EMLoC : Méthode de fine-tuning économe en mémoire basée sur un émulateur et correction LoRA: L’article « EMLoC: Emulator-based Memory-efficient Fine-tuning with LoRA Correction » propose un cadre nommé EMLoC, visant à réaliser le fine-tuning de modèles avec le même budget mémoire que l’inférence. EMLoC construit des émulateurs légers spécifiques à la tâche en utilisant la décomposition en valeurs singulières (SVD) sensible à l’activation sur un petit ensemble de calibration en aval, puis affine ces émulateurs via LoRA. Pour résoudre le problème de désalignement entre le modèle original et l’émulateur compressé, l’article propose un nouvel algorithme de compensation pour corriger les modules LoRA affinés, afin qu’ils puissent être fusionnés dans le modèle original pour l’inférence. EMLoC prend en charge des taux de compression flexibles et des processus d’entraînement standard. Les expériences montrent qu’il surpasse d’autres lignes de base sur plusieurs jeux de données et modalités, et peut affiner un modèle de 38B sur un seul GPU grand public de 24 Go (Source: HuggingFace Daily Papers)
TuringPost résume les derniers articles de recherche en IA, couvrant la perspective des systèmes complexes des LLM, l’extension des agents, etc.: TuringPost a compilé les derniers articles de recherche en IA de la semaine, en recommandant particulièrement 6 d’entre eux, dont « LLMs and Emergence: A Complex Systems Perspective », « The Illusion of the Illusion of Thinking », « Build the Web for Agents, not Agents for the Web », etc. De plus, plusieurs articles sur les agents IA, la recherche sur le code, l’apprentissage par renforcement, l’optimisation des modèles, etc., sont également répertoriés, offrant aux chercheurs et aux développeurs de riches ressources d’apprentissage (Source: TheTuringPost)

Publication d’un tutoriel de fine-tuning pour la classification vidéo avec Meta AI VJEPA 2: Aritra Roy Gosthipaty a publié un tutoriel Jupyter Notebook pour le fine-tuning du modèle VJEPA 2 de Meta AI pour la classification vidéo. VJEPA (Video Joint Embedding Predictive Architecture) est une méthode d’apprentissage auto-supervisé qui vise à apprendre les caractéristiques vidéo en prédisant les représentations des parties masquées d’une vidéo. Ce tutoriel fournit des conseils pratiques aux chercheurs et développeurs souhaitant appliquer le modèle VJEPA 2 à des tâches de compréhension vidéo (Source: mervenoyann)

Un article explore l’apprentissage par renforcement avec des récompenses vérifiables pour inciter les LLM à un raisonnement correct: Un article intitulé « Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs » souligne que la métrique traditionnelle Pass@K présente des lacunes dans la mesure des capacités de raisonnement, car elle peut récompenser des chaînes de pensée (CoTs) dont la réponse finale est correcte mais dont le processus de raisonnement est inexact ou incomplet. Pour y remédier, les chercheurs ont introduit une métrique d’évaluation plus précise, CoT-Pass@K, qui exige que le chemin de raisonnement et la réponse finale soient tous deux corrects. L’étude a révélé qu’en utilisant CoT-Pass@K, RLVR (Reinforcement Learning with Verifiable Rewards) peut inciter le modèle à généraliser des processus de raisonnement corrects (Source: menhguin, teortaxesTex)

L’article « From Bytes to Ideas: Language Modeling with Autoregressive U-Nets » propose une nouvelle méthode de modélisation du langage: Aran Komatsuzaki présente un nouvel article proposant un modèle U-Net autorégressif qui traite directement les octets bruts et apprend des représentations de Tokens hiérarchiques. L’étude montre que cette approche peut égaler de solides lignes de base BPE (Byte Pair Encoding) et qu’une structure hiérarchique plus profonde montre des tendances d’extension prometteuses. Cela offre une nouvelle piste pour le domaine de la modélisation du langage, en particulier dans le traitement des représentations de données de bas niveau et l’apprentissage de caractéristiques multi-niveaux (Source: jpt401)

LambdaConf 2025 partage la présentation d’Oren Rozen sur la programmation fonctionnelle en C++: LambdaConf 2025 a partagé la vidéo de la présentation d’Oren Rozen lors de la conférence sur « La programmation fonctionnelle en C++ (types à l’exécution vs types à la compilation) ». Cette présentation explore les méthodes d’application des idées et techniques de programmation fonctionnelle dans C++, un langage multi-paradigme, en se concentrant particulièrement sur les rôles et impacts différents des types à l’exécution et des types à la compilation dans la pratique de la programmation fonctionnelle (Source: lambda_conf)

Zach Mueller lance le cours « From Scratch -> Scale », enseignant les techniques d’entraînement distribué: Zach Mueller a annoncé l’ouverture des inscriptions pour son cours de 5 semaines « From Scratch -> Scale ». Ce cours enseignera aux participants à écrire du code pour le parallélisme de données distribué (DDP), ZeRO, le parallélisme de pipeline et le parallélisme tensoriel à partir de zéro, et à combiner ces techniques. Le cours accueillera également des experts expérimentés de sociétés telles que Hugging Face, Meta, Snowflake, etc., pour partager leurs connaissances (Source: eliebakouch, HamelHusain)

Charles Frye partage une présentation sur l’extension des GPU et la bande passante mathématique, soulignant l’importance de la multiplication matricielle à faible précision: Charles Frye a partagé l’enregistrement de sa présentation, dont les points clés incluent : l’extension des GPU est similaire à l’extension de la bande passante, avec une relation quadratique à la latence ; la bande passante clé pour l’extension des GPU est la bande passante mathématique (FLOP/s) ; parmi les diverses bandes passantes mathématiques, la multiplication matricielle à faible précision s’étend le plus rapidement. Il a également discuté de certaines implications de cela pour les domaines de l’ingénierie des données et de la science des données (Source: charles_irl)

💼 Affaires
Sam Altman révèle que Meta a tenté de débaucher des employés d’OpenAI avec des primes de signature de 100 millions de dollars: Le PDG d’OpenAI, Sam Altman, a révélé lors d’un podcast que Meta avait tenté d’attirer des employés d’OpenAI en leur offrant des primes de signature allant jusqu’à 100 millions de dollars, ainsi que des salaires annuels plus élevés. Altman a déclaré que malgré les efforts actifs de Meta pour débaucher, les meilleurs employés d’OpenAI n’avaient pas accepté ces offres. Il a également commenté que Meta considérait OpenAI comme son plus grand concurrent et que les efforts actuels de Meta en matière d’IA n’étaient pas à la hauteur des attentes, mais il respectait leur esprit d’essayer activement de nouvelles choses. Altman estime que la pratique de Meta d’attirer des talents avec des salaires élevés pourrait nuire à la culture d’entreprise (Source: TheRundownAI, bookwormengr, seo_leaders, akbirkhan, 财联社AI daily, Reddit r/ChatGPT)
xAI d’Elon Musk dépense 1 milliard de dollars par mois et cherche de nouveaux financements pour soutenir la R&D en AGI: Selon des rapports, la start-up d’IA d’Elon Musk, xAI, dépense à un rythme effarant de 1 milliard de dollars par mois, principalement pour l’achat de GPU et la construction d’infrastructures de centres de données. Pour maintenir ses opérations et rivaliser avec des géants comme OpenAI et Google, xAI est en train de lever 4,3 milliards de dollars de fonds propres et prévoit de lever 6,4 milliards de dollars supplémentaires l’année prochaine, tout en poursuivant un financement par emprunt de 5 milliards de dollars. Bien que les revenus ne soient estimés qu’à 500 millions de dollars cette année, xAI, grâce à l’attrait de Musk, à l’avantage des données de la plateforme X et à sa détermination à construire sa propre infrastructure, a présenté aux investisseurs une feuille de route pour atteindre la rentabilité d’ici 2027. Sa valorisation est passée de 51 milliards de dollars fin 2024 à 80 milliards de dollars à la fin du premier trimestre de cette année. L’objectif ultime de Musk est de créer une intelligence artificielle générale (AGI) capable d’égaler, voire de surpasser, l’intelligence humaine (Source: 新智元)

Nabla construit un assistant IA pour les cliniciens et lève 70 millions de dollars en série C: La société d’IA médicale Nabla a annoncé la clôture d’un tour de financement de série C de 70 millions de dollars, mené par HV Capital, Highland Europe et DST Global, avec la participation continue des investisseurs existants Cathay Innovation et Tony Fadell. Nabla se consacre à la création d’assistants IA intelligents et avancés pour les cliniciens, visant à restaurer l’aspect humain au cœur des soins de santé grâce à la technologie IA et à générer un impact clinique et financier tangible. Ce tour de financement accélérera la réalisation de sa mission (Source: ylecun)

🌟 Communauté
L’impact de l’IA sur le marché de l’emploi suscite des inquiétudes, le PDG d’Amazon prévient d’une réduction des effectifs due à l’IA dans les années à venir: Le PDG d’Amazon, Andy Jassy, a déclaré dans une lettre à tous les employés qu’avec la promotion par l’entreprise de davantage d’IA générative et d’agents intelligents, les méthodes de travail changeront. Dans les années à venir, les besoins en personnel pour certains postes actuels diminueront, tandis que la demande pour de nouveaux types de postes augmentera, et le nombre total d’employés dans les fonctions de l’entreprise devrait diminuer en conséquence. Auparavant, le PDG d’Anthropic, Dario Amodei, avait également averti que l’IA pourrait remplacer la moitié des emplois de bureau de premier niveau d’ici cinq ans. Ces opinions ont suscité de vastes discussions sur l’impact de l’IA sur le marché de l’emploi. Des employés du secteur technologique ont déjà partagé leurs expériences de remplacement par l’IA ou de difficultés à trouver un emploi, et les diplômés universitaires de la promotion 2025 sont confrontés au marché de l’emploi le plus difficile depuis la pandémie (Source: 新智元, 新智元)

Les outils d’aide à la candidature universitaire basés sur l’IA suscitent l’intérêt, mais l’opacité des algorithmes, l’authenticité des données et la personnalisation deviennent des points faibles pour les utilisateurs: Avec l’essor du marché de l’aide à la candidature universitaire, de grandes entreprises comme Quark d’Alibaba, Baidu et QQ Browser de Tencent ont lancé des outils d’aide à la candidature basés sur l’IA, vantant leur intelligence, leur efficacité et leur gratuité. Cependant, les utilisateurs ont constaté que différents outils recommandent des établissements très différents pour un même score, et des problèmes tels que l’opacité des algorithmes, les doutes sur l’exhaustivité et l’authenticité des données, et le manque de personnalisation, font que les utilisateurs n’osent pas se fier entièrement à l’IA. Les experts soulignent que les différences de sources de données et de pondération des algorithmes sont les principales raisons des divergences dans les résultats de recommandation. Les outils d’IA actuels conviennent mieux aux candidats situés aux deux extrêmes du spectre des scores et ayant des objectifs clairs, ou comme outils d’appoint pour les candidats ayant des scores moyens, et les utilisateurs doivent apprendre à poser des questions efficaces (Source: 36氪)

La popularisation des applications de l’IA dans le domaine de l’éducation suscite l’anxiété des parents et un engouement du marché: La technologie de l’IA pénètre rapidement le secteur de l’éducation, avec l’émergence de salles d’étude IA, de machines d’apprentissage IA et de diverses applications d’aide à l’apprentissage IA. L’intégration de grands modèles comme DeepSeek favorise davantage la mise à niveau des produits. Les parents espèrent utiliser l’IA pour aider leurs enfants à « prendre une longueur d’avance », mais cela les plonge dans une nouvelle anxiété. Les études de marché montrent que la taille du marché de l’IA + éducation devrait dépasser 70 milliards de yuans en 2025. Cependant, l’efficacité réelle des produits éducatifs basés sur l’IA, la confidentialité des données et la question de savoir s’ils améliorent réellement l’essence de l’apprentissage restent des points de discussion centraux. Le sens de l’éducation ne devrait pas se limiter à une « course aux armements » technologique, mais devrait se concentrer davantage sur le développement individuel et les possibilités multiples (Source: 36氪, 36氪)

Discussion : Nécessité des « Turn Marker Tokens » (jetons de marqueur de tour) dans l’inférence des grands modèles: Des discussions au sein de la communauté soulignent que si les « Turn Marker Tokens » dans les modèles de dialogue (tels que les jetons spéciaux identifiant les interventions de l’utilisateur et de l’assistant) sont toujours suivis exactement des mêmes quelques jetons (par exemple user\n
et assistant\n
), alors ces marqueurs de tour eux-mêmes pourraient ne pas être nécessaires. Un point de vue plus approfondi suggère que si un groupe de jetons (par exemple trois) marque conjointement quelque chose, et que le modèle doit apprendre l’importance du premier de ces jetons, il est impératif de fournir des exemples contextuels contenant des contrefactuels, sinon le modèle pourrait ne pas apprendre cette importance avec précision. Cette discussion est liée au phénomène selon lequel Claude Opus 4 est facilement trompé par l’injection de dialogue, ce qui indique que la compréhension et le traitement de la structure du dialogue par le modèle peuvent encore être améliorés (Source: giffmana, giffmana)

Le décalage entre la volonté et la capacité d’application des agents IA en milieu professionnel attire l’attention: Une étude de l’équipe de l’Université de Stanford révèle un décalage significatif entre les besoins et les capacités en matière d’automatisation des tâches professionnelles par les agents IA. L’étude a révélé qu’environ 41 % des tâches des entreprises incubées par YC se concentrent dans des « zones de faible priorité » et des « zones rouges » où la volonté d’automatisation des travailleurs est faible ou la technologie IA n’est pas encore mature. De plus, bien que de nombreuses tâches nécessitent une collaboration homme-machine équivalente, les praticiens s’attendent généralement à une plus grande prédominance humaine, ce qui pourrait entraîner des frictions. L’étude prédit qu’avec l’entrée des agents IA sur le marché du travail, les compétences clés des humains pourraient se déplacer vers les relations interpersonnelles et les compétences organisationnelles et de coordination. Cette recherche vise à fournir des orientations pour le développement futur des agents IA et la transformation des compétences de la main-d’œuvre (Source: 新智元)

Les agences de publicité utilisent l’optimisation pour les moteurs de recherche génératifs (GEO) pour influencer les résultats de recherche de l’IA, soulevant des discussions éthiques et réglementaires: Les agences de publicité aident leurs clients entreprises à obtenir une plus grande visibilité dans les résultats de recherche de l’IA grâce à des services d’optimisation pour les moteurs de recherche génératifs (GEO). Ce service améliore le classement et la fréquence d’apparition des informations des clients dans les réponses de l’IA en produisant un contenu de haute qualité conforme aux préférences des grands modèles et en « nourrissant » les données de l’IA. Cependant, les utilisateurs ne savent généralement pas si les résultats de recherche de l’IA ont été optimisés. Cela soulève des discussions sur la question de savoir si de telles pratiques constituent de la publicité, si elles doivent être clairement identifiées et quelles règles commerciales et limites devraient être respectées. Actuellement, les principales plateformes de grands modèles en Chine n’ont pas officiellement intégré la publicité, mais des produits de recherche IA à l’étranger ont commencé à expérimenter des modèles publicitaires et à les signaler (Source: 36氪)

Les modèles d’IA obtiennent de mauvais résultats sur les problèmes difficiles des concours de programmation, les résultats du test LiveCodeBench Pro montrent un score de 0% pour les meilleurs modèles: Zihan Zheng et ses collègues ont lancé LiveCodeBench Pro, un benchmark en temps réel contenant des problèmes de concours de programmation de haut niveau tels que IOI, Codeforces et ICPC. Dans la section « difficile » de ce benchmark, les grands modèles linguistiques de pointe, y compris o3 et Gemini 2.5, ont tous obtenu un score de 0%. L’analyse indique que les LLM excellent dans les tâches d’implémentation qui reposent sur la mémoire, mais qu’ils sont peu performants sur les problèmes d’observation ou de logique qui nécessitent une « inspiration » cruciale, ainsi que sur les tâches qui exigent une attention aux détails et la gestion des cas limites. Saining Xie a commenté que ce n’est pas un benchmark pour les agents d’ingénierie logicielle, mais un test du raisonnement et de l’intelligence fondamentaux par le biais du codage, et que battre ce benchmark aurait une signification comparable à la victoire d’AlphaGo sur Lee Sedol (Source: ylecun, dilipkay)

L’outil de revue de littérature assistée par IA otto-SR améliore considérablement l’efficacité et la précision: Des institutions telles que l’Université de Toronto et la Harvard Medical School ont développé conjointement le flux de travail de bout en bout IA otto-SR pour automatiser les revues systématiques (SRs). Cet outil combine GPT-4.1 et o3-mini pour le filtrage de la littérature et l’extraction de données, réalisant en seulement deux jours une mise à jour d’une revue systématique Cochrane qui aurait nécessité 12 ans avec les méthodes traditionnelles. Lors des tests de référence, la sensibilité d’otto-SR (96,7 % contre 81,7 % pour l’homme) et la précision de l’extraction des données (93,1 % contre 79,7 % pour l’homme) étaient significativement supérieures à celles des évaluateurs humains, et il a identifié 54 études clés manquées par les humains. Cette recherche démontre l’énorme potentiel de l’IA pour accélérer la recherche médicale et améliorer la qualité de la synthèse des preuves (Source: 量子位)

Exploration de l’application des DSL structurés dans le « Vibe Coding »: Des développeurs comme Ted Nyman expérimentent l’utilisation de langages spécifiques au domaine (DSL) plus structurés, de type classe, pour remplacer le langage naturel de forme libre dans le « Vibe Coding » (une méthode de programmation plus sensible et intuitive). Ils constatent que cette approche est plus efficace, plus rapide, moins frustrante et produit un code de meilleure qualité. Cette exploration vise à trouver un paradigme d’interaction homme-machine plus efficace et plus précis pour la programmation assistée par IA ou la génération de code (Source: tnm, lateinteraction)
Perspectives d’application des agents IA dans l’ingénierie de la fiabilité des logiciels (SRE): Traversal AI a annoncé avoir levé 48 millions de dollars en tours de financement d’amorçage et de série A, se consacrant à la création d’IA SRE (Site Reliability Engineer) de niveau entreprise. Son agent IA est capable de diagnostiquer, de réparer et même de prévenir de manière autonome des incidents de production complexes, en combinant la technologie des agents IA et l’apprentissage automatique causal pour localiser les causes profondes en temps réel. Des entreprises comme DigitalOcean et Eventbrite sont devenues ses premiers clients, démontrant l’énorme potentiel de l’IA dans l’automatisation des opérations et l’amélioration de la fiabilité des systèmes (Source: hwchase17)
💡 Divers
Un « jeu mobile » de style Ghibli généré par IA attire l’attention, un tutoriel montre qu’il a été créé avec Kling AI et Midjourney: Récemment, un ensemble de captures d’écran et de vidéos d’un « jeu mobile » de style Ghibli est devenu viral sur les médias sociaux, attirant l’attention par la finesse de ses graphismes, la fraîcheur de sa palette de couleurs et ses effets d’ombre et de lumière naturels. Le créateur a révélé sa méthode de production : d’abord, utiliser Midjourney pour générer des images statiques, puis utiliser Kling AI de Kuaishou pour transformer les images en vidéos dynamiques. En ajoutant des éléments HUD (affichage tête haute) fixes, tels que des boutons et une mini-carte, une sensation de jeu interactif a été créée. Bien qu’il ne s’agisse actuellement que d’une démonstration vidéo, cela a déjà stimulé l’imagination des internautes quant aux mondes virtuels interactifs générés par IA (Source: 量子位, Kling_ai)

L’IA a un potentiel d’application énorme dans la vérification des erreurs dans divers domaines: L’internaute random_walker suggère que l’IA générative a un potentiel d’application énorme dans la vérification des erreurs, avec des « fruits à portée de main » dans tous les domaines. Par exemple, dans le domaine logiciel, elle peut détecter automatiquement les failles de sécurité ; en écriture, elle peut identifier les défauts logiques et les arguments faibles ; dans la recherche scientifique, elle peut détecter les erreurs de calcul et les problèmes de citation ; dans les contrats juridiques, elle peut signaler les clauses manquantes et les contradictions ; dans le domaine financier, elle peut être utilisée pour la détection des fraudes et l’identification des erreurs dans les rapports financiers. Il estime que l’automatisation de la vérification des erreurs est élevée et peu intrusive ; même avec un taux de faux positifs de 50 %, la vérification manuelle est relativement facile et peut libérer les humains de tâches fastidieuses. Cependant, il faut également se méfier du risque de déclin des capacités humaines dû à une dépendance excessive à l’IA (Source: random_walker)
Interview de Sam Altman : L’IA simplifiera le travail, offrira des interactions sociales personnalisées et stimulera les découvertes scientifiques: Le fondateur d’OpenAI, Sam Altman, a prédit dans une interview que d’ici 5 à 10 ans, les outils de programmation et de conversation IA deviendront plus intelligents et pourront automatiser la plupart des tâches. L’IA pourrait apporter de nouvelles expériences sociales, offrir des services personnalisés et aider à découvrir de nouvelles connaissances scientifiques, en particulier dans les domaines à forte intensité de données comme l’astrophysique ou la physique des hautes énergies. Il a souligné que la véritable transformation de l’IA réside non seulement dans sa capacité à penser, mais aussi à agir dans le monde physique, les robots humanoïdes étant un défi clé. La vision d’OpenAI est de faire de l’IA un « compagnon IA » omniprésent, grâce à la plateformisation et aux partenariats matériels. Il considère la culture et la vision à long terme comme les principaux atouts concurrentiels d’OpenAI (Source: 36氪)