Mots-clés:DeepSeek-V3-0526, Grok 3, Intelligence incarnée, Agent IA, Apprentissage par renforcement, Grand modèle linguistique, Multimodal, DeepSeek-V3-0526 performances comparables à GPT-4.5, Problème d’identification du mode de pensée de Grok 3, Modèle mondial EVAC du robot Zhiyuan, Extension de la durée de génération vidéo RIFLEx de l’université Tsinghua, IBM watsonx Orchestrate pour les entreprises IA
🔥 À la Une
Le modèle DeepSeek-V3-0526 pourrait être lancé, se positionnant face à GPT-4.5 et Claude 4 Opus: Des informations communautaires indiquent que DeepSeek pourrait bientôt lancer la dernière version mise à jour de son modèle V3, DeepSeek-V3-0526. Selon la page de documentation d’Unsloth, les performances de ce modèle seraient comparables à celles de GPT-4.5 et Claude 4 Opus, et il pourrait devenir le modèle open source le plus performant au monde. Cela marquerait la deuxième mise à jour majeure de DeepSeek pour son modèle V3. Unsloth a déjà préparé une version quantifiée (GGUF) de ce modèle, utilisant sa méthode « Unsloth Dynamic 2.0 », visant à minimiser la perte de précision. La communauté suit cela avec une grande attention, attendant avec impatience ses performances, notamment en matière de traitement de longs contextes. (Source: Reddit r/LocalLLaMA, Reddit r/LocalLLaMA)

Grok 3 en mode “Think” s’identifie comme Claude 3.5 Sonnet, suscitant l’attention: Le modèle Grok 3 de xAI, lorsqu’il est en mode « Think » et interrogé sur son identité, s’identifie systématiquement comme Claude 3.5 Sonnet d’Anthropic, et non comme Grok. Cependant, en mode normal, il s’identifie correctement comme Grok. Ce phénomène est spécifique au mode et au modèle, et non une hallucination aléatoire. Les utilisateurs peuvent reproduire ce comportement en demandant directement « Es-tu Claude ? », ce à quoi Grok 3 répond « Oui, je suis Claude, un assistant IA créé par Anthropic ». Ce phénomène a suscité des discussions au sein de la communauté, et sa cause technique exacte attend une explication officielle, pouvant impliquer les données d’entraînement du modèle, des mécanismes internes ou une logique de commutation de mode spécifique. (Source: Reddit r/MachineLearning)

Zhiyuan Robot publie en open source EVAC, un modèle du monde piloté par des séquences d’actions robotiques, et le benchmark EWMBench: Zhiyuan Robot a publié et mis en open source son modèle du monde incarné piloté par des séquences d’actions robotiques, EVAC (EnerVerse-AC), ainsi que le benchmark d’évaluation des modèles du monde incarné EWMBench. EVAC peut reproduire dynamiquement les interactions complexes entre le robot et l’environnement. Grâce à un mécanisme d’injection conditionnelle d’actions à plusieurs niveaux, il réalise une génération de bout en bout des dynamiques visuelles à partir des actions physiques, et prend en charge la génération collaborative multi-vues. EWMBench évalue les modèles du monde incarné sous trois aspects : la cohérence de la scène, la rationalité des actions, ainsi que l’alignement sémantique et la diversité. Cette initiative vise à construire un paradigme de développement « simulation à faible coût – évaluation standardisée – itération efficace » pour promouvoir le développement de la technologie de l’intelligence incarnée. (Source: WeChat)

ICRA 2025 annonce les meilleurs articles, les équipes de Lu Cewu et Shao Lin récompensées: La Conférence internationale IEEE sur la robotique et l’automatisation 2025 (ICRA 2025) a annoncé les prix des meilleurs articles. L’article « Human – Agent Joint Learning for Efficient Robot Manipulation Skill Acquisition », fruit d’une collaboration entre l’équipe de Lu Cewu de l’Université Jiao Tong de Shanghai et l’Université de l’Illinois à Urbana-Champaign (UIUC), a remporté le prix du meilleur article sur l’interaction homme-robot. Cette recherche propose un cadre d’apprentissage conjoint homme-agent (HAJL) qui améliore l’efficacité de l’apprentissage des compétences de manipulation robotique grâce à un mécanisme de partage dynamique du contrôle. L’article « D(R,O) Grasp: A Unified Representation of Robot and Object Interaction for Cross-Embodiment Dexterous Grasping » de l’équipe de Shao Lin de l’Université nationale de Singapour a remporté le prix du meilleur article sur la manipulation et le mouvement des robots. Cette recherche introduit la notation D(R,O) pour unifier l’interaction entre la main du robot et l’objet, améliorant ainsi la généralisabilité et l’efficacité de la préhension dextre. (Source: WeChat)

L’équipe de Zhu Jun de Tsinghua publie RIFLEx, une ligne de code pour dépasser la limite de durée de génération vidéo: L’équipe de Zhu Jun de l’Université Tsinghua a lancé la technologie RIFLEx, qui, avec une seule ligne de code et sans entraînement supplémentaire, permet d’étendre la durée de génération des modèles Transformer de diffusion vidéo basés sur RoPE (Rotary Position Embedding). Cette méthode ajuste la « fréquence intrinsèque » de RoPE pour s’assurer que la longueur de la vidéo extrapolée reste dans un cycle unique, évitant ainsi les problèmes de répétition de contenu et de ralenti. RIFLEx a été appliqué avec succès à des modèles tels que CogvideoX, Hunyuan et Tongyi Wanxiang, doublant la durée des vidéos (par exemple, de 5-6 secondes à plus de 10 secondes) et prenant en charge l’extrapolation des dimensions spatiales de l’image. Ce résultat a été publié à l’ICML 2025 et a suscité une large attention et intégration au sein de la communauté. (Source: WeChat)

🎯 Tendances
Des détails sur le modèle DeepSeek-V3-0526 fuitent, le positionnant face à GPT-4.5 et Claude 4 Opus: Selon la documentation d’Unsloth et les discussions communautaires, DeepSeek s’apprête à lancer la dernière version de son modèle V3, DeepSeek-V3-0526. Ce modèle aurait des performances comparables à celles de GPT-4.5 et Claude 4 Opus, et pourrait devenir le modèle open source le plus performant au monde. Unsloth a déjà préparé pour lui une version quantifiée GGUF à 1,78 bit, utilisant sa méthode « Unsloth Dynamic 2.0 », conçue pour une exécution locale avec une perte de précision minimale. La communauté attend avec impatience cette mise à jour, s’intéressant particulièrement à ses performances concrètes en matière de traitement de longs contextes, de capacités de raisonnement, etc. (Source: Reddit r/LocalLLaMA, Reddit r/LocalLLaMA)

L’agent Tongyi AMPO réalise un raisonnement adaptatif, imitant la polyvalence sociale humaine: Le laboratoire Tongyi d’Alibaba a proposé un cadre d’apprentissage de modes adaptatifs (AML) et son algorithme d’optimisation AMPO, permettant aux agents linguistiques sociaux de basculer dynamiquement entre quatre modes de pensée prédéfinis (réaction intuitive, analyse d’intention, adaptation stratégique, déduction prospective) en fonction du contexte de la conversation. Cette méthode vise à rendre les agents IA plus flexibles dans les interactions sociales, en évitant la réflexion excessive ou insuffisante des modes fixes. Les expériences montrent qu’AMPO améliore les performances des tâches tout en réduisant efficacement la consommation de tokens, surpassant des modèles comme GPT-4o sur des benchmarks de tâches sociales tels que SOTOPIA. (Source: WeChat)

QwenLong-L1 : L’apprentissage par renforcement pour améliorer les grands modèles de langage de raisonnement sur textes longs: Cette étude présente le cadre QwenLong-L1, visant à étendre les grands modèles de raisonnement (LRM) existants aux scénarios de textes longs grâce à l’apprentissage par renforcement (RL). La recherche définit d’abord le paradigme du RL pour le raisonnement sur textes longs et identifie les défis tels que la faible efficacité de l’entraînement et l’instabilité du processus d’optimisation. QwenLong-L1 aborde ces problèmes grâce à une stratégie d’extension progressive du contexte, comprenant : l’utilisation du fine-tuning supervisé (SFT) pour l’initialisation afin d’établir une politique initiale robuste, l’adoption de techniques de RL par étapes guidées par un curriculum pour stabiliser l’évolution de la politique, et la stimulation de l’exploration de la politique par une stratégie d’échantillonnage rétrospectif sensible à la difficulté. Dans sept benchmarks de questions-réponses sur textes longs, QwenLong-L1-32B surpasse des modèles tels que OpenAI-o3-mini et Qwen3-235B-A22B, avec des performances comparables à Claude-3.7-Sonnet-Thinking. (Source: HuggingFace Daily Papers)
QwenLong-CPRS : Optimisation dynamique du contexte pour des LLM à “longueur infinie”: Ce rapport technique présente QwenLong-CPRS, un cadre de compression de contexte conçu pour l’optimisation explicite des textes longs. Il vise à résoudre les problèmes de coût de calcul excessif des LLM lors de la phase de pré-remplissage et de la dégradation des performances dite de “perte au milieu” lors du traitement de longues séquences. QwenLong-CPRS, grâce à un mécanisme novateur d’optimisation dynamique du contexte, réalise une compression de contexte multi-granularité guidée par des instructions en langage naturel, améliorant ainsi l’efficacité et les performances. Ce cadre, évoluant à partir de la série d’architectures Qwen, introduit une optimisation dynamique guidée par le langage naturel, une couche de raisonnement bidirectionnel à perception des frontières améliorée, un mécanisme de révision des tokens avec une tête de modélisation du langage et un raisonnement parallèle par fenêtrage. Sur cinq benchmarks avec des contextes allant de 4K à 2M de mots, QwenLong-CPRS surpasse les méthodes RAG et d’attention clairsemée en termes de précision et d’efficacité, et peut s’intégrer avec des LLM phares, y compris GPT-4o, pour une compression de contexte et une amélioration des performances significatives. (Source: HuggingFace Daily Papers)
RIPT-VLA : Fine-tuning de modèles vision-langage-action par apprentissage par renforcement interactif: Des chercheurs proposent RIPT-VLA, un paradigme de post-entraînement interactif basé sur l’apprentissage par renforcement, utilisant uniquement des récompenses de succès binaires et clairsemées pour affiner les modèles vision-langage-action (VLA) pré-entraînés. Cette méthode vise à surmonter la dépendance excessive des processus d’entraînement VLA actuels aux données de démonstration expertes hors ligne et à l’apprentissage par imitation supervisé, leur permettant de s’adapter à de nouvelles tâches et environnements avec peu de données. RIPT-VLA, grâce à un algorithme d’optimisation de politique stable basé sur l’échantillonnage dynamique du déploiement et l’estimation de l’avantage par leave-one-out, a été appliqué à divers modèles VLA, améliorant significativement le taux de succès des modèles légers QueST et des modèles 7B OpenVLA-OFT, avec une efficacité élevée en termes de calcul et de données. (Source: HuggingFace Daily Papers)
IBM lance watsonx Orchestrate, une solution d’agents IA améliorée: Lors de la conférence Think 2025, IBM a annoncé une version améliorée de watsonx Orchestrate, offrant des agents spécialisés pré-construits (par exemple, pour les ressources humaines, les ventes, les achats), permettant aux entreprises de créer rapidement des AI Agents personnalisés et de réaliser une collaboration multi-agents grâce à des outils d’orchestration d’agents. La plateforme met l’accent sur la gestion complète du cycle de vie des AI Agents, y compris la surveillance des performances, la protection, l’optimisation des modèles et la gouvernance. IBM estime que l’essence de l’IA d’entreprise est la refonte des processus métier, et qu’il faut se concentrer sur la valeur de l’IA pour résoudre les problèmes métier concrets et créer des résultats quantifiables, plutôt que de poursuivre uniquement la technologie elle-même. (Source: WeChat)

L’Université Beihang publie le cadre UAV-Flow pour un contrôle fin de la trajectoire des drones guidé par le langage: L’équipe du professeur Liu Si de l’Université d’aéronautique et d’astronautique de Pékin (Beihang) a proposé le cadre UAV-Flow, définissant le paradigme de tâche Flying-on-a-Word (Flow), visant à réaliser un contrôle de vol réactif à courte distance et de haute précision pour les drones via des instructions en langage naturel. L’équipe a adopté une méthode d’apprentissage par imitation, permettant au drone d’apprendre les stratégies opérationnelles des pilotes humains en environnement réel. Pour ce faire, ils ont construit un vaste ensemble de données d’apprentissage par imitation de drones guidées par le langage en monde réel, et ont établi le benchmark d’évaluation UAV-Flow-Sim en environnement simulé. Ce modèle vision-langage-action (VLA) a été déployé avec succès sur une plateforme de drone réelle, validant la faisabilité du contrôle de vol basé sur le dialogue en langage naturel. (Source: WeChat)

ByteDance lance Seedream 2.0, optimisant la génération d’images bilingues anglais-chinois et le rendu de texte: Pour pallier les insuffisances des modèles de génération d’images existants dans le traitement des détails culturels chinois, des invites de texte bilingues et du rendu de texte, ByteDance a publié Seedream 2.0. Ce modèle, en tant que modèle de base pour la génération d’images bilingues anglais-chinois, intègre un grand modèle de langage bilingue auto-développé comme encodeur de texte, applique Glyph-Aligned ByT5 pour le rendu de texte au niveau des caractères, et Scaled RoPE prend en charge la généralisation à des résolutions non entraînées. Grâce à un post-entraînement multi-étapes et à une optimisation RLHF, Seedream 2.0 excelle dans le suivi des invites, l’esthétique, le rendu de texte et la correction structurelle, et peut facilement s’adapter à l’édition d’images basée sur des instructions. (Source: HuggingFace Daily Papers)
Le framework RePrompt utilise l’apprentissage par renforcement pour améliorer les invites de génération texte-image: Pour résoudre le problème des modèles texte-image (T2I) qui peinent à capturer avec précision l’intention de l’utilisateur à partir d’invites courtes ou ambiguës, des chercheurs ont proposé le framework RePrompt. Ce framework introduit un raisonnement explicite dans le processus d’amélioration des invites via l’apprentissage par renforcement, entraînant un modèle de langage à générer des invites structurées et auto-réflexives, et les optimisant en fonction des résultats au niveau de l’image (préférences humaines, alignement sémantique, composition visuelle). Cette méthode permet un entraînement de bout en bout sans données annotées manuellement et améliore significativement la fidélité de la disposition spatiale et la capacité de généralisation compositionnelle sur des benchmarks tels que GenEval et T2I-Compbench. (Source: HuggingFace Daily Papers)
NOVER : Entraînement incitatif de modèles de langage par apprentissage par renforcement sans vérificateur: Inspiré par des recherches telles que DeepSeek R1-Zero, ce travail propose le cadre NOVER (NO-VERifier Reinforcement Learning), visant à résoudre le problème de la dépendance des méthodes d’entraînement incitatif existantes (qui récompensent la génération d’étapes de raisonnement intermédiaires par le modèle en fonction de la réponse finale) à des vérificateurs externes. NOVER ne nécessite que des données de fine-tuning supervisé standard, sans vérificateur externe, pour réaliser un entraînement incitatif pour diverses tâches texte-texte. Les expériences montrent que NOVER surpasse en performance les modèles distillés à partir de grands modèles de raisonnement tels que DeepSeek R1 671B à taille équivalente, et offre de nouvelles possibilités pour l’optimisation des grands modèles de langage (comme l’entraînement incitatif inversé). (Source: HuggingFace Daily Papers)
Direct3D-S2 : Cadre de génération 3D à l’échelle du milliard basé sur l’attention spatiale clairsemée: Pour relever les défis de calcul et de mémoire liés à la génération de formes 3D haute résolution (telles que les représentations SDF), les chercheurs proposent le cadre Direct3D S2. Ce cadre, basé sur des volumes clairsemés, améliore considérablement l’efficacité de calcul des Diffusion Transformers sur des données volumiques clairsemées grâce à un mécanisme innovant d’attention spatiale clairsemée (SSA), réalisant une accélération de 3,9 fois en propagation avant et de 9,6 fois en propagation arrière. Le cadre comprend un auto-encodeur variationnel (VAE) qui maintient un format de volume clairsemé cohérent aux étapes d’entrée, latente et de sortie, améliorant l’efficacité et la stabilité de l’entraînement. Ce modèle, entraîné sur des ensembles de données publics, a démontré lors d’expériences sa supériorité sur les méthodes existantes en termes de qualité de génération et d’efficacité, et peut effectuer un entraînement à une résolution de 1024 avec 8 GPU. (Source: HuggingFace Daily Papers)
L’application Doubao lance une fonction d’appel vidéo, améliorant l’expérience interactive de l’assistant IA: L’application d’assistant IA Doubao de ByteDance a ajouté une fonction d’appel vidéo. Les utilisateurs peuvent interagir en temps réel avec Doubao par appel vidéo, par exemple pour identifier des objets (comme des plantes, des produits de santé), obtenir des instructions d’utilisation (comme réinitialiser un téléphone), etc. Cette fonction vise à réduire la barrière à l’entrée pour l’utilisation des outils d’IA, en particulier pour les groupes d’utilisateurs peu familiers avec le téléchargement de photos ou l’interaction par texte, offrant un moyen d’interaction plus naturel et direct, et renforçant le sentiment de compagnie et l’utilité de l’assistant IA. (Source: WeChat)

Le modèle Veo 3 est désormais accessible à certains utilisateurs, la plateforme Flow prend en charge le téléchargement d’images: Le modèle de génération vidéo Veo 3 de Google est désormais accessible à certains utilisateurs, ne se limitant plus aux membres Ultra. Parallèlement, sa plateforme Flow (probablement AI Test Kitchen ou une autre plateforme expérimentale) permet désormais aux utilisateurs de télécharger des images pour les manipuler ou les utiliser comme matériel de génération, élargissant ainsi ses capacités d’interaction multimodale. Cela indique que Google étend progressivement la portée des tests et de l’utilisation de ses modèles d’IA avancés. (Source: WeChat)
Le faible nombre de téléchargements du grand modèle national indien Sarvam-M après sa sortie suscite la controverse: Sarvam AI a lancé Sarvam-M, un modèle de langage mixte de 24 milliards de paramètres basé sur Mistral Small, prenant en charge 10 langues locales indiennes, considéré comme une percée dans la recherche indienne en IA. Cependant, deux jours après sa mise en ligne sur Hugging Face, le modèle n’avait été téléchargé qu’un peu plus de trois cents fois, bien moins que certains petits projets, ce qui a conduit des investisseurs comme Deedy Das et d’autres personnalités du secteur à critiquer ses « résultats non conformes au financement » et son « manque d’utilité pratique ». Sarvam AI a répondu qu’il fallait se concentrer sur la contribution du processus de construction du modèle à la communauté et a accusé les critiques de ne pas l’avoir réellement testé. Cette affaire a déclenché un vaste débat sur la nécessité des modèles d’IA locaux indiens, l’adéquation produit-marché et les attentes de la communauté. (Source: WeChat)

Kunlun Tech lance l’agent superintelligent Tiangong, limité en raison d’une forte affluence initiale: Kunlun Tech a officiellement lancé l’agent superintelligent Tiangong, qui adopte une architecture AI Agent et la technologie Deep Research, capable de générer en une seule fois des documents, des PPT, des tableurs, des pages web, des podcasts et des contenus audio/vidéo multimodaux. Le système est composé de 5 agents experts et d’un agent généraliste. Trois heures seulement après son lancement, le service a connu des ralentissements en raison d’un afflux massif d’utilisateurs, et l’entreprise a annoncé des mesures de limitation du trafic. (Source: WeChat)
Nvidia lance le modèle de fondation pour robot humanoïde N1.5 et le supercalculateur IA personnel DGX: Lors du salon Computex Taipei, Jensen Huang, PDG de Nvidia, a dévoilé la nouvelle génération de modèle de fondation pour robot humanoïde, Isaac GR00T N1.5, qui, grâce à la technologie des données synthétiques, réduit le cycle d’entraînement de 3 mois à 36 heures. Parallèlement, ont été présentés le modèle du monde Cosmos Reason, l’outil de simulation open source Isaac Sim 5.0 et la station de travail RTX PRO 6000. De plus, Nvidia a lancé les systèmes de supercalculateurs IA personnels DGX Spark et DGX Station. DGX Spark est équipé de la super-puce GB10 Grace Blackwell, et DGX Station de la super-puce de bureau GB300 Grace Blackwell Ultra, visant à fournir aux développeurs une puissante capacité de calcul IA. (Source: WeChat)
Microsoft Build 2025 met l’accent sur les AI Agents, GitHub Copilot devient un partenaire de programmation: La conférence des développeurs Microsoft Build 2025 a mis en avant les applications des AI Agents. GitHub Copilot passe d’assistant de code à partenaire Agent, capable d’accomplir de manière autonome des tâches telles que la correction d’erreurs et le développement de nouvelles fonctionnalités. Microsoft a également lancé Windows AI Foundry, pour aider les développeurs à gérer et exécuter des LLM open source et à migrer des modèles propriétaires. Microsoft 365 Copilot Tuning permet aux utilisateurs d’exploiter les données et la logique métier de l’entreprise pour entraîner des modèles et créer des agents intelligents en mode low-code. (Source: WeChat)
Tencent améliore sa plateforme de développement d’agents intelligents TCADP et prévoit de mettre plusieurs modèles en open source: Lors du sommet sur les applications industrielles de l’IA de Tencent Cloud, Tencent Cloud a annoncé que son moteur de connaissances pour grands modèles était mis à niveau vers la plateforme de développement d’agents intelligents de Tencent Cloud (TCADP) et officiellement lancé au public, intégrant les modèles DeepSeek-R1, V3 et la recherche connectée. Tencent prévoit également de lancer le modèle de scène 3D Hunyuan World Model et de mettre en open source un modèle d’inférence hybride de niveau entreprise, un modèle d’inférence hybride côté terminal et un modèle de base multimodal. Récemment, Tencent Hunyuan a mis à jour son modèle de raisonnement visuel profond Hunyuan T1 Vision, son modèle d’appel vocal de bout en bout Hunyuan Voice et son modèle Hunyuan Image 2.0. (Source: WeChat)
JD Industrials lance Joy industrial, un grand modèle industriel axé sur la chaîne d’approvisionnement: JD Industrials a lancé Joy industrial, un grand modèle destiné au secteur industriel, centré sur les scénarios de la chaîne d’approvisionnement. Ce modèle propose des services d’agents IA tels que l’agent de demande, l’agent d’exploitation et l’agent douanier pour JD Industrials et ses fournisseurs en amont, et fournit aux entreprises clientes en aval des produits IA tels que l’expert produit et l’expert en intégration. L’objectif futur est de créer des grands modèles industriels pour des secteurs verticaux tels que le marché de l’après-vente automobile, les véhicules à énergie nouvelle et la fabrication de robots. (Source: WeChat)
🧰 Outils
Wenxiaobai AI lance la fonction “Xiaobai Research Report”, une expérience de type Deep Research: Wenxiaobai AI a ajouté une nouvelle fonction “Xiaobai Research Report”, basée sur son modèle auto-développé Yuanshi. Elle peut simuler la pensée humaine pour effectuer plusieurs cycles de réflexion et d’appels à des outils, générant automatiquement des rapports de recherche approfondis, des articles, des analyses sectorielles, etc., présentés sous forme de page web visualisée et exportables en PDF/DOCX. Les utilisateurs n’ont besoin que d’instructions simples pour obtenir en environ 20 minutes un rapport de dix mille mots contenant des analyses de données, des graphiques et l’intégration d’informations multi-sources. Cette fonction est applicable à divers scénarios tels que l’interprétation de rapports financiers, les études de marché, les recommandations de produits, etc., visant à améliorer considérablement l’efficacité du traitement de l’information et de la rédaction de rapports. (Source: WeChat)

AI Baby Monitor : Application de surveillance de bébé par LLM vidéo localisé: Un développeur a créé une application de surveillance de bébé par LLM vidéo localisé appelée AI Baby Monitor. L’application observe un flux vidéo et prend des décisions basées sur des instructions de sécurité prédéfinies, émettant un bip d’alerte lorsqu’une violation des règles de sécurité est détectée. Le projet utilise Qwen 2.5VL et vLLM, avec Redis pour l’orchestration des flux et Streamlit pour l’interface utilisateur. L’intention initiale du développeur était de surveiller sa fille qui tentait de sortir de son berceau, et il l’a également utilisé pour surveiller son propre comportement de consultation inconsciente de son téléphone. Des fonctionnalités futures incluent la prise en charge de davantage de backends et de “zones interdites” pour les images. (Source: Reddit r/LocalLLaMA)

Beelzebub : Cadre de honeypot open source utilisant des LLM pour construire des systèmes de déception avancés: Beelzebub est un cadre de honeypot open source qui intègre de manière innovante des grands modèles de langage (LLM) pour créer des environnements de déception hautement réalistes et dynamiques. Ce cadre peut simuler un système d’exploitation entier et interagir avec les attaquants de manière extrêmement convaincante. Par exemple, dans un scénario de honeypot SSH, le LLM peut fournir des réponses plausibles aux commandes, même si ces commandes ne sont pas exécutées sur un système réel. Son objectif est d’attirer les attaquants le plus longtemps possible, de les détourner des systèmes réels et de collecter des données précieuses sur leurs tactiques, techniques et procédures. Le projet est open source sur GitHub et sollicite les retours et contributions de la communauté. (Source: Reddit r/LocalLLaMA)

Langflow : Puissant outil de construction et de déploiement d’agents et de workflows IA: Langflow est un outil pour construire et déployer des agents et des workflows alimentés par l’IA. Il offre une expérience de construction visuelle et un serveur API intégré, transformant chaque agent en un point de terminaison API pour une intégration facile dans diverses applications. Langflow prend en charge les principaux LLM, les bases de données vectorielles et une bibliothèque croissante d’outils d’IA. Il dispose de fonctionnalités d’orchestration multi-agents, de gestion des dialogues, d’un Playground pour des tests instantanés, d’un accès au code, d’une intégration de l’observabilité (comme LangSmith) ainsi que d’une sécurité et d’une extensibilité de niveau entreprise. Le projet est open source et disponible en service entièrement géré via DataStax. (Source: GitHub Trending)
Pathway : Cadre ETL de traitement de flux Python, prenant en charge l’analyse en temps réel et les pipelines LLM: Pathway est un cadre ETL Python conçu pour le traitement de flux, l’analyse en temps réel, les pipelines LLM et le RAG (Retrieval Augmented Generation). Il fournit une API Python facile à utiliser, intégrable avec diverses bibliothèques ML Python. Son code est utilisable de manière interchangeable dans les environnements de développement et de production, traitant efficacement les données en batch et en flux. Pathway est alimenté par un moteur Rust évolutif basé sur Differential Dataflow, prenant en charge le calcul incrémental, le multithreading, le multiprocesseur et le calcul distribué. L’ensemble du pipeline reste en mémoire et est facile à déployer via Docker et Kubernetes. (Source: GitHub Trending)
Point-Battle : Arène de compétition pour la capacité de pointage guidée par le langage des MLLM: Des membres de la communauté invitent à essayer Point-Battle, une plateforme évaluant les performances des principaux grands modèles de langage multimodaux (MLLM) actuels sur des tâches de pointage guidées par le langage. Les utilisateurs peuvent télécharger des images ou choisir des images prédéfinies, saisir des invites, observer comment chaque modèle « pointe » sa réponse, et voter pour le modèle le plus performant. Cela aide les chercheurs et les développeurs à comprendre les différences de capacité des MLLM à comprendre le contenu visuel et à effectuer une localisation spatiale basée sur des instructions textuelles. (Source: Reddit r/deeplearning)
FullFront : Benchmark pour évaluer les capacités des MLLM dans le processus complet d’ingénierie front-end: FullFront est un nouveau benchmark conçu pour évaluer les capacités des grands modèles de langage multimodaux (MLLM) dans l’ensemble du processus de développement front-end, y compris la conception de pages web (conceptualisation), les questions-réponses basées sur la perception des pages web (organisation visuelle et compréhension des éléments) et la génération de code web (implémentation). Contrairement aux benchmarks existants, FullFront utilise un processus en deux étapes pour convertir les pages web réelles en HTML propre et standardisé, tout en maintenant la diversité de la conception visuelle et en évitant les problèmes de droits d’auteur. Des tests approfondis sur les MLLM de pointe révèlent leurs limitations significatives en matière de perception des pages, de génération de code (en particulier le traitement des images et la mise en page) et d’implémentation des interactions. (Source: HuggingFace Daily Papers)
📚 Apprentissage
Menlo Research publie le modèle SpeechLess, permettant l’entraînement aux commandes vocales sans données vocales: L’article « SpeechLess » de Menlo Research a été accepté à Interspeech 2025, et le modèle correspondant a été publié. Cette recherche aborde le défi du manque de données de commandes vocales pour les langues à faibles ressources, en proposant une méthode pour entraîner des modèles de commandes vocales en utilisant uniquement des données synthétiques. Les étapes clés comprennent : 1. Conversion de la parole réelle en tokens discrets (entraînement d’un quantificateur) ; 2. Entraînement du modèle SpeechLess pour générer des tokens vocaux simulés à partir de texte ; 3. Utilisation de ce pipeline texte-vers-tokens vocaux synthétiques pour entraîner un LLM à l’apprentissage des commandes vocales. Les résultats montrent qu’un entraînement sur des tokens vocaux entièrement synthétiques est très efficace, ouvrant de nouvelles voies pour la construction de systèmes vocaux dans des scénarios à faibles ressources. (Source: Reddit r/LocalLLaMA)

Algorithme de compression de texte évolué par mutation de code pilotée par LLM: Un développeur a tenté d’utiliser un LLM (grand modèle de langage) pour faire évoluer un algorithme de compression de texte en introduisant de petites mutations dans le code d’un simple compresseur de texte de style LZ77. La méthode procède par plusieurs générations d’évolution, conservant à chaque génération les élites et les survivants, les parents produisant des descendants. Le critère de sélection est purement basé sur le taux de compression ; si un aller-retour compression-décompression échoue, le candidat est rejeté. L’expérience a permis d’améliorer le taux de compression de 1,03 à 1,85 en 30 générations. Le projet est open source sur GitHub (think-a-tron/minevolve). (Source: Reddit r/MachineLearning)

Quartet : L’entraînement natif FP4 permet d’atteindre les meilleures performances pour les LLM: Avec l’explosion des besoins de calcul des LLM, l’entraînement avec des algorithmes de faible précision est devenu essentiel pour améliorer l’efficacité. L’architecture NVIDIA Blackwell prend en charge les opérations FP4, mais les algorithmes d’entraînement FP4 existants sont confrontés à une baisse de précision et à une dépendance à la précision mixte. Des chercheurs ont systématiquement étudié l’entraînement FP4 supporté par le matériel et ont proposé la méthode Quartet, qui réalise un entraînement FP4 de bout en bout, où les calculs principaux sont effectués en faible précision. Grâce à une évaluation approfondie sur des modèles de type Llama, de nouvelles lois d’échelle en faible précision ont été révélées, quantifiant les compromis de performance pour différentes largeurs de bits et identifiant Quartet comme une technique d’entraînement en faible précision quasi optimale en termes de précision et de calcul. En utilisant des noyaux CUDA optimisés, Quartet a réussi à atteindre une précision FP4 de pointe sur des modèles à l’échelle du milliard de paramètres. (Source: HuggingFace Daily Papers)
Apprentissage par renforcement avec données synthétiques (Synthetic Data RL) : Affiner les modèles uniquement à partir de la définition de la tâche: Cette étude propose le cadre Synthetic Data RL, qui affine les modèles par apprentissage par renforcement en utilisant uniquement des données synthétiques générées à partir de la définition de la tâche. La méthode génère d’abord des paires de questions-réponses à partir de la définition de la tâche et de documents récupérés, puis ajuste la difficulté des questions en fonction de la capacité du modèle à les résoudre, et sélectionne les questions pour l’entraînement RL en fonction du taux de réussite moyen du modèle sur les échantillons. Sur Qwen-2.5-7B, cette méthode a obtenu des améliorations significatives sur plusieurs benchmarks tels que GSM8K, MATH, GPQA, surpassant le fine-tuning supervisé et se rapprochant des résultats du RL utilisant des données humaines complètes, montrant un potentiel pour réduire l’annotation manuelle. (Source: HuggingFace Daily Papers)
TabSTAR : Modèle de fondation tabulaire avec représentations sémantiques sensibles à l’objectif: Bien que l’apprentissage profond ait connu du succès dans de nombreux domaines, il est encore surpassé par les arbres de décision à gradient boosting (GBDT) pour les tâches d’apprentissage tabulaire. Des chercheurs présentent TabSTAR, un modèle de fondation tabulaire avec des représentations sémantiques sensibles à l’objectif, conçu pour le transfert d’apprentissage sur des données tabulaires contenant des caractéristiques textuelles. TabSTAR déverrouille un encodeur de texte pré-entraîné et lui fournit des tokens cibles, donnant au modèle le contexte nécessaire pour apprendre des embeddings spécifiques à la tâche. Ce modèle atteint des performances de pointe sur des tâches de classification avec des caractéristiques textuelles, pour des ensembles de données de taille moyenne à grande, et sa phase de pré-entraînement démontre une loi d’échelle en fonction du nombre d’ensembles de données. (Source: HuggingFace Daily Papers)
TIME : Benchmark de raisonnement temporel LLM multi-niveaux pour des scénarios du monde réel: Le raisonnement temporel est crucial pour que les LLM comprennent le monde réel. Les travaux existants négligent les défis du raisonnement temporel dans le monde réel : informations temporelles denses, dynamiques d’événements en évolution rapide et dépendances temporelles complexes des interactions sociales. Pour y remédier, les chercheurs proposent le benchmark multi-niveaux TIME, comprenant 38 522 paires QA, couvrant 3 niveaux et 11 sous-tâches granulaires, ainsi que trois sous-ensembles de données TIME-Wiki, TIME-News et TIME-Dial, reflétant respectivement différents défis du monde réel. L’étude a mené des expériences approfondies et des analyses détaillées sur divers modèles, et a publié un sous-ensemble annoté manuellement, TIME-Lite. (Source: HuggingFace Daily Papers)
Raisonnement LLM et prise de notes dynamique : Améliorer la capacité de réponse aux questions complexes: Le RAG itératif, lors du traitement de questions à plusieurs sauts, est confronté aux défis d’un contexte trop long et de l’accumulation d’informations non pertinentes, ce qui affecte la capacité de traitement et de raisonnement du modèle. Des chercheurs proposent la méthode « Notes Writing » (écriture de notes), qui génère à chaque étape des notes concises et pertinentes à partir des documents récupérés, réduisant le bruit, préservant les informations clés, et augmentant ainsi indirectement la longueur de contexte effective du LLM, améliorant ses capacités de raisonnement et de planification. Cette méthode, indépendante du cadre, peut être intégrée à différentes méthodes RAG itératives et a montré des améliorations de performance significatives lors des expériences. (Source: HuggingFace Daily Papers)
Cadre s3 : Entraîner des agents de recherche efficaces par RL avec peu de données: Les systèmes de Retrieval Augmented Generation (RAG) permettent aux LLM d’accéder à des connaissances externes. Des recherches récentes utilisent l’apprentissage par renforcement (RL) pour que les LLM agissent comme des agents de recherche, mais les méthodes existantes optimisent soit la récupération en ignorant l’utilité en aval, soit affinent l’ensemble du LLM, couplant ainsi la récupération et la génération. Les chercheurs proposent le cadre s3, une méthode légère et indépendante du modèle, qui découple le chercheur du générateur et utilise le « Gain Beyond RAG » (gain au-delà du RAG) comme récompense pour entraîner le chercheur. s3 ne nécessite que 2,4k échantillons d’entraînement pour surpasser les lignes de base utilisant plus de 70 fois plus de données, et obtient de meilleures performances sur plusieurs benchmarks de QA. (Source: HuggingFace Daily Papers)
ReflAct : Prise de décision d’agents LLM dans le monde par réflexion sur l’état cible: Les agents LLM existants (tels que ceux basés sur ReAct), lorsqu’ils entrelacent la réflexion et l’action dans des environnements complexes, produisent souvent un raisonnement peu ancré ou incohérent, conduisant à un décalage entre l’état réel et l’objectif. Les chercheurs analysent que cela provient de la difficulté de ReAct à maintenir des croyances internes cohérentes et un alignement sur l’objectif. Pour y remédier, ils proposent ReflAct, un nouveau réseau de base qui déplace le raisonnement de la planification de la prochaine action vers une réflexion continue sur l’état de l’agent par rapport à son objectif. En basant explicitement les décisions sur l’état et en forçant un alignement continu sur l’objectif, ReflAct améliore considérablement la fiabilité de la politique, surpassant largement ReAct sur des tâches telles qu’ALFWorld. (Source: HuggingFace Daily Papers)
FREESON : Cadre de raisonnement amélioré par la recherche sans récupérateur: Les grands modèles de raisonnement (LRM) excellent dans le raisonnement en plusieurs étapes et l’appel à des moteurs de recherche, mais les méthodes actuelles d’amélioration par la recherche reposent sur des modèles de récupération indépendants, limitant le rôle des LRM dans la recherche et pouvant entraîner des erreurs dues à des goulots d’étranglement de représentation. Les chercheurs proposent le cadre FREESON, qui permet aux LRM de récupérer eux-mêmes des connaissances en agissant à la fois comme générateur et récupérateur. Ce cadre introduit l’algorithme CT-MCTS, spécifiquement conçu pour les tâches de récupération, permettant au LRM de parcourir le corpus vers les régions de réponse. Les expériences montrent que FREESON surpasse de manière significative les modèles de raisonnement en plusieurs étapes utilisant des récupérateurs indépendants sur plusieurs benchmarks de QA en domaine ouvert. (Source: HuggingFace Daily Papers)
LLMSynthor : L’Université McGill propose un nouveau cadre pour la synthèse de données statistiquement contrôlée: Pour remédier aux lacunes des méthodes de synthèse de données existantes en termes de plausibilité, de cohérence de distribution et d’extensibilité, l’équipe de l’Université McGill a lancé le cadre LLMSynthor. Ce cadre ne fait pas directement générer des données par les grands modèles, mais les transforme en « générateurs conscients de la structure ». Grâce au raisonnement structurel, à l’alignement statistique (comparaison de résumés statistiques plutôt que de données brutes), à la génération de règles de distribution échantillonnables (plutôt que d’échantillons individuels) et à un processus d’alignement itératif, il génère des ensembles de données synthétiques structurellement et statistiquement très proches des données réelles et conformes au bon sens. Cette méthode bénéficie d’une garantie de convergence théorique et a été validée dans plusieurs scénarios réels tels que les transactions de commerce électronique, les données démographiques et la mobilité urbaine, et est compatible avec divers grands modèles. (Source: 量子位)

💼 Affaires
Hygon Information et Sugon envisagent une restructuration d’actifs majeure, potentiellement une fusion: La société de conception de puces Hygon Information et le géant du supercalcul Sugon ont tous deux annoncé la suspension de leurs cotations. Hygon Information prévoit d’absorber Sugon par échange d’actions en émettant des actions A à tous les actionnaires d’actions A de Sugon, et prévoit également d’émettre des actions A pour lever des fonds complémentaires. Hygon Information se concentre sur la R&D de CPU et GPU haut de gamme, tandis que Sugon possède une solide expertise dans les serveurs et le calcul haute performance, et est le principal actionnaire de Hygon Information. Si cette fusion réussit, elle créera un géant national de la puissance de calcul d’une valeur boursière de près de 400 milliards de yuans, ce qui aura un impact profond sur le paysage de l’industrie chinoise de la puissance de calcul. (Source: 量子位, WeChat)

LMArena.ai répond à l’article de Cohere et lève 100 millions de dollars: Le classement de modèles d’IA LMArena.ai a répondu à la controverse avec la société Cohere concernant les tests de benchmark et a récemment annoncé une levée de fonds de 100 millions de dollars, pour une valorisation atteignant 600 millions de dollars. Les réactions de la communauté sont mitigées : certains utilisateurs estiment que la réponse de LMArena contient des affirmations statistiquement douteuses, et que l’investissement massif de capital-risque pourrait nuire à sa crédibilité en tant que benchmark neutre, craignant que son modèle économique n’affecte les chances d’apparition des modèles ouverts ou l’accessibilité des données. (Source: Reddit r/LocalLLaMA)
JD investit dans la société de robotique Zhiyuan Robot de “Zhihui Jun”: Zhiyuan Robot a récemment finalisé un nouveau tour de financement, avec des investisseurs incluant JD et le Shanghai Embodied Intelligence Fund, certains actionnaires historiques ayant également participé. Zhiyuan Robot a été fondée en 2023 par l’ancien “jeune prodige” de Huawei, Peng Zhihui (Zhihui Jun), et se concentre sur la R&D de robots à intelligence incarnée. Ce financement contribuera davantage aux investissements de Zhiyuan Robot en matière de R&D technologique et d’expansion du marché. (Source: WeChat)
🌟 Communauté
Discussion sur les problèmes d’intégration d’OpenWebUI avec Ollama et les outils MCP: Un utilisateur de Reddit rencontre des problèmes en utilisant OpenWebUI avec un backend Ollama (modèle devstral:24b) et l’outil MCP (mcp-atlassian) : bien que les logs du serveur MCP affichent une réponse de succès 200, OpenWebUI indique “Il semble y avoir un problème pour récupérer les données de l’outil” ou “Pas d’autorisation pour accéder à l’outil”. L’utilisateur cherche des méthodes de débogage. Un autre utilisateur demande comment le LLM dans OpenWebUI utilise les outils MCP, en particulier comment le LLM sait quel outil utiliser et pourquoi l’appel à l’outil est instable. (Source: Reddit r/OpenWebUI, Reddit r/OpenWebUI)

Explorer l’impact de l’IA sur l’avenir de l’humanité : division, retour à la nature ou coexistence ?: Un utilisateur de Reddit imagine l’avenir de l’IA, suggérant qu’elle pourrait diviser l’humanité : une partie, se sentant dépossédée par le remplacement du travail et des activités créatives par l’IA, finirait par retourner à une vie naturelle, sans technologie ; l’autre partie fusionnerait profondément avec la technologie, devenant des cyborgs. Une forte éruption solaire pourrait détruire toute technologie, et seuls les humains adaptés à la nature survivraient. Le post évoque également une autre possibilité : l’humanité apprendrait à coexister harmonieusement avec l’IA, l’utilisant comme un outil plutôt que comme une divinité. Les commentaires ont suscité un débat animé sur la faisabilité, la dépendance technologique, l’allocation des ressources, etc. (Source: Reddit r/ArtificialInteligence)
Réflexion sur le degré de compréhension des LLM : Ne savons-nous vraiment pas comment ils fonctionnent ?: Un utilisateur de Reddit remet en question l’affirmation selon laquelle « le fonctionnement des LLM n’est pas entièrement compris ». Cet utilisateur estime que, bien que nous ne comprenions peut-être pas entièrement pourquoi la sémantique distribuée est si puissante ou pourquoi la génération de code peut être modélisée efficacement par les LLM, les mécanismes internes des LLM tels que les encodeurs/décodeurs, les réseaux feed-forward, etc., sont connus. L’utilisateur pense que confondre « ne pas comprendre entièrement leurs limites de capacité et les phénomènes émergents » avec « ne pas comprendre du tout leur principe de fonctionnement » induit le public en erreur et pourrait favoriser une compréhension erronée et anthropomorphique des LLM, par exemple en leur attribuant une « agentivité » inexistante. Les commentaires soulignent cependant que connaître l’architecture de base n’équivaut pas à comprendre comment un système complexe produit des résultats ; par exemple, ce que fait concrètement chaque réseau feed-forward reste un mystère. (Source: Reddit r/ArtificialInteligence)

L’abus d’outils de résumé par IA (comme Grok) sur les réseaux sociaux suscite des inquiétudes quant à l‘“externalisation de la pensée”: Un utilisateur de Reddit observe sur X (anciennement Twitter) et d’autres réseaux sociaux l’utilisation fréquente de « @grok résume ça » en réponse à des contenus simples (comme des commentaires sur un sandwich). L’auteur du post estime que cela reflète un abandon de l’effort de réflexion et de jugement de base, les gens déléguant à l’IA des micro-décisions et des processus de pensée qu’ils pourraient accomplir eux-mêmes, ce qui réduit la dépendance à leurs propres capacités de réflexion. Les avis divergent dans les commentaires : certains y voient une simple évolution des outils (similaire à l’utilisation de Google par le passé), d’autres une manifestation de paresse, et d’autres encore soulignent que ce phénomène est plus répandu sur certaines plateformes spécifiques. (Source: Reddit r/ArtificialInteligence)
Le potentiel et les réflexions sur l’IA dans l’éducation : aide à l’apprentissage ou affaiblissement des capacités ?: Un utilisateur de Reddit se lamente que si l’IA avait existé au lycée, son expérience d’apprentissage aurait pu être très différente, car l’IA peut décomposer finement les connaissances, répondre aux questions sans préjugés et aider à maintenir la curiosité. De nombreux commentateurs sont d’accord, estimant que l’IA peut considérablement améliorer l’efficacité de l’apprentissage et l’étendue de l’exploration des connaissances. Cependant, d’autres commentateurs expriment des inquiétudes, pensant que les outils d’IA actuels pourraient être conçus pour « maintenir les utilisateurs stupides », ou qu’une répartition inégale des ressources éducatives pourrait conduire les classes aisées à bénéficier d’une assistance IA de qualité, tandis que les élèves des écoles publiques pourraient être lésés par des outils d’IA de mauvaise qualité, voire être « entraînés » par l’IA à simplement obéir. (Source: Reddit r/ArtificialInteligence)
Discussion sur l’évolution des carrières à l’ère de l’IA : tous managers ou apparition d’un “fossé IA” ?: Un post sur Reddit a lancé une discussion sur les futures formes de travail après la généralisation de l’IA. L’auteur imagine si, à l’avenir, les humains deviendront tous des gestionnaires d’outils d’IA, ne travaillant que quelques heures par semaine. Les avis dans les commentaires divergent : certains pensent que l’IA pourrait remplacer les cadres dirigeants ; d’autres suggèrent que la société future sera divisée entre ceux qui “possèdent des robots” et ceux qui “n’en possèdent pas” ; d’autres encore estiment que cette transformation est déjà en cours et n’est pas si lointaine. Le cœur de la discussion porte sur la manière dont l’IA va remodeler les responsabilités professionnelles et le rôle des humains dans le système économique. (Source: Reddit r/ArtificialInteligence)
Communication assistée par IA : résoudre les difficultés de rédaction d’e-mails pour les personnes souffrant d’anxiété sociale: Un utilisateur de Reddit partage comment l’IA l’a aidé à améliorer sa communication par e-mail. L’utilisateur déclare ne pas être doué pour rédiger des e-mails appropriés, étant soit trop formel comme Shakespeare, soit comme un robot de service client obsolète. Désormais, en utilisant l’IA pour rédiger des e-mails, puis en y ajoutant une touche personnelle, il a résolu efficacement les problèmes de début d’e-mail (comme « Hope this email finds you well ») et d’autres difficultés sociales. Ce post a trouvé un écho auprès de nombreux utilisateurs souffrant d’anxiété sociale ou de difficultés de rédaction similaires, qui estiment que l’IA démontre une valeur pratique pour faciliter la communication quotidienne. (Source: Reddit r/artificial)
💡 Divers
Claude Sonnet 4 : Un spécimen de connaissance ciselé par l’algorithme, la perfection comme défaut: Un article philosophique compare Claude Sonnet 4 à un « spécimen de connaissance » méticuleusement ciselé par des algorithmes. L’auteur estime que ses réponses sont fluides, logiquement complètes, parfaites en surface, mais cette perfection même masque les caractéristiques « imparfaites » de la connaissance réelle, telles que les erreurs, les contradictions et l’honnêteté de dire « je ne sais pas ». L’article explore les différences entre les sources de connaissance de l’IA et l’expérience humaine, soulignant que l’IA possède une mémoire mais manque d’expérience. En même temps, il met en garde contre le fait qu’une dépendance excessive à l’IA pourrait affaiblir la capacité de réflexion indépendante, et considère que l’IA élimine l’incertitude, ce qui constitue à la fois sa valeur et son danger potentiel. (Source: WeChat)

L’état actuel et l’avenir de la publicité générée par IA : une publicité d’une entreprise indienne suscite un débat sur le “sentiment de bon marché”: Un post sur Reddit montrant une publicité télévisée d’une entreprise indienne bien connue, entièrement générée par IA, a suscité une discussion parmi les utilisateurs sur la qualité du contenu généré par IA et les tendances futures. De nombreux commentaires estiment que la publicité est grossièrement réalisée et peu efficace, mais certains soulignent que cela pourrait refléter le fait que le marché publicitaire indien lui-même comporte de nombreuses productions à bas coût. La discussion s’est étendue au potentiel de personnalisation de la publicité par IA (par exemple, les téléviseurs intelligents générant des publicités en temps réel basées sur les données des utilisateurs) et à la question de savoir si les gens s’adapteront progressivement, voire attendront, ce « sentiment de grossièreté ». (Source: Reddit r/ChatGPT)

Discussion sur les stratégies d’optimisation des grands et petits modèles dans des environnements à faibles ressources: La communauté Reddit débat de la question de savoir s’il est plus pratique, dans des environnements à faibles ressources, de prioriser le développement de techniques d’optimisation pour les grands modèles (telles que PEFT, LoRA, quantification), ou de s’efforcer d’améliorer les performances des petits modèles pour rivaliser avec les grands modèles. Les participants s’interrogent sur la faisabilité de compresser les connaissances et les capacités de « raisonnement » des modèles de plusieurs milliards de paramètres dans des petits modèles d’environ 100 millions de paramètres (similaires aux modèles distillés de Deepseek Qwen), ainsi que sur la limite inférieure du nombre de paramètres des petits modèles. Cela reflète l’attention continue de la communauté portée à la démocratisation de l’IA et à son déploiement efficace. (Source: Reddit r/deeplearning)