Mots-clés:Transformer de diffusion atomique complète, Modèle de récompense auto-supervisé, Génération vidéo auto-régressive, Dynamique basée sur la position, Conférence académique sur les auteurs IA, Technique d’oubli IA, Rendu neuronal, Génération 3D, Cadre ADiT, MetaStone-S1 SPRM, Lumos-1 MM-RoPE, Simulation de tissu Roblox AVBD, Diffusion avec perception partielle CoPart
🔥 À la une
Meta/Cambridge/MIT présentent ADiT, un framework Transformer de diffusion tout atome: Une équipe de recherche conjointe de Meta FAIR, de l’Université de Cambridge et du MIT a présenté ADiT (All-atom Diffusion Transformer), qui brise les barrières de la modélisation des systèmes périodiques et non périodiques. Grâce à deux innovations majeures, une représentation latente unifiée tout atome et une diffusion latente Transformer, ADiT réalise une percée en générant des molécules et des cristaux avec un modèle unique. L’avantage principal d’ADiT réside dans sa capacité à briser les barrières de modélisation entre les systèmes périodiques et non périodiques, permettant la génération de molécules et de cristaux à l’aide d’un modèle unique. Sa conception n’introduit pratiquement aucun biais inductif, ce qui rend l’auto-encodeur et le modèle de diffusion beaucoup plus efficaces en termes d’entraînement et d’inférence que les modèles de diffusion équivariants traditionnels. Dans les mêmes conditions matérielles, le temps de génération de 10 000 échantillons est réduit de 2,5 heures à moins de 20 minutes. (Source : HuggingFace Daily Papers)
Test-Time Scaling avec Reflective Generative Model: MetaStone-S1 atteint les performances d’OpenAI o3 grâce au Self-Supervised Process Reward Model (SPRM). Le SPRM intègre avec succès le modèle de politique et le Process Reward Model (PRM) dans une interface unifiée en partageant le réseau principal et en utilisant des têtes spécifiques aux tâches pour la prédiction du prochain jeton et l’évaluation du processus, respectivement. Cela élimine le besoin d’annotations de processus supplémentaires, réduisant ainsi de plus de 99 % les paramètres du PRM pour une inférence efficace. Équipé du SPRM, MetaStone-S1 est naturellement adapté au Test-Time Scaling (TTS) et offre trois modes de fonctionnement d’inférence (bas, moyen et élevé) basés sur une longueur de réflexion contrôlable. (Source : HuggingFace Daily Papers)
Lumos-1 : Génération vidéo autorégressive basée sur une perspective de modèle unifié: Lumos-1 est un générateur vidéo autorégressif qui conserve l’architecture LLM avec des modifications architecturales minimales. Pour injecter des corrélations spatio-temporelles dans les LLM, nous avons identifié l’efficacité de l’intégration de la 3D RoPE et diagnostiqué sa plage spectrale déséquilibrée. Par conséquent, nous proposons MM-RoPE, un schéma RoPE qui préserve la RoPE textuelle originale tout en fournissant un spectre complet et des positions 3D mises à l’échelle pour la modélisation des données spatio-temporelles multimodales. De plus, Lumos-1 adopte une stratégie de dépendance des jetons qui suit la bidirectionnalité intra-image et la causalité temporelle inter-images. Basé sur cette stratégie de dépendance, nous avons identifié le problème de déséquilibre de la perte au niveau de l’image causé par la redondance de l’information spatiale et l’avons résolu en proposant l’Autoregressive Discrete Diffusion Forcing (AR-DF). (Source : HuggingFace Daily Papers)
Roblox résout le problème de physique qui a tourmenté tout le monde !: Roblox a résolu le problème de simulation de tissu qui a tourmenté les moteurs physiques pendant des années en combinant Position Based Dynamics et Projective Dynamics. La nouvelle méthode, appelée « Average-Value Based Dynamics » (AVBD), permet des simulations de tissu très réalistes tout en maintenant des performances en temps réel et a été appliquée à la plateforme Roblox. (Source : )
🎯 Tendances
Le premier auteur doit être une IA : la première conférence académique pour les auteurs IA est arrivée: L’Université de Stanford a lancé la première conférence académique pour les auteurs IA, Agents4Science 2025, exigeant que le premier auteur des articles soumis soit un système d’IA, les chercheurs humains n’étant que des co-auteurs. La conférence vise à explorer l’avenir de la découverte scientifique pilotée par l’IA et à établir des normes et des considérations éthiques pour la participation de l’IA à la recherche scientifique. Tous les articles et évaluations soumis seront rendus publics afin d’étudier de manière transparente les avantages et les limites de l’IA dans la recherche scientifique. (Source : 36氪)
Amnésie de l’IA : seulement 3 têtes d’attention pour faire oublier à un grand modèle que « le chien aboie »: Meta, en collaboration avec NYU, a proposé une méthode pour manipuler les têtes d’attention des Transformers à grande échelle, permettant de localiser et de contrôler avec précision les modules cognitifs de l’IA, et de faire « oublier » sélectivement certains faits ou connaissances de bon sens aux grands modèles. Cette méthode vectorise les concepts, calcule la similarité avec les têtes d’attention, construit des modules conceptuels et amplifie ou efface l’influence des concepts grâce à un facteur d’échelle. Cela ouvre de nouvelles perspectives pour le réglage fin personnalisé des grands modèles, l’amélioration de capacités spécifiques, le contrôle de la sécurité et la compréhension de la façon dont les modèles stockent les connaissances. (Source : 36氪)
🧰 Outils
CLiFT : Compressed Light Field Tokens pour un rendu neuronal efficace en termes de calcul et adaptatif: Cet article présente une méthode de rendu neuronal qui représente les scènes sous forme de « Compressed Light Field Tokens (CLiFT) », conservant les riches informations d’apparence et de géométrie de la scène. CLiFT permet un rendu efficace en termes de calcul grâce à des jetons compressés, tout en permettant de modifier le nombre de jetons pour représenter la scène ou d’utiliser un seul réseau entraîné pour restituer de nouvelles vues. (Source : HuggingFace Daily Papers)
From One to More : Contextual Part Latent Representation pour la génération 3D: Inspiré par le workflow de conception 3D humain, nous proposons CoPart, un framework de diffusion sensible aux parties qui décompose les objets 3D en représentations latentes de parties contextuelles pour une génération multi-parties cohérente. Ce paradigme présente trois avantages : i) réduction de la complexité du codage par décomposition des parties ; ii) modélisation explicite des relations entre les parties ; iii) prise en charge du conditionnement au niveau des parties. (Source : HuggingFace Daily Papers)
🌟 Communauté
jerryjliu0 discute de l’extraction de formulaires et des applications LLM: jerryjliu0 a partagé une solution utilisant LlamaParse pour l’extraction adaptative de formulaires, qui analyse les pages de formulaires en paires clé-valeur normalisées et les sort sous forme de tableaux bidimensionnels pour un traitement ultérieur. Il a également recommandé l’article de Clelia Bertelli sur Pydantic, soulignant l’importance de la validation et de la lisibilité dans les workflows d’agents, et notant que Pydantic est un bloc de construction efficace pour les sorties structurées. De plus, il a relayé des tweets sur les configurations multi-agents et la recherche approfondie, ainsi que sur l’application de LlamaIndex. (Source : jerryjliu0, jerryjliu0, jerryjliu0, jerryjliu0)
Alibaba_Qwen rappelle aux développeurs d’ajouter des jetons spéciaux lors de l’utilisation de Qwen3-embedding: Alibaba_Qwen a remarqué que les développeurs oublient souvent d’ajouter le jeton spécial <|endoftext|> à la fin du contexte lorsqu’ils utilisent le modèle GGUF de Qwen3-embedding, ce qui affecte considérablement la précision du modèle. Ils recommandent d’utiliser llama.cpp pour ajouter automatiquement ce jeton et prévoient de publier un paquet de modèles GGUF mis à jour pour simplifier l’opération. (Source : Alibaba_Qwen)
Ronald_vanLoon partage des nouvelles et des technologies liées à l’IA: Ronald_vanLoon a partagé plusieurs nouvelles et avancées technologiques liées à l’IA, notamment les applications de l’IA dans les soins de santé, les steaks végétaliens imprimés en 3D, un cadre pour évaluer l’adéquation des LLM, la fonctionnalité audio native de Gemini 2.5, les patrouilles collaboratives de robots et de drones autonomes, l’apprentissage par renforcement pour le contrôle, les exosquelettes robotiques, l’autonomie des agents IA, un cadre de conception cloud, un robot effectuant un salto avant, les méthodes de transport des médicaments dans les hôpitaux, les voitures du futur et d’autres innovations technologiques. (Source : Plusieurs posts de Ronald_vanLoon)
Discussions communautaires sur les modèles et outils d’IA: La communauté a discuté de plusieurs modèles et outils d’IA, notamment les performances, le prix et les applications de Kimi K2, la compressibilité du modèle DeepSeek, l’ajustement des invites système du modèle Grok, ainsi que les résultats d’évaluation et les cas d’utilisation d’autres modèles. La discussion a également porté sur l’autonomie des agents IA, RLHF, RAG, les configurations multi-agents et les applications de l’IA dans différents domaines, tels que la recherche approfondie, l’écriture créative, la génération de code et l’extraction de formulaires. (Source : Plusieurs posts de différents utilisateurs)
Discussions sur l’IA et les problèmes de société: La communauté a discuté de l’impact de l’IA sur la société, notamment sur l’emploi, les inégalités économiques et la santé mentale. La discussion a également porté sur les questions éthiques et réglementaires liées à l’IA, ainsi que sur les orientations futures du développement de l’IA. (Source : Plusieurs posts de différents utilisateurs)
📚 Apprentissage
Le livre RLHF ajoute la dérivation de l’algorithme du gradient de politique: Le chapitre 11 (sur les algorithmes du gradient de politique) du livre RLHF de Natolambert a été complété par une dérivation complète de l’objectif du gradient de politique. (Source : natolambert)
💼 Affaires
SpaceX investira 2 milliards de dollars dans xAI: SpaceX investira 2 milliards de dollars dans xAI, dans le cadre d’un financement par actions de 5 milliards de dollars pour xAI, ce qui représente l’un des plus gros investissements jamais réalisés par SpaceX. SpaceX a précédemment soutenu Tesla et The Boring Company. Après cet investissement, le modèle Grok pourrait être envoyé sur Mars, et il pourrait y avoir davantage de collaborations commerciales entre SpaceX et xAI à l’avenir. (Source : 36氪)
Yarbo de Hanyang Technology obtient un nouveau financement de centaines de millions de yuans: Hanyang Technology, une entreprise de robots de déneigement et d’entretien de pelouse grand public, a bouclé un cycle de financement de série B+ de plus de centaines de millions de yuans, mené par CAS Investment, CICC Capital et Joyoung Ventures. Le financement servira à la R&D, à l’itération des produits, à l’amélioration de la chaîne d’approvisionnement et à la production de masse. Hanyang Technology est actuellement la seule entreprise au monde à avoir réalisé la livraison commerciale à grande échelle de robots de déneigement grand public. Son produit, Yarbo S1, a surmonté des défis techniques clés tels que la technologie des batteries dans des environnements à très basse température et les algorithmes de navigation sur des terrains complexes. (Source : 36氪)
Une équipe de 12 personnes crée un outil d’accompagnement par IA et obtient 30 millions de dollars d’investissement en six mois: Portola, la société à l’origine de l’application d’accompagnement par IA Tolan, a bouclé un cycle de financement de série A de 20 millions de dollars. Avec les 10 millions de dollars de financement de démarrage précédents, Tolan a obtenu 30 millions de dollars d’investissement en six mois. Tolan propose des personnages extraterrestres IA pour accompagner les utilisateurs et monétise ses services par le biais d’abonnements. (Source : 36氪)
💡 Autres
Zuckerberg se prépare à attaquer Musk par surprise, les talents techniques sino-américains deviennent la clé de la victoire en IA: Meta investit massivement dans le domaine de l’IA et recrute à prix d’or des talents sino-américains en IA d’OpenAI, Google, Apple et d’autres entreprises, dans le but d’améliorer sa compétitivité dans le domaine de l’IA. (Source : 36氪)
DeepSeek est mort ? Identifié comme étudiant en journalisme: L’article réfute les rumeurs selon lesquelles DeepSeek serait mort, soulignant que la baisse d’utilisation de DeepSeek n’est pas due à un produit défectueux, mais à sa stratégie open-source et à la dégradation délibérée de l’expérience de l’API officielle, encourageant les utilisateurs à utiliser des modèles DeepSeek hébergés par des tiers. L’objectif principal de DeepSeek est de réaliser l’AGI, et non de gagner de l’argent en vendant des services de grands modèles. (Source : 36氪)
« Un chiffre d’affaires annuel de 10 millions de dollars », c’est le plus grand mensonge de ce secteur d’application de l’IA: L’article révèle le phénomène de revenus artificiellement gonflés dans le secteur des applications d’accompagnement émotionnel par IA, soulignant que de nombreuses entreprises s’appuient sur des dépenses publicitaires élevées pour maintenir leur croissance, mais que les taux de paiement et de rétention des utilisateurs sont faibles, les revenus réels étant bien inférieurs aux chiffres annoncés. En outre, les problèmes de réglementation ont également un impact important sur le développement de ce secteur. (Source : 36氪)