Schlüsselwörter:All-Atom-Diffusion-Transformer, Selbstüberwachter Prozessbelohnungsmodell, Autoregressive Videogenerierung, Positionsbasierte Dynamik, KI-Autorenkonferenz, KI-Vergessensmethode, Neuronales Rendering, 3D-Generierung, ADiT-Rahmen, MetaStone-S1 SPRM, Lumos-1 MM-RoPE, Roblox AVBD-Stoffsimulation, CoPart teilweise wahrgenommene Diffusion

🔥 Fokus

Meta/Cambridge/MIT stellen All-Atom Diffusion Transformer Framework vor: Ein gemeinsames Forschungsteam von Meta FAIR, der Universität Cambridge und dem MIT hat ADiT, einen All-Atom Diffusion Transformer, vorgestellt. ADiT überwindet die Modellierungsbarrieren zwischen periodischen und nicht-periodischen Systemen und erreicht durch zwei Innovationen – eine einheitliche latente Darstellung aller Atome und eine Transformer-basierte latente Diffusion – den Durchbruch, Moleküle und Kristalle mit einem einzigen Modell zu generieren. Der Hauptvorteil von ADiT besteht darin, die Modellierungsbarrieren zwischen periodischen und nicht-periodischen Systemen zu überwinden und die Generierung von Molekülen und Kristallen mit einem einzigen Modell zu ermöglichen. Sein Design führt fast keine induktiven Verzerrungen ein, wodurch die Trainings- und Inferenzeffizienz von Autoencodern und Diffusionsmodellen die traditioneller äquivarianter Diffusionsmodelle deutlich übertrifft. Unter den gleichen Hardwarebedingungen verkürzt sich die Zeit für die Generierung von 10.000 Samples von 2,5 Stunden auf unter 20 Minuten. (Quelle: HuggingFace Daily Papers)

Test-Time Scaling with Reflective Generative Model: MetaStone-S1 erreicht die Leistung von OpenAI o3 durch Self-Supervised Process Reward Modeling (SPRM). SPRM integriert erfolgreich Strategiemodelle und Process Reward Models (PRM) in eine einheitliche Schnittstelle, indem es ein gemeinsames Backbone-Netzwerk verwendet und jeweils aufgabenspezifische Köpfe für die Vorhersage des nächsten Tokens und die Prozessbewertung verwendet. Dies geschieht ohne zusätzliche Prozessannotationen, wodurch die PRM-Parameter um mehr als 99 % reduziert werden, um eine effiziente Inferenz zu erreichen. Ausgestattet mit SPRM ist MetaStone-S1 natürlich für Test-Time Scaling (TTS) geeignet und bietet drei Inferenzmodi (niedrig, mittel und hoch) basierend auf einer steuerbaren Denklänge. (Quelle: HuggingFace Daily Papers)

Lumos-1: Autoregressive Videogenerierung basierend auf einer einheitlichen Modellperspektive: Lumos-1 ist ein autoregressiver Videogenerator, der die LLM-Architektur mit minimalen Architekturänderungen beibehält. Um räumlich-zeitliche Korrelationen in LLMs zu injizieren, haben wir die Wirksamkeit der Kombination mit 3D RoPE ermittelt und dessen unausgeglichenen Spektralbereich diagnostiziert. Daher schlagen wir MM-RoPE vor, ein RoPE-Schema, das das ursprüngliche Text-RoPE beibehält und gleichzeitig ein umfassendes Spektrum und skalierte 3D-Positionen für die Modellierung multimodaler räumlich-zeitlicher Daten bietet. Darüber hinaus verwendet Lumos-1 eine Token-Abhängigkeitsstrategie, die der bidirektionalen Intra-Frame- und der zeitlichen Inter-Frame-Kausalität folgt. Basierend auf dieser Abhängigkeitsstrategie haben wir das Problem des Ungleichgewichts der Frame-Level-Verluste aufgrund von räumlicher Informationsredundanz identifiziert und durch die Einführung von Autoregressive Discrete Diffusion Forcing (AR-DF) gelöst. (Quelle: HuggingFace Daily Papers)

Roblox löst das Physikproblem, das alle plagt!: Roblox hat das Problem der Stoffsimulation, das Physik-Engines seit Jahren plagt, durch die Kombination von Position Based Dynamics und Projective Dynamics gelöst. Die neue Methode namens „Average-Based Cloth Dynamics“ (AVBD) ermöglicht hochrealistische Stoffsimulationen bei gleichzeitiger Echtzeit-Performance und wird bereits auf der Roblox-Plattform eingesetzt. (Quelle: )

Der Erstautor muss eine KI sein, die erste akademische Konferenz für KI-Autoren kommt: Die Stanford University hat die erste akademische Konferenz für KI-Autoren ins Leben gerufen – die Open Conference on Scientific AI Agents (Agents4Science 2025). Voraussetzung für die Einreichung von Beiträgen ist, dass der Erstautor ein KI-System sein muss, menschliche Forscher können nur als Co-Autoren auftreten. Die Konferenz zielt darauf ab, die Zukunft der KI-gesteuerten wissenschaftlichen Entdeckung zu erforschen und Normen und ethische Erwägungen für die Beteiligung von KI an der wissenschaftlichen Forschung zu entwickeln. Alle eingereichten Arbeiten und Begutachtungen werden veröffentlicht, um die Vorteile und Grenzen von KI in der wissenschaftlichen Forschung transparent zu untersuchen. (Quelle: 36氪)

KI-Amnesie: Mit nur 3 Attention Heads kann man große Modelle “Hunde bellen” vergessen lassen: Meta hat in Zusammenarbeit mit der NYU eine Methode zur Manipulation von skalierten Transformer Attention Heads vorgestellt, mit der kognitive Module von KI präzise lokalisiert und gesteuert werden können, sodass große Modelle selektiv bestimmte Fakten oder allgemeines Wissen “vergessen” können. Die Methode vektorisiert Konzepte, berechnet die Ähnlichkeit mit Attention Heads, konstruiert Konzeptmodule und verstärkt oder löscht den Einfluss von Konzepten durch Skalierungsfaktoren. Dies eröffnet neue Wege für die personalisierte Feinabstimmung großer Modelle, die Verbesserung bestimmter Fähigkeiten, die Kontrolle der Sicherheit und das Verständnis der Art und Weise, wie Modelle Wissen speichern. (Quelle: 36氪)

🧰 Tools

CLiFT: Compressed Light Field Tokens für rechnerisch effizientes und adaptives neuronales Rendering: Dieser Artikel stellt eine neuronale Rendering-Methode vor, die Szenen als “Compressed Light Field Tokens (CLiFT)” darstellt und dabei reichhaltige Informationen über Aussehen und Geometrie der Szene bewahrt. CLiFT ermöglicht durch komprimierte Token ein rechnerisch effizientes Rendering und bietet gleichzeitig die Möglichkeit, die Anzahl der Token zur Darstellung der Szene zu ändern oder ein trainiertes Netzwerk zum Rendern neuer Ansichten zu verwenden. (Quelle: HuggingFace Daily Papers)

From One to More: Kontextbezogene partielle latente Repräsentationen für die 3D-Generierung: Inspiriert vom menschlichen 3D-Design-Workflow schlagen wir CoPart vor – ein teilempfindliches Diffusions-Framework, das 3D-Objekte in kontextbezogene partielle latente Repräsentationen zerlegt, um eine kohärente Generierung mehrerer Teile zu ermöglichen. Dieses Paradigma hat drei Vorteile: i) Reduzierung der Codierungskomplexität durch Teilezerlegung; ii) Ermöglichung expliziter Modellierung von Teilbeziehungen; iii) Unterstützung der teilespezifischen Steuerung. (Quelle: HuggingFace Daily Papers)

🌟 Community

jerryjliu0 diskutiert Formularextraktion und LLM-Anwendungen: jerryjliu0 teilt ein Schema zur adaptiven Formularextraktion mit LlamaParse, das Formularseiten in standardisierte Schlüssel-Wert-Paare parst und als zweidimensionale Tabelle ausgibt, um die Nachverarbeitung zu erleichtern. Er empfiehlt außerdem Clelia Bertellis Artikel über Pydantic, betont die Bedeutung von Validierung und Lesbarkeit in Agenten-Workflows und weist darauf hin, dass Pydantic ein effektiver Baustein für strukturierte Ausgaben ist. Darüber hinaus leitet er Tweets über Multi-Agenten-Einstellungen und Deep Research sowie die Anwendung von LlamaIndex weiter. (Quelle: jerryjliu0, jerryjliu0, jerryjliu0, jerryjliu0)

Alibaba_Qwen erinnert Entwickler daran, beim Verwenden von Qwen3-embedding spezielle Token hinzuzufügen: Alibaba_Qwen hat festgestellt, dass Entwickler beim Verwenden des GGUF-Modells von Qwen3-embedding häufig vergessen, am Ende des Kontexts das spezielle Token <|endoftext|> hinzuzufügen, was die Genauigkeit des Modells erheblich beeinträchtigt. Sie empfehlen, llama.cpp zu verwenden, um dieses Token automatisch hinzuzufügen, und planen die Veröffentlichung eines aktualisierten GGUF-Modellpakets, um die Bedienung zu vereinfachen. (Quelle: Alibaba_Qwen)

Ronald_vanLoon teilt KI-bezogene Nachrichten und Technologien: Ronald_vanLoon teilt mehrere KI-bezogene Nachrichten und technologische Fortschritte, darunter die Anwendung von KI im Gesundheitswesen, 3D-gedruckte vegetarische Steaks, ein Framework zur Bewertung der Eignung von LLMs, die native Audiofunktion von Gemini 2.5, automatisierte Roboter- und Drohnenpatrouillen, verstärkendes Lernen für die Steuerung, Exoskelett-Roboter, die Autonomie von KI-Agenten, Cloud-Design-Frameworks, Roboter-Vorwärtssaltos, Medikamententransportmethoden in Krankenhäusern, Autos der Zukunft und andere technologische Innovationen. (Quelle: Mehrere von Ronald_vanLoon)

Community-Diskussion über KI-Modelle und -Tools: Die Community diskutierte mehrere KI-Modelle und -Tools, darunter die Leistung, den Preis und die Anwendung von Kimi K2, die Komprimierbarkeit des DeepSeek-Modells, die Anpassung der Systemprompts des Grok-Modells sowie die Bewertungsergebnisse und Anwendungsfälle anderer Modelle. Die Diskussion umfasste auch die Autonomie von KI-Agenten, RLHF, RAG, Multi-Agenten-Einstellungen und die Anwendung von KI in verschiedenen Bereichen wie Deep Research, kreatives Schreiben, Codegenerierung und Formularextraktion. (Quelle: Mehrere von verschiedenen Nutzern)

Diskussion über KI und soziale Fragen: Die Community diskutierte die Auswirkungen von KI auf die Gesellschaft, einschliesslich der Auswirkungen auf Beschäftigung, wirtschaftliche Ungleichheit und psychische Gesundheit. Die Diskussion umfasste auch ethische Fragen der KI, Regulierungsfragen und die zukünftige Entwicklungsrichtung der KI. (Quelle: Mehrere von verschiedenen Nutzern)

📚 Lernen

RLHF-Buch erweitert um Herleitung des Policy-Gradienten-Algorithmus: Kapitel 11 (über Policy-Gradienten-Algorithmen) von Natolamberts RLHF-Buch wurde um eine vollständige Herleitung des Policy-Gradienten-Ziels erweitert. (Quelle: natolambert)

💼 Geschäft

SpaceX investiert 2 Milliarden Dollar in xAI: SpaceX wird 2 Milliarden Dollar in xAI investieren, als Teil der 5-Milliarden-Dollar-Eigenkapitalfinanzierung von xAI und eine der größten Investitionen von SpaceX überhaupt. SpaceX hat zuvor auch Tesla und The Boring Company unterstützt. Nach dieser Investition könnte das Grok-Modell zum Mars geschickt werden, und es könnte in Zukunft mehr geschäftliche Kooperationen zwischen SpaceX und xAI geben. (Quelle: 36氪)

Hanyang Technology Yarbo erhält erneut Finanzierung in Höhe von 100 Millionen Yuan: Hanyang Technology Yarbo, ein Unternehmen für Rasenpflege- und Schneeräumerroboter für Endverbraucher, hat eine B+-Finanzierungsrunde in Höhe von über 100 Millionen Yuan abgeschlossen, die von Guoke Investment, CICC Capital und Joyoung Venture Capital investiert wurde. Die Finanzierung wird für Forschung und Entwicklung, Produktiterationen, die Verbesserung der Lieferkette und die Massenproduktion verwendet. Hanyang Technology ist derzeit das weltweit einzige Unternehmen, das Rasenpflege- und Schneeräumerroboter für Endverbraucher in großem Maßstab kommerziell ausliefert. Sein Produkt Yarbo S1 hat bereits wichtige technische Hürden wie die Batterietechnologie für extrem niedrige Temperaturen und Navigationsalgorithmen für komplexes Gelände überwunden. (Quelle: 36氪)

12-köpfiges Team entwickelt KI-Begleiter und erhält innerhalb eines halben Jahres 30 Millionen Dollar Investment: Die Firma Portola, die hinter der KI-Begleiter-App Tolan steht, hat eine Serie-A-Finanzierung in Höhe von 20 Millionen Dollar abgeschlossen. Zusammen mit der vorherigen Seed-Finanzierung in Höhe von 10 Millionen Dollar hat Tolan innerhalb eines halben Jahres 30 Millionen Dollar an Investitionen erhalten. Tolan bietet KI-gesteuerte Alien-Charaktere, die die Nutzer begleiten, und erzielt Einnahmen durch ein Abonnementmodell. (Quelle: 36氪)

💡 Sonstiges

Zuckerberg plant Überraschungsangriff auf Musk, chinesischstämmige Tech-Talente werden zum Schlüsselfaktor für den KI-Sieg: Meta investiert massiv in den Bereich KI und wirbt chinesischstämmige KI-Talente mit hohen Gehältern von OpenAI, Google, Apple und anderen Unternehmen ab, um seine Wettbewerbsfähigkeit im Bereich KI zu stärken. (Quelle: 36氪)

DeepSeek am Ende? Eher Journalismusstudent: Der Artikel widerlegt die Gerüchte, dass DeepSeek am Ende sei, und weist darauf hin, dass der Rückgang der Nutzung nicht auf Produktmängel zurückzuführen ist, sondern auf die Open-Source-Strategie und die absichtlich verschlechterte offizielle API-Erfahrung, die die Nutzer ermutigt, von Dritten gehostete DeepSeek-Modelle zu verwenden. Das Hauptziel von DeepSeek ist die Verwirklichung von AGI und nicht das Geldverdienen durch den Verkauf von großen Sprachmodellen. (Quelle: 36氪)

“Jahresumsatz von 10 Millionen Dollar” ist die größte Lüge dieser KI-Anwendungsbranche: Der Artikel deckt die überhöhten Einnahmen im Bereich der KI-Begleiter-Apps auf und weist darauf hin, dass viele Unternehmen auf hohe Werbeausgaben angewiesen sind, um ihr Wachstum aufrechtzuerhalten, aber die Zahlungsraten und die Kundenbindung niedrig sind, sodass die tatsächlichen Einnahmen weit unter den veröffentlichten Zahlen liegen. Gleichzeitig stellen regulatorische Probleme eine große Herausforderung für die Entwicklung dieser Branche dar. (Quelle: 36氪)