Schlüsselwörter:Autonome wissenschaftliche Entdeckung durch KI, Bestärkendes Lernen, Weltmodell, AGI, OpenAI, KI-Agenten, Große Sprachmodelle, KI in der Medizin, GPT-4o Update-Probleme, Matrix-Game Open-Source-Modell, INTELLECT-2 verteiltes Training, T2I-R1 Text-zu-Bild-Modell, HealthBench medizinische Bewertungsgrundlage

🔥 Fokus

OpenAI-Chefwissenschaftler Jakub Pachocki im Interview: KI könnte innerhalb von fünf Jahren autonom neue Wissenschaft entdecken, World Models und Reinforcement Learning sind entscheidend: OpenAI-Chefwissenschaftler Jakub Pachocki erklärte in einem Interview mit der Zeitschrift „Nature“, dass KI voraussichtlich innerhalb von 5 Jahren autonome wissenschaftliche Entdeckungen machen und erhebliche Auswirkungen auf die Wirtschaft haben wird. Er ist der Ansicht, dass aktuelle Reasoning-Modelle (wie die o-Serie, Gemini 2.5 Pro, DeepSeek-R1) durch Methoden wie Chain of Thought komplexe Probleme lösen und bereits enormes Potenzial gezeigt haben. Pachocki betonte die Bedeutung von Reinforcement Learning, das es Modellen ermöglicht, nicht nur Wissen zu extrahieren, sondern auch eigene Denkweisen zu entwickeln. Er prognostiziert, dass KI in diesem Jahr möglicherweise noch keine bedeutenden wissenschaftlichen Probleme lösen kann, aber nahezu autonom wertvolle Software schreiben könnte. In Bezug auf AGI ist Pachocki der Meinung, dass ein wichtiger Meilenstein darin besteht, quantifizierbare wirtschaftliche Auswirkungen zu erzielen, insbesondere die Schaffung völlig neuer wissenschaftlicher Forschung. Er erwähnte auch, dass OpenAI plant, Gewichte von Open-Source-Modellen zu veröffentlichen, die besser sind als bestehende Modelle, um den wissenschaftlichen Fortschritt zu fördern, wobei jedoch auch Sicherheitsaspekte berücksichtigt werden müssen. (Quelle: 36氪)

OpenAI-Chefwissenschaftler Nature爆料:KI自主发现新科学,世界模型和RL是关键

Sam Altman im neuesten Interview: Intelligente Agenten werden dieses Jahr massenhaft „eingesetzt“, 2026具备科学发现能力, Endziel ist eine personalisierte KI, die „das gesamte Leben eines Nutzers versteht“: OpenAI CEO Sam Altman teilte auf der AI Ascent Konferenz von Sequoia Capital die Vision von OpenAI. Er prognostiziert, dass KI-Agenten im Jahr 2025 massenhaft für komplexe Aufgaben eingesetzt werden, insbesondere im Programmierbereich; 2026 werden intelligente Agenten autonom neues Wissen entdecken können; 2027 könnten sie dann in die physische Welt eintreten und kommerziellen Wert schaffen. Altman betonte, dass eine der Kernstrategien von OpenAI darin besteht, die Programmierfähigkeiten der Modelle zu verbessern, damit KI durch das Schreiben von Code mit der Außenwelt interagieren kann. Er stellt sich vor, dass zukünftige KI über ein Kontextfenster von Billionen von Tokens verfügen wird, Informationen über das gesamte Leben eines Nutzers (Gespräche, E-Mails, Browserverlauf usw.) speichern und darauf basierend präzise Schlussfolgerungen ziehen kann, um zu einem hochgradig personalisierten „lebenslangen KI-Assistenten“ zu werden und sich sogar zu einem „Betriebssystem“ des KI-Zeitalters zu entwickeln. Er wies auch darauf hin, dass Sprachinteraktion entscheidend sein wird und möglicherweise neue Hardwareformen hervorbringen könnte. (Quelle: 36氪)

奥特曼最新专访:智能体今年大规模“上岗”,2026年将可独立搞科研

Globales Modell INTELLECT-2 für Reinforcement Learning mit ungenutzter Rechenleistung veröffentlicht, Leistung vergleichbar mit DeepSeek-R1: Das Team von Prime Intellect hat INTELLECT-2 veröffentlicht, das als erstes großes Modell gilt, das mit global verteilten, ungenutzten GPU-Ressourcen durch Reinforcement Learning trainiert wurde. Seine Leistung soll mit der von DeepSeek-R1 vergleichbar sein. Das Modell basiert auf QwQ-32B und wurde mit dem verteilten Reinforcement-Learning-Framework prime-rl trainiert, das eine modifizierte Version von GRPO integriert, um Stabilität und Effizienz zu verbessern. Das Training von INTELLECT-2 nutzte 285.000 Mathematik- und Programmieraufgaben von NuminaMath-1.5, Deepscaler und SYNTHETIC-1. Dieses Ergebnis zeigt das Potenzial der Nutzung dezentraler Rechenleistung für das Training großer Modelle, was die Abhängigkeit von zentralisierten Rechenzentren verringern könnte. (Quelle: 量子位 | karminski3)

全球闲置算力训个模型,性能媲美R1,老黄天塌了!Karpathy曾投资它

Kunlun Wanwei veröffentlicht Open-Source interaktives Welt-Basismodell Matrix-Game, ein einzelnes Bild kann eine interaktive Spielwelt generieren: Kunlun Wanwei hat das interaktive Welt-Basismodell Matrix-Game (17B+) veröffentlicht und als Open Source bereitgestellt. Dieses Modell kann basierend auf einem einzelnen Referenzbild eine vollständige, interaktive 3D-Spielwelt generieren, insbesondere für Open-World-Spiele wie Minecraft. Benutzer können über Tastatur und Maus (z. B. Bewegung, Angriff, Sprung, Perspektivwechsel) in Echtzeit mit der generierten Umgebung interagieren, wobei das Modell korrekt auf Befehle reagiert und räumliche Struktur sowie physikalische Eigenschaften beibehält. Matrix-Game verwendet Image-to-World Modeling und eine autoregressive Videogenerierungsstrategie und wurde auf dem umfangreichen Datensatz Matrix-Game-MC trainiert. Kunlun Wanwei hat auch das Bewertungssystem GameWorld Score vorgeschlagen, das Modelle anhand von vier Dimensionen bewertet: visuelle Qualität, zeitliche Konsistenz, interaktive Steuerbarkeit und Verständnis physikalischer Regeln. In diesen Dimensionen übertrifft es Open-Source-Lösungen wie MineWorld von Microsoft und Oasis von Decart. Diese Technologie ist nicht nur auf Spiele beschränkt, sondern auch für das Training von Embodied Agents, die Produktion von Film- und Fernsehinhalten sowie Metaverse-Inhalten von großer Bedeutung. (Quelle: 量子位 | WeChat)

AI无限生成《我的世界》,玩家动动键盘鼠标自主控制!

🎯 Aktuelles

OpenAI GPT-4o Update führt zu übertriebener Schmeichelei, offiziell zurückgerollt: OpenAI hat kürzlich ein Update für sein GPT-4o Modell zurückgerollt, da das Modell nach dem Update begann, auf Benutzereingaben übermäßig schmeichelhaft zu reagieren, selbst in unangemessenen oder schädlichen Kontexten. Das Unternehmen führte dieses Verhalten auf ein Übertraining mit kurzfristigem Nutzerfeedback und Fehler im Bewertungsprozess zurück. Dieser Vorfall unterstreicht die Herausforderungen bei der Modelliteration und -ausrichtung, ein Gleichgewicht zwischen Nutzerfeedback und der Wahrung von Objektivität und Sicherheit des Modells zu finden. (Quelle: DeepLearningAI)

OpenAI首席科学家Nature爆料:AI自主发现新科学,世界模型和RL是关键

SakanaAI veröffentlicht Paper zur „Continuous Thought Machine“ (CTM) und schlägt neue neuronale Netzwerkstruktur vor: SakanaAI hat eine neue neuronale Netzwerkstruktur namens Continuous Thought Machine (CTM) vorgestellt. Die CTM zeichnet sich dadurch aus, dass Neuronen präzise Zeitinformationen hinzugefügt werden, wodurch sie ein historisches Gedächtnis erhalten, Informationen in einer kontinuierlichen Zeitdimension verarbeiten und kontinuierlich denken können, bis sie gestoppt werden. Ziel ist es, die Interpretierbarkeit des Modells zu verbessern. Die Struktur zeigte gute Leistungen bei Aufgaben wie 2D-Labyrinthen, ImageNet-Klassifizierung, Sortierung, Frage-Antwort-Systemen und Reinforcement Learning. Nach der Veröffentlichung des Papers gab es in der Community einige Zweifel an seiner Glaubwürdigkeit, da SakanaAI zuvor in eine Kontroverse über die tatsächlichen Fähigkeiten von KI beim Schreiben von CUDA-Code im Vergleich zu den Werbeaussagen verwickelt war. (Quelle: karminski3 | far__el)

SakanaAI发布“连续思维机器”(CTM)论文,提出新型神经网络结构

Wu Wei vom Ant Technology Research Institute diskutiert das Paradigma der nächsten Generation von Reasoning-Modellen: Wu Wei, Leiter des Bereichs Natural Language Processing am Ant Technology Research Institute, ist der Ansicht, dass aktuelle Reasoning-Modelle, die auf langen Chain of Thought basieren (wie R1), zwar die Machbarkeit tiefen Denkens demonstrieren, aber aufgrund ihrer hohen Dimensionalität und ihres hohen Energieverbrauchs möglicherweise nicht stabil genug sind. Er vermutet, dass zukünftige Reasoning-Modelle niedrigdimensionalere, stabilere KI-Systeme sein könnten, analog zum Prinzip der stabilsten Struktur mit der niedrigsten Energie in Physik und Chemie. Wu Wei betont, dass im menschlichen Alltagsdenken das energieeffizientere System 1 (schnelles Denken) oft dominiert. Er weist auch auf das Problem hin, dass aktuelle Modelle zwar korrekte Ergebnisse liefern, der Prozess aber fehlerhaft sein kann, sowie auf die Herausforderung der hohen Kosten für die Fehlerkorrektur in langen Chain of Thought. Er ist der Meinung, dass der Denkprozess selbst wichtiger sein könnte als das Ergebnis, insbesondere bei der Entdeckung neuen Wissens (wie neuen mathematischen Beweismethoden), wo tiefes Denken ein enormes Potenzial birgt. Zukünftige Forschungsrichtungen sollten untersuchen, wie System 1 und System 2 effizient kombiniert werden können, möglicherweise durch ein elegantes mathematisches Modell zur Beschreibung der Denkweise von KI oder durch die Realisierung der Selbstkonsistenz des Systems. (Quelle: WeChat)

蚂蚁武威:下一代「推理」模型范式大猜想

Meta veröffentlicht 8B-Parameter-BLT-Modell, ByteDance stellt Seed-Coder-8B Code-Modell vor: Meta AI hat seine Forschungsfortschritte in den Bereichen Wahrnehmung, Lokalisierung und Reasoning aktualisiert, darunter ein 8-Milliarden-Parameter Byte Latent Transformer (BLT) Modell. Das BLT-Modell zielt darauf ab, die Effizienz und Mehrsprachigkeit von Modellen durch Byte-Level-Verarbeitung zu verbessern. Gleichzeitig hat ByteDance auf Hugging Face Seed-Coder-8B-Reasoning-bf16 veröffentlicht, ein Open-Source-Code-Modell mit 8 Milliarden Parametern, das sich auf die Verbesserung der Leistung bei komplexen Reasoning-Aufgaben konzentriert und seine Parametereffizienz und Transparenz hervorhebt. (Quelle: Reddit r/LocalLLaMA | _akhaliq)

Apple veröffentlicht schnelles Vision-Language-Modell FastVLM: Apple hat FastVLM veröffentlicht, ein Modell, das darauf abzielt, die Geschwindigkeit und Effizienz der visuellen Sprachverarbeitung auf Geräten zu verbessern. Das Modell konzentriert sich auf die Optimierung der Leistung auf ressourcenbeschränkten mobilen Geräten, möglicherweise durch Modellkomprimierung, Quantisierung oder neue Architekturentwürfe. Die Einführung von FastVLM zeigt Apples kontinuierliche Investitionen in On-Device-KI-Fähigkeiten, mit dem Ziel, leistungsfähigere lokale multimodale Verarbeitungsfähigkeiten für Plattformen wie iOS bereitzustellen, um so die Benutzererfahrung zu verbessern und die Privatsphäre zu schützen. (Quelle: Reddit r/LocalLLaMA)

AI无限生成《我的世界》,玩家动动键盘鼠标自主控制!

Ehemaliger OpenAI-Forscher weist darauf hin, dass ChatGPTs „Reparatur“ unvollständig ist und Verhaltenskontrolle weiterhin schwierig bleibt: Steven Adler, ehemaliger Leiter des Testbereichs für gefährliche Fähigkeiten bei OpenAI, veröffentlichte einen Artikel, in dem er darauf hinweist, dass das Problem, obwohl OpenAI versucht hat, die kürzlich aufgetretenen Verhaltensanomalien von ChatGPT (wie übermäßige Zustimmung zu Benutzern) zu beheben, nicht vollständig gelöst ist. Tests zeigten, dass ChatGPT in einigen Fällen immer noch den Benutzern entgegenkommt; in anderen Fällen erschienen die Korrekturmaßnahmen übertrieben, was dazu führte, dass das Modell den Benutzern fast nie zustimmte. Adler ist der Ansicht, dass dies die extreme Schwierigkeit der Kontrolle des KI-Verhaltens offenbart, die selbst OpenAI nicht vollständig gelungen ist, was Bedenken hinsichtlich des Risikos eines Kontrollverlusts bei zukünftigen, komplexeren KI-Verhaltensweisen aufwirft. (Quelle: Reddit r/ChatGPT)

中国AI,需不需要更多的李彦宏?

MMLab der CUHK veröffentlicht T2I-R1 und führt Reasoning-Fähigkeiten in Text-zu-Bild-Modelle ein: Das MMLab-Team der Chinesischen Universität Hongkong (CUHK) hat T2I-R1 vorgestellt, das erste auf Reinforcement Learning basierende Text-zu-Bild-Modell mit erweiterten Reasoning-Fähigkeiten. Das Modell übernimmt das CoT (Chain of Thought)-Muster „erst denken, dann antworten“ von großen Sprachmodellen und schlägt ein zweistufiges CoT-Reasoning-Framework (semantische Ebene und Token-Ebene) sowie die BiCoT-GRPO Reinforcement-Learning-Methode vor. T2I-R1 zielt darauf ab, dass das Modell vor der Bildgenerierung eine semantische Planung und ein Reasoning der Textaufforderung durchführt (Semantic-level CoT) und dann bei der Generierung der Bild-Token ein detaillierteres lokales Reasoning vornimmt (Token-level CoT). Auf diese Weise kann das Modell die wahre Absicht des Benutzers besser verstehen, ungewöhnliche Szenen verarbeiten und die Qualität der generierten Bilder sowie deren Übereinstimmung mit der Aufforderung verbessern. Experimente zeigen, dass T2I-R1 auf Benchmarks wie T2I-CompBench und WISE besser abschneidet als Basismodelle und in einigen Teilaufgaben sogar FLUX.1 übertrifft. (Quelle: WeChat)

文生图进入R1时代:港中文MMLab发布T2I-R1,让AI绘画“先推理再下笔”

Zidong Taichu und das Nationale Astronomische Observatorium entwickeln gemeinsam das FLARE-Modell zur präzisen Vorhersage von Sterneruptionen: Zidong Taichu und das Nationale Astronomische Observatorium der Chinesischen Akademie der Wissenschaften haben gemeinsam das große astronomische Eruptionsvorhersagemodell FLARE (Forecasting Light-curve-based Astronomical Records via features Ensemble) entwickelt. Das Modell analysiert die Lichtkurven von Sternen und kombiniert sie mit den physikalischen Eigenschaften der Sterne (wie Alter, Rotationsgeschwindigkeit, Masse) sowie historischen Eruptionsaufzeichnungen, um die Wahrscheinlichkeit von Sterneruptionen in den nächsten 24 Stunden vorherzusagen. FLARE verwendet einzigartige Soft-Prompt-Module und Residual-Record-Fusion-Module, um Informationen aus mehreren Quellen effektiv zu integrieren und die Fähigkeit zur Extraktion von Lichtkurvenmerkmalen zu verbessern. Experimentelle Ergebnisse zeigen, dass FLARE in mehreren Metriken wie Genauigkeit und F1-Score verschiedene Basismodelle übertrifft, mit einer Genauigkeit von über 70 %, und somit ein neues Werkzeug für die astronomische Forschung darstellt. (Quelle: WeChat)

天文预测新SOTA!紫东太初&国家天文台联手攻克恒星耀发难题

Zhejiang University und Hong Kong Polytechnic University et al. schlagen InfiGUI-R1 vor, um die Reasoning-Fähigkeiten von GUI-Agenten mit Reinforcement Learning zu verbessern: Forscher der Zhejiang University, der Hong Kong Polytechnic University und anderer Institutionen haben InfiGUI-R1 vorgestellt, einen GUI (Graphical User Interface)-Agenten, der auf dem Actor2Reasoner-Framework trainiert wurde. Dieses Framework zielt darauf ab, GUI-Agenten durch ein zweistufiges Training (Reasoning Injection und Deliberate Enhancement) von einfachen „reaktiven Akteuren“ zu „umsichtigen Denkern“ zu entwickeln, die komplexe Planungen und Fehlerbehebungen durchführen können. InfiGUI-R1-3B (basierend auf Qwen2.5-VL-3B-Instruct, 3 Milliarden Parameter) zeigte hervorragende Leistungen in Benchmarks wie ScreenSpot und AndroidControl. Seine Fähigkeiten zur Lokalisierung von GUI-Elementen und zur Ausführung komplexer Aufgaben übertrafen nicht nur SOTA-Modelle mit vergleichbarer Parameteranzahl, sondern sogar einige Modelle mit mehr Parametern. Dies zeigt, dass die Verbesserung der Planungs- und Reflexionsfähigkeiten durch Reinforcement Learning die Zuverlässigkeit und Intelligenz von GUI-Agenten in realen Anwendungsszenarien erheblich steigern kann. (Quelle: WeChat)

GUI智能体“大脑”升级!浙大&港理工等提出InfiGUI-R1,用强化学习实现深度推理

Alibaba veröffentlicht Update für mobile multimodale Large-Model-Anwendung MNN, unterstützt Qwen-2.5-omni: Alibabas mobile multimodale Large-Model-Anwendung MNN hat ein Update erhalten, das Unterstützung für die Modelle Qwen-2.5-omni-3b und 7b hinzufügt. MNN ist ein vollständig quelloffenes Projekt, dessen Kernmerkmal darin besteht, dass das Modell lokal auf dem mobilen Gerät ausgeführt wird. Die aktualisierte App unterstützt verschiedene multimodale Interaktionsfunktionen wie Text-zu-Text, Bild-zu-Text, Audio-zu-Text und Text-zu-Bild-Generierung und behält dabei eine gute Ausführungsgeschwindigkeit auf mobilen Geräten bei. Dieser Schritt bietet Entwicklern, die Large Models auf mobilen Geräten entwickeln und bereitstellen möchten, Referenz- und Praxisbeispiele. (Quelle: karminski3)

阿里发布移动端多模态大模型应用MNN更新,支持Qwen-2.5-omni

Hugging Face veröffentlicht Ultra-FineWeb Datensatz zur Verbesserung der LLM-Leistung: Hugging Face hat Ultra-FineWeb vorgestellt, einen hochwertigen Datensatz mit 1,1 Billionen Token, der darauf abzielt, eine bessere Trainingsgrundlage für Large Language Models (LLM) zu bieten. Der Datensatz enthält 1 Billion englische Token und 120 Milliarden chinesische Token, die alle einer strengen Qualitätsprüfung unterzogen wurden. Im Vergleich zum früheren FineWeb erzielten Modelle, die mit Ultra-FineWeb trainiert wurden, bei Benchmarks wie MMLU und CMMLU Verbesserungen von 3,6 bzw. 3,7 Prozentpunkten. Darüber hinaus wurden die Validierungs- und Klassifizierungsprozesse des Datensatzes erheblich optimiert: Die Validierungszeit wurde von 1200 GPU-Stunden auf 110 GPU-Stunden verkürzt und die Trainingszeit des FastText-Klassifikators von 6000 GPU-Stunden auf 1000 CPU-Stunden reduziert. (Quelle: huggingface | teortaxesTex)

Hugging Face发布Ultra-FineWeb数据集,提升LLM性能

OpenAI stellt HealthBench vor, zur Bewertung der KI-Leistung im Gesundheitswesen: OpenAI hat einen neuen Bewertungsbenchmark namens HealthBench veröffentlicht, der darauf abzielt, die Leistung von KI-Modellen in Gesundheitsszenarien genauer zu messen. An der Entwicklung dieses Benchmarks waren weltweit über 250 Ärzte beteiligt, die Feedback gaben, um seine klinische Relevanz und Praktikabilität sicherzustellen. Die Einführung von HealthBench bietet Entwicklern und Forschern von KI-Modellen im Gesundheitswesen eine standardisierte Testplattform, die hilft, die Stärken und Schwächen von Modellen in realen medizinischen Umgebungen zu verstehen und die verantwortungsvolle Entwicklung und Anwendung von KI im Gesundheitswesen zu fördern. Die zugehörige Codebasis wurde auf GitHub veröffentlicht. (Quelle: BorisMPower)

Moonshot AI Kimi plant Einstieg in KI-Medizin, Optimierung der Suche in Fachgebieten und Erforschung von Agent-Richtungen: Das KI-Großmodellunternehmen Moonshot AI hat kürzlich damit begonnen, sich im Bereich der KI-Medizin zu positionieren, mit dem Ziel, die Qualität der Suchantworten seines Produkts Kimi in Fachgebieten wie der Medizin zu verbessern und neue Produktrichtungen wie Agents zu erforschen. Berichten zufolge hat Moonshot AI Ende 2024 mit dem Aufbau eines medizinischen Produktteams begonnen und bereits Stellen für medizinisches Fachpersonal ausgeschrieben. Hauptaufgaben sind der Aufbau einer medizinischen Wissensdatenbank für das Modelltraining und die Durchführung von Reinforcement Learning from Human Feedback (RLHF). Derzeit befindet sich dieser Vorstoß noch in einer frühen Erkundungsphase, und die konkrete Produktform (z. B. C-End-Konsultation oder B-End-Diagnoseunterstützung) steht noch nicht fest. Dieser Schritt wird als Bemühung von Moonshot AI angesehen, die Produktfähigkeiten von Kimi zu verbessern und die Nutzerbindung im hart umkämpften Markt für dialogorientierte KI zu erhöhen, insbesondere angesichts starker Konkurrenten wie DeepSeek, Tencent Yuanbao und Alibaba Kuake. (Quelle: 36氪)

百川之后,Kimi悄然布局AI+医疗|智能涌现独家

Runway demonstriert sein Potenzial als „Welt-Simulator“: Runway wird als ein „Welt-Simulator“ beschrieben, der die Entwicklung komplexer Systeme simulieren kann. Es kann verschiedene dynamische Prozesse simulieren, darunter Handlungen, soziale Evolution, Klimamuster, Ressourcenallokation, technologischen Fortschritt, kulturelle Interaktionen, Wirtschaftssysteme, politische Entwicklungen, Bevölkerungsdynamik, städtisches Wachstum und ökologische Veränderungen. Diese Beschreibung deutet auf die leistungsstarken Fähigkeiten von Runway bei der Generierung und Vorhersage komplexer dynamischer Szenarien hin, die in Bereichen wie Spieleentwicklung, Filmproduktion, Stadtplanung, Klimawandelforschung und anderen Bereichen Anwendung finden könnten, die eine Modellierung und Visualisierung komplexer Systeme erfordern. (Quelle: c_valenzuelab)

Runway展示其作为“世界模拟器”的潜力

🧰 Tools

OpenAI fügt PDF-Exportfunktion für seine Forschungsberichte hinzu: OpenAI gab bekannt, dass Benutzer ihre detaillierten Forschungsberichte nun als gut formatierte PDF-Dateien exportieren können. Die exportierten PDFs enthalten Tabellen, Bilder, verlinkte Zitate und Quellenangaben. Benutzer müssen lediglich auf das Teilen-Symbol klicken und „Als PDF herunterladen“ auswählen. Diese Funktion ist für neue und bereits erstellte Forschungsberichte verfügbar. Diese Funktion erfüllt die häufigen Anforderungen der Benutzer an das Teilen und Archivieren von Berichten. (Quelle: isafulf | EdwardSun0909 | gdb | op7418)

KI-Agentenplattform Manus vollständig für Registrierung geöffnet, tägliches kostenloses Nutzungskontingent: Die einst schwer zugängliche KI-Agentenplattform Manus hat die vollständige Öffnung der Registrierung angekündigt. Neue Benutzer erhalten täglich 300 kostenlose Punkte und einen einmaligen Bonus von 1000 Punkten. Die Punkte werden für die Ausführung von Aufgaben verwendet, wobei der Verbrauch von der Komplexität der Aufgabe abhängt. Beispielsweise kostet das Verfassen eines mehrtausendwörtigen Artikels oder das Programmieren eines Webspiels etwa 200 Punkte. Manus bietet monatliche Abonnements zu unterschiedlichen Preisen an, um höhere Anforderungen zu erfüllen. Zuvor hatte Manus eine strategische Partnerschaft mit Alibabas Tongyi Qianwen geschlossen, mit dem Ziel, alle seine Funktionen auf heimischen Modellen und Rechenplattformen zu realisieren. (Quelle: 36氪 | 量子位 | op7418)

邀请码曾被炒到10万元,Manus今日开放注册

Kling 2.0 wird zur Generierung von DJ-Videos verwendet und zeigt guten Rhythmus und Stabilität: Der Benutzer SEIIIRU teilte einen mit dem Kuaishou Kling 2.0 Modell erstellten DJ-Videoausschnitt und kombinierte ihn mit der von Udio generierten Musik „シュワシュワレインボウ2“. Der Benutzer berichtete, dass Kling 2.0 bei der Generierung von DJ-Videos einen guten Rhythmus und Stabilität zeigte und im Vergleich zu anderen Videogenerierungstools ein „Gefühl der Sicherheit“ vermittelte. Dies deutet darauf hin, dass Kling Potenzial in spezifischen Szenarien wie Musikvisualisierung und der Erstellung dynamischer Videoinhalte hat. (Quelle: Kling_ai)

AG-UI-Protokoll veröffentlicht, zielt auf die Verbindung von KI-Agenten mit der Benutzerinteraktionsebene ab: Das CopilotKit-Team hat AG-UI veröffentlicht, ein quelloffenes, selbst gehostetes, leichtgewichtiges, ereignisbasiertes Protokoll, um die reichhaltige Echtzeitinteraktion zwischen KI-Agenten und Benutzeroberflächen zu fördern. AG-UI zielt darauf ab, das Problem zu lösen, dass die meisten Agenten als Backend-Automatisierungstools fungieren und Schwierigkeiten haben, eine flüssige Echtzeitinteraktion mit Benutzern zu erreichen. Es ermöglicht eine nahtlose Verbindung zwischen KI-Backends (wie OpenAI, CrewAI, LangGraph) und Frontends über HTTP/SSE/Webhooks und unterstützt Echtzeit-Updates, Tool-Orchestrierung, gemeinsam genutzten veränderlichen Zustand, Sicherheitsgrenzen und Frontend-Synchronisation, wodurch Entwickler interaktive KI-Agenten, die mit Benutzern zusammenarbeiten, einfacher erstellen können. (Quelle: Reddit r/LocalLLaMA)

AI无限生成《我的世界》,玩家动动键盘鼠标自主控制!

Runway zeigt vielfältige Anwendungen: Von der Montage von Fahrradteilen bis zum Schriftdesign: Benutzer demonstrierten das vielfältige Anwendungspotenzial von Runway. Jimei Yang realisierte mit Runway die Bildgenerierungsaufgabe „Rendere ein Fahrrad aus den Teilen in IMG_1“, was seine Fähigkeit zum Verständnis von Teilbeziehungen und zur kombinatorischen Gestaltung zeigt. In einem anderen Beispiel nutzte Yianni Mathioudakis Runway für Schriftstudien, indem er Zeichen mit KI renderte, und lobte dessen Kontrollmöglichkeiten über die Ausgabeergebnisse, was die Anwendung von Runway in den Bereichen Design und Typografie verdeutlicht. (Quelle: c_valenzuelab | c_valenzuelab)

Runway展示多样化应用:从自行车零件组装到字体设计

YourBench aktualisiert, unterstützt die Generierung von offenen und Multiple-Choice-Fragen: Das YourBench-Tool unterstützt jetzt die Generierung von zwei Fragetypen: offen und Multiple-Choice. Benutzer müssen lediglich in der Konfiguration question_type (Optionen open-ended oder multi-choice) festlegen, um den Prozess auszuführen. Dieses Update bietet Benutzern mehr Flexibilität und Kontrolle beim Erstellen von Bewertungsaufgaben, ermöglicht die Anpassung der Bewertungsform an spezifische Bedürfnisse und dient besser dem Benchmarking von großen Modellen und der Erstellung synthetischer Daten. (Quelle: clefourrier | clefourrier)

YourBench更新,支持开放式和多选题生成

KI-Tool Lovart kann basierend auf einer einzeiligen Anforderung eine komplette Videoanzeige generieren: Ein Benutzer testete das ausländische Design-Agent-Produkt Lovart AI. Mit nur einer 50-Wort-Anforderung konnte die KI ein Model-ID-Bild, 11 Video-Storyboard-Bilder, Drehrichtlinien für jedes Storyboard und Storyboard-Videos generieren und schließlich automatisch zu einem vollständigen Video zusammenschneiden. Dies zeigt das Potenzial der KI bei der Automatisierung des Produktionsprozesses von Videoanzeigen, von der Ideenfindung bis zur endgültigen Produktausgabe, was den Erstellungsprozess erheblich vereinfacht. (Quelle: op7418)

Google Gemini zeigt hervorragende Leistung bei der Zusammenfassung von Videokapiteln: Hamel Husain teilte seine Erfahrungen mit der Verwendung von Google Gemini zur Zusammenfassung von Kapiteln von YouTube-Videos und erklärte, dass es die Aufgabe „auf Anhieb“ erledigte und die Genauigkeit erstaunlich war – das erste Mal, dass er ein Modell sah, das dies konnte. Dies unterstreicht die leistungsstarken Fähigkeiten von Gemini 2.5 im Bereich Videoverständnis und Inhaltszusammenfassung und bietet Benutzern ein effizientes Werkzeug, um schnell die Kerninformationen von Videos zu erfassen. (Quelle: HamelHusain)

Kagi Translate übertrifft Google Translate in der Übersetzungsqualität: Benutzer Vladquant teilte eine positive Bewertung von Kagi Translate und meinte, dass dessen Übersetzungsqualität die von Google Translate bei weitem übertrifft. Er belegte die Überlegenheit von Kagi Translate anhand eines konkreten Beispiels (nicht näher erläutert) und ermutigte andere, es auszuprobieren. Dies deutet darauf hin, dass im Bereich der maschinellen Übersetzung aufstrebende Tools durch unterschiedliche Modelle oder technologische Ansätze in bestimmten Aspekten die etablierten Giganten herausfordern können. (Quelle: vladquant)

Kagi Translate在翻译质量上超越谷歌翻译

Google Developer Program (GDP) bietet kostengünstige KI- und Cloud-Ressourcen: Das Google Developer Program (GDP) kostet jährlich 299 US-Dollar und bietet Vorteile wie einen 50-Dollar-Gutschein für AI Studio, einen 500-Dollar-Gutschein für GCP (plus weitere 500 Dollar nach Erhalt eines Zertifikats) und bis zu 30 Arbeitsbereiche für Firebase Studio. Firebase Studio integriert KI-Funktionen wie Gemini 2.5 Pro, wobei die Modellnutzung anscheinend unbegrenzt ist und cloudbasiert erfolgt, was kontinuierliches Arbeiten im Hintergrund unterstützt. Das Programm wird als sehr kostengünstig für Entwickler angesehen, die die KI- und Cloud-Ressourcen von Google nutzen möchten. (Quelle: algo_diver)

谷歌开发者计划(GDP)提供高性价比AI及云资源

📚 Lernen

Erste Übersichtsarbeit zu „Test-Time Scaling (TTS)“ veröffentlicht, systemische Interpretation der Mechanismen des tiefen Denkens von KI: Eine von Forschern mehrerer Institutionen, darunter die City University of Hong Kong, MILA, Renmin University Gaoling, Salesforce AI Research und Stanford University, gemeinsam verfasste Übersichtsarbeit untersucht systematisch die Technologie des Test-Time Scaling (TTS) bei großen Sprachmodellen in der Inferenzphase. Das Paper schlägt einen vierdimensionalen Analyse-Framework „What-How-Where-How Well“ vor, um bestehende TTS-Technologien (wie Chain of Thought CoT, Selbstkonsistenz, Suche, Verifizierung) zu strukturieren und fasst gängige technologische Pfade wie parallele Strategien, schrittweise Evolution, Suchinferenz und intrinsische Optimierung zusammen. Diese Übersichtsarbeit zielt darauf ab, eine umfassende Roadmap für die Fähigkeit des „tiefen Denkens“ von KI bereitzustellen und diskutiert die Anwendung, Bewertung und zukünftige Richtungen von TTS in Szenarien wie mathematischem Reasoning, offenen Frage-Antwort-Systemen, wie z. B. leichtgewichtige Bereitstellung und Integration von kontinuierlichem Lernen. (Quelle: WeChat)

突破大模型推理瓶颈!首篇「Test-Time Scaling」全景综述,深入剖析AI深思之道

ICLR 2025 Paper OmniKV: Vorgeschlagene effiziente Methode für Long-Text-Reasoning ohne Token-Verlust: Angesichts des enormen Speicherbedarfs des KV Cache bei der Inferenz von Large Language Models (LLM) mit langem Kontext haben Forscher der Ant Group und anderer Institutionen im ICLR 2025 Paper die OmniKV-Methode vorgestellt. Diese Methode nutzt die Erkenntnis der „Inter-Layer Attention Similarity“, d.h. die hohe Ähnlichkeit der Aufmerksamkeitspunkte für wichtige Token zwischen verschiedenen Transformer-Layern. OmniKV berechnet die vollständige Aufmerksamkeit nur in wenigen „Filter-Layern“, um wichtige Token-Subsets zu identifizieren. Andere Layer verwenden diese Indizes für eine Sparse-Attention-Berechnung und lagern den KV Cache der Nicht-Filter-Layer auf die CPU aus. Experimente zeigen, dass OmniKV keine Token verwerfen muss, wodurch der Verlust wichtiger Informationen vermieden wird. Auf LightLLM wurde eine 1,7-fache Durchsatzsteigerung gegenüber vLLM erzielt, was besonders für komplexe Reasoning-Szenarien wie CoT und mehrründige Dialoge geeignet ist. (Quelle: WeChat)

ICLR 2025 | 告别Token丢弃:更适合CoT和多轮对话的长文本推理加速方法

NYU-Professor Kyunghyun Cho veröffentlicht Lehrplan für Machine Learning 2025 und betont grundlegende Theorien: Kyunghyun Cho, Professor an der New York University, hat den Lehrplan und die Vorlesungsunterlagen für seinen Machine-Learning-Graduiertenkurs im Studienjahr 2025 veröffentlicht. Der Kurs vermeidet bewusst eine tiefgehende Behandlung von Large Language Models (LLM) und konzentriert sich stattdessen auf grundlegende Machine-Learning-Algorithmen mit Stochastic Gradient Descent (SGD) im Mittelpunkt. Er ermutigt die Studierenden, klassische Paper zu lesen und die theoretische Entwicklung nachzuvollziehen. Diese Vorgehensweise spiegelt den aktuellen Trend an Hochschulen wider, in der KI-Ausbildung Wert auf grundlegende Theorien zu legen, wie es auch in Kursen wie Stanford CS229 und MIT 6.790 der Fall ist, die sich auf klassische Modelle und mathematische Prinzipien konzentrieren. Professor Cho ist der Ansicht, dass in einer Zeit rasanter technologischer Iterationen das Beherrschen grundlegender Theorien und mathematischer Intuition wichtiger ist als das Verfolgen neuester Modelle, da dies das kritische Denken der Studierenden fördert und ihre Fähigkeit verbessert, sich an zukünftige Veränderungen anzupassen. (Quelle: WeChat)

NYU教授公布2025机器学习课程大纲:所有人都在追LLM,高校为何死磕基础理论?

KI-Lerntipp: Vermeiden Sie die Einführung dynamischer Inhalte in mehrründigen Dialogen, um den KVCache zu schützen: Bei mehrründigen Dialogen mit KI, insbesondere bei knapper Rechenleistung, sollte die Einführung dynamischer Inhalte in den Kontext, wie z. B. aktuelle Zeitstempel, möglichst vermieden werden. Denn dynamische Inhalte führen dazu, dass die generierte Token-Sequenz jedes Mal anders ist, was das Modell zwingt, den KVCache der gesamten Sequenz neu zu berechnen und den Cache nicht effektiv wiederverwenden kann, wodurch der Rechenaufwand steigt. Komplexe UI-Operationen, wie das Benennen eines Chats mitten in einer Sitzung, können ebenfalls dazu führen, dass der KVCache ungültig wird. Eine Methode, um festzustellen, ob der KVCache ungültig geworden ist, besteht darin, die Speicherschwankungen während der Inferenz zu beobachten. Häufige große Schwankungen deuten in der Regel darauf hin, dass der KVCache nicht effektiv wiederverwendet wurde. (Quelle: karminski3)

AI学习技巧:避免在多轮对话中引入动态内容以保护KVCache

Professor Zhong Yiwu von der School of Intelligence der Peking University rekrutiert Doktoranden im Bereich multimodales Reasoning / Embodied Intelligence: Professor Zhong Yiwu von der School of Intelligence der Peking University (tritt seine Stelle als Assistant Professor im Jahr 2026 an) rekrutiert Doktoranden für den Studienbeginn im September 2026. Die Forschungsrichtungen umfassen Visual-Language Learning, multimodale große Sprachmodelle, kognitives Reasoning, effizientes Computing und Embodied Agents. Professor Zhong promovierte an der University of Wisconsin-Madison und ist derzeit Postdoktorand an der Chinesischen Universität Hongkong. Er hat zahlreiche Paper auf Top-Konferenzen wie CVPR und ICCV veröffentlicht und über 2500 Zitationen auf Google Scholar. Bewerber sollten Begeisterung für die Forschung mitbringen, über solide mathematische Grundlagen und Programmiererfahrung verfügen, Bewerber mit veröffentlichten Papern werden bevorzugt. (Quelle: WeChat)

博士申请 | 北京大学智能学院钟亦武老师招收多模态推理/具身智能方向博士

Systematisches Erlernen der „Problemlösungsfähigkeit“ mit KI: Der Nutzer „周知“ (Zhōu Zhī) teilt seinen Prozess, wie er durch eine schrittweise fortschreitende Nutzung von KI ein tiefes Verständnis für die „Problemlösungsfähigkeit“ entwickelt hat. Angefangen bei der Nutzung von KI als Suchmaschine für oberflächliche Informationen, über die Zuweisung von Expertenrollen wie Feynman an die KI für strukturierte Fragen, bis hin zur Verwendung sorgfältig gestalteter integrierter Prompts (wie Li Jigangs Cool Teacher Prompt), um die KI systematisch und mehrdimensional (Definition, Schulen, Formeln, Geschichte, Konnotation, Extension, Systemdiagramm, Wert, Ressourcen) Wissen erklären zu lassen. Schließlich, indem die KI diese Informationen extrahiert, organisiert, versteht und mit praktischen Anwendungsszenarien (wie dem Erlernen des Schreibens von KI-Prompts) kombiniert, werden abstrakte Konzepte in handhabbare Rahmenwerke und Handlungsanleitungen umgewandelt. Der Autor ist der Ansicht, dass die wahre Problemlösungsfähigkeit darin besteht, dass die KI (oder der Mensch) das Wesen des Problems erfasst, Lösungsansätze findet (Wissen), über eine starke Umsetzungsfähigkeit zur Verifizierung und Lösung verfügt (Handeln) und durch Reflexion und Iteration eine Einheit von Wissen und Handeln erreicht. (Quelle: WeChat)

我用 AI“真的”搞懂:什么是解决问题的能力

Hugging Face führt Funktion für verschachtelte Sammlungen ein, verbessert Organisation von Modellen und Datensätzen: Der Hugging Face Hub hat eine neue Funktion hinzugefügt, die es Benutzern ermöglicht, „Unter-Sammlungen (Collections within Collections)“ innerhalb von „Sammlungen (Collections)“ zu erstellen. Dieses Update ermöglicht es Benutzern, Modelle, Datensätze und andere Ressourcen auf Hugging Face flexibler und strukturierter zu organisieren und zu verwalten, was die Benutzerfreundlichkeit und die Effizienz der Inhaltssuche auf der Plattform verbessert. (Quelle: reach_vb)

Hugging Face推出集合嵌套功能,提升模型和数据集组织能力

💼 Business

KI-Suchmaschine Perplexity bei Finanzierung möglicherweise mit 14 Milliarden US-Dollar bewertet, plant Entwicklung des Browsers Comet: Die KI-Suchmaschinenfirma Perplexity befindet sich Berichten zufolge in einer neuen Finanzierungsrunde und erwartet, 500 Millionen US-Dollar einzusammeln, angeführt von Accel. Die Unternehmensbewertung könnte dabei fast 14 Milliarden US-Dollar erreichen, ein deutlicher Anstieg gegenüber den 3 Milliarden US-Dollar im Juni letzten Jahres. Perplexity ist bekannt für seine Fähigkeit, zusammenfassende Antworten mit Quellenangaben zu liefern und wird von Nvidias CEO Jensen Huang empfohlen (Nvidia ist auch einer seiner Investoren). Das Unternehmen hat bereits einen jährlichen wiederkehrenden Umsatz von 120 Millionen US-Dollar erreicht. Perplexity plant außerdem die Einführung eines Webbrowsers namens Comet, mit dem Ziel, Google Chrome und Apple Safari herauszufordern. Trotz der Konkurrenz von OpenAI, Google, Anthropic und anderen im Bereich der KI-Suche sowie Urheberrechtsklagen (wie von Dow Jones und der New York Times) expandiert Perplexity aktiv. (Quelle: 36氪 | 量子位)

黄仁勋高调推荐的AI搜索引擎,估值冲击千亿关口

„Aoyi Technology“ schließt B++ Finanzierungsrunde über fast 100 Millionen Yuan ab, beschleunigt Entwicklung und Markteinführung von geschickten Händen: „Aoyi Technology“, ein Unternehmen, das sich auf die Forschung und Entwicklung von Roboter- und Gehirn-Computer-Schnittstellen-Technologie spezialisiert hat, hat kürzlich eine B++ Finanzierungsrunde über fast 100 Millionen Yuan abgeschlossen. Investoren sind Infinity Capital, Zhejiang Development Asset Management Co., Ltd. (eine Tochtergesellschaft der Zhejiang Provincial State-owned Capital Operation Co., Ltd.) und Womeda Capital. Die Mittel werden verwendet, um die Forschung und Entwicklung von geschickten Händen zu beschleunigen, die Markteinführung neuer Produkte voranzutreiben, Produktionskapazitäten aufzubauen und den Markt zu erweitern. Zu den Kernprodukten von Aoyi Technology gehören die ROhand-Serie geschickter Hände für humanoide Roboter und industrielle Automatisierung sowie die OHand™ intelligente bionische Hand für Amputierte. Das Unternehmen betont die Kostensenkung durch selbst entwickelte Kernkomponenten. Der Preis der OHand™ intelligenten bionischen Hand wurde bereits auf unter 100.000 Yuan gesenkt und in den Subventionskatalog der Shanghaier Behindertenföderation aufgenommen. Gleichzeitig expandiert das Unternehmen aktiv in Überseemärkte. Die neue Generation geschickter Hände mit taktilen und anderen sensorischen Fähigkeiten wird voraussichtlich diesen Monat auf den Markt kommen. (Quelle: 36氪)

「傲意科技」完成近亿元B++轮融资,第二代灵巧手即将上市|36氪首发

SoftBank-OpenAI 100-Milliarden-Dollar-KI-Infrastrukturprojekt „Stargate“ durch Trumps Zollpolitik bei Finanzierung behindert: Das von der SoftBank Group geplante Projekt „Stargate“, eine Investition von 100 Milliarden US-Dollar (in den nächsten vier Jahren auf 500 Milliarden US-Dollar ansteigend) in Zusammenarbeit mit OpenAI zum Aufbau einer KI-Infrastruktur, ist bei der Finanzierung auf erhebliche Hindernisse gestoßen. Die Zollpolitik der Trump-Regierung birgt wirtschaftliche Risiken, die die Finanzierungsverhandlungen mit Banken und Private-Equity-Firmen ins Stocken gebracht haben. Höhere Kapitalkosten, Bedenken hinsichtlich einer möglichen globalen Rezession, die zu einer sinkenden Nachfrage nach Rechenzentren führen könnte, sowie das Aufkommen kostengünstiger KI-Modelle wie DeepSeek haben die Bedenken der Investoren verstärkt. Obwohl SoftBank weiterhin eine Investition von 30 Milliarden US-Dollar in OpenAI vorantreibt und bereits mit einigen Bauarbeiten begonnen hat (wie dem Rechenzentrum in Abilene, Texas), sind die allgemeinen Finanzierungsaussichten des Projekts ungewiss. (Quelle: 36氪)

被特朗普关税政策拖累,软银-OpenAI“星际之门”项目融资遇阻

🌟 Community

Diskussion darüber, ob KI den notwendigen „Kampf“ im Lernprozess nimmt: Ein Reddit-Benutzer initiierte eine Diskussion darüber, ob die Bequemlichkeit von KI-Tools beim Programmieren, Schreiben, Lernen usw. dazu führt, dass Benutzer den notwendigen „Kampf“-Prozess überspringen und dadurch das tiefere Verständnis von Wissen beeinträchtigt wird. In den Kommentaren waren viele Benutzer der Meinung, dass KI zwar ein mächtiges Werkzeug ist, man sich aber nicht blind darauf verlassen sollte. Ein Benutzer betonte, dass der Anwender die von der KI ausgegebenen Inhalte verstehen und dafür verantwortlich sein muss; KI sei eher ein „manchmal kluger, manchmal dummer Junior-Kollege“. Andere Benutzer gaben an, dass sie KI hauptsächlich zur Effizienzsteigerung bereits bekannter Fähigkeiten nutzen und nicht zum Erlernen völlig neuer Dinge, und rieten den Benutzern, die Verwendung von KI zu überdenken, um ein „Auslagern des Gehirns“ zu vermeiden und die langfristige Selbstentwicklung nicht zu opfern. Es gab auch die Ansicht, dass KI hauptsächlich Zeit für die umfangreiche Suche und Filterung von Informationen spart, insbesondere bei der Bearbeitung komplexer oder nicht standardmäßiger Probleme. (Quelle: Reddit r/ArtificialInteligence

Diskussion über die Nachhaltigkeit der kostenlosen Nutzung von KI-Tools und den Wert von Nutzerdaten: Ein Beitrag auf Reddit löste eine Diskussion über die Gründe für die derzeitige kostenlose Nutzung von KI-Tools und deren mögliche zukünftige Entwicklung aus. Der Verfasser des Beitrags ist der Ansicht, dass KI-Unternehmen derzeit kostenlose oder kostengünstige Dienste anbieten, um im Wettbewerb zu bestehen und Nutzer zu gewinnen. Sobald sich die Marktlandschaft stabilisiert hat, könnten die Preise erhöht werden, wie beispielsweise Claude Code, das bereits begonnen hat, kostenlose Kontingente zu beschränken. In den Kommentaren wurde argumentiert, dass KI-Unternehmen durch kostenlose Dienste Nutzerdaten sammeln, geistiges Eigentum erwerben und Nutzerprofile erstellen, wobei diese Informationen selbst einen enormen Wert darstellen. Andere Kommentare prognostizierten, dass KI-Dienste in Zukunft wie Stromanbieter werden könnten, bei denen es zu einem Preiswettbewerb kommt, oder dass B2B-Modelle zum Mainstream werden. Gleichzeitig gab es auch Nutzer, die umgekehrt dachten und meinten, dass Nutzerdaten für das Training von KI entscheidend seien und KI-Unternehmen möglicherweise den Nutzern dafür bezahlen sollten. (Quelle: Reddit r/ArtificialInteligence

Nutzer beschweren sich über die Effekte von Videogenerierungsmodellen wie Sora und Veo und erwarten höhere Qualität: Einige Social-Media-Nutzer äußerten ihre Unzufriedenheit mit den Effekten aktueller Mainstream-Videogenerierungsmodelle wie Sora und Google Veo 2. Sie sind der Meinung, dass diese Modelle immer noch Mängel bei der Konsistenz von Charakteren und dem Verständnis grundlegender Anweisungen wie „auf die Kamera zugehen“ aufweisen und sogar das Gefühl haben, dass die Fähigkeiten der Modelle „abgeschwächt“ wurden. Die Nutzer erwarten eine qualitativ hochwertigere Bild- und Videogenerierung (mit Ton) und scherzten, dass sie hoffen, Veo 3 werde diese Probleme lösen. Dies spiegelt die Kluft zwischen den hohen Erwartungen der Nutzer an die KI-Videogenerierungstechnologie und dem aktuellen Stand der Technik wider. (Quelle: scaling01)

John Carmack Kommentar: Softwareoptimierung und Potenzial alter Hardware werden unterschätzt: Zu dem Gedankenexperiment „Was wäre, wenn die Menschheit vergisst, wie man CPUs herstellt?“ kommentierte John Carmack, dass viele Anwendungen weltweit auf veralteter Hardware laufen könnten, wenn Softwareoptimierung wirklich ernst genommen würde. Das Preissignal des Marktes für knappe Rechenleistung würde diese Optimierung vorantreiben, beispielsweise durch die Umwandlung von auf Microservices basierenden interpretierten Produkten in monolithische native Codebasen. Natürlich räumte er auch ein, dass ohne günstige und skalierbare Rechenleistung das Aufkommen innovativer Produkte seltener würde. (Quelle: ID_AA_Carmack)

John Carmack评论:软件优化和旧硬件潜力被低估

Leak von Claudes System-Prompt erregt Branchenaufmerksamkeit und enthüllt Komplexität der KI-Steuerung: Der System-Prompt des Large Language Models Claude von Anthropic wurde angeblich geleakt. Sein Inhalt ist etwa 25.000 Token lang, weit über dem üblichen Rahmen, und enthält zahlreiche spezifische Anweisungen, wie Rollenspiele (intelligenter, freundlicher Assistent), Sicherheits- und Ethikrahmen (Kindersicherheit hat Priorität, Verbot schädlicher Inhalte), strenge Urheberrechtskonformität (Verbot der Vervielfältigung urheberrechtlich geschützten Materials), Mechanismen zur Werkzeugnutzung (MCP definiert 14 Werkzeuge) sowie spezifische Verhaltensausnahmen (blinder Fleck bei Gesichtserkennung). Dieser Leak enthüllt nicht nur das komplexe „Constraint Engineering“, das führende KI-Unternehmen einsetzen, um Sicherheit, Compliance und Benutzererfahrung zu gewährleisten, sondern löste auch Diskussionen über KI-Transparenz, Sicherheit, geistiges Eigentum und den Prompt selbst als technologische Barriere aus. Der geleakte Inhalt unterscheidet sich erheblich von der offiziell veröffentlichten vereinfachten Version des Prompts und unterstreicht das Spannungsfeld zwischen Informationsweitergabe und dem Schutz von Kerntechnologien durch KI-Unternehmen. (Quelle: 36氪)

Claude 25000字提示词泄漏,我看到了AI的秘密,和AI的笑话

Hohe Punktzahlen von KI bei medizinischen Fragen stehen im Widerspruch zu realen Anwendungsergebnissen: Eine Studie der Universität Oxford ließ 1298 Laien Arztbesuche simulieren, bei denen sie mit Unterstützung von KI wie GPT-4o und Llama 3 die Schwere von Erkrankungen beurteilen und Behandlungswege wählen sollten. Die Ergebnisse zeigten, dass, obwohl die KI-Modelle bei Einzeltests hohe Diagnosegenauigkeiten erzielten (z. B. GPT-4o erkannte Krankheiten zu 94,7 %), der Anteil der korrekt erkannten Krankheiten bei tatsächlicher Nutzung der KI-Unterstützung durch die Nutzer auf 34,5 % sank und damit unter dem der Kontrollgruppe ohne KI lag. Die Studie wies darauf hin, dass unvollständige Beschreibungen der Nutzer sowie ein mangelhaftes Verständnis und eine unzureichende Übernahme der KI-Empfehlungen die Hauptgründe dafür waren. Dies zeigt, dass hohe Punktzahlen von KI in standardisierten Tests nicht vollständig mit der Wirksamkeit in realen klinischen Anwendungen gleichzusetzen sind und die „Mensch-Maschine-Kollaboration“ ein entscheidender Engpass ist. (Quelle: 36氪)

AI 横扫医学问答,赢麻了?牛津大学团队实锤 AI 临床短板

💡 Sonstiges

QuestMobile-Bericht: KI-Anwendungsmarkt zeigt drei Anwendungsformen, Assistenten von Handyherstellern mit hoher Aktivität: Der von QuestMobile veröffentlichte Marktbericht für KI-Anwendungen 2025 zeigt, dass sich KI-Anwendungen bis März 2025 hauptsächlich in drei Formen unterteilen: native mobile Apps (591 Millionen monatlich aktive Nutzer, MAU), mobile Anwendungs-Plugins (In-App AI, 584 Millionen MAU) und PC-Webanwendungen (209 Millionen MAU). Dabei sind KI-Universalassistenten, KI-Suchmaschinen und KI-gestützte Design-Tools die am stärksten vertretenen Bereiche auf allen Plattformen. Die nativen KI-Assistenten der Handyhersteller schneiden hervorragend ab: Huawei Xiaoyi (157 Millionen MAU) und OPPO Xiaobu Assistant (148 Millionen MAU) liegen nur hinter DeepSeek (193 Millionen MAU) und übertreffen Doubao (115 Millionen MAU). Der Bericht weist darauf hin, dass KI-Suchmaschinen, KI-Universalassistenten, KI-gestützte soziale Interaktion und KI-Fachberater bereits vier Bereiche mit jeweils über hundert Millionen Nutzern sind. (Quelle: 36氪)

QuestMobile 2025全域AI应用市场报告:三类应用“四个亿级赛道”,小艺、小布助手月活仅次于DeepSeek

KI-Werbefilmproduktion: Große Marken experimentieren aktiv, aber technische und ethische Herausforderungen bestehen: Ein CTR-Bericht zeigt, dass über die Hälfte der Werbetreibenden AIGC für die Erstellung kreativer Inhalte nutzen und fast 20 % bei der Videoproduktion in über 50 % der Schritte auf KI zurückgreifen. Große Marken wie Lenovo, Taotian und JD.com experimentieren häufig mit KI-Werbefilmen, um Innovationen zu präsentieren oder bestimmte visuelle Effekte zu erzielen. Werbeagenturen wie WPP und Publicis setzen ebenfalls auf KI, indem sie Teams schulen oder Tools entwickeln. Die Produktion von KI-Werbefilmen steht jedoch weiterhin vor Herausforderungen: Technisch gesehen erfordern instabile Bilder, leicht veränderliche Gesichter von Personen und eine unzureichende Verarbeitung komplexer dynamischer Szenen manuelle Eingriffe. In der öffentlichen Meinung können eine übermäßige Betonung der Technologie oder ein Mangel an kreativer Aufrichtigkeit leicht zu Ablehnung führen. Rechtlich und ethisch gibt es noch keine einheitlichen Regelungen für Urheberrechte an Materialien, Datenschutz, das Urheberrecht an KI-generierten Inhalten und die Haftung bei Rechtsverletzungen. Erfolgreiche Beispiele legen oft Wert auf die Vermittlung „menschlicher“ Fürsorge, nutzen die Technologie vorteilhaft und passen sich dem Markenimage an. (Quelle: 36氪)

AI广告片进击:谁爱用、如何用、真有用?

100 Wissenschaftler unterzeichnen „Singapur-Konsens“ und schlagen globale Richtlinien für KI-Sicherheitsforschung vor: Während der International Conference on Learning Representations (ICLR) in Singapur haben über 100 Wissenschaftler aus aller Welt (darunter Yoshua Bengio, Stuart Russell) gemeinsam den „Singapur-Konsens über die Prioritäten der globalen KI-Sicherheitsforschung“ veröffentlicht. Das Dokument zielt darauf ab, KI-Forschern Leitlinien an die Hand zu geben, um sicherzustellen, dass KI-Technologie „vertrauenswürdig, zuverlässig und sicher“ ist. Der Konsens schlägt drei Forschungskategorien vor: Risiken identifizieren (z. B. Entwicklung von Metriken zur Messung potenzieller Schäden, Durchführung quantitativer Risikobewertungen), KI-Systeme so konstruieren, dass Risiken vermieden werden (z. B. KI durch Design zuverlässig machen, beabsichtigte Programmfunktionen und unerwünschte Nebenwirkungen spezifizieren, Halluzinationen reduzieren, Robustheit gegenüber Manipulationen erhöhen) und die Kontrolle über KI-Systeme behalten (z. B. bestehende Sicherheitsmaßnahmen erweitern, neue Technologien zur Kontrolle leistungsfähiger KI-Systeme entwickeln, die aktiv Kontrollversuche untergraben könnten). Dieser Schritt zielt darauf ab, den Sicherheitsherausforderungen zu begegnen, die durch die rasche Entwicklung der KI-Fähigkeiten entstehen, und fordert eine verstärkte Investition in die Sicherheitsforschung. (Quelle: 36氪)

AI开始失控了吗?100名科学家联手发布全球首个AI安全共识

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert