关键词:全原子扩散Transformer, 自监督过程奖励模型, 自回归视频生成, 基于位置的动力学, AI作者学术会议, AI失忆术, 神经渲染, 3D生成, ADiT框架, MetaStone-S1 SPRM, Lumos-1 MM-RoPE, Roblox AVBD布料模拟, CoPart部分感知扩散

🔥 聚焦

Meta/剑桥/MIT提出全原子扩散Transformer框架 : Meta FAIR、剑桥大学与麻省理工学院的联合科研团队提出全原子扩散 Transformer ADiT,打破了周期性与非周期性系统的建模壁垒,通过全原子统一潜在表示与 Transformer 潜在扩散两大创新,实现了用单一模型生成分子与晶体的突破。ADiT 的核心优势在于打破了周期性与非周期性系统之间的建模壁垒,实现了用单一模型生成分子与晶体。其设计几乎不引入归纳偏差,使得自编码器与扩散模型在训练和推理效率上远超传统等变扩散模型。在相同硬件条件下,生成 10,000 个样本的时间从 2.5 小时缩短至 20 分钟以内。 (来源: HuggingFace Daily Papers)

Test-Time Scaling with Reflective Generative Model : MetaStone-S1 通过自监督过程奖励模型 (SPRM) 达到 OpenAI o3 的性能。SPRM 通过共享主干网络并分别使用特定于任务的头部进行下一个标记预测和过程评分,成功地将策略模型和过程奖励模型 (PRM) 集成到一个统一的接口中,而无需额外过程注释,从而减少了 99% 以上的 PRM 参数,以实现高效推理。配备 SPRM 后,MetaStone-S1 自然适用于测试时间缩放 (TTS),并提供三种推理工作模式(低、中和高),基于可控的思维长度。 (来源: HuggingFace Daily Papers)

Lumos-1: 基于统一模型视角的自回归视频生成 : Lumos-1 是一种自回归视频生成器,它保留了 LLM 架构,并进行了最少的架构修改。为了在 LLM 中注入时空相关性,我们确定了结合 3D RoPE 的有效性,并诊断了其不平衡的频谱范围。因此,我们提出了 MM-RoPE,这是一种 RoPE 方案,它保留了原始文本 RoPE,同时为建模多模态时空数据提供了全面的频谱和缩放的 3D 位置。此外,Lumos-1 采用了一种遵循帧内双向性和帧间时间因果关系的标记依赖策略。基于这种依赖策略,我们确定了由空间信息冗余引起的帧级损失不平衡问题,并通过提出自回归离散扩散强制 (AR-DF) 来解决该问题。 (来源: HuggingFace Daily Papers)

Roblox 解决了困扰所有人的物理问题! : Roblox 通过 Position Based Dynamics(基于位置的动力学)和 Projective Dynamics(投影动力学)的结合,解决了困扰物理引擎多年的布料模拟难题。新方法名为“基于平均值的布料动力学”(AVBD),能够在保持实时性能的同时,实现高度逼真的布料模拟效果,并已在 Roblox 平台上得到应用。

🎯 动向

第一作者必须是AI,首个面向AI作者的学术会议来了 : 斯坦福大学发起首个面向AI作者的学术会议——科学AI智能体开放会议 (Agents4Science 2025),要求投稿论文的第一作者必须是AI系统,人类研究者只能作为共同作者。会议旨在探索AI驱动的科学发现的未来,并建立AI参与科研的规范和伦理考量标准。所有提交的论文和评审都将公开,以透明地研究AI在科研中的优势和局限性。 (来源: 36氪)

AI失忆术,只需3个注意力头,就能让大模型忘记「狗会叫」 : Meta联合NYU提出了一种操控缩放Transformer注意头的方法,可以精准定位和控制AI的认知模块,让大模型选择性地“遗忘”某些事实或常识。该方法通过将概念向量化,计算与注意力头的相似度,构建概念模块,并通过缩放因子放大或抹除概念的影响。这为个性化微调大模型、提高特定能力、控制安全性和理解模型的知识存储方式提供了新的思路。 (来源: 36氪)

🧰 工具

CLiFT: 用于计算高效和自适应神经渲染的压缩光场令牌 : 本文提出了一种神经渲染方法,该方法将场景表示为“压缩光场令牌 (CLiFT)”,保留场景丰富的表观和几何信息。CLiFT 通过压缩令牌实现计算高效的渲染,同时能够更改令牌数量以表示场景或使用一个经过训练的网络渲染新视图。(来源: HuggingFace Daily Papers)

From One to More: 用于 3D 生成的上下文部分潜在表示 : 受人类 3D 设计工作流程的启发,我们提出了 CoPart——一个部分感知扩散框架,它将 3D 对象分解为上下文部分潜在表示,以实现连贯的多部分生成。这种范式具有三个优点:i) 通过部分分解降低编码复杂度;ii) 实现显式部分关系建模;iii) 支持部分级调节。(来源: HuggingFace Daily Papers)

🌟 社区

jerryjliu0 讨论表单提取和LLM应用 : jerryjliu0 分享了使用 LlamaParse 进行自适应表单提取的方案,该方案将表单页面解析为标准化的键值对,并以二维表格输出,方便后续处理。他还推荐了 Clelia Bertelli 关于 Pydantic 的文章,强调了验证和可读性在代理工作流程中的重要性,并指出 Pydantic 是结构化输出的有效构建块。此外,他还转发了关于多代理设置和深度研究的推文,以及 LlamaIndex 的应用。 (来源: jerryjliu0, jerryjliu0, jerryjliu0, jerryjliu0)

Alibaba_Qwen提醒开发者在使用Qwen3-embedding时添加特殊标记 : Alibaba_Qwen 注意到开发者在使用 Qwen3-embedding 的 GGUF 模型时,经常忘记在上下文末尾添加特殊标记 <|endoftext|>,这会显著影响模型的准确性。他们建议使用 llama.cpp 自动添加此标记,并计划发布更新的 GGUF 模型包以简化操作。 (来源: Alibaba_Qwen)

Ronald_vanLoon分享AI相关新闻和技术 : Ronald_vanLoon 分享了多条AI相关的新闻和技术进展,包括AI在医疗保健中的应用、3D打印素食牛排、评估LLM适用性的框架、Gemini 2.5 的原生音频功能、自动机器人和无人机协同巡逻、用于控制的强化学习、外骨骼机器人、AI代理的自主性、云设计框架、机器人前空翻、医院的药物运输方式、未来汽车、以及其他技术创新。 (来源: 多条来自 Ronald_vanLoon)

社区讨论AI模型和工具 : 社区讨论了多个AI模型和工具,包括Kimi K2的性能、价格和应用,DeepSeek模型的压缩性,Grok模型的系统提示词调整,以及其他模型的评测结果和应用案例。讨论还涉及到AI代理的自主性、RLHF、RAG、多代理设置、以及AI在不同领域的应用,如深度研究、创意写作、代码生成、表单提取等。 (来源: 多条来自不同用户)

对AI和社会问题的讨论 : 社区讨论了AI对社会的影响,包括对就业、经济不平等、心理健康等方面的影响。讨论还涉及到AI的伦理问题、监管问题、以及AI的未来发展方向。 (来源: 多条来自不同用户)

📚 学习

RLHF书籍新增策略梯度算法推导 : Natolambert 的 RLHF 书籍的第 11 章(关于策略梯度算法)新增了完整的策略梯度目标推导内容。 (来源: natolambert)

💼 商业

SpaceX将投资20亿美元到xAI : SpaceX 将向 xAI 投资 20 亿美元,这是 xAI 50 亿美元股权融资的一部分,也是 SpaceX 有史以来最大的投资之一。SpaceX 此前也曾支持过特斯拉和 The Boring Company。此次投资后,Grok 模型或将被送上火星,SpaceX 和 xAI 之间未来可能会有更多商业合作。 (来源: 36氪)

汉阳科技Yarbo再获亿元融资 : 消费级扫雪庭院机器人公司汉阳科技Yarbo完成超亿元B+轮融资,由国科投资、中金资本和九阳创投投资。融资将用于技术研发、产品迭代、提升供应链和量产交付。汉阳科技是目前全球唯一实现大规模商业化交付的消费级扫雪机器人公司,其产品Yarbo S1已突破超低温环境下的电池技术、复杂地形的导航算法等关键技术难题。 (来源: 36氪)

12人团队打造AI陪伴神器,半年内斩获3000万美元投资 : AI陪伴应用Tolan背后的公司Portola完成了2000万美元的A轮融资,加上此前的1000万美元种子轮融资,Tolan已在半年内获得3000万美元投资。Tolan提供AI外星人角色陪伴用户,并通过订阅模式盈利。 (来源: 36氪)

💡 其他

扎克伯格准备偷袭马斯克,华裔技术人才成为AI致胜关键 : Meta 正大力投资 AI 领域,并高薪挖角 OpenAI、谷歌、苹果等公司的华裔 AI 人才,旨在提升其在 AI 领域的竞争力。 (来源: 36氪)

DeepSeek 凉了?鉴定为学新闻学的 : 文章驳斥了DeepSeek要凉的谣言,指出DeepSeek的使用率下降并非因为产品不行,而是因为其开源策略和故意降低官方API体验,鼓励用户使用第三方托管的DeepSeek模型。DeepSeek的核心目标是实现AGI,而不是通过卖大模型服务赚钱。 (来源: 36氪)

“年营收千万美金”,是这条AI应用赛道的最大谎言 : 文章揭露了AI情感陪伴应用赛道收入虚高的现象,指出许多公司依靠高额投放来维持增长,但用户付费率低、留存率低,实际收入远低于宣传数据。同时,监管问题也对该赛道的发展造成很大影响。 (来源: 36氪)