キーワード:全原子拡散Transformer, 自己教師付きプロセス報酬モデル, 自己回帰的ビデオ生成, 位置ベースダイナミクス, AI著者学術会議, AI忘却技術, ニューラルレンダリング, 3D生成, ADiTフレームワーク, MetaStone-S1 SPRM, Lumos-1 MM-RoPE, Roblox AVBD布シミュレーション, CoPart部分認識拡散

🔥 注目情報

Meta/Cambridge/MITが全原子拡散Transformerフレームワークを提案: Meta FAIR、ケンブリッジ大学、マサチューセッツ工科大学の共同研究チームは、全原子拡散Transformer ADiTを提案し、周期性システムと非周期性システムのモデリングの壁を打ち破りました。全原子統一潜在表現とTransformer潜在拡散という2つの革新を通じて、単一モデルで分子と結晶を生成するというブレークスルーを実現しました。ADiTの核となる強みは、周期性システムと非周期性システム間のモデリングの壁を打ち破り、単一モデルで分子と結晶の生成を実現したことです。その設計は、ほとんど帰納バイアスを導入しないため、オートエンコーダーと拡散モデルのトレーニングと推論の効率は、従来の等変拡散モデルをはるかに上回ります。同じハードウェア条件下で、10,000個のサンプルを生成する時間は2.5時間から20分以内へと短縮されました。(出典: HuggingFace Daily Papers)

Test-Time Scaling with Reflective Generative Model: MetaStone-S1は、Self-Supervised Process Reward Model (SPRM) を通じてOpenAI o3の性能に到達しました。SPRMは、共有バックボーンネットワークを使用し、タスク固有のヘッドをそれぞれ次のトークン予測とプロセススコアリングに使用することにより、ポリシーモデルとProcess Reward Model (PRM) を単一のインターフェースに統合することに成功しました。追加のプロセスアノテーションを必要とせず、99%以上のPRMパラメータを削減し、効率的な推論を実現します。SPRMを搭載したMetaStone-S1は、Test-Time Scaling (TTS) に自然に適応し、制御可能な思考の長さに基づいて3つの推論動作モード(低、中、高)を提供します。(出典: HuggingFace Daily Papers)

Lumos-1: 統一モデル視点に基づく自己回帰型動画生成: Lumos-1は、LLMアーキテクチャを維持し、最小限のアーキテクチャ変更を加えた自己回帰型動画生成器です。LLMに時空間相関性を注入するために、3D RoPEの組み合わせの有効性を確認し、その不均衡なスペクトル範囲を診断しました。そこで、MM-RoPEを提案します。これは、元のテキストRoPEを保持しながら、マルチモーダル時空間データのモデリングに包括的なスペクトルとスケーリングされた3D位置を提供するRoPEスキームです。さらに、Lumos-1は、フレーム内双方向性とフレーム間時間因果関係に従うトークン依存戦略を採用しています。この依存戦略に基づき、空間情報の冗長性によって引き起こされるフレームレベルの損失不均衡問題を特定し、自己回帰離散拡散強制 (AR-DF) を提案することでこの問題を解決しました。(出典: HuggingFace Daily Papers)

Robloxが誰もが悩まされていた物理問題を解決!: Robloxは、Position Based DynamicsとProjective Dynamicsの組み合わせにより、長年物理エンジンを悩ませてきた布シミュレーションの難題を解決しました。「平均値ベースの布動力学」(AVBD)と呼ばれる新しい手法は、リアルタイムパフォーマンスを維持しながら、非常にリアルな布シミュレーション効果を実現し、Robloxプラットフォームですでに適用されています。(出典: )

🎯 動向

筆頭著者はAIであることが必須、AI著者向けの初の学会が登場: スタンフォード大学は、AI著者向けの初の学会である科学AIエージェントオープン会議 (Agents4Science 2025) を立ち上げました。投稿論文の筆頭著者はAIシステムである必要があり、人間の研究者は共同著者としてのみ参加できます。この会議は、AI主導の科学的発見の未来を探求し、AIの研究参加に関する規範と倫理的考察基準を確立することを目的としています。提出されたすべての論文とレビューは公開され、AIの研究における利点と限界を透明性をもって研究します。(出典: 36氪)

AIの忘却術、わずか3つの注意ヘッドで、大規模モデルに「犬は吠える」ことを忘れさせる: MetaはNYUと共同で、スケーリングTransformerの注意ヘッドを操作する方法を提案しました。AIの認知モジュールを正確に特定し、制御することで、大規模モデルに特定の事実や常識を選択的に「忘れさせる」ことができます。この方法は、概念のベクトル化、注意ヘッドとの類似度の計算、概念モジュールの構築、およびスケーリング係数による概念の影響の増幅または消去を通じて実現されます。これは、大規模モデルのパーソナライズされた微調整、特定能力の向上、安全性のコントロール、およびモデルの知識保存方法の理解のための新しい道筋を提供します。(出典: 36氪)

🧰 ツール

CLiFT: 計算効率と適応性のあるニューラルレンダリングのための圧縮光場トークン: 本論文では、シーンを「圧縮光場トークン (CLiFT)」として表現するニューラルレンダリング手法を提案します。これは、シーンの豊富な外観と幾何学的情報を保持します。CLiFTは、圧縮トークンによって計算効率の高いレンダリングを実現すると同時に、トークン数を変更してシーンを表したり、トレーニング済みのネットワークを使用して新しいビューをレンダリングしたりできます。(出典: HuggingFace Daily Papers)

From One to More: 3D生成のためのコンテキストパーツ潜在表現: 人間の3D設計ワークフローに着想を得て、CoPartを提案します。これは、3Dオブジェクトをコンテキストパーツ潜在表現に分解して、一貫性のあるマルチパーツ生成を実現するパーツ認識拡散フレームワークです。このパラダイムには3つの利点があります。i) パーツ分解によるエンコードの複雑さの軽減、ii) 明示的なパーツ関係モデリングの実現、iii) パーツレベルの調整のサポート。(出典: HuggingFace Daily Papers)

🌟 コミュニティ

jerryjliu0がフォーム抽出とLLMの応用について議論: jerryjliu0は、LlamaParseを使用した適応型フォーム抽出のスキームを共有しました。このスキームは、フォームページを標準化されたキーと値のペアに解析し、2次元テーブルとして出力することで、後続の処理を容易にします。彼はまた、Clelia BertelliによるPydanticに関する記事を推奨し、エージェントワークフローにおける検証と可読性の重要性を強調し、Pydanticは構造化出力の有効な構成要素であると指摘しました。さらに、彼はマルチエージェント設定と深層研究に関するツイート、およびLlamaIndexの応用を転送しました。(出典: jerryjliu0, jerryjliu0, jerryjliu0, jerryjliu0)

Alibaba_Qwenが開発者にQwen3-embedding使用時の特殊トークンの追加を促す: Alibaba_Qwenは、開発者がQwen3-embeddingのGGUFモデルを使用する際に、コンテキストの末尾に特殊トークン<|endoftext|>を追加することを忘れがちであることに気づきました。これは、モデルの精度に大きく影響します。彼らは、llama.cppを使用してこのトークンを自動的に追加することを推奨し、操作を簡素化するために更新されたGGUFモデルパッケージをリリースする予定です。(出典: Alibaba_Qwen)

Ronald_vanLoonがAI関連のニュースや技術を共有: Ronald_vanLoonは、ヘルスケアにおけるAIの応用、3Dプリントのベジタリアンステーキ、LLMの適合性を評価するためのフレームワーク、Gemini 2.5のネイティブオーディオ機能、自律型ロボットとドローンの協調パトロール、制御のための強化学習、外骨格ロボット、AIエージェントの自律性、クラウド設計フレームワーク、ロボットの前方宙返り、病院での薬物輸送方法、未来の自動車、その他の技術革新など、AI関連のニュースや技術の進歩を複数共有しました。(出典: 複数 Ronald_vanLoonより)

コミュニティでAIモデルとツールに関する議論: コミュニティでは、Kimi K2の性能、価格、応用、DeepSeekモデルの圧縮性、Grokモデルのシステムプロンプト調整、その他のモデルの評価結果と応用例など、複数のAIモデルとツールについて議論しました。議論は、AIエージェントの自律性、RLHF、RAG、マルチエージェント設定、深層研究、クリエイティブライティング、コード生成、フォーム抽出など、さまざまな分野におけるAIの応用にも及びました。(出典: 複数のユーザーからの複数の投稿)

AIと社会問題に関する議論: コミュニティでは、雇用、経済的不平等、メンタルヘルスなど、AIの社会への影響について議論しました。議論は、AIの倫理的問題、規制問題、AIの将来の発展方向にも及びました。(出典: 複数のユーザーからの複数の投稿)

📚 学習

RLHF書籍にポリシー勾配アルゴリズムの導出を追加: NatolambertのRLHF書籍の第11章(ポリシー勾配アルゴリズムについて)に、完全なポリシー勾配目標の導出が追加されました。(出典: natolambert)

💼 ビジネス

SpaceXがxAIに20億ドルを投資: SpaceXはxAIに20億ドルを投資します。これは、xAIの50億ドルの株式資金調達の一部であり、SpaceX史上最大の投資の1つです。SpaceXは以前にもTeslaとThe Boring Companyを支援していました。今回の投資後、Grokモデルは火星に送られる可能性があり、SpaceXとxAIの間には、将来的にさらに多くのビジネス協力が生まれる可能性があります。(出典: 36氪)

漢陽科技Yarboが再び億単位の資金調達: 消費者向け除雪庭ロボット企業である漢陽科技Yarboは、国科投資、中金資本、九陽創投からの投資により、1億元を超えるB+ラウンドの資金調達を完了しました。資金は、技術研究開発、製品の反復、サプライチェーンと量産納入の改善に利用されます。漢陽科技は、現在、世界で唯一、大規模な商業化納入を実現している消費者向け除雪ロボット企業であり、その製品Yarbo S1は、超低温環境下でのバッテリー技術、複雑な地形のナビゲーションアルゴリズムなど、主要な技術的課題を克服しています。(出典: 36氪)

12人のチームがAIコンパニオン神器を開発、半年で3000万ドルの投資を獲得: AIコンパニオンアプリTolanを開発したPortolaは、2000万ドルのシリーズA資金調達を完了しました。以前の1000万ドルのシードラウンド資金調達と合わせて、Tolanは半年で3000万ドルの投資を獲得しました。Tolanは、AIエイリアンキャラクターがユーザーに寄り添い、サブスクリプションモデルで収益化しています。(出典: 36氪)

💡 その他

ザッカーバーグがマスクを奇襲攻撃する準備、中国系技術人材がAI勝利の鍵: MetaはAI分野に多額の投資を行い、OpenAI、Google、Appleなどの企業から中国系AI人材を高給で引き抜いており、AI分野での競争力を高めることを目指しています。(出典: 36氪)

DeepSeekは終わった?ジャーナリズムを学んだと認定: 記事は、DeepSeekが終わりつつあるという噂を否定し、DeepSeekの使用率の低下は製品の性能が原因ではなく、オープンソース戦略と公式APIエクスペリエンスを意図的に低下させ、ユーザーがサードパーティがホストするDeepSeekモデルを使用することを奨励しているためであると指摘しました。DeepSeekの主要な目標は、大規模モデルサービスを販売して収益を上げるのではなく、AGIを実現することです。(出典: 36氪)

「年間売上高1000万ドル」は、このAIアプリケーション分野における最大の嘘: 記事は、AI感情コンパニオンアプリケーション分野における収益の水増しの実態を明らかにし、多くの企業が高額な投資に依存して成長を維持しているものの、ユーザーの有料率と維持率は低く、実際の収益は公表データよりもはるかに低いと指摘しました。同時に、規制の問題もこの分野の発展に大きな影響を与えています。(出典: 36氪)