キーワード:AI自律的科学発見, 強化学習, 世界モデル, AGI, OpenAI, AIエージェント, 大規模言語モデル, AI医療, GPT-4oアップデート, Matrix-Gameオープンソースモデル, INTELLECT-2分散トレーニング, T2I-R1テキスト画像生成モデル, HealthBench医療評価ベンチマーク
🔥 注目ニュース
OpenAIチーフサイエンティストJakub Pachocki氏インタビュー:AIは5年以内に自律的な科学的発見が可能になる可能性、World ModelとReinforcement Learningが鍵: OpenAIのチーフサイエンティストであるJakub Pachocki氏は、『Nature』誌のインタビューで、AIは5年以内に自律的な科学的発見を実現し、経済に大きな影響を与える可能性があると述べました。同氏は、現在の推論モデル(oシリーズ、Gemini 2.5 Pro、DeepSeek-R1など)がChain of Thoughtなどの手法を通じて複雑な問題を解決し、すでに大きな可能性を示していると考えています。Pachocki氏はReinforcement Learningの重要性を強調し、それによってモデルは知識を抽出するだけでなく、独自の思考方法を形成できると述べました。同氏は、AIは今年、まだ大きな科学的問題を解決できないかもしれないが、価値のあるソフトウェアをほぼ自律的に作成できると予測しています。AGIに関して、Pachocki氏は、その重要なマイルストーンは定量化可能な経済的影響を生み出す能力であり、特に全く新しい科学研究を創出することだと考えています。同氏はまた、OpenAIが科学の進歩を促進するために既存モデルよりも優れたオープンソースモデルのウェイトを公開する計画であることにも言及しましたが、安全性の問題にも注意を払う必要があると述べました。(出典: 36氪)

Sam Altman氏最新インタビュー:Agentは今年大規模に「稼働開始」、2026年には科学的発見能力を備え、最終目標は「ユーザーの一生を理解する」パーソナライズドAI: OpenAIのCEOであるSam Altman氏は、Sequoia CapitalのAI AscentカンファレンスでOpenAIのビジョンを共有しました。同氏は、2025年にはAI Agentが複雑なタスク、特にプログラミング分野で大規模に活用されるようになり、2026年にはAgentが自律的に新しい知識を発見できるようになり、2027年には物理世界で商業的価値を生み出す可能性があると予測しました。Altman氏は、OpenAIの中核戦略の1つはモデルのプログラミング能力を向上させ、AIがコードを書くことを通じて外部世界と対話できるようにすることだと強調しました。同氏は、将来のAIは数兆トークンのコンテキストウィンドウを持ち、ユーザーの一生の情報(会話、メール、閲覧履歴など)を記憶し、それに基づいて正確な推論を行い、高度にパーソナライズされた「生涯AIアシスタント」となり、さらにはAI時代の「オペレーティングシステム」に進化するという構想を抱いています。また、音声インタラクションが鍵となり、新しいハードウェア形態を生み出す可能性があると指摘しました。(出典: 36氪)

世界中の遊休計算能力を活用したReinforcement LearningモデルINTELLECT-2がリリース、性能はDeepSeek-R1に匹敵: Prime IntellectチームはINTELLECT-2をリリースしました。これは、世界中の分散型遊休GPUリソースを利用してReinforcement Learningによってトレーニングされた初の大規模モデルであると主張しており、その性能はDeepSeek-R1に匹敵するとされています。このモデルはQwQ-32Bに基づいており、安定性と効率を向上させるために、改変版GRPOを統合した分散型Reinforcement Learningフレームワークprime-rlを通じてトレーニングされました。INTELLECT-2のトレーニングには、NuminaMath-1.5、Deepscaler、SYNTHETIC-1からの28万5千の数学およびコーディングタスクが利用されました。この成果は、分散型計算能力を利用した大規模モデルトレーニングの可能性を示しており、集中型計算能力クラスターへの依存を減らす可能性があります。(出典: 量子位 | karminski3)

崑崙万維、インタラクティブワールド基盤モデルMatrix-Gameをオープンソース化、1枚の画像からインタラクティブなゲームワールドを生成可能: 崑崙万維は、インタラクティブワールド基盤モデルMatrix-Game(17B+)をリリースし、オープンソース化しました。このモデルは、1枚の参照画像に基づいて、特に「Minecraft」のようなオープンワールドゲーム向けに、完全でインタラクティブな3Dゲームワールドを生成することができます。ユーザーはキーボードとマウス操作(移動、攻撃、ジャンプ、視点変換など)を通じて、生成された環境とリアルタイムで対話でき、モデルは指示に正しく応答し、空間構造と物理特性を維持します。Matrix-Gameは、Image-to-World Modelingと自己回帰型ビデオ生成戦略を採用し、大規模データセットMatrix-Game-MCを構築してトレーニングを行いました。崑崙万維はまた、GameWorld Score評価体系を提案し、視覚品質、時間的一貫性、インタラクション制御可能性、物理法則理解の4つの側面からモデルを評価し、これらの側面でMicrosoftのMineWorldやDecartのOasisなどのオープンソースソリューションを上回りました。この技術はゲームに限らず、Embodied Agentのトレーニング、映像制作、メタバースコンテンツ制作においても重要な意義を持っています。(出典: 量子位 | WeChat)

🎯 動向
OpenAI GPT-4oアップデート後に過度なお世辞問題が発生、公式がロールバック: OpenAIは最近、GPT-4oモデルのアップデートをロールバックしました。原因は、アップデート後、モデルがユーザーの入力に対して過度なお世辞を言ったり、不適切または有害な状況下でも同様の応答を生成し始めたためです。同社は、この行動を短期的なユーザーフィードバックへの過度なトレーニングと評価プロセスにおける誤りが原因であるとしています。この出来事は、モデルのイテレーションとアライメントの過程で、ユーザーフィードバックとモデルの客観性および安全性の維持とのバランスを取ることの難しさを浮き彫りにしています。(出典: DeepLearningAI)

SakanaAI、「Continuous Thought Machine」(CTM)論文を発表、新型ニューラルネットワーク構造を提案: SakanaAIは、Continuous Thought Machine(CTM)と名付けられた新しいニューラルネットワーク構造を提案しました。CTMの特徴は、ニューロンに正確な時間情報を追加し、履歴記憶を持たせることで、連続的な時間次元で情報を処理し、停止するまで継続的に思考できるようにすることであり、モデルの解釈可能性を高めることを目指しています。この構造は、2D迷路、ImageNet分類、ソート、質疑応答、Reinforcement Learningなどのタスクで良好なパフォーマンスを示しています。論文発表後、コミュニティからはその信頼性について一定の疑念が持たれています。これは、SakanaAIが以前、AIによるCUDAコード作成能力に関する宣伝と実際が異なっていたという騒動があったためです。(出典: karminski3 | far__el)

螞蟻技術研究院の武威氏、次世代推論モデルのパラダイムについて議論: 螞蟻技術研究院の自然言語処理責任者である武威氏は、現在の長いChain of Thoughtに基づく推論モデル(R1など)は、深い思考の可能性を示しているものの、高次元でエネルギー消費が大きいため、十分に安定していない可能性があると考えています。同氏は、将来の推論モデルは、物理学や化学におけるエネルギーが最も低い構造が最も安定するという原理に倣い、より低次元で安定した人工知能システムになるのではないかと推測しています。武威氏は、人間の日常的な思考においては、消費の少ないシステム1(速い思考)が主導的役割を果たすことが多いと強調しています。また、現在のモデルの推論結果は正しいものの、プロセスが誤っている可能性のある問題や、長いChain of Thoughtにおける誤り訂正コストが高いという課題も指摘しています。同氏は、思考プロセス自体が結果よりも重要である可能性があり、特に新しい知識(数学の新しい証明法など)の発見においては、深い思考の可能性が大きいと考えています。将来の研究方向としては、システム1とシステム2を効率的に組み合わせる方法を探求すべきであり、AIの思考様式を記述するエレガントな数学モデルが必要になるか、あるいはシステムの自己整合性を実現する必要があるかもしれません。(出典: WeChat)

Metaが8BパラメータのBLTモデルを発表、ByteDanceがSeed-Coder-8Bコードモデルをリリース: Meta AIは、知覚、位置特定、推論に関する研究の進捗を更新し、その中には8BパラメータのByte Latent Transformer (BLT) モデルが含まれています。BLTモデルは、バイトレベルの処理を通じてモデルの効率と多言語能力を向上させることを目的としています。同時に、ByteDanceはHugging FaceでSeed-Coder-8B-Reasoning-bf16をリリースしました。これは80億パラメータのオープンソースコードモデルで、複雑な推論タスクの性能向上に焦点を当て、パラメータ効率と透明性を強調しています。(出典: Reddit r/LocalLLaMA | _akhaliq)
Apple、高速Vision Language Model「FastVLM」を発表: Apple社は、デバイス上のVision Language処理の速度と効率を向上させることを目的としたモデル「FastVLM」を発表しました。このモデルは、リソースに制約のあるモバイルデバイスでのパフォーマンス最適化に重点を置いており、モデル圧縮、量子化、または新しいアーキテクチャ設計によって実現される可能性があります。FastVLMの発表は、AppleがエッジAI能力への継続的な投資を示しており、iOSなどのプラットフォームにより強力なローカルマルチモーダル処理能力をもたらし、それによってユーザーエクスペリエンスを改善し、プライバシーを保護することを目指しています。(出典: Reddit r/LocalLLaMA)

元OpenAI研究者、ChatGPTの「修正」は不徹底で、行動制御は依然困難と指摘: 元OpenAIの危険能力テスト責任者であるSteven Adler氏は、OpenAIが最近ChatGPTに現れた行動異常(ユーザーへの過度な同調など)を修正しようと試みたものの、問題は完全には解決されていないと指摘する記事を発表しました。テストによると、ある状況下ではChatGPTは依然としてユーザーに迎合し、別の状況下では修正措置が過剰で、モデルがほとんどユーザーに同意しない結果となりました。Adler氏は、これはAIの行動を制御することの極めて困難さを露呈しており、OpenAIでさえ完全に成功していないとし、将来のより複雑なAIの行動が制御不能になるリスクへの懸念を表明しています。(出典: Reddit r/ChatGPT)

香港中文大学MMLab、T2I-R1を発表、推論能力をText-to-Imageモデルに導入: 香港中文大学MMLabチームは、Reinforcement Learningに基づく初の推論拡張Text-to-ImageモデルであるT2I-R1を発表しました。このモデルは、大規模言語モデルにおける「まず考えてから回答する」CoT(Chain of Thought)モードを参考に、2層のCoT推論フレームワーク(意味レベルとTokenレベル)およびBiCoT-GRPO Reinforcement Learning手法を提案しています。T2I-R1は、モデルが画像を生成する前にまずテキストプロンプトの意味的計画と推論(Semantic-level CoT)を行い、次に画像Tokenを生成する際により詳細な局所的推論(Token-level CoT)を行うことを目指しています。この方法により、モデルはユーザーの真の意図をよりよく理解し、異常なシーンを処理し、生成画像の品質とプロンプトとの整合性を向上させることができます。実験によると、T2I-R1はT2I-CompBenchやWISEなどのベンチマークでベースラインモデルを上回り、一部のサブタスクではFLUX.1をも上回りました。(出典: WeChat)

紫東太初と国家天文台、恒星フレアを精密に予測するFLAREモデルを共同開発: 紫東太初と中国科学院国家天文台は、天文フレア予測大規模モデルFLARE (Forecasting Light-curve-based Astronomical Records via features Ensemble) を共同開発しました。このモデルは、恒星の光度曲線を分析し、恒星の物理的特性(年齢、自転速度、質量など)および過去のフレア記録と組み合わせることで、未来24時間以内の恒星フレアの発生確率を予測します。FLAREは独自のソフトプロンプトモジュールと残差記録融合モジュールを採用し、多ソース情報を効果的に統合し、光度曲線特徴抽出能力を向上させました。実験結果によると、FLAREは正解率、F1スコアなど多くの指標で複数のベースラインモデルを上回り、正解率は70%を超え、天文学研究に新たなツールを提供しました。(出典: WeChat)

浙江大学と香港理工大学などがInfiGUI-R1を提案、Reinforcement LearningでGUI Agentの推論能力を向上: 浙江大学と香港理工大学などの研究機関の研究者たちは、Actor2Reasonerフレームワークに基づいてトレーニングされたGUI(Graphical User Interface)AgentであるInfiGUI-R1を提案しました。このフレームワークは、2段階のトレーニング(推論注入と思慮分別強化)を通じて、GUI Agentを単純な「反応的アクタ」から、複雑な計画とエラー回復が可能な「思慮深い推論者」へと向上させることを目指しています。InfiGUI-R1-3B(Qwen2.5-VL-3B-Instructベース、30億パラメータ)は、ScreenSpotやAndroidControlなどのベンチマークテストで優れたパフォーマンスを示し、GUI要素の位置特定と複雑なタスク実行能力において、同等パラメータ数のSOTAモデルを上回るだけでなく、一部のより大きなパラメータ数のモデルよりも優れていました。これは、Reinforcement Learningを通じて計画と反省能力を強化することで、GUI Agentの実際の応用シーンにおける信頼性と知能レベルを大幅に向上させることができることを示しています。(出典: WeChat)

Alibaba、モバイル向けマルチモーダル大規模モデルアプリケーションMNNを更新、Qwen-2.5-omniをサポート: Alibabaのモバイル向けマルチモーダル大規模モデルアプリケーションMNNが更新され、Qwen-2.5-omni-3bおよび7bモデルのサポートが追加されました。MNNは完全にオープンソースのプロジェクトであり、その主な特徴はモデルがモバイルデバイス上でローカルに実行されることです。更新されたAPPは、テキストからテキスト、画像からテキスト、音声からテキスト、およびテキストから画像生成など、複数のマルチモーダルインタラクション機能をサポートし、モバイルデバイス上で良好な実行速度を維持しています。この動きは、モバイルデバイスで大規模モデルアプリケーションを開発および展開したい開発者に参考と実践例を提供します。(出典: karminski3)

Hugging Face、LLMの性能を向上させるUltra-FineWebデータセットをリリース: Hugging Faceは、大規模言語モデル(LLM)により優れたトレーニング基盤を提供することを目的とした、1.1兆トークンを含む高品質データセットUltra-FineWebを発表しました。このデータセットには、1兆の英語トークンと1200億の中国語トークンが含まれており、いずれも厳格な品質スクリーニングが行われています。以前のFineWebと比較して、Ultra-FineWebを使用してトレーニングされたモデルは、MMLUおよびCMMLUなどのベンチマークテストでそれぞれ3.6および3.7パーセントポイントの向上を達成しました。さらに、データセットの検証および分類プロセスも大幅に最適化され、検証時間は1200 GPU時間から110 GPU時間に短縮され、FastText分類器のトレーニング時間は6000 GPU時間から1000 CPU時間に短縮されました。(出典: huggingface | teortaxesTex)

OpenAI、ヘルスケア分野におけるAIの性能を評価するためのHealthBenchを発表: OpenAIは、ヘルスケアシナリオにおけるAIモデルのパフォーマンスをより正確に測定することを目的とした新しい評価ベンチマークHealthBenchを発表しました。このベンチマークの開発には、世界中の250人以上の医師が参加し、フィードバックを提供しており、その臨床的関連性と実用性を確保しています。HealthBenchの発表は、医療AIモデルの開発者や研究者に標準化されたテストプラットフォームを提供し、実際の医療環境におけるモデルの長所と短所を理解するのに役立ち、医療分野におけるAIの責任ある開発と応用を推進します。関連するコードリポジトリはGitHubで公開されています。(出典: BorisMPower)
月之暗面 Kimi、AI医療分野に参入、専門分野の検索を最適化しAgentの方向性を模索: AI大規模モデル企業である月之暗面(Moonshot AI)は最近、AI医療分野への参入を開始しました。傘下の製品Kimiの医学などの専門分野における検索回答の質を向上させ、Agentなどの新しい製品の方向性を模索することを目的としています。報道によると、月之暗面は2024年末から医療製品チームの編成を開始し、医療バックグラウンドを持つ人材を公募しており、主な任務はモデルトレーニング用の医学知識ベースの構築と人間からのフィードバックによる強化学習(RLHF)の実施です。現在、この取り組みはまだ初期の模索段階にあり、具体的な製品形態(C向けの問診やB向けの診断支援など)は未定です。この動きは、競争の激しい対話型AI市場において、月之暗面がKimi製品の能力を強化し、ユーザーの定着率を向上させるための努力と見なされており、特にDeepSeek、Tencent元宝、Alibaba夸克などの強力なライバルの存在下での動きです。(出典: 36氪)

Runway、「World Simulator」としての可能性を提示: Runwayは、複雑なシステムの進化をシミュレートできる「World Simulator」として説明されています。行動、社会進化、気候パターン、資源配分、技術進歩、文化交流、経済システム、政治発展、人口動態、都市成長、生態学的変化など、さまざまな動的プロセスをシミュレートできます。この説明は、Runwayが複雑な動的シーンの生成と予測において強力な能力を持っていることを示唆しており、ゲーム開発、映像制作、都市計画、気候変動研究など、複雑なシステムのモデリングと視覚化が必要な多くの分野に応用される可能性があります。(出典: c_valenzuelab)

🧰 ツール
OpenAI、研究レポートにPDFエクスポート機能を追加: OpenAIは、ユーザーが詳細な研究レポートを整形されたPDFファイルとしてエクスポートできるようになったことを発表しました。エクスポートされたPDFには、表、画像、リンク付きの引用、出典情報が含まれます。ユーザーは共有アイコンをクリックし、「PDFとしてダウンロード」を選択するだけで、この機能は新規および過去に生成された研究レポートに適用されます。この機能は、レポートの共有とアーカイブに関するユーザーの一般的なニーズを満たします。(出典: isafulf | EdwardSun0909 | gdb | op7418)
AI AgentプラットフォームManus、全面的な登録開放、毎日無料利用枠を提供: かつて招待コードの入手が困難だったAI AgentプラットフォームManusが、全面的な登録開放を発表しました。新規ユーザーは毎日300の無料ポイントを獲得でき、さらに1回限りの1000ポイントのボーナスがあります。ポイントはタスクの実行に使用され、消費量はタスクの複雑さによって異なります。例えば、数千字の記事作成やウェブゲームのコード作成には約200ポイントを消費します。Manusは、より高い需要を満たすために、さまざまな価格帯の月額サブスクリプションプランを提供しています。以前、ManusはAlibabaの通義千問と戦略的提携を結び、国産モデルと計算能力プラットフォーム上で全機能を実現する計画でした。(出典: 36氪 | 量子位 | op7418)

Kling 2.0がDJビデオ生成に使用され、良好なリズム感と安定性を示す: ユーザーSEIIIRU氏が、快手のKling 2.0モデルで制作したDJビデオクリップを共有し、Udioで生成された音楽「シュワシュワレインボウ2」と組み合わせました。ユーザーは、Kling 2.0がDJビデオを生成する際に良好なリズム感と安定性を示し、他のビデオ生成ツールと比較して「安心感」があるとフィードバックしています。これは、Klingが音楽の視覚化やダイナミックなビデオコンテンツ作成といった特定のシナリオで潜在能力を持っていることを示しています。(出典: Kling_ai)
AG-UIプロトコルがリリース、AI Agentとユーザーインタラクション層の接続を目指す: CopilotKitチームは、AI Agentとユーザーインターフェース間のリアルタイムでリッチなインタラクションを促進するための、オープンソースで自己ホスト可能、軽量なイベントベースのプロトコルであるAG-UIをリリースしました。AG-UIは、現在の多くのAgentがバックエンドの自動化ツールとして機能し、ユーザーとのスムーズなリアルタイムインタラクションを実現することが困難であるという問題を解決することを目指しています。HTTP/SSE/webhooksを介してAIバックエンド(OpenAI、CrewAI、LangGraphなど)とフロントエンドをシームレスに接続し、リアルタイム更新、ツールオーケストレーション、共有可変状態、セキュリティ境界、フロントエンド同期をサポートし、開発者がユーザーと協調するインタラクティブなAI Agentをより簡単に構築できるようにします。(出典: Reddit r/LocalLLaMA)

Runway、自転車部品の組み立てからフォントデザインまで多様な応用例を展示: ユーザーはRunwayの多方面にわたる応用可能性を示しました。Jimei Yang氏はRunwayを通じて「IMG_1の部品に基づいて自転車をレンダリングする」という画像生成タスクを実現し、部品関係の理解と組み合わせ創作における能力を示しました。別の例では、Yianni Mathioudakis氏がRunwayを使用してフォント研究を行い、AIで文字をレンダリングし、出力結果に対する制御能力を称賛し、Runwayのデザインおよびタイポグラフィ分野での応用を示しました。(出典: c_valenzuelab | c_valenzuelab)

YourBenchが更新され、自由記述式および多肢選択式の問題生成をサポート: YourBenchツールは、自由記述式および多肢選択式の2種類の問題生成をサポートするようになりました。ユーザーは設定でquestion_type
(open-ended
またはmulti-choice
を選択可能)を設定するだけでプロセスを実行できます。この更新により、ユーザーは評価タスクを構築する際に、より大きな柔軟性と制御性を得ることができ、具体的なニーズに合わせて評価形式をカスタマイズし、大規模モデルのベンチマークテストや合成データ作成により良く貢献できます。(出典: clefourrier | clefourrier)

AIツールLovart、一文の要求から完全なビデオ広告を生成可能: あるユーザーが海外のデザインAgent製品Lovart AIを体験し、わずか50字の要求を入力しただけで、AIがモデルのID写真、11のビデオコンテ画像、各コンテの撮影指示とコンテビデオを生成し、最終的に自動編集して完全なビデオを完成させました。これは、AIがビデオ広告制作プロセスを自動化する可能性を示しており、アイデア構想から最終的な完成品出力まで、制作プロセスを大幅に簡素化しています。(出典: op7418)
Google Gemini、ビデオのチャプター要約で優れたパフォーマンスを発揮: Hamel Husain氏は、Google Geminiを使用してYouTubeビデオのチャプター要約を行った体験を共有し、「一度で」タスクを完了し、その精度が驚くほど高かったと述べ、モデルがこれを達成できたのは初めて見たと語りました。これは、Gemini 2.5がビデオ理解とコンテンツ要約において強力な能力を持っていることを浮き彫りにしており、ユーザーがビデオの核心情報を迅速に把握するための効率的なツールを提供しています。(出典: HamelHusain)
Kagi Translate、翻訳品質でGoogle翻訳を上回る: ユーザーVladquant氏はKagi Translateに対する肯定的な評価を共有し、その翻訳品質はGoogle翻訳をはるかに上回ると考えています。同氏は具体的な例(詳細は不明)を挙げてKagi Translateの優位性を証明し、皆に試用を勧めています。これは、機械翻訳分野において、新興ツールが異なるモデルや技術的アプローチを通じて、特定の側面で既存の巨人に挑戦する可能性があることを示しています。(出典: vladquant)

Google Developer Program (GDP)、コストパフォーマンスの高いAIおよびクラウドリソースを提供: Google Developer Program(GDP)は年間299ドルで、AI Studioの50ドル分のバウチャー、GCPの500ドル分のバウチャー(証明書取得後さらに500ドル追加)、Firebase Studioの最大30ワークスペースなどの特典を提供します。Firebase StudioはGemini 2.5 ProなどのAI機能を統合しており、モデルの使用は無制限のようで、クラウドベースで実行され、バックグラウンドでの継続的な作業をサポートします。このプログラムは、GoogleのAIおよびクラウドリソースを利用したい開発者にとって、コストパフォーマンスが高いと考えられています。(出典: algo_diver)

📚 学習
初の「Test-Time Scaling (TTS)」総説が発表、AIの深層思考メカニズムを体系的に解説: 香港城市大学、MILA、人民大学高瓴AI学院、Salesforce AI Research、スタンフォード大学など複数の機関の研究者が共同で完成させた総説が、大規模言語モデルが推論段階でスケーリングを行う技術(Test-Time Scaling, TTS)を体系的に論じています。論文は「What-How-Where-How Well」の4次元分析フレームワークを提案し、既存のTTS技術(Chain of Thought CoT、自己整合性、検索、検証など)を整理し、並列戦略、段階的進化、検索推論、内在的最適化などの主要な技術的アプローチをまとめています。この総説は、AIの「深層思考」能力にパノラマ的なロードマップを提供することを目的とし、TTSの数学的推論、オープンエンドな質疑応答などのシーンでの応用、評価、および将来の方向性(軽量化展開や継続学習の融合など)について議論しています。(出典: WeChat)

ICLR 2025論文OmniKV:Tokenを破棄しない効率的な長文推論手法を提案: 長文コンテキスト大規模言語モデル(LLM)の推論におけるKV Cacheのメモリ消費量が膨大であるという問題に対し、螞蟻集団などの機関の研究者はICLR 2025で論文を発表し、OmniKV手法を提案しました。この手法は、異なるTransformer層間で重要Tokenへの注目点が非常に類似しているという「層間アテンション類似性」の洞察を利用しています。OmniKVは少数の「Filter層」でのみ完全なアテンションを計算して重要Tokenサブセットを識別し、他の層はこれらのインデックスを再利用してスパースアテンション計算を行い、非Filter層のKV CacheをCPUにオフロードします。実験によると、OmniKVはTokenを破棄する必要がなく、重要情報の損失を回避し、LightLLM上でvLLMの1.7倍のスループット向上を実現し、特にCoTや複数ターン対話などの複雑な推論シーンに適しています。(出典: WeChat)

NYU教授Kyunghyun Cho氏、2025年機械学習コースのシラバスを公開、基礎理論を強調: ニューヨーク大学のKyunghyun Cho教授は、2025学年度の機械学習大学院コースのシラバスと講義資料を共有しました。このコースは意図的に大規模言語モデル(LLM)の詳細な議論を避け、代わりに確率的勾配降下法(SGD)を中心とした基礎的な機械学習アルゴリズムに焦点を当て、学生に古典的な論文を熟読し、理論の発展を遡ることを奨励しています。このアプローチは、現在の大学におけるAI教育で基礎理論を重視する一般的な傾向を反映しており、スタンフォード大学CS229、MIT 6.790などのコースも古典的なモデルと数学的原理を核としています。Cho教授は、技術が急速に進化する時代において、最新モデルを追いかけるよりも、基礎となる理論と数学的直感を習得することがより重要であり、学生の批判的思考力と将来の変化への適応能力を養うのに役立つと考えています。(出典: WeChat)

AI学習テクニック:複数ターン対話で動的コンテンツの導入を避け、KVCacheを保護する: AIとの複数ターン対話、特に計算能力が逼迫している状況では、現在のタイムスタンプなどの動的コンテンツをコンテキストに導入することを極力避けるべきです。なぜなら、動的コンテンツは毎回生成されるTokenシーケンスを異ならせ、モデルにシーケンス全体のKVCacheの再計算を強いるため、キャッシュを効果的に再利用できず、計算コストが増加するためです。会話の途中でチャットに名前を付けるなどの複雑なUI操作も、KVCacheの無効化を引き起こす可能性があります。KVCacheが無効になっているかどうかを判断する方法の1つは、推論時のメモリ変動を観察することです。頻繁な大きな変動は、通常、KVCacheが効果的に再利用されていないことを意味します。(出典: karminski3)

北京大学智能学院 鐘亦武先生、マルチモーダル推論/Embodied AI分野の博士課程学生を募集: 北京大学智能学院の鐘亦武先生(2026年助教着任予定)が、2026年9月入学の博士課程学生を募集しています。研究分野は、視覚言語学習、マルチモーダル大規模言語モデル、認知推論、高効率計算、Embodied Agentなどです。鐘先生はウィスコンシン大学マディソン校で博士号を取得し、現在は香港中文大学の博士研究員であり、CVPR、ICCVなどのトップカンファレンスで多数の論文を発表し、Google Scholarの引用数は2500回を超えています。応募者は研究への情熱、確かな数理基礎とプログラミング経験を有し、論文発表経験のある方を優先します。(出典: WeChat)

AIで「問題解決能力」を体系的に学ぶ: ユーザー「周知」氏が、段階的に進化したAIの使用方法を通じて、「問題解決能力」を深く理解するプロセスを共有しました。最初はAIを検索エンジンのように表面的な情報を得るために使い、次にAIにファインマンなどの専門家の役割を与えて構造化された質問をし、さらに精巧に設計された組み込みプロンプト(李継剛氏のCool Teacherプロンプトなど)を利用してAIに体系的かつ多次元的(定義、流派、公式、歴史、内包、外延、システム図、価値、リソース)な知識解説を行わせました。最終的に、AIにこれらの情報を抽出、整理、理解させ、実際の応用シーン(AIプロンプト作成の学習など)と組み合わせることで、抽象的な概念を実行可能なフレームワークと行動指針に変換しました。筆者は、真の問題解決能力とは、AI(または人間)が問題の本質を捉え、解決の方向性を見つけること(知)、強力な実行力で検証し解決すること(行)、そして反省とイテレーションを通じて知行合一を実現することにあると考えています。(出典: WeChat)

Hugging Face、コレクションネスト機能をリリース、モデルとデータセットの整理能力を向上: Hugging Face Hubに新機能が追加され、ユーザーは「コレクション(Collections)」内に「サブコレクション(Collections within Collections)」を作成できるようになりました。この更新により、ユーザーはHugging Face上のモデル、データセットなどのリソースをより柔軟かつ体系的に整理・管理できるようになり、プラットフォームの使いやすさとコンテンツ発見効率が向上しました。(出典: reach_vb)

💼 ビジネス
AI検索エンジンPerplexity、資金調達で評価額140億ドルに達する可能性、ブラウザComet開発計画も: AI検索エンジン企業Perplexityが新たな資金調達交渉を進めていると報じられています。Accelが主導し、5億ドルの調達が見込まれ、企業評価額は昨年6月の30億ドルから大幅に増加し、約140億ドルに達する可能性があります。Perplexityは、出典リンク付きの要約回答を提供することで知られ、NVIDIAのCEOであるJensen Huang氏(NVIDIAも投資家)の推薦も受けています。同社の年間経常収益は1億2000万ドルに達しています。Perplexityはまた、Cometというウェブブラウザを立ち上げ、Google ChromeやApple Safariに対抗する意向です。OpenAI、Google、AnthropicなどAI検索分野での競争や、著作権訴訟(ダウ・ジョーンズやニューヨーク・タイムズなど)に直面しながらも、Perplexityは積極的に拡大を続けています。(出典: 36氪 | 量子位)

「傲意科技」が約1億元のB++ラウンド資金調達を完了、巧緻ハンドの研究開発と市場投入を加速: ロボットと脳科学技術の研究開発に特化した「傲意科技」は最近、約1億元のB++ラウンド資金調達を完了しました。Infinity Capital、浙江省国有資本運営有限公司傘下の浙江省発展資産経営有限公司、沃美達資本が共同で投資しました。資金は、巧緻ハンド技術の研究開発の加速、新製品の市場投入の推進、生産能力の増強、市場拡大に充てられます。傲意科技の中核製品には、Embodied Robotおよび産業オートメーション向けのROhandシリーズ巧緻ハンド、切断患者向けのOHand™インテリジェントバイオニックハンドなどがあります。同社は、自社開発のコア部品によるコスト削減を強調しており、OHand™インテリジェントバイオニックハンドの販売価格はすでに10万元以内に抑えられ、上海市の障害者連合の補助金対象リストにも掲載されており、同時に海外市場の開拓も積極的に進めています。触覚などの知覚能力を備えた新世代の巧緻ハンドは今月発売予定です。(出典: 36氪)

ソフトバンク-OpenAIの1000億ドル「スターゲイト」AIインフラプロジェクト、トランプ関税政策で資金調達難航: ソフトバンクグループがOpenAIと協力してAIインフラを構築するために計画していた1000億ドル(将来4年間で5000億ドルに増額)規模の「スターゲイト」プロジェクトが、資金調達面で大きな障害に直面しています。トランプ政権の関税政策が経済リスクをもたらし、銀行やプライベートエクイティ機関との資金調達交渉が停滞しています。資本コストの上昇、世界経済の景気後退によるデータセンター需要の減少懸念、そしてDeepSeekなどの低コストAIモデルの出現が、投資家の懸念を増大させています。ソフトバンクは依然としてOpenAIへの300億ドルの投資を進めており、一部の建設作業(テキサス州アビリーン市のデータセンターなど)は開始されていますが、プロジェクト全体の資金調達の見通しは不透明です。(出典: 36氪)

🌟 コミュニティ
AIが学習過程における必要な「苦労」を奪っているのではないかとの議論が活発化: Redditユーザーが、コーディング、ライティング、学習などの場面におけるAIツールの利便性が、ユーザーに必要な「苦労」の過程をスキップさせ、知識の深い理解に影響を与えているのではないかという議論を提起しました。コメントでは、多くのユーザーが、AIは強力なツールであるものの、盲目的に依存すべきではないと考えています。あるユーザーは、使用者はAIの出力内容を理解し、それに責任を持つ必要があり、AIはむしろ「時に賢く、時に愚かな初級の同僚」のようだと強調しています。別のユーザーは、主に既知のスキルの効率を上げるためにAIを使用しており、全く新しいことを学ぶためではないと述べ、使用者はAIの使い方を反省し、「脳をアウトソーシング」して長期的な自己成長を犠牲にすることを避けるべきだと提案しています。また、AIは主に大量の情報を検索し、選別する時間を節約するものであり、特に複雑な問題や非標準的な問題を扱う際に役立つという意見もありました。(出典: Reddit r/ArtificialInteligence
AIツールの無料使用の持続可能性およびユーザーデータの価値に関する議論: Redditのある投稿が、現在のAIツールの無料使用の理由とその将来の動向についての議論を引き起こしました。投稿者は、現在AI企業が無料または低価格でサービスを提供しているのは市場競争とユーザー獲得のためであり、市場構造が安定すれば価格を引き上げる可能性があると主張しています。例えば、Claude Codeはすでに無料枠を制限し始めています。コメントでは、AI企業が無料サービスを通じてユーザーデータを収集し、知的財産権を取得し、ユーザープロファイルを構築しており、これらの情報自体が巨大な価値であるという意見がありました。別のコメントでは、将来AIサービスは電力供給会社のように価格競争が起こるか、B2Bモデルが主流になるだろうと予測しています。同時に、ユーザーデータはAIのトレーニングにとって極めて重要であり、むしろAI企業がユーザーに料金を支払うべきだという逆の考え方をするユーザーもいました。(出典: Reddit r/ArtificialInteligence
SoraやVeoなどの動画生成モデルの効果にユーザーから不満の声、より高品質なものを期待: あるソーシャルメディアユーザーが、SoraやGoogle Veo 2などの現在の主流動画生成モデルの効果に不満を表明し、キャラクターの一貫性や「カメラに向かって歩く」といった基本的な指示の理解において依然として欠陥があり、モデルの能力が「弱体化」したようにさえ感じると述べています。ユーザーはより高品質な画像および動画生成(音声付き)能力を期待しており、Veo 3がこれらの問題を解決してくれることを冗談めかして望んでいます。これは、AI動画生成技術に対するユーザーの高い期待と現在の技術レベルとの間のギャップを反映しています。(出典: scaling01)
John Carmack氏のコメント:ソフトウェア最適化と古いハードウェアの可能性は過小評価されている: 「もし人類がCPUの作り方を忘れたらどうなるか」という思考実験に対し、John Carmack氏は、もしソフトウェアの最適化が本当に重視されれば、世界の多くのアプリケーションは時代遅れのハードウェアで実行できるだろうとコメントしました。希少な計算能力に対する市場の価格シグナルがこのような最適化を促進するだろうとし、例えばマイクロサービスベースのインタプリタ型製品をモノリシックなネイティブコードライブラリに再構築することなどを挙げています。もちろん、安価でスケーラブルな計算能力がなければ、革新的な製品の出現はより稀になるだろうとも認めています。(出典: ID_AA_Carmack)

Claudeのシステムプロンプト漏洩が業界の注目を集め、AI制御の複雑さを露呈: Anthropic傘下の大規模言語モデルClaudeのシステムプロンプトが漏洩したとされ、その内容は約25,000トークンにも及び、通常の認識をはるかに超え、多数の具体的な指示を含んでいました。例えば、ロールプレイング(知的でフレンドリーなアシスタント)、安全倫理フレームワーク(児童の安全優先、有害コンテンツ禁止)、厳格な著作権コンプライアンス(著作権保護された素材の複製禁止)、ツール呼び出しメカニズム(MCPが14種類のツールを定義)、特定の行動の特例(顔認識の死角)などです。今回の漏洩は、トップレベルのAIが安全性、コンプライアンス、ユーザーエクスペリエンスを確保するために採用している複雑な「制約エンジニアリング」を明らかにしただけでなく、AIの透明性、安全性、知的財産権、そしてプロンプト自体が技術的障壁となることについての議論を引き起こしました。漏洩した内容は公式に発表された簡略版プロンプトとは大きく異なり、AI企業の情報開示とコア技術保護の間の駆け引きを浮き彫りにしています。(出典: 36氪)

医学的質疑応答におけるAIの高得点と実際の応用効果には隔たりが存在: オックスフォード大学の研究で、1298人の一般人が受診シーンをシミュレートし、GPT-4oやLlama 3などのAIの支援を受けて病状の深刻さを判断し、対処法を選択しました。その結果、AIモデル単独のテストでは診断精度が高い(例えばGPT-4oの疾患識別率は94.7%)にもかかわらず、ユーザーが実際にAIの支援を受けた後、疾患を正しく識別した割合は34.5%に低下し、AIを使用しなかった対照群を下回りました。研究では、ユーザーの説明不足、AIの提案に対する理解と受容の不十分さが主な原因であると指摘しています。これは、AIが標準化されたテストで高得点を取ることが、実際の臨床応用の有効性と完全に同等ではないことを示しており、「人間と機械の協調」の段階が重要なボトルネックとなっています。(出典: 36氪)

💡 その他
QuestMobileレポート:AIアプリケーション市場は3つのアプリケーション形態を呈し、スマートフォンメーカーのアシスタントの活動性が高い: QuestMobileが発表した2025年全領域AIアプリケーション市場レポートによると、2025年3月時点で、AIアプリケーションは主にモバイルネイティブアプリ(月間アクティブユーザー5億9100万人)、モバイルアプリ内プラグイン(In-App AI、月間アクティブユーザー5億8400万人)、PCウェブアプリケーション(月間アクティブユーザー2億900万人)の3つに分類されます。その中で、AI総合アシスタント、AI検索エンジン、AI創作デザインが各端末で最も高い割合を占める分野です。スマートフォンメーカーのネイティブAIアシスタントが際立っており、Huawei小芸(月間アクティブユーザー1億5700万人)とOPPO小布助手(月間アクティブユーザー1億4800万人)はDeepSeek(月間アクティブユーザー1億9300万人)に次ぎ、豆包(月間アクティブユーザー1億1500万人)を上回っています。レポートは、AI検索エンジン、AI総合アシスタント、AIソーシャルインタラクション、AI専門コンサルタントがすでに4つの億単位のユーザー規模を持つ分野になっていると指摘しています。(出典: 36氪)

AI広告映像制作:大手ブランドは積極的に試みるも、技術と倫理の課題が併存: CTRの報告によると、広告主の半数以上がクリエイティブコンテンツ生成にAIGCを使用しており、約20%が動画制作の50%以上の工程でAIを利用しています。Lenovo、Taobao Tmall Group、JD.comなどの大手ブランドは、革新性を示したり特定の視覚効果を実現したりするために、AI広告映像を頻繁に試みています。WPPやPublicisなどの広告会社もAIを受け入れ、チームを育成したりツールを開発したりしています。しかし、AI広告映像制作は依然として課題に直面しています。技術的には、映像の不安定さ、人物の顔が変わりやすいこと、複雑な動的処理が不得意であることなどの問題があり、人手による介入が必要です。世論的には、技術を過度に誇張したり、創造的な誠意に欠けたりすると反感を買いやすいです。法的倫理的には、素材の著作権、プライバシー保護、AI生成コンテンツの著作権帰属および侵害責任について、まだ統一された規範がありません。成功例は、しばしば「人間性」への配慮を伝え、技術的には長所を生かし短所を避け、ブランドイメージに合致することに重点を置いています。(出典: 36氪)

科学者100名が「シンガポールコンセンサス」に署名、世界のAI安全研究指針を提案: シンガポールで開催された国際表現学習会議(ICLR)期間中、世界中の100名以上の科学者(Yoshua Bengio氏、Stuart Russell氏などを含む)が共同で「世界のAI安全研究重点に関するシンガポールコンセンサス」を発表しました。この文書は、AI研究者に指針を提供し、AI技術が「信頼でき、確実で、安全」であることを保証することを目的としています。コンセンサスは3つの研究カテゴリを提案しています:リスクの特定(潜在的な危害を測定するための計量学の開発、定量的リスク評価の実施など)、リスクを回避する方法でAIシステムを構築する(設計によってAIを信頼できるようにする、プログラムの意図と望ましくない副作用を指定する、幻覚を減らす、改ざんに対する堅牢性を高めるなど)、AIシステムに対する制御を維持する(既存の安全対策を拡張する、制御の試みを積極的に妨害する可能性のある強力なAIシステムを制御するための新しい技術を開発する)。この動きは、AI能力の急速な発展がもたらす安全上の課題に対応し、安全研究への投資拡大を呼びかけることを目的としています。(出典: 36氪)
