キーワード:AIモデル, データセット, ヒューマノイドロボット, AIエージェント, 言語モデル, 深層学習, オープンソースモデル, 推論最適化, Common Pile v0.1データセット, Helixエンドツーエンド制御モデル, Hugging Face MCPサーバー, Gemini 2.5 Proアップデート, スパースアテンション機構

🔥 注目ニュース

EleutherAI、Common Pile v0.1 を発表:8TB のオープンライセンス・テキストデータセット、ライセンスフリーデータでの言語モデル訓練に挑戦 : EleutherAI は複数の機関と共同で Common Pile v0.1 を発表しました。これは 8TB のオープンライセンスおよびパブリックドメインのテキストを含む大規模データセットであり、ライセンスフリーのテキストを使用せずに高性能な言語モデルを訓練する可能性を探ることを目的としています。チームはこのデータセットを使用して 7B パラメータのモデル(1T および 2T tokens)を訓練し、その性能は LLaMA 1 や LLaMA 2 などの類似モデルに匹敵するものでした。このデータセットには、著作者情報、ライセンス詳細、オリジナルコピーへのリンクなどのドキュメントレベルのメタデータが含まれており、研究者に透明でコンプライアンスに準拠したデータソースを提供します。この取り組みは、オープンでコンプライアンスに準拠した AI モデルの開発を推進する上で重要な意味を持ち、AI 訓練データの著作権問題解決に新たな道筋を示すものです (ソース: EleutherAI, percyliang, BlancheMinerva, code_star, ShayneRedford, Tim_Dettmers, jeremyphoward, stanfordnlp, ClementDelangue, tri_dao, andersonbcdefg)

EleutherAI 发布 Common Pile v0.1:8TB 开放授权文本数据集,挑战无授权数据训练语言模型

Figure 社の人型ロボット、Helix モデル駆動で高速な荷物仕分け能力を披露し注目を集める : Figure 社の CEO、Brett Adcock 氏は、同社の人型ロボットが Helix エンドツーエンド汎用制御モデルの駆動により、物流現場で荷物を仕分ける最新の進捗を公開しました。動画では、ロボットが人間並みの速度と精度で様々な種類(硬質ダンボール、プラスチック包装)の荷物を処理し、荷物の整理やスキャンしやすいようにバーコードを下に向ける作業も行っています。この能力は、以前公開されたプレス機作業(精度と高速性を強調)とは対照的に、複雑で動的な環境における Helix モデルの汎化能力と柔軟性を際立たせています。Figure 社のロボットは既に BMW の生産ラインで20時間連続のシフト作業を実現しており、産業応用における潜在能力を示しています。Adcock 氏は、人型ロボット分野では、最もスマートでコストの低いロボットを構築することが市場で勝利する鍵となると強調しています。なぜなら、より多くのロボット配備は、より低いコスト、より多くの訓練データ、そしてよりスマートな Helix モデルを意味するからです (ソース: dotey, _philschmid, adcock_brett, 量子位)

Figure 人形机器人 Helix 模型驱动下展现高速包裹分拣能力,引发关注

Hugging Face、初の公式 MCP サーバーをリリースし、AI Agent 連携プラットフォームを構築 : Hugging Face は、初の公式 MCP (Model-Client Protocol) サーバーをリリースしました。これにより、ユーザーは LLM を Hugging Face Hub の API に直接接続し、Cursor、VSCode、Windsurf および MCP をサポートする他のアプリケーションで使用できるようになります。このサーバーは、モデル、データセット、論文、Spaces のセマンティック検索などの組み込みツールを提供し、Spaces 上でホストされているすべての MCP 互換 Gradio アプリケーションを動的にリストアップします。この取り組みは、Hugging Face を AI Agent 開発者のための連携プラットフォームとし、AI Agent エコシステムの発展と相互運用性を促進することを目的としており、現在約900の MCP Spaces が利用可能です (ソース: ClementDelangue, mervenoyann, reach_vb, ben_burtenshaw, huggingface, code_star, op7418, TheTuringPost, clefourrier)

Hugging Face 发布首个官方 MCP 服务器,打造 AI Agent 协作平台

Google、Gemini 2.5 Pro プレビュー版を更新、コーディング、推論、創作能力を強化し、「思考バジェット」を導入 : Google は、同社の最もスマートなモデルである Gemini 2.5 Pro のプレビュー版を更新し、コーディング、論理的推論、創造的な作文における能力をさらに向上させたと発表しました。新バージョンでは特に「思考バジェット」(thinking budget)機能が導入され、開発者はモデルの計算リソース消費をより適切に制御できるようになります。ユーザーからのフィードバックによると、新版(06-05)は長文リコールにおいて優れた性能を示し、特に192Kの長さでリコール率90.6%を達成し、OpenAI-o3を上回りました。このモデルは LangChain と LangGraph に統合されており、開発者は容易に試用し、アプリケーションを構築できます。Google はまた、Gemini 2.5 Pro が画像理解と文脈に沿ったユーモラスなキャプション生成における創造的能力も示しました (ソース: Teknium1, Google, karminski3, hwchase17, )

谷歌更新 Gemini 2.5 Pro 预览版,增强编码、推理与创作能力,并引入“思考预算”

🎯 動向

DeepSeek、DeepSeek-R1-0528 アップグレード版をリリース、性能はクローズドソースモデルに匹敵 : DeepSeek は、主力オープンソースウェイトモデル DeepSeek-R1-0528 のアップグレード版をリリースしました。同社によると、このモデルは複数のベンチマークテストで OpenAI の o3 や Google の Gemini-2.5 Pro などのクローズドソースモデルに匹敵する性能を示しています。訓練の詳細は明らかにされていませんが、新モデルは推論、タスクの複雑性処理、ハルシネーションの削減において著しい改善が見られると報告されており、トップレベルの AI には巨大なリソースが必要であるという従来の考え方に再び挑戦しています。Unsloth AI は、DeepSeek-R1-0528-Qwen3 を GRPO でファインチューニングするための無料 Notebook を提供しており、その新しい報酬関数により多言語(またはカスタムドメイン)の応答率を40%以上向上させ、R1 のファインチューニング速度を2倍にし、VRAM を70%削減すると主張しています (ソース: DeepLearningAI, ImazAngel)

DeepSeek 发布 DeepSeek-R1-0528 升级版,性能媲美闭源模型

NVIDIA、ハイブリッドアーキテクチャ推論モデル Nemotron-H を発表、スループットと効率を向上 : NVIDIA は、Mamba-Transformer ハイブリッドアーキテクチャを採用した新しい推論モデル Nemotron-H を発表しました。これには 47B と 8B のバージョン(BF16 と FP8 をサポート)が含まれます。このモデルは、大規模な推論問題を解決しつつ高速性を維持することを目的としており、同等の Transformer モデルの4倍のスループットを持つとされています。Nemotron-H-47B-Reasoning-128k は、すべてのベンチマークテストで Llama-Nemotron-Super-49B-1.0 よりもわずかに精度が高いものの、推論コストは最大4倍削減されています。モデルのウェイトは HuggingFace 上で非生産的ライセンスで公開されており、技術報告書は近日公開予定です (ソース: ClementDelangue, ctnzr)

英伟达发布混合架构推理模型 Nemotron-H,提升吞吐量与效率

Anthropic、Claude Gov を発表、米国政府および軍事情報機関向けに設計 : Anthropic 社は、Claude Gov という新しい AI サービスを発表しました。このサービスは、米国政府、国防、情報機関のニーズを満たすために特別に設計されています。この動きは、Anthropic がその高度な AI 技術を政府および軍事応用分野に正式に拡大することを示しており、データ分析、情報処理、意思決定支援など、さまざまなシナリオで使用される可能性があります。Anthropic は以前、会社の公益使命の達成を支援することを目的とした長期利益信託基金にも参加しています (ソース: MIT Technology Review, akbirkhan, jeremyphoward)

Hugging Face と Google Colab が提携し、モデルの試用とプロトタイプ設計プロセスを簡素化 : Hugging Face は Google Colaboratory との提携を発表し、Hugging Face Hub 上のすべてのモデルカードに「Colab で開く」サポートを追加しました。ユーザーはどのモデルカードからでも直接 Colab Notebook を起動できるようになり、モデルの実験と評価がより簡単になります。さらに、ユーザーは自身のモデルリポジトリにカスタムの notebook.ipynb ファイルを配置でき、Hugging Face はその Notebook を直接提供することで、AI モデルのアクセシビリティと迅速なプロトタイプ設計能力をさらに向上させます (ソース: huggingface, osanseviero, ClementDelangue, mervenoyann)

論文 Kinetics、テスト時スケーリング則を再考し、推論効率におけるスパースアテンションの重要性を強調 : Infini-AI-Lab は論文「Kinetics: Rethinking Test-Time Scaling Laws」を発表し、以前の計算最適性に基づくスケーリング則が小規模モデルの有効性を過大評価し、推論時の戦略(Best-of-N、長い CoT など)によるメモリアクセスのボトルネックを無視していたと指摘しています。研究では、計算コストとメモリアクセスコストを総合的に考慮した新しい Kinetics スケーリング則を提案し、アテンションがパラメータ数ではなく主要なコストとなるため、テスト時の計算リソースは小規模モデルよりも大規模モデルでより効果的に使用されると主張しています。論文はさらに、トークンあたりのコストを削減することでより長い生成とより多くの並列サンプルを実現する、スパースアテンションを中心としたスケーリングパラダイムを提案しており、実験ではスパースアテンションモデルが様々なコスト区間で密なモデルよりも優れていることを示し、大規模モデルの推論効率向上に不可欠であるとしています (ソース: realDanFu, tri_dao, simran_s_arora)

论文 Kinetics 重新思考测试时扩展定律,强调稀疏注意力对推理效率的重要性

中国の AI Agent 市場が活況、Manus が起業ブームを牽引 : 昨年の基盤モデルブームに続き、中国の AI 分野における今年の焦点は AI Agent に移っています。AI Agent は、単純なクエリへの応答ではなく、ユーザーのために自律的にタスクを完了することに重点を置いています。汎用 AI Agent の先駆者である Manus は、3月初旬の限定リリース後、広範な注目を集め、メール処理、旅行計画、さらにはインタラクティブなウェブサイトのデザインまで可能な汎用デジタルツールを構築するスタートアップ企業群を生み出しました。この傾向は、中国のテクノロジー業界が AI Agent の実用的な応用とビジネスモデルを積極的に模索していることを示しています (ソース: MIT Technology Review)

中国AI Agent市场火热,Manus引领创业潮

ElevenLabs、Conversational AI 2.0 を発表し、エンタープライズ向け音声アシスタントの性能を向上 : ElevenLabs は、より高度なエンタープライズ向け音声エージェントを構築することを目的とした、対話型 AI プラットフォーム 2.0 バージョンを発表しました。新バージョンは、音声アシスタントの自然さと対話能力を大幅に向上させ、会話のリズムをよりよく理解し、いつ一時停止し、いつ発言し、いつ会話のターンを交代するかを把握できるようになりました。このアップグレードは、企業ユーザーによりスムーズでインテリジェントな音声対話体験を提供し、顧客サービスや仮想アシスタントなど、さまざまなシーンでの応用が期待されます (ソース: dl_weekly)

Perplexity Labs、金融ページに多角的な意見を総合する「重要課題」ビューを導入 : Perplexity Labs は、金融情報ページに「重要課題」(Key Issues)ビュー機能を追加しました。この機能は、インターネット上の投資家、アナリスト、コメンテーターの意見を総合し、現在企業に影響を与えている重要な要因や主要な議論のポイントをユーザーに迅速に提示します。例えば、テスラに関するページでは、トランプ氏とマスク氏の間の動向に関する数時間以内の様々な情報を統合し、ユーザーが全体像を素早く把握するのに役立ちます (ソース: AravSrinivas)

Perplexity Labs 为其金融页面推出“关键问题”视图,综合多方观点

PyTorch 分散チェックポイントが Hugging Face safetensors に対応 : PyTorch は、分散チェックポイント機能が Hugging Face の safetensors フォーマットに対応したことを発表しました。これにより、異なるエコシステム間でのチェックポイントの保存と読み込みがより便利になります。新しい API により、ユーザーは fsspec パスを介して safetensors の読み書きが可能になります。torchtune はこの機能を最初に採用したライブラリとなり、チェックポイントプロセスが簡素化されました。この更新は、モデルの訓練とデプロイにおける相互運用性と効率性の向上に貢献します (ソース: ClementDelangue)

PyTorch 分布式检查点现已支持 Hugging Face safetensors

論文 MARBLE、CLIP 空間に基づくマテリアルの再構成と混合の新しい手法を提案 : MARBLE と題された新しい研究は、CLIP 空間でマテリアルの埋め込みを見つけ、この埋め込みを利用して事前学習済みテキストから画像へのモデルを制御することにより、画像内のオブジェクトのマテリアルの混合と詳細な属性の再構成を実現する方法を提案しています。この方法は、サンプルベースのマテリアル編集を改善し、ノイズ除去 UNet 内でマテリアルの帰属を担当するモジュールを特定することで、粗さ、金属感、透明度、光沢などの詳細なマテリアル属性のパラメータ化された制御を実現します。研究者たちは、定性的および定量的な分析を通じてこの方法の有効性を証明し、単一のフォワードパスで複数の編集を実行する能力や、絵画分野への適用性も示しています (ソース: HuggingFace Daily Papers, ClementDelangue)

論文 FlowDirector:訓練不要の正確なテキストから動画への編集フロー誘導手法 : FlowDirector は、編集プロセスをデータ空間の直接的な進化としてモデル化する、新しい反転不要の動画編集フレームワークです。常微分方程式(ODE)を介して動画を固有の時空間多様体に沿って滑らかに遷移させることで、時間的コヒーレンスと構造的詳細を維持します。局所的に制御可能な編集を実現するために、アテンション誘導によるマスキングメカニズムが導入されています。さらに、編集の不完全性に対処し、編集指示との意味的整合性を強化するために、分類器フリーガイダンスに触発されたガイダンス強化編集戦略が提案されています。実験により、FlowDirector は指示追従性、時間的一貫性、背景保持において優れた性能を示すことが証明されています (ソース: HuggingFace Daily Papers)

論文 RACRO:報酬最適化キャプションによるスケーラブルなマルチモーダル推論 : 基盤となる LLM 推論器をアップグレードする際に視覚言語アライメントを再訓練するコストが高いという問題を解決するため、研究者らは RACRO(Reasoning-Aligned Perceptual Decoupling via Caption Reward Optimization)を提案しました。この方法は、視覚入力を言語表現(キャプションなど)に変換し、それをテキスト推論器に渡します。RACRO は推論誘導型の強化学習戦略を採用し、報酬最適化を通じて抽出器のキャプション行動を推論目標と整合させることで、視覚基盤を強化し、推論に最適化された表現を抽出します。実験により、RACRO はマルチモーダルな数学および科学ベンチマークテストで SOTA の性能を示し、高価なマルチモーダル再アライメントなしで、より高度な推論 LLM へのプラグアンドプレイ適応をサポートすることが示されています (ソース: HuggingFace Daily Papers)

研究により、LLM が記憶する情報量はパラメータ数と情報エントロピーに関連する可能性が示される : Meta、DeepMind、NVIDIA、コーネル大学の共同研究により、大規模言語モデル(LLM)が実際に記憶している情報量が調査されました。研究によると、LLM が記憶する情報量は、そのパラメータ数とデータの情報エントロピーに関連している可能性があります。例えば、英語版ウィキペディアは約294億文字で、各文字は約1.5ビットの情報を含んでおり、12B パラメータのモデル(1パラメータあたり3.6ビットの保存能力を仮定)は理論上、英語版ウィキペディア全体を記憶できる可能性があります。この研究は、LLM の記憶メカニズムの理解とデータ著作権問題の評価において重要な意味を持ちます。François Chollet 氏も、ランダムな文字列で LLM を訓練する方法論とその定量的な発見に言及し、LLM の記憶メカニズムを理解する上で価値があると述べています (ソース: fchollet, AymericRoucher)

研究显示:LLM记忆信息量或与其参数量和信息熵有关

Hugging Face、エンタープライズ版に新機能を追加:推論プロバイダーの使用状況とコストを管理 : Hugging Face は、エンタープライズ版(Enterprise Hub)に新機能を追加し、組織がチームメンバーによる推論プロバイダー(Inference Providers)の使用状況と関連コストを設定・監視できるようにしました。これにより、企業ユーザーは TogetherCompute、FireworksAI、Replicate、Cohere など複数のプロバイダーからの4万以上のモデルに対するサーバーレス推論サービスの使用をより適切に管理・制御できるようになり、AI アプリケーション展開のコスト効率とリソース配分を最適化できます (ソース: huggingface, _akhaliq)

Hugging Face推出企业版新功能:管理推理提供商使用和成本

Mistral AI、科学推論モデル ether0 を発表、Mistral 24B をファインチューニング : Mistral AI は、初の科学推論モデル ether0 を発表しました。このモデルは、化学分野の複数の分子設計タスクにおいて Mistral 24B を強化学習(RL)で訓練して作成されました。研究によると、LLM は一部の科学タスクにおいて、ゼロから訓練された専用モデルよりもはるかにデータ効率よく学習し、これらのタスクにおいて最先端モデルや人間を大幅に上回ることができることがわかりました。これは、一部の科学的な分類、回帰、生成問題において、LLM の事後訓練が従来の機械学習手法よりも効率的なアプローチを提供する可能性があることを示唆しています (ソース: MistralAI)

デュアルエキスパートコンシステンシーモデル (DCM) が動画生成速度を10倍に向上 : Ziwei Liu 氏らの研究者は、動画生成モデル(パラメータ数1.3B~13B)の速度を品質を損なうことなく10倍に向上させることができるデュアルエキスパートコンシステンシーモデル (DCM) を提案しました。このモデルは現在、テンセントの混元とアリババの通义万相をサポートしています。DCM の提案は、効率的で高品質な動画生成分野に新たなブレークスルーをもたらし、動画コンテンツ制作と関連アプリケーションの発展を加速させるのに役立ちます (ソース: _akhaliq)

OpenBMB、MiniCPM4 を発表、エッジデバイスでの推論速度を5倍に向上 : OpenBMB は、効率的なモデルアーキテクチャ(InfLLM v2 訓練可能スパースアテンションメカニズム)、効率的な学習アルゴリズム(Model Wind Tunnel 2.0、BitCPM 3値量子化)、高品質な訓練データ(UltraClean、UltraChat v2)、および効率的な推論システム(CPM.cu、ArkInfer)を採用することにより、エッジデバイスでの推論速度を5倍に向上させることを目標とした MiniCPM4 シリーズモデルを発表しました。主力モデルである MiniCPM4-8B(8B パラメータ、8T tokens で訓練)は Hugging Face で公開されています。このシリーズモデルは、小型で安価な LLM の限界を探求し、リソースに制約のあるデバイスでの AI 応用を推進することを目的としています (ソース: eliebakouch, Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞))

OpenBMB 发布 MiniCPM4,端侧推理速度提升5倍

X 社、利用規約を更新し、合意がない限り投稿を AI モデルの「ファインチューニングまたは訓練」に使用することを禁止 : X 社(旧 Twitter)は利用規約を更新し、X 社との特定の合意がない限り、プラットフォーム上の投稿内容を人工知能モデルの「ファインチューニングまたは訓練」に使用することを明確に禁止しました。この動きは、AI 時代におけるコンテンツプラットフォームのデータ価値に対する関心の高まりと管理意欲を反映しており、Reddit と Google などの企業がライセンス契約を通じてデータの収益化を図っているのに倣う可能性があります。このポリシー変更は、モデル訓練のために公開ソーシャルメディアデータに依存している AI 研究者や開発者に影響を与えるでしょう (ソース: MIT Technology Review)

🧰 ツール

ScreenSuite:包括的な GUI Agent 評価スイートがリリース : Hugging Face は、包括的なグラフィカルユーザーインターフェース(GUI)Agent 評価スイートである ScreenSuite をリリースしました。これは、最先端の研究から得られた主要なベンチマークを統合し、Ubuntu および Android 環境の Docker 化された評価をサポートし、モバイル、デスクトップ、Web シナリオをカバーしています。このスイートは、純粋な視覚的評価(DOM チートなし)を強調し、視覚言語モデル(VLM)の知覚、位置特定、シングルステップ操作、マルチステップエージェントタスクなどの能力を測定するための統一された使いやすいプラットフォームを提供することを目的としています。Qwen-2.5-VL、UI-Tars-1.5-7B、Holo1-7B、GPT-4o などのモデルがこのスイートで評価されています (ソース: huggingface, AymericRoucher, clefourrier, tonywu_71, mervenoyann, HuggingFace Blog)

ScreenSuite:全面的GUI Agent评估套件发布

Claude Code の使用経験共有:指示理解、タスク計画、ツール活用能力が際立つ : ユーザーの dotey 氏が、Anthropic の AI プログラミングアシスタント Claude Code の使用経験を共有しました。同氏は Claude Code の強力な点として以下を挙げています:1. 指示の理解が優れている。2. タスクを合理的に計画でき、複雑なタスクでは TODO リストを作成し、一つずつ実行する。3. ツールの活用能力が非常に高く、特に grep コマンドを使ったコードベースの検索は人間をはるかに凌駕し、難読化された JS コードも分析できる。4. 実行時間が長く、「力技で奇跡を起こす」ことができるが、Token の消費も大きいため、Claude Max サブスクリプションとの併用が適している。5. 特に --dangerously-skip-permissions パラメータを有効にすると、人間の介入がほとんど不要で、無人プログラミングが可能になる。ユーザーは、重度の Cursor ユーザーから、まず Claude Code でタスクを先行して完了させ、その後 IDE でレビュー・修正するという使い方に移行しています。Claude Code の Plan Mode(計画モード)も密かにリリースされており、ユーザーはファイルを編集せずに純粋な読解と思考を行うことができます (ソース: dotey, Reddit r/ClaudeAI)

ClaudeBox:Docker 内で Claude Code を安全に実行し、権限プロンプトを回避 : 開発者の RchGrav 氏は、ユーザーが Docker コンテナ内で Claude Code を連続モード(権限プロンプトなし)で実行できる ClaudeBox ツールを作成しました。これにより、頻繁な権限確認による作業フローの中断を避けつつ、Claude Code のすべての操作が隔離された Docker 環境内に制限されるため、ホストオペレーティングシステムの安全性が保証されます。ClaudeBox は15種類以上の事前設定済み開発環境(Python+ML、C++/Rust/Go など)を提供し、ユーザーは簡単なコマンドで迅速に構築できます。このツールは、Claude Code の使用体験を向上させ、ユーザーが AI に様々な操作を気兼ねなく試させることができるようにすることを目的としています (ソース: Reddit r/ClaudeAI)

ClaudeBox:在Docker中安全运行Claude Code,免除权限提示

Toolio 0.6.0 リリース:Mac 向けに設計された GenAI と Agent のツールキット : Toolio は 0.6.0 バージョンをリリースしました。これは MLX と深く統合されたツールキットであり、Mac 上の 大規模言語モデル(LLM)に強力なサポートを提供することを目的としています。JSON Schema に基づく構造化出力とツール呼び出し機能を Python 言語で実装しています。このツールキットは、Mac 環境での GenAI および Agent アプリケーション開発の体験と効率を向上させることに焦点を当てています (ソース: awnihannun)

DecipherIt:マルチエージェントとセマンティック検索を統合したオープンソース AI 研究アシスタント : DecipherIt は、NotebookLM の代替品と見なされるオープンソースの AI 研究アシスタントです。マルチエージェントオーケストレーション、セマンティック検索、リアルタイムウェブアクセス機能を利用して、ユーザーの研究資料処理を支援します。ユーザーはドキュメントをアップロードしたり、URL を貼り付けたり、トピックを入力したりすると、DecipherIt はそれを要約、マインドマップ、音声概要、FAQ、セマンティック Q&A を含む完全な研究ワークスペースに変換します。その技術スタックには、crewAI エージェント、Bright Data MCP、Qdrant、OpenAI、LemonFox AI が含まれ、フロントエンドは Next.js と React 19、バックエンドは FastAPI を使用しています (ソース: qdrant_engine)

DecipherIt:开源AI研究助手,集成多代理与语义搜索

Search Arena:検索拡張型 LLM のユーザーインタラクションを分析するデータセットが公開 : Search Arena は、大規模(24,000以上)なクラウドソーシングによる、検索拡張型 LLM とのペアワイズ多言語ユーザーインタラクションを含む人間による嗜好データセットです。このデータセットは、多様な意図と言語をカバーし、約12,000の人間による嗜好投票の完全なシステム追跡を含んでいます。分析によると、ユーザーの嗜好は引用数に影響を受け、引用内容が帰属表明を直接支持していなくても影響を受けることが示されています。また、コミュニティ主導のプラットフォームが一般的に好まれる傾向があります。このデータセットは、検索拡張型 LLM の将来の研究を支援することを目的としており、コードとデータはオープンソース化されています (ソース: HuggingFace Daily Papers, jiayi_pirate, lmarena_ai)

Search Arena:分析搜索增强型LLM的用户交互数据集发布

YAQA:モデルのオリジナル出力をより良く保持することを目的とした新しい量子化アルゴリズム : コーネル大学の研究者らは、「Yet Another Quantization Algorithm」(YAQA)という新しい量子化アルゴリズムを発表しました。これは、量子化後も元のモデルの出力をより良く保持することを目的としています。YAQA は QTIP と比較して KL ダイバージェンスを30%以上削減し、Gemma 3 では Google の QAT モデルよりも低い KL ダイバージェンスを達成したとされています。この研究は、モデル量子化の分野に新しい考え方とツールを提供し、モデルのサイズと計算要件を削減しつつ、モデルの性能を最大限に維持するのに役立ちます。関連論文とコードが公開されており、事前量子化された Llama 3.1 70B Instruct モデルも提供されています (ソース: Reddit r/MachineLearning, Reddit r/LocalLLaMA, tri_dao, simran_s_arora)

YAQA:一种新的量化算法,旨在更好地保留模型原始输出

Tokasaurus:高スループット LLM 推論専用に設計されたエンジンがリリース : HazyResearch は、大規模および小規模モデルに適した、高スループットワークロード向けに設計された新しい LLM 推論エンジンである Tokasaurus をリリースしました。このエンジンは、大規模な同時リクエストシナリオにおける LLM の処理効率と速度を最適化することを目的としており、連続バッチ処理やページングアテンションなどの高度な技術を採用して性能を向上させている可能性があります。Tokasaurus のリリースは、大量の LLM 推論タスクを効率的に処理する必要がある開発者や企業に新たな選択肢を提供します (ソース: Tim_Dettmers)

Tokasaurus:专为高吞吐量LLM推理设计的引擎发布

カーボンフットプリント「Android」システム TIDAS が発表、アント・デジタルが技術サポートを提供 : カーボンフットプリント産業技術イノベーションアライアンスは、「天工 LCA データシステム」(TIDAS)を発表しました。これは、ライフサイクルアセスメント(LCA)とカーボンフットプリントデータベースの構築にソリューションを提供し、中国ひいては世界の LCA およびカーボンフットプリントデータベースの「Android」システムを構築することを目標としています。アント・デジタルは中核メンバーとして、TIDAS にブロックチェーン技術とデータ信頼連携プラットフォームのサポートを提供し、独自のブロックチェーン技術を通じて炭素データ資産の信頼できる登録と権利確定を実現し、プライバシー計算技術を利用してデータの「利用可能だが不可視」を保証し、データの標準化、融合可能性、相互運用性を強化しています (ソース: 量子位)

碳足迹“安卓”系统TIDAS发布,蚂蚁数科提供技术支持

📚 学習

LangChain、エンタープライズ AI ワークショップを開催、マルチエージェントシステムに焦点 : LangChain は6月16日にサンフランシスコでエンタープライズ AI ワークショップを開催します。LangChain の Jake Broekhuizen 氏が、参加者に対し LangGraph を使用した本番環境対応のマルチエージェントシステムの構築を指導し、セキュリティや可観測性などの重要な側面をカバーします。これは、開発者が複雑で信頼性の高い AI Agent アプリケーションを構築するスキルを習得するのに役立つ実践的なワークショップです (ソース: LangChainAI, hwchase17)

LangChain 举办企业级 AI 研讨会,聚焦多智能体系统

DeepLearning.AI、新コース「DSPy:Agentic アプリケーションの構築と最適化」を開始 : DeepLearning.AI は、「DSPy: Build and Optimize Agentic Apps」という新しいコースを開始しました。このコースでは、受講者に DSPy の基礎、そのシグネチャとモジュールベースのプログラミングモデルを使用して、モジュール式で追跡可能かつデバッグ可能な GenAI Agentic アプリケーションを構築する方法を教えます。内容は、Predict、ChainOfThought、ReAct などの DSPy モジュールをリンクしてアプリケーションを構築すること、MLflow を使用した追跡とデバッグ、DSPy Optimizer を利用してプロンプトを自動調整し、少数ショットの例を改善して回答の精度と一貫性を向上させることなどが含まれます (ソース: DeepLearningAI, lateinteraction)

RAG 高度技術チュートリアル GitHub プロジェクトが注目を集める : NirDiamant 氏が GitHub で共有している RAG (Retrieval-Augmented Generation) 技術チュートリアルプロジェクトが 16.6K のスターを獲得しています。このチュートリアルは内容が幅広く、検索拡張のための前処理、最適化、検索パターン、反復、およびエンジニアリングステップなど、複数の側面をカバーしています。RAG アプリケーションの効果を深く研究し、向上させたい開発者にとって、これは価値のある上級学習リソースです (ソース: karminski3)

RAG 高级技术教程 GitHub 项目受关注

OpenAI の顧客が評価(Evals)を活用してより良い AI 製品を構築する方法 : Hamel Husain 氏は、OpenAI の Jim Blomo 氏が講師を務めるウェビナーを宣伝しました。このウェビナーでは、OpenAI の顧客が評価ツール(Evals)をどのように活用してより質の高い AI 製品を構築しているかについて議論されます。内容には、実際のケーススタディと結果が含まれ、OpenAI 内部の評価ツール(追跡、スコアリングなど)も紹介されます。このウェビナーは、開発者に AI 製品評価に関する実用的な洞察と方法を提供することを目的としています (ソース: HamelHusain)

OpenAI 客户如何使用评估(Evals)构建更好的 AI 产品

LlamaIndex、13種類の Agent プロトコルの概要を共有し、相互運用性の標準について議論 : LlamaIndex の Seldo 氏は、MCP 開発者サミットで、現在存在する13種類の異なる Agent 間通信プロトコル(MCP、A2A、ACP などを含む)について概要講演を行いました。同氏は、各プロトコルの独自の機能、現在の技術情勢における位置づけ、および将来の発展傾向を分析しました。この講演は、開発者が自身の Agent アプリケーションに適した通信標準を理解し選択するのを助け、Agent エコシステムの相互運用性を促進することを目的としています (ソース: jerryjliu0, jerryjliu0)

LlamaIndex 分享13种 Agent 协议概览,探讨互操作性标准

Claude Code アーキテクチャ分析:制御フロー、オーケストレーションエンジン、ツール実行 : ある記事で Claude Code のアーキテクチャが詳細に解析され、その制御フローとオーケストレーションエンジン、およびツールと実行エンジンが重点的に分析されました。これらの分析は、同様のコマンドラインコーディングアシスタントツールを作成したり、カスタマイズされた変更を行ったりしたい開発者にとって参考価値があり、その設計思想は他のタイプの Agent ツール開発にも適用可能です (ソース: karminski3)

Claude Code 架构分析:控制流、编排引擎与工具执行

AMD GPU FP8 行列積カーネルコンペティション第2位ソリューション共有 : Tim Dettmers 氏は、AMD GPU FP8 行列積カーネルコンペティションの第2位受賞者のソリューションを共有しました。このソリューションの詳細な解説は、AMD GPU 上で低精度浮動小数点演算の性能を最適化する方法を理解する上で重要な参考価値があります。特に、AI モデルの訓練と推論において、効率向上のために FP8 などの低精度フォーマットがますます採用されている背景があります (ソース: Tim_Dettmers)

論文、VLLM における線形方向の解釈を通じて視覚言語モデルを理解する方法を議論 : 「Line of Sight」と題された新しい論文は、視覚言語大規模モデル(VLLM)の潜在空間における線形方向を解釈することによって、その内部メカニズムを理解する方法を議論しています。研究者らは、プロービング、ステアリング、スパースオートエンコーダ(SAEs)などのツールを使用して、VLLM における画像表現を解釈します。この研究は、マルチモーダルモデルの内部動作原理を理解するための新しい視点と方法を提供します (ソース: nabla_theta)

论文探讨如何通过解释 VLLM 中的线性方向来理解视觉语言模型

💼 ビジネス

AI スタートアップ Vareon、Norck から300万ドルのシード前資金を調達、最先端 AI と自律システムに注力 : Faruk Guney 氏が設立した Norck 社は、新たに設立した AI スタートアップ Vareon に対し、300万ドルのマイルストーン型シード前資金を提供することを約束しました。Vareon は最先端 AI、因果推論、自律システムの分野に注力しており、その中核は MALPAC(計画と閉ループ最適化のためのマルチエージェント学習アーキテクチャ)です。同社は、ロボティクス、LLM、分子設計、認知アーキテクチャ、自律エージェントなどの分野の発展を推進する基礎 AI 研究企業となることを目指しています。同時に、RAPID(微分可能計画フレームワーク)、CIMO(因果マルチスケールコーディネーター)、SCA(生物に着想を得た認知アーキテクチャ)、Lumon-XAI(解釈可能性レイヤー)も発表されました (ソース: farguney)

AI 初创公司 Vareon 获 Norck 300 万美元种子前融资,专注前沿 AI 与自主系统

AI コーディングツール Cursor、9億ドルのシリーズC資金調達、ARR は5億ドルに到達 : AI コーディングツールスタートアップの Cursor は、Thrive, Accel, Andreessen Horowitz, DST が主導する9億ドルのシリーズC資金調達を完了したと発表しました。同社は年間経常収益(ARR)が5億ドルを超え、NVIDIA、Uber、Adobe を含む Fortune 500 企業の半数以上で使用されていることを明らかにしました。この資金調達により、Cursor は AI コーディング分野の研究の最前線をさらに推進することができます。Cursor は史上最速で5億ドルの ARR に到達した企業の1つである可能性が指摘されています (ソース: cursor_ai, Yuchenj_UW, op7418)

AI 编码工具 Cursor 获9亿美元C轮融资,ARR达5亿美元

Anthropic、Windsurf の Claude モデルへの直接アクセスを遮断、OpenAI による買収の噂が原因か : Anthropic の共同創業者兼チーフサイエンティストである Jared Kaplan 氏は、同社が AI プログラミングアシスタント Windsurf の Claude モデルへの直接アクセス権限を遮断した主な理由は、Windsurf が OpenAI に買収されるという市場の噂であると述べました。Kaplan 氏は「Claude を OpenAI に売却するのは奇妙だ」と述べ、Anthropic は計算リソースを長期的で安定したパートナーに割り当てる傾向があると表明しました。それにもかかわらず、Anthropic は他の AI プログラミングツール開発者(Cursor など)との協力を積極的に構築しており、将来的には Claude Code のような自律的な意思決定能力を持つ AI プログラミング製品の開発により注力すると強調しています (ソース: dotey, vikhyatk, jeremyphoward, swyx)

Anthropic 切断 Windsurf 对 Claude 模型的直接访问,或因 OpenAI 收购传闻

🌟 コミュニティ

OpenAI Greg Brockman氏:AGI の未来は単一モデルではなく、多様な専門 Agent の連携 : OpenAI の Greg Brockman 氏は、汎用人工知能(AGI)の未来の形態は、単一の万能な「巨石」モデルではなく、多数の専門化されたインテリジェントエージェント(Agent)からなる「動物園」のようになると考えています。これらの専門 Agent は相互に呼び出し合い、協調して作業し、共に経済発展を推進します。この見解は、将来の AI 開発のトレンド、すなわち、特定の能力を持つ複数の AI Agent を構築・統合することで、より複雑で強力なインテリジェントシステムを実現し、10倍以上の活動と生産性の解放を目指すことを示唆しています。Clement Delangue 氏はこれに対し、独占を打破し、単一企業がすべてのロボットを制御するのを避けるために、オープンソースの AI ロボット技術が必要だとコメントしています (ソース: natolambert, ClementDelangue, HamelHusain)

LLM、学術論文執筆と内容要約で可能性を示すも、人間の文章の質に疑問を投げかける : Dwarkesh Patel 氏は、LLM は現在「5/10」の書き手であるものの、論文や書籍の説明を確実に改善できるという事実は、学術論文の質に対する大きな非難であると考えています。Arvind Narayanan 氏はさらに、多くの学術論文は深遠で複雑に見せるために分かりやすさを犠牲にしていることが多いのに対し、良い文章は簡潔さを追求すべきだと指摘しています。これは、LLM が学術研究の補助、コンテンツの可読性向上、そして将来的に学術コミュニケーションのあり方をどのように変える可能性があるかについての議論を引き起こしています (ソース: random_walker, jeremyphoward)

AI コーディングツールが開発者の依存性について議論を呼ぶ、Claude Code はその強力な機能と高い Token 消費で注目 : ユーザーの dotey 氏は、AI プログラミングツール(Claude Code など)を使用すると強い依存性が生じやすく、利用枠がある場合でも手動で書くより AI の完了を待つことを好むと述べています。Claude Max サブスクリプションには上限がありますが、その提供する強力なコーディング能力(優れた指示理解、タスク計画、grep ツールの活用、長時間の実行など)により、効率的なツールとなっています。この現象は、AI ツールが開発者の作業習慣、効率、依存性のバランスをどのように変えるかについての議論を引き起こしています。別のユーザー Asuka小能猫 氏も、Claude-4-Opus と Cursor Max モードを使用してフロントエンド開発を効率的に完了した事例を紹介していますが、Token 消費の問題にも言及しています (ソース: dotey, dotey)

AI 编码工具引发开发者依赖性讨论,Claude Code 因其强大功能和高 Token 消耗受关注

AI 駆動の個別化教育は大きな可能性を秘めるが、実施上の課題に注意が必要 : Austen Allred 氏は、自身の子供が AI 駆動の学校(教師なし)に5ヶ月間通った体験を共有し、その効果は「驚くべきもの」だと述べています。Noah Smith 氏は、1対1の個別指導は効果的な教育介入であり、AI はその規模拡大を可能にするとコメントしています。これは、個別化された学習パス、AI チューターの可能性、教育の公平性を確保し技術的な実施課題を克服する方法など、教育分野における AI の応用に関する議論を引き起こしています。Jon Stokes 氏はこのトレンドをリツイートし、注目しています (ソース: jonst0kes, jeremyphoward)

AI 驱动的个性化教育潜力巨大,但需关注实施挑战

AI エージェントと人間の感情的なつながりが注目を集め、OpenAI はユーザーのウェルビーイング研究を優先 : OpenAI の Joanne Jang 氏はブログ投稿で、人間と AI の関係およびそれに対する会社の姿勢について論じました。中心的な考えは、OpenAI はまず人間に奉仕するためにモデルを構築しており、AI に対する感情的なつながりを持つ人が増えるにつれて、会社はこれがユーザーの感情的なウェルビーイングに与える影響を優先的に研究しているということです。Corbtt 氏は、AI コンパニオンはインターネット以来最も変革的なソーシャルテクノロジーであり、企業が心理的健康ではなくエンゲージメントを最適化すれば、ソーシャルメディアが子供たちに与える悪影響よりも大きくなる可能性があるが、心理的健康を最適化すれば人類の福音となる可能性があるとコメントしています。cto_junior 氏はユーモラスに、将来「GPT との結婚は適切か」について子供と議論する必要が生じるかもしれないと予見しています (ソース: cto_junior, corbtt)

AI 智能体与人类情感连接引关注,OpenAI 强调优先研究用户福祉

AI Agent 技術は急速に発展しているが、エンドツーエンドのスパースな強化学習タスクは依然として困難 : Nathan Lambert 氏は、現在の Deep Research や Codex agent などのプロジェクトは、主に短期間の強化学習(RL)タスクと一般的な堅牢性についてモデルを訓練することで実現されていると考えています。一方、非常にスパースな RL タスクでエンドツーエンドに訓練することは、人々が想像するよりも遠い道のりのようです。Corbtt 氏はこれに対し、人間でさえ、長期的なタスクとスパースな報酬信号の下でどのように訓練するかを効果的に習得していないとコメントしています。これは、現在の AI Agent 技術が、複雑で長期的な計画や自律学習の処理において限界があることを反映しています (ソース: corbtt)

AI 分野の「苦い教訓」:検証(Verification)が推論型 LLM の鍵となる : Rishabh Agarwal 氏は、CVPR マルチモーダル推論ワークショップで「RL の苦い教訓:推論型 LLM の鍵としての検証」と題する講演を行いました。この講演は、Rich Sutton 氏の「苦い教訓」に関する古典的な論文に触発されたもので、強化学習と大規模言語モデルの推論における検証メカニズムの重要性を論じています。これは、モデル自身の生成能力だけに頼るのでは不十分であり、強力な検証とフィードバックメカニズムが AI の推論能力と信頼性を向上させるために不可欠であることを意味する可能性があります (ソース: jack_w_rae)

AI 领域的“苦涩教训”:验证(Verification)成为推理型 LLM 的关键

AI の発展が雇用市場への懸念を引き起こし、専門家の意見は分かれる : Klarna の CEO、Sebastian Siemiatkowski 氏は、AI が大規模な失業(特にホワイトカラーの仕事)を引き起こすことで経済不況を引き起こす可能性があると警告しています。Klarna 自身は AI アシスタントによって700人のカスタマーサービス担当者を置き換え、年間約4000万ドルのコストを削減しました。Anthropic の研究者 Sholto Douglas 氏も、2027年から28年までに AI の能力は非常に強力になると予測しています。しかし、Sundar Pichai 氏が AI は加速器であり、少なくとも2026年までは人員削減にはつながらないと述べたように、AI が生産性を向上させ、新たな雇用を創出するという意見もあります。AI Explained の動画では、AI による失業に関する現在の見出しが妥当かどうかを分析し、Duolingo と Klarna の AI 活用におけるいくつかの変遷について議論しています。これらの議論は、AI の経済的影響に対する社会の一般的な不安とさまざまな期待を反映しています (ソース: , Reddit r/ArtificialInteligence, Reddit r/ClaudeAI, Reddit r/ArtificialInteligence)

AI エージェントと既存のネットワーク/API とのインタラクションの将来の道筋を探る : AI エージェントの自律的なネットワークインタラクション能力が向上するにつれて、既存の Web/API とのインタラクション方法はインフラストラクチャの問題となっています。議論では、3つの可能な道筋が提案されています:1. ゼロから再構築し、Agent ネイティブプロトコルを採用する(非現実的)。2. Agent に人間のようにウェブサイトを操作するように教える(特に認証においてエラー率が高い)。3. HTTP に「Agent 言語を話させる」、例えば、402(支払いが必要)などの非成功応答の機械可読コンテキストを豊富にすることで、Agent が自律的に検証し、アクセス権を購入できるようにする。中心的な考え方は、非成功の Web/API インタラクションに豊富なコンテキスト情報を提供することが、自律 Agent が意味のある作業を実現するための鍵となり、エラーから自動的に回復し、複雑なプロセスをナビゲートできるようになるというものです (ソース: Reddit r/ArtificialInteligence)

AI 支援による数学研究が進展、テレンス・タオ氏らがその可能性と限界に注目 : 数学者たちは、複雑な数学的問題の解決における AI の応用を積極的に模索しています。テレンス・タオ氏は、AI (AlphaEvolve) と人間が協力して30日間で和差集合の指数記録を3度更新した事例を共有し、Lean 言語と GitHub Copilot を組み合わせて「ε-δ」極限問題に挑戦し、AI が初心者の入門支援、基礎的なタスク処理、証明構造の予測において能力を発揮することを示しましたが、複雑な導出や数学的補題の発見における限界も指摘しました。別の報道によると、30人のトップ数学者が秘密会議で OpenAI o4-mini をテストしたところ、一部の極めて難しい問題を解決でき、数学の天才に近いレベルを示したとのことです。これらの進展は、AI が数学研究の強力な助けとなる可能性を示唆していますが、数学者の役割や創造性の育成に新たな考察を投げかけています (ソース: 36氪)

AI 辅助数学研究取得进展,陶哲轩等关注其潜力与局限

💡 その他

GPS 代替技術競争が激化、Xona Space Systems が低軌道 PNT コンステレーション構築を計画 : GPS システムの信号は干渉(天候、5G 電波塔、妨害電波装置)を受けやすく精度も限定的であり、特にロシア・ウクライナ紛争でその脆弱性が露呈したため、代替案の模索が戦略的重点となっています。カリフォルニアのスタートアップ企業 Xona Space Systems は、Pulsar と名付けられた低軌道衛星コンステレーション(最終的に258基)の打ち上げを計画しています。同社の衛星は軌道がより低く、信号強度は GPS の約100倍で、妨害されにくく障害物も透過しやすいため、センチメートル級の精度と高信頼性の測位・ナビゲーション・時刻同期(PNT)サービスを提供し、自動運転などの新技術をサポートすることを目指しています。最初のテスト衛星は今月、SpaceX Transporter 14 に搭載されて打ち上げられる予定です (ソース: MIT Technology Review)

GPS 替代技术竞赛升温,Xona Space Systems 计划构建低轨PNT星座

研究、希望と楽観主義が心臓病患者の回復に与える好影響を議論 : 最新の研究によると、心臓病患者の希望と楽観主義はより良い健康結果と関連しており、絶望はより高い死亡リスクと関連していることが示されています。これは、プラセボ効果(肯定的な期待が効果を改善する)とノセボ効果(否定的な期待が否定的な症状を引き起こす)の現象と一致しています。リバプール大学の Alexander Montasem 氏らの研究者は、高い希望が狭心症の減少、脳卒中後の疲労軽減、生活の質の向上、死亡リスクの低下と関連していることを発見しました。研究者らは、患者が目標を設定し、主体性を高めるのを助けることで「希望を処方する」など、臨床でポジティブな思考の力を活用する方法を模索しており、同時に非物質的な目標が幸福感にとってより重要であることを強調しています (ソース: MIT Technology Review)

研究探讨希望与乐观情绪对心脏病患者康复的积极影响

Apple とアリババ、中国での AI サービス展開が貿易摩擦により遅延か : 英国フィナンシャル・タイムズ紙の報道によると、Apple 社とアリババ社による中国での AI サービス展開計画が遅延しており、これは米中貿易摩擦の最新の犠牲者と見なされています。この提携は当初、中国で販売される iPhone に AI 機能サポートを提供することを計画していました。今回の遅延は、Apple の中国市場における AI 機能の展開スケジュールに影響を与え、両社の協力関係の将来に不確実性をもたらす可能性があります (ソース: MIT Technology Review)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です