キーワード:AI, TPU, 第七代TPU Ironwood, A2A智能体协作プロトコル, HBM3Eチップ, MoEモデルトレーニング, AIエージェント生態系

🔥 注目

Google、第7世代TPUとA2Aエージェント連携プロトコルを発表: GoogleはCloud Next ’25カンファレンスで、AI推論向けに設計された第7世代TPU「Ironwood」を発表しました。大規模展開時のコンピューティング能力は最大42.5 Exaflopsに達し、既存のスーパーコンピューターを大幅に上回ります。このチップはメモリと帯域幅が大幅に向上(192GB HBM、7.2Tb/s帯域幅)し、エネルギー効率は倍増しており、Gemini 2.5のような複雑な推論能力を必要とする「思考モデル」をサポートすることを目的としています。同時に、Googleは異なるAIエージェント間の安全な通信と連携を標準化することを目指すオープンソースプロトコルAgent-to-Agent (A2A)を発表し、すでに50社以上が支持しています。A2Aはエージェントの能力発見、タスク管理、連携方法などを定義し、ツール接続用のMCPプロトコルを補完します。Googleはまた、GeminiモデルとSDKでMCPプロトコルをサポートすることも発表し、AIエージェントエコシステムの相互接続をさらに推進します。(出典: 机器之心, 36氪, 卡兹克, 机器之心, AI前线)

42.5 Exaflops:Googleの新TPU性能は最強スパコンの24倍超、エージェント連携プロトコルA2Aが登場

SK Hynix、HBMの優位性により初めて世界のDRAM市場で首位に: 市場調査会社Counterpoint Researchの報告によると、2025年第1四半期にSK Hynixは36%の市場シェアで初めてSamsung(34%)を抜き、世界最大のDRAMサプライヤーとなりました。Micronは25%で3位です。SK Hynixの成功は主に、高帯域幅メモリ(HBM)分野における支配的な地位(市場シェア70%と推定)によるもので、AIの急成長がHBM需要を大幅に押し上げています。SK HynixはHBM3EチップをNVIDIAのAIアクセラレータに独占供給しており、HBM需要は今後も高速成長が続くと予想されます。同時に、韓国メディアはSK Hynixが1c DRAM(約11-12nm)プロセスの歩留まりで80%に達し、歩留まり向上に苦戦しているSamsungを技術的に一時的にリードしていると報じており、これは同社のHBM4量産に向けた基盤となります。(出典: 半导体行业观察)

DRAM、史上初

AI AgentプロトコルMCPとA2Aが注目を集め、エコシステム競争が激化: 最近、Anthropicが提案したModel Context Protocol(MCP)とGoogleが発表したAgent-to-Agent(A2A)プロトコルがAI分野で注目されています。MCPはAIモデルと外部ツール、データソースとのインタラクションを標準化することを目指し、AIアプリケーションの「USB-C」インターフェースに例えられ、Microsoft、Google及び多くのスタートアップやオープンソースコミュニティが支持しています。一方、A2Aは異なるベンダーのAIエージェント間の安全な通信と連携に焦点を当てており、すでに50社以上が参加しています。これらのプロトコルは、AIエージェント間の相互運用性の低さやエコシステムの分断といった問題を解決することを目的としています。しかし、分析によれば、大手企業がこれらのプロトコルを推進する背景には、自社エコシステムの壁を築き、データ流出を防ぐ戦略的意図も存在します。例えば、Google A2Aの初期パートナーの多くは同社のエコシステム関連であり、Alibaba Cloudが発表したMCPサービスも主に自社体系内のアプリケーションを統合しています。美団(Meituan)や滴滴(DiDi)などのプラットフォームは、データ主権やエコシステムにおける発言権を考慮し、オープンプロトコルへの接続には慎重になる可能性があります。このプロトコル競争は、本質的にはAIエコシステムの主導権とデータコントロール権を巡る争いです。(出典: 卡兹克, 王智远, AI前线, 机器之心)

🎯 動向

DeepSeekがエンタープライズソフトウェアの未来についての考察を促す: DeepSeekのオープンソース化はエンタープライズソフトウェア業界に衝撃を与え、SaaSベンダーの技術的障壁や、AIデジタル従業員が従来のソフトウェアを終焉させるかについての議論を引き起こしています。沃行科技CEOの郭舜日氏は、単一機能のツール型SaaS(RPAなど)が最も危険であると考えています。なぜなら、それらは大規模モデルのマルチモーダル能力によって容易に代替される可能性があるからです。53AI CEOの楊芳賢氏は、大規模モデルの実用化はまだ限定的であると判断していますが、10~20年後には従来のSaaSは消滅し、AI生産性(デジタルヒューマン+SaaS融合)に取って代わられると予測しています。情報化・デジタル化の主導者である沈旸氏の意見はより急進的で、半年から1年以内にSaaSモデルが覆される可能性があり、将来的にはリアルタイムデータやサービス効果に基づく課金が必要になると考えています。対話では、AIがビジネスモデルを再構築し、AIをうまく活用できる企業が競争優位性を獲得し、反応が遅い企業は淘汰されることが強調されています。現在のAI導入のボトルネックは、AI技術そのものではなく、企業のデータサイロと知識統合の不足にあります。(出典: 36氪)
大型家電分野におけるAI応用の現状と反省: AI技術は冷蔵庫、洗濯機、エアコンなどの大型家電に統合され、音声対話、インテリジェント制御(AI省エネ、AI洗濯ケアなど)といった機能を提供しています。Haier、TCL、Samsungなどのブランドは次々とAI家電を発表しており、例えばDeepSeekを搭載したHaierの冷蔵庫は食材管理のアドバイスを提供でき、TCLのエアコンは天気を読み上げることができます。しかし、記事は現在のAI家電の「AI含有量」にはばらつきがあり、一部の機能(エアコンの為替レート読み上げなど)は余計で実用的ではないと指摘しています。お掃除ロボットなど、すでに比較的完全な「感知-判断-実行」のクローズドループを実現しているAI製品と比較して、大型家電のAI応用は多くが感知と提案のレベルにとどまり、完全に自律的な意思決定と実行には至っていません。記事は、一部の「AI」機能が必須ニーズであるか疑問視し、消費者がより必要としているのは、コア機能が使いやすく、ペインポイントを解決する家電であり、無理にAIトレンドに乗ることではないと指摘しています。記事は、大型家電のAI時代における役割はスマートホームエコシステムの一部であるべきであり、コア機能を極め、連携能力を高める必要があり、すべてがチャットツールになる必要はないと考えています。(出典: 36氪)

大型家電がAIを導入したが、購入前に目を光らせることを勧める

MoEモデルが新トレンドに、Alibaba CloudはAIインフラをアップグレードして課題に対応: 混合エキスパート(MoE)アーキテクチャはAI大規模モデルの主流トレンドになりつつあり、MixtralからDeepSeek、Qwen2.5-Max、Llama 4までがこのアーキテクチャを採用しています。MoEがもたらす課題(トークンルーティング、エキスパート選択など)に対応するため、Alibaba CloudはPAI-DLCベースのFlashMoEトレーニングフレームワークを発表しました。これは超大規模MoE混合精度トレーニングをサポートし、1万カード規模でMFUを35-40%に向上させることができます。同時に、Alibaba CloudはMoE向けの分散推論エンジンLlumnixを発表し、遅延を大幅に削減しました。さらに、Alibaba CloudはECS第9世代インスタンス、最適化された霊駿クラスター(HPN 7.0ネットワーク、CPFS高性能ストレージ、障害自己回復システム)、アップグレードされたOSSオブジェクトストレージ(OSSFS 2.0)を発表し、MaxCompute AI Function及びMCPプロトコルをサポートするDataWorks Agentサービスも提供開始し、MoEと推論モデルがもたらす新しいパラダイムに対応するためにAIインフラストラクチャを全面的にアップグレードしました。(出典: 机器之心)
Keenon Robotics、人型サービスロボットXMAN-R1を発表: グローバルなサービスロボット大手企業Keenon Roboticsは、初の人型具現化サービスロボットXMAN-R1を発表しました。「サービスのために生まれた」と位置づけられています。このロボットは、Keenonが飲食、ホテル、医療などのシーンで蓄積した膨大な実データに基づいて構築され、役割ベース、親しみやすさ、安全性を重視しています。XMAN-R1は、サービスシーンにおける注文受付、配膳、料理提供、食器回収などのクローズドループタスクを完了でき、両手での物渡し、移動制御、人間らしい対話(大規模言語モデル、表情フィードバック)などの能力を備え、11項目のマルチモーダルセンサーとインテリジェント障害物回避技術を搭載して、人混みの多い環境に適応します。XMAN-R1は、Keenonの既存の配送、清掃などの専用型ロボットと多形態連携エコシステムを形成し、より複雑な商業サービス業務を共同で完了させ、Keenonの多形態具現化サービスロボットマトリックスをさらに充実させます。(出典: InfoQ)
西安交通大学などがトレーニング不要の絵画動画化フレームワークEvery Painting Awakenedを提案: 既存の画像から動画へ(I2V)の手法が絵画の動画化において「動かない」または「乱雑に動く」問題を抱えていることに対し、西安交通大学、合肥工業大学、マカオ大学が共同でゼロトレーニングフレームワーク「Every Painting Awakened」を提案しました。このフレームワークは、事前学習済み画像モデルを利用して代理画像を生成し、動的ガイダンスとして使用します。デュアルパススコア蒸留技術を通じて、元絵の静的詳細を保持し、代理画像の動的プライヤーを抽出し、さらにハイブリッド潜在融合メカニズム(球面線形補間)を利用して潜在空間で動的特徴と静的特徴を融合させ、既存のI2Vモデルに入力して動画を生成します。この方法は追加のトレーニングなしで既存のI2Vモデルを強化でき、テキストプロンプト中の運動指示を正確に実行し、同時に元絵のスタイルと筆致を保持し、自然で滑らかな絵画の動画化を実現します。実験により、このフレームワークが意味的整合性の向上とスタイル完全性の保持において顕著な効果を示すことが証明されました。(出典: PaperWeekly)
ウォータールー大学とMetaがMoChaを提案:音声とテキストに基づきマルチキャラ対話動画を生成: 既存の動画生成技術がキャラクター主導のナラティブにおいて抱える不足点(顔のみ、補助条件への依存、単一キャラクターのみサポートなど)を解決するため、カナダのウォータールー大学とMeta GenAIはMoChaフレームワークを提案しました。MoChaはTalking Charactersタスク向けの最初の手法であり、音声とテキスト入力のみで、キャラクターのクローズアップからミディアムショットまでの全身対話動画を生成でき、マルチキャラクター、マルチターン対話をサポートします。核心技術には以下が含まれます:1) Speech-Video Window Attentionメカニズム。局所時間条件モデリングを通じて音声と動画の時間的特徴を精密にアライメントし、口パクと動作の同期を保証します。2) 共同音声テキストトレーニング戦略。既存の音声・テキスト注釈付き動画データを利用し、モデルの汎化能力と制御可能性を向上させます。3) 構造化プロンプトテンプレートとキャラクターラベル。初めてマルチキャラクター、マルチターン対話生成を実現し、コンテキストの一貫性とキャラクターアイデンティティの一貫性を保持します。実験により、そのリアリズム、表現力、制御可能性における優位性が検証され、自動化された映画ナラティブ生成を推進します。(出典: PaperWeekly)
華中科技大学&小米汽車が自動運転フレームワークORIONを提案: エンドツーエンド自動運転が閉ループインタラクションにおいて因果推論能力が限られている問題に対し、華中科技大学と小米汽車はORIONフレームワークを提案しました。このフレームワークは、視覚言語大規模モデル(VLM)と生成モデル(VAEや拡散モデルなど)を革新的に組み合わせ、VLMを用いてシーン理解、推論、指示生成を行い、さらに生成モデルを通じてVLMの意味的推論空間と純粋な数値の軌道動作空間をアライメントし、軌道生成を誘導します。同時に、QT-Formerモジュールを導入し、長期履歴視覚コンテキスト情報を効果的に集約し、VLMが複数フレーム画像を処理する際のToken制限と計算コストの問題を克服しました。ORIONは視覚質問応答(VQA)と計画タスクの統一されたエンドツーエンド最適化を実現しました。Bench2Drive閉ループ評価において、ORIONの運転スコアは77.74点、成功率は54.62%に達し、先行の最良手法を著しく上回りました。コード、モデル、データセットはオープンソース化される予定です。(出典: 机器之心)
シンガポール国立大学がGEALを提案:2D大規模モデルを活用し3D Affordance予測を強化: 3D Affordance Learning(物体インタラクション可能領域予測)における3Dデータの希少性、高価なアノテーション、モデルの汎化性・堅牢性不足の問題を解決するため、シンガポール国立大学はGEALフレームワークを提案しました。GEALは3D Gaussian Splattingを利用してスパース点群をリアルな画像にレンダリングし、事前学習済みの2D視覚大規模モデル(DINOV2など)に入力して豊富な意味特徴を抽出します。革新的なクロスモーダル一貫性アライメント(Cross-Modal Consistency Alignment)を通じて、これには粒度適応融合モジュール(GAFM)と一貫性アライメントモジュール(CAM)が含まれ、2D視覚特徴と3D空間幾何特徴を効果的に融合します。GAFMはテキスト指示に基づいてマルチスケール特徴を適応的に集約し、CAMは3D特徴を2Dにレンダリングして一貫性損失を適用することで、双方向の情報アライメントを促進します。GEALは大規模な3Dアノテーションを必要とせず、新しい物体やシーンに対する汎化能力、およびノイズ環境下での堅牢性を著しく向上させます。チームはまた、モデルの堅牢性を評価するために、多様な実世界の摂動を含むベンチマークデータセットを構築しました。(出典: 机器之心)
月之暗面(Moonshot AI)がKimi-VL MoE大小モデルを発表、マルチモーダル推論と長文コンテキストを主打: 月之暗面(Moonshot AI)は、Kimi-VLとKimi-VL-Thinkingの2つの視覚言語混合エキスパート(MoE)モデルを発表しました。これら2つのモデルの総パラメータ数は16Bですが、活性化パラメータ数は約3Bに過ぎず、多くのベンチマークテストで優れた性能を示しています。Kimi-VL-Thinkingはマルチモーダル推論(MathVisionで36.8%)とエージェントスキル(ScreenSpot-Proで34.5%)において優れた性能を発揮し、パラメータ数が10倍大きいモデルに匹敵します。モデルはMoonViT技術を採用して高解像度の視覚入力(OCRBenchで867)をネイティブに処理し、最大128Kの長文コンテキストウィンドウ(MMLongBench-Docで35.1%、LongVideoBenchで64.5%)をサポートし、主要なベンチマークでGPT-4oなどのより大きなモデルを上回りました。関連論文とHugging Faceモデルが公開されています。(出典: Reddit r/LocalLLaMA)

🧰 ツール

Firebase Studio:Googleが統合したAI搭載オンラインフルスタック開発プラットフォーム: GoogleはProject IDX開発ツールをFirebaseに統合し、Firebase Studioと改名しました。これは無料のブラウザ内フルスタックアプリケーション開発環境を提供します。新プラットフォームの主な特徴は以下の通りです:1) AI支援プロジェクト作成機能。自然言語プロンプトに基づいてNext.jsなどのアプリケーションの初期コードフレームワークを生成できます。2) デュアルワークモード切替。AIスマートモードで迅速にコンテンツを生成するモードと、従来のクラウド開発環境(VMベースのクラウドワークスペース)をシームレスに切り替えられます。3) IDX機能の継承。フルスタックテンプレート、Androidエミュレータ、チームコラボレーション、ワンクリックデプロイなどが含まれます。Firebase StudioはFirebaseバックエンドサービス(データベース、認証など)と深く統合されており、フロントエンド・バックエンド開発、クラウドサービスを一体化したオールインワン開発体験の構築を目指しています。ユーザーフィードバックによると、このツールは非常に強力で、インタラクション体験も良好であり、プロンプトを通じてアプリケーションを構築し、リアルタイムでプレビューでき、さらにはスクリーンショットにUIをマークして修正することも可能です。ただし、現在アクセスはユーザー過多により制限されている可能性があります。(出典: 36氪, dotey)

Googleが今夜無双:標準を定め(A2A)、武器を配布し(firebase)、無料を捧げる(2.0 Flash)

OpenManus:Manusのコア機能を迅速に再現するオープンソースAgentプロジェクト: Manus AI Agentがブームを巻き起こしたもののコードが公開されなかった状況に対し、華東師範大学の大学院生である梁新兵氏とDeepWisdomの研究員である向勁宇氏ら00年代生まれの開発者が、余暇を利用して迅速にOpenManusプロジェクトを開発し、オープンソース化しました。このプロジェクトはManusのコア機能を再現することを目指し、簡潔で理解しやすいコード(約数千行)でAgentのコアロジック(ToolとPromptに基づく)を示しています。プロジェクトはfunction callのReactパターンを利用し、ブラウザ操作、ファイル編集、コード実行などのコアツールを設計しました。OpenManusはGitHubで急速に4万以上のStarを獲得し、オープンソースコミュニティのAgent技術への熱意を示しています。開発者は、大規模モデルを利用してコードベースを理解し、アーキテクチャを設計し、コードを生成するワークフローを共有し、MCPプロトコル(AI界のType-Cインターフェース)やマルチAgent連携の課題について議論しました。プロジェクトは継続的に開発中で、Toolエコシステム、MCPサポート、マルチAgent調整メカニズム、テストケースの整備を計画しています。(出典: CSDN)

180分で40k Star神話を再現した裏側:OpenManus 00年代生まれの主開発者が現場でデモ、Agent開発の「速さ」と「痛み」

AIエージェントの概念普及と応用シーン: AIエージェント(AI Agent)とは、環境を自律的に感知し、意思決定を行い、タスクを実行できるソフトウェアであり、情報を提供するだけの通常のAI(チャットボットなど)とは異なり、あなたのために「行動を起こす」ことができます。その主な特徴には、自律性、記憶能力、ツール使用能力、学習適応能力が含まれます。応用シーンは幅広く、個人生活アシスタント(旅行の自動計画、スケジュールやメールの管理)、ビジネス応用(ソフトウェア開発、カスタマーサービス、創薬の効率向上)、企業効率向上(HRプロセスの自動化、コンテンツ作成管理)などがあります。AIエージェントの構築には、感知(データ収集)、思考(AIモデルによる分析・計画)、行動(ツールAPIの呼び出し)、学習(結果からの改善)などの段階が含まれます。Microsoft、Google、BATなどの大手企業もこの分野に注力しています。ユーザーはCozeなどのプラットフォームやプロンプトテンプレートを作成することで利用を開始でき、簡単なタスクから始めて徐々にその可能性を探ることができます。(出典: 周知)
Color Reshape:GPT-4o画像の色かぶりを修正するバッチ処理ツール: GPT-4oが画像を生成する際にしばしば発生する青色または黄色がかった色かぶりの問題に対し、開発者「归藏」氏が「Color Reshape」というツールをリリースしました。このツールは、ワンクリック操作でAI生成画像の色彩バランスをバッチ修正し、プロの写真作品のような見た目に近づけ、真実の色を再現することを目的としています。その特徴には、バッチ処理対応、スライダー付きの元画像と効果画像の比較機能、および専門的な色彩バランス制御オプションが含まれます。これにより、ユーザーがGPT-4oで生成した画像の色彩を手動で調整する必要があるというペインポイントを解決し、AIアート制作の効率と最終的な仕上がりを向上させます。(出典: op7418)

op7418

NotionがMCP Serverをリリース: Notionは、同社のMCP(Model Context Protocol)サーバーの実装を発表し、現在GitHubでオープンソースとして公開されています。このサーバーにより、AIエージェントはMCPプロトコルを通じてNotionと対話することが可能になり、ページ内容の取得、コメント、検索実行など、様々なNotion API機能が実現されました。これは、MCPプロトコルをサポートするAI Agent(Claudeなど)が、ユーザーのNotionデータや機能をより便利に呼び出して操作できるようになり、AI Agentの応用シーンと能力をさらに拡張することを意味します。(出典: karminski3)

karminski3

OLMoTrace:言語モデルの記憶と情報合成を探る新ツール: Ai2(アレン人工知能研究所)は、OLMoTraceを発表しました。これは同社のAI Playground内の新機能で、大規模言語モデル(LLM)がどの程度情報を学習・合成しているのか、またどの程度単に訓練データを記憶・復唱しているのかを理解するのに役立ちます。ユーザーは現在、このツールを通じて、モデルが特定の補完(completion)を生成するのに寄与した可能性のある訓練データの断片を確認できます。これは、LLMの内部動作メカニズムを研究し、その挙動の源泉を理解し、汎化能力と記憶能力のバランスを評価する上で重要な意味を持ち、特にモデルの独創性や信頼性に関心を持つ研究者や開発者にとって有益です。(出典: natolambert)

📚 学習

NVIDIA、汎用人型ロボット開発を推進するオープン基盤モデルGR00T N1を発表: NVIDIAは、汎用人型ロボット向けに設計されたオープン基盤モデルGR00T N1を発表しました。このモデルは、ロボットの訓練データが不足している問題を解決することを目的としており、複数のデータソースを組み合わせて学習します:1) Omniverseを利用して高精度なデジタルツイン環境(工場など)を作成し、大量の自己ラベル付きシミュレーションデータを生成します。2) Cosmosモデルを利用してシミュレーションデータをよりリアルな動画に変換し、訓練セットをさらに拡充します。3) AIシステムを開発し、インターネット上の既存の動画を自動的にアノテーションし、動作、関節、目標などの情報を抽出し、実世界の動画も訓練データとして利用できるようにします。GR00T N1はデュアルシステム思考モデルを採用しています:System 2が低速な推論と計画を行い、System 1(Diffusionモデルベース)がリアルタイムの運動制御指示を生成します。実験では、従来の手法と比較して成功率が46%から76%に向上したことが示されています。このモデルはオープンソースであり、様々な形態のロボットをサポートし、汎用ロボットの研究開発と応用を加速することを目指しています。(出典: Two Minute Papers)
AIが高校生の数学不安を緩和するのに役立つ: フィラデルフィア産業応用数学会(SIAM)のグローバル調査によると、半数以上(56%)の高校生がAIは数学不安の緩和に役立つと考えています。15%の生徒は個人的にAIを使用した後に数学不安が減少したと回答し、21%は成績が向上しました。AIが不安を和らげる理由としては、即時のヘルプとフィードバックの提供(61%)、自信の構築(自分のペースで質問できる、44%)、個別化学習(33%)、間違いを犯すことへの恐れの軽減(25%)が挙げられています。しかし、AIが数学不安を減らせると考えている教師はわずか19%です。大多数の教師と生徒(教師64%、生徒43%)は、AIは人間の教師と連携して使用されるべきであり、直接答えを与えるのではなく、概念の理解を助けるチューターや学習パートナーとして機能すべきだと考えています。AIの普及は、教師と生徒の関係や教師の役割の変化についても考察を促しており、例えばAIを使用できない試験の重視、生徒を指導するための教師のAI習熟の必要性、教師が個別指導により集中できるようになることなどが挙げられます。(出典: 元宇宙之心MetaverseHub)

グローバル調査によると:半数以上の高校生がAIは数学不安の緩和に役立つと考えている

💼 ビジネス

具現知能企業「穹彻智能」が数億元のPre-A++ラウンド資金調達を完了: スタンフォード大学出身のチームによって設立された具現知能企業「穹彻智能 (QiongcHe Intelligence)」は、最近、数億元のPre-A++ラウンドの資金調達を完了しました。盛宇投資、清科創投、嘉御資本、云启资本、上海科創集団などが参加し、既存株主であるProsperity7、紅杉中国 (Sequoia China)は3ラウンド連続で追加投資を行いました。資金は、具現知能の基盤モデル、データ収集・評価などの分野でのブレークスルーを加速し、小売フルフィルメント、家庭サービス、食品加工などのシーンでの商業化を推進するために使用されます。同社は上海交通大学教授の盧策吾氏と非夕科技 (Flexiv) 創業者の王世全氏によって共同設立され、具現知能における物理世界の記述とインタラクション、データ取得などの核心的な難題の解決に注力しています。そのコア製品である「穹彻具身大脳」はすでに完全なクローズドループ能力を備えており、自社開発の「生産付随型」データ収集システム(CoMiner)によってデータコストを削減しています。同社はすでに家電企業と協力して家庭サービスロボット(AWEで展示された洗濯ロボットなど)を開発しており、食品メーカーとも協力意向に達しています。(出典: 36氪)

スタンフォードチーム設立、紅杉、P7が継続追加投資、この具現知能企業が再び数億を調達|硬氪速報

人型ロボット企業「星尘智能」が数億元のAラウンド及びA+ラウンド資金調達を完了: 具現人型ロボット企業「星尘智能 (Astribot)」は、Aラウンド及びA+ラウンドの資金調達を連続して完了し、総額は数億元に達しました。錦秋基金、蚂蚁集团 (Ant Group)がリードインベスターとなり、云启资本、道彤资本などの既存株主もフォローオンしました。同社は「Design for AI」パラダイムを定義し、人間レベルの操作能力を持つAIロボットアシスタントの開発に取り組んでいます。そのコア製品であるAstribot S1は、独自のケーブル駆動設計を採用し、高いペイロード対自重比(1:1)、高速(末端速度10m/s超)、人間のような柔軟な操作能力を実現しています。星尘智能は「本体+データ+モデル」の技術クローズドループを構築し、実世界の動画や人体の動作データを低コストで利用し、マルチモーダルなインタラクションデータを効率的に収集することで、ロボットに複雑な環境の認識、認知、意思決定、および汎用的な操作の汎化能力を与えています。現在、S1は3回のイテレーションを経ており、大学や企業などと実用化に向けた実践を展開し、エンドツーエンドの大規模モデルを継続的に最適化しています。(出典: 36氪)

A及びA+ラウンドの資金調達を連続完了、星尘智能が錦秋基金、蚂蚁集团などからリード投資を獲得

Jony IveとSam AltmanのAIハードウェアスタートアップio ProductsがOpenAIに買収される可能性: 元Appleのデザイン責任者Jony Ive氏とOpenAI CEOのSam Altman氏が共同設立したAIハードウェアスタートアップio Productsが、The Informationの報道によると、少なくとも5億ドルの評価額でOpenAIに買収される可能性があります。io Productsは2024年に設立され、スマートフォンよりも侵襲性の低いAI駆動のパーソナルデバイスの開発を目指しており、その方向性としてはスクリーンレスフォン、AI駆動の家庭用デバイス、またはウェアラブルAIアシスタントなどが考えられます。この潜在的な買収は、OpenAIがソフトウェア分野からコンシューマーハードウェアへと事業を拡大する可能性を示唆しています。しかし、Humane AI PinやRabbit R1といった先行するAIハードウェア製品の失敗や、ユーザーが新しいデバイス形態よりも既存のスマートフォンのAI機能強化を好む傾向を考慮すると、スクリーンレスAIデバイスの市場需要と受容性については依然として疑問が残ります。(出典: 不客观实验室)

Jony IveのAIハードウェアはまだ登場していないのに、会社が買収されることに

3月AIアプリ市場観察:全世界ダウンロード数2.6億、国内は腾讯・阿里・字节の「三国志」: DataEye研究院のレポートによると、2025年3月の全世界AIアプリケーション(App Store & Google Play)の推定ダウンロード数は2.6億回に達しました。ChatGPTが23%のシェアで圧倒的な首位を維持し、Google GeminiがDeepSeekを抜いて2位となりました。国内市場では、Apple App Storeでのダウンロード数は4020万回で、DeepSeek、即梦AI、豆包、夸克、腾讯元宝がトップ5に入り、Kimi智能助手はダウンロード数が急落しました。メディアバイイング(ユーザー獲得広告)に関しては、中国大陸市場のAI製品(ミニプログラム含む)の広告クリエイティブ数は95.7万組に達し、腾讯元宝(26%)、夸克(24%)、豆包(13%)がトップ3となり、腾讯 (Tencent)、阿里 (Alibaba)、字节 (ByteDance)による激しい競争が繰り広げられています。Kimiは広告出稿を停止した後、ランキングから姿を消しました。レポートは、DeepSeekのヒットと阿里の「All in AI」戦略が、大手企業によるC向けAIアプリ市場への展開を加速させたと分析しています。(出典: 36氪)

3月AI月報:全世界AIアプリダウンロード2.6億、大陸メディアバイイング市場で「三国志」勃発

Anthropicが高価格サブスクリプションプランClaude Maxを発表: OpenAIのChatGPT Pro(月額200ドル)に対抗し、AnthropicはClaude Maxサブスクリプションサービスを発表しました。このサービスは2つの選択肢を提供します:月額100ドルで、既存のClaude Pro(月額20ドル)の5倍の使用量上限を提供。月額200ドルで、最大20倍の使用量上限を提供します。Maxプランのユーザーは、Anthropicの最新のAIモデルと機能(近日公開予定の音声モードを含む)への優先アクセス権を得られます。この動きは、AI企業が収益を増やし、ヘビーユーザーにサービスを提供するための新たな道筋を探るものと見られています。Anthropicの製品責任者は、このプランは主にコーディング、金融、メディアエンターテイメント、マーケティングなどの分野のプロフェッショナルなヘビーユーザーを対象としており、将来的にさらに高価なプランを導入する可能性も排除しないと述べています。同時に、Anthropicは教育など特定の市場向けのサービスも模索しています。(出典: dotey, op7418)

dotey

xAIがGrok 3 APIをリリースし価格を発表: xAIはGrok 3シリーズAPIのベータテストを正式に開始し、Grok 3とGrok 3 Miniの2つのモデルを提供します。各モデルには通常モードと高速モード(応答は速いがコスト高)があります。Grok 3はデータ抽出、プログラミングなどの企業シーンに適しており、価格は入力$3/百万トークン、出力$15/百万トークン(高速モードは$5/$25)です。Grok 3 Miniは軽量モデルで、単純なタスクに適しており、価格は入力$0.3/百万トークン、出力$0.5/百万トークン(高速モードは$0.6/$4)です。これにより、開発者は異なるアプリケーションシーンの性能とコスト要求を満たす柔軟な選択肢を得ることができます。同時に、Googleも開発者向けに無料プランを含む新しい計画を発表し、Anthropicは高価格のMaxプランを導入、MetaのLlama 4は低コスト(約$0.36/百万トークン)で競争に参加しており、AI大手間のAPI価格戦略における差別化競争を示しています。(出典: 新智元, op7418)

Grok-3の4段階価格設定が明らかに:最低0.3ドル/百万トークン、Google、Metaに真っ向勝負

36Krが2025 AIネイティブアプリイノベーション事例リストを発表: 36Krは「2025 AIネイティブアプリイノベーション事例」リストを選定・発表し、最終的に45の事例が選出されました。この選定は、AI技術をいち早く実際のシーンに導入し、実質的な価値を創造し、業界の変革をリードするAIネイティブ製品および応用を発掘することを目的としています。選出された事例は、スマート製造、カスタマーサービス、コンテンツ作成、企業管理、オフィスワーク、セキュリティ、マーケティング、医療など、複数の分野をカバーしています。審査の結果、選出された事例には4つの特徴が見られました:1) 分野横断的な融合が加速し、新しいビジネスモデルを創造している。2) 業界のペインポイントと深く結びつき、特色あるソリューションを提供している。3) ユーザー体験と個別化サービスの向上を重視している。4) 強力な自社開発技術(大規模モデル、マルチモーダルなど)に依存し、積極的にイノベーションエコシステムを構築している。このリストは、AIネイティブアプリが爆発的な成長を遂げ、各業界に深く浸透していることを反映しています。(出典: 36氪)

2025 AIネイティブアプリイノベーション事例が重磅発表

🌟 コミュニティ

Google DeepMindが最長1年の競業避止契約で人材流動を制限か: Business Insiderの報道によると、Google DeepMindが最長12ヶ月の競業避止契約(強制的な有給休暇/ガーデンリーブを含む)を利用して、中核となるAI人材がOpenAIやMicrosoftなどの競合他社へ流出するのを阻止していると指摘されています。この契約は通常、労働契約に含まれており、従業員が直接の競合他社へ転職しようとする際に発効します。競業避止期間の長さは役職によって異なり、第一線の開発者は6ヶ月、上級研究員は最長1年に達する可能性があります。この動きは物議を醸しており、「職場の金の鎖」と批判され、急速に進化するAI業界においては、人材のスキルが陳腐化し、イノベーションや人材の流動性を抑制する可能性があるとされています。英国法は「合理的」な競業避止契約の執行を認めており、DeepMindの本社がロンドンにあるため、競業避止を禁止しているカリフォルニア州とは対照的です。元DeepMind幹部で現Microsoft VPのNando de Freitas氏はXプラットフォームでこの慣行を公然と批判し、「欧州でこれほど大きな力を持つべきではない」と述べ、広範な議論を呼んでいます。(出典: CSDN程序人生)

従業員に1年間の「有給休暇」を強制?Google DeepMindの競業避止条項が炎上:金を払って飼い殺しにする方がマシ、人材を手放さない

AIが引き起こす「感情の繭」への懸念: AI技術の発展に伴い、人間の感情や欲望を満たすための応用が増えています。例えば、インテリジェントラブドール(Wmdollは売上30%増を予測)、AIバーチャルコンパニオン、AIチャット代行(OnlyFansクリエイターの収入向上を支援)などです。記事は、AIが安定し、忍耐強く、肯定的な感情的価値を提供し、人々の精神的な交流ニーズを満たし、時には実在の人間をも超えることができると分析しています。しかし、このような「過剰な迎合」と「過剰な保護」は、人間が「感情の繭」を形成し、関係性を処理する際に主観的な感覚に過度に依存するようになり、現実の人間関係における複雑さや挫折に対する耐性を低下させ、感情的な脆弱性、原子化、ジェンダー対立を悪化させる可能性があると指摘しています。記事は、AIが雑事を処理することで人間の時間を解放する一方で、その迎合的な性質によって人間を快適ゾーンと最終幻想の中に閉じ込め、個人の成長や現実の人間関係を阻害し、最終的には人間をより孤独にし、AIに「征服」される可能性があると論じています。(出典: 周天财经)

AIと「感情の繭」:人類にとって真の嵐が間もなく到来する

MiniMaxの戦略調整:「生産・モデル一体」から技術優先へ、AI動画に注力: DeepSeekなどの競争圧力に直面し、AI企業MiniMaxは戦略を調整しました。初期は「生産・モデル一体」を堅持し、モデルはアプリケーション(テキストモデルはMiniMax助手、動画モデルは海螺AI、およびTalkie、星野など)に奉仕し、Transformerの基盤アーキテクチャ(線形アテンション)を修正して効率を向上させていました。創業者である闫俊杰氏は、「より良いアプリケーションが必ずしもより良いモデルにつながるとは限らない」と反省し、会社は「技術駆動」へと転換し、技術研究開発と製品応用を分離しました。製品面では、MiniMaxは動画生成用に「海螺」ブランドに焦点を当て、元の「海螺AI」は「MiniMax」に改名し、AI動画生成企業である鹿影科技(傘下に二次元プラットフォームYoYoを持つ)を買収するとの噂もあります。この動きは、主要な収入源であるTalkie(AIコンパニオンアプリ)が海外市場で提供停止のリスクに直面しており、新たな成長点を探す必要があるためかもしれません。同時に、MiniMaxはB向けビジネスにも力を入れ始め、スマートハードウェア産業イノベーションアライアンスを設立しましたが、そのB向けビジネスは依然として薄く、課題に直面しています。(出典: guangzi0088)

MiniMaxにはプランBがない

长城汽车と宇树科技が「オフロード車+ロボット犬」を探求する協力: 长城汽车 (Great Wall Motor)とロボット企業 宇树科技 (Unitree Robotics)が戦略的協力に合意し、ロボット技術、スマート製造などの分野で協力を展開します。第一期の協力は「オフロード車+ロボット犬」の応用シーンを中心に、装備輸送、アウトドア探検の同伴などの可能性を探ります。記事は、ロボット(特に人型ロボット)の自動車業界での応用について考察し、現在、自動車工場のロボットは主に「補助的」な役割(重量物の運搬など)を果たしており、柔軟性や適応性がまだ不十分なため、人間を代替するのは非現実的だと指摘しています。一方、「車+ロボット」のシーン拡張(BYDの「自動車+ドローン」に類似)は、自動車の使用境界を広げることを目指しています。「オフロード車+ロボット犬」については、記事はハードコアなオフロード愛好家や特定業界(野外救助など)には潜在的な価値(装備輸送、経路探索など)があるとしながらも、普及には高コスト、ニッチな需要、技術成熟度などの課題があり、現在は必須ニーズというより未来のアウトドアスマートシーンへの探求に近いと評価しています。(出典: 电车通)

长城と宇树が提携、「オフロード車+ロボット犬」の組み合わせは奇抜、見せかけか、それとも必須ニーズか?

Llama 4アーキテクチャのMacユーザー特定ワークフローへの適合性に関する議論: あるMac Studioユーザー(M3 Ultra, 512GB RAM)が、Llama 4 Maverickモデルが自身のワークフローにどのように適合するかについて共有しました。このユーザーは、多段階の反復と検証を行うワークフローを通じてLLMの性能を向上させることを好みますが、以前はMac上で大規模モデル(32B~70B)を実行すると速度が遅すぎ(最大20~30分かかる)、小規模モデル(8~14B)は速度は速いものの品質が十分ではありませんでした。Llama 4 Maverickはパラメータ数が多い(400B)ため大量のメモリが必要ですが(Macはちょうどこれを満たします)、そのMoEアーキテクチャにより、実際の実行速度は17Bモデルに近いものになります(Q8量子化で約16.8 T/sの生成速度)。この「メモリ使用量は大きいが速度は比較的速い」という特性が、Macユーザーの「メモリは豊富だが速度は制限される」というペインポイントにちょうど合致し、モデル全体の評価が高くなく、tokenizerの問題がある可能性にもかかわらず、このユーザーの特定のワークフローにとって理想的な選択肢となっています。(出典: Reddit r/LocalLLaMA)

💡 その他

Google GeminiがDeep Research機能をアップグレード: Google DeepMind CEOのDemis Hassabis氏は、Geminiアプリ(Gemini Advancedサブスクリプションが必要)内のDeep Research機能が、Gemini 2.5 Proモデルによって駆動されるようになったと発表しました。Googleはこれを市場で最も強力な深層調査能力であり、次点の競合製品に対して2対1のユーザー嗜好度があると主張しています。アップグレードされたDeep Researchは、情報をより良く分析し、ほぼあらゆるトピックに関する詳細なレポートをユーザーに生成できるようになりました。(出典: demishassabis)

demishassabis

GPT-4oで写真を階層的な切り絵アート風に変換: ユーザーが、GPT-4oまたはSoraを使用して通常の写真を階層効果のある切り絵アート風の画像に変換するプロンプトテクニックを共有しました。核心的なアイデアは、モデルに写真の中景と背景を認識・分離させ、その後、階層的な切り絵アートスタイルを適用して再描画し、オプションでタイトルを追加することです。例として、シカゴの都市写真を「2016年シカゴ」というタイトルの切り絵風作品に変換することに成功したことが示されています。(出典: dotey)

dotey

GPT-4oで日付に基づきファッションカレンダーイラストを生成: ユーザーが、GPT-4oを使用して中国の旧暦風ファッションカレンダーイラストを生成するプロンプトテンプレートと方法を共有しました。この方法は2段階で行われます:第一段階で、日付を入力し、モデルに対応する旧暦情報(曜日、旧暦、祝日、宜忌、励ましの言葉)と季節的な人物の服装記述を検索させ、テンプレートに基づいて詳細な画像生成プロンプトを生成させます。第二段階で、モデルに生成されたプロンプトに基づいて画像を描画させます。テンプレートでは、画像を縦長(9:16)の清新な手描きイラスト風にし、おしゃれで可愛い女性の姿、目立つ西暦日付、英語の月、中英の曜日、旧暦日付、祝日、縦書きの「宜」事項及び励ましの言葉を含み、余白とレイアウトに注意することを要求しています。例として、この方法に基づいて生成された元旦のカレンダーイラストが示されています。(出典: dotey)

dotey