キーワード:AIエージェント, ヒューマノイドロボット, 大規模言語モデル, AIGC, Microsoft 365 Copilot, DeepMindバーチャルショウジョウバエモデル, AI学術論文の不正利用, OpenAIオープンソースモデル, AI創薬の商業化, エッジ側大規模モデル搭載スマートコックピット, MCPプロトコルAIエコシステム, AI絵画テクニック

🔥 フォーカス

Microsoft、AIエージェントおよび2025年の働き方トレンドレポートを発表:MicrosoftはMicrosoft 365 Copilotの大型アップデートを発表し、Researcher、AnalystなどのAIエージェントを導入、AIをツールから「AIの同僚」へと昇格させることを目指しています。新機能にはNotebook(Web+Work+Pagesを統合)、統合検索(アプリおよびサードパーティソース横断)、およびCreate(GPT-4o画像生成を統合)が含まれます。同時に発表された2025年の働き方トレンドレポートでは、「フロンティア企業」が出現すると予測されており、これらの企業は「オンデマンド・インテリジェンス」を中心に構築され、「人間と機械のハイブリッド」チームによって支えられ、従業員には「エージェント・ボス思考」が求められます。レポートは、AIが今後数年間で働き方や組織構造を深く再構築することを示唆し、AIエージェントが中核的な生産力となることを強調しています。(出典: 新智元)

Microsoft、AIエージェントおよび2025年の働き方トレンドレポートを発表

DeepMindがショウジョウバエのシミュレーションでNatureの表紙を飾る:Google DeepMindはHHMI Janelia研究所と協力し、AIと物理シミュレーション技術を用いて、非常にリアルな仮想ショウジョウバエモデルを作成しました。このモデルは高解像度スキャンデータに基づき、MuJoCo物理エンジンで構築され、流体力学と足の粘着シミュレーションが追加されています。深層強化学習と模倣学習(実際のショウジョウバエの行動ビデオを利用)を通じて、AIニューラルネットワークは仮想ショウジョウバエを駆動し、複雑な飛行や歩行行動、さらには視覚ナビゲーションまでシミュレートすることに成功しました。この研究は、生物の運動の背後にある複雑なメカニズムを明らかにするだけでなく、神経科学とロボット工学に強力な研究プラットフォームを提供します。モデルとコードはオープンソース化され、関連分野の研究を推進しています。(出典: 新智元)

DeepMindがショウジョウバエのシミュレーションでNatureの表紙を飾る

Nature、学術論文におけるAIの不正使用を暴露:Natureのトップ記事は、多数の学術論文(Academ-AIトラッカーが700件以上記録)が、AI(ChatGPTなど)の使用を明記せずに執筆され、中には「私はAI言語モデルです」といった明らかな痕跡が含まれていることを指摘しています。さらに懸念されるのは、一部の出版社(Elsevierなど)が、これらのAIの痕跡を訂正報告なしに密かに削除していたことが判明し、科学的誠実性への懸念を引き起こしていることです。研究者たちは、著者に対しAIの具体的な使用方法を明確に開示するよう求め、出版社にはより厳格な審査メカニズムを構築し、訂正記録を公開することで、学術研究の透明性と信頼性を維持するよう呼びかけています。(出典: 新智元)

Nature、学術論文におけるAIの不正使用を暴露

OpenAI、収益の急成長予測と再編計画が論争を呼ぶ:OpenAIは、2029年までに総収益が1250億ドルに達し、エージェントなどの新規事業収入がChatGPTを上回ると予測しています。同時に、同社は公益法人(PBC)への再編を計画しており、この動きはAIのゴッドファーザーであるHinton氏や元従業員10名などから公然と反対されています。反対派は、再編が非営利組織の支配力を弱め、AGIの安全な開発と人類への貢献を確保するという当初の目的から逸脱し、商業的利益を慈善的使命よりも優先するものだと主張しています。彼らはOpenAIに対し、再編がその使命にどのように合致するのか説明を求め、非営利組織のガバナンス保障を維持するよう要求しています。(出典: 智东西, 腾讯科技, 学术头条)

OpenAI、収益の急成長予測と再編計画が論争を呼ぶ

🎯 動向

人型ロボットが上海モーターショーの焦点に、自動車メーカーが開発を加速:2025年上海モーターショーで、人型ロボットが新たな注目を集めました。小鵬(XPeng)は人間と対話できるロボットIRONを展示し、2026年に工場向けに量産する計画です。奇瑞(Chery)は自社開発のMornine gen-1を展示し、マルチモーダル知覚と質疑応答能力を備えています。上汽栄威(SAIC Roewe)、長安深藍(Changan Deepal)なども、提携または導入したロボットを集客用に展示しました。テスラ(Tesla)、広汽(GAC)、比亜迪(BYD)(自社開発および智元、Pasiniへの投資)などの自動車メーカーも、人型ロボットの研究開発と応用を加速しており、工業製造やサービス分野での可能性に期待しています。将来性は大きいものの、業界はまだ初期段階にあり、市場の不確実性やバブル化のリスクが存在します。(出典: NBD汽车)

人型ロボットが上海モーターショーの焦点に、自動車メーカーが開発を加速

吉林省、ロボット産業を強化、自動車とロボット技術の融合を推進:老舗自動車大省である吉林省が、ロボット産業への投資を積極的に進めています。星網宇達(XWYZ)、一汽富維(FAW Fuwei)は吉林省バイオニックロボットイノベーションセンターと戦略的協力協定を締結し、エンボディード・インテリジェンスや大規模モデルなどを共同開発します。同イノベーションセンターは吉林大学が主導し、完全なロボット産業チェーンの構築を目指しています。この動きは、吉林省の成熟した自動車サプライチェーン基盤(部品とロボット技術の重複度が高い)を活用し、国および地方(深圳、北京)のエンボディード・インテリジェンス産業への強力な支援政策に呼応するものです。ロボット技術、特に自動運転と共通する部分は、自動車産業のインテリジェント化後の新たな機会と見なされています。(出典: 科创板日报)

吉林省、ロボット産業を強化、自動車とロボット技術の融合を推進

世界初のAIGC長編映画『海上女王 鄭一嫂』が劇場公開:この70分の映画は全編AIで制作され、伝説の女海賊・鄭一嫂の物語を描き、シンガポールで上映されました。制作には多くの課題がありました。AIは長い台詞や複雑なカメラワークの処理が苦手で、繰り返しや不連続な画面を生成しがちです。人物のイメージの一貫性を保つのが難しく、「顔が似すぎる」または「顔が変わる」問題が発生し、人手による後処理が必要でした。脚本制作、絵コンテ、編集は依然として人間が主導する必要があり、AIはまだ歴史的詳細や創作意図を完全に理解できません。限界はあるものの、AIGCは制作のハードルとコストを大幅に引き下げ、特に新しいチームにとっては有利であり、映画制作における人間と機械の協働の可能性と未来の方向性を示しています。(出典: 深响)

世界初のAIGC長編映画『海上女王 鄭一嫂』が劇場公開

OpenAI、軽量版Deep Research機能をリリースし無料ユーザーにも開放:OpenAIは、o4-miniを搭載した軽量版Deep Research機能を発表しました。これは、完全版に近いインテリジェンスレベルを提供しつつ、より簡潔な応答と低コストを目指すものです。この機能はPlus、Team、Enterprise、Edu、および無料ユーザーに開放されています。有料ユーザーは完全版の利用枠を使い切ると自動的に軽量版に切り替わります。実測によると、軽量版は速度が速いものの、情報の深さや引用元の提示は完全版に劣り、複雑なタスクの処理では性能が十分でなく、完全なレポートというよりはアイデア提供に近いようです。一方、完全版は詳細な検索と分析を行い、構造化されたレポートを生成できますが、まだ改善の余地があります。(出典: APPSO, 量子位, gdb)

OpenAI、軽量版Deep Research機能をリリースし無料ユーザーにも開放

Google I/O 2025 プレビュー:AIネイティブとXRの融合:5月20日に開催されるGoogle I/O 2025では、AIとマルチデバイス連携が重点的に展示される見込みです。Android 16はGemini大規模モデルを深く統合し、システムのネイティブ機能とし、開発者向けにさらに多くのAPIを開放します。ビジュアル面ではMaterial 3 Expressiveデザイン言語を採用し、タブレット、ウェアラブル、XRデバイスへの対応を強化します。注目されるAndroid XRオペレーティングシステムが初登場し、このシステムもGeminiを中核的なインタラクションエンジンとし、現実と仮想の接続を目指します。Google AIグラスやSamsungと共同開発のProject Moohan MRデバイスも登場し、GoogleのAIアシスタントとオープンなXRエコシステムにおける展開を示すと予想されます。(出典: 雷科技)

Google I/O 2025 プレビュー:AIネイティブとXRの融合

月之暗面(Moonshot AI)のKimi、競争に対応するためコンテンツコミュニティ機能を内部テスト中:DeepSeekなどのモデルの攻勢を受け、月之暗面は自社のAIアシスタントKimi向けにコンテンツコミュニティ機能の内部テストを行っています。このコミュニティは現在グレイテスト段階にあり、コンテンツは主にAIによって収集・生成され、特定分野のチャンネル運営者を招待し、いいねやコメントなどのインタラクション機能を備えています。この動きは、月之暗面のアプリケーション層におけるイノベーションと見なされ、コンテンツエコシステムを通じて差別化を図り、DeepSeekが技術面でもたらす競争圧力に対応することを目的としています。Kimiは以前、長文処理能力と市場プロモーションにより、一時期C向けAI市場のスター製品となりましたが、その後、ユーザー数でDeepSeekやTencent元宝などに追い抜かれました。(出典: 司库财经)

月之暗面Kimi、競争に対応するためコンテンツコミュニティ機能を内部テスト中

OpenAI、今夏に新たなオープンソースモデルを発表予定:TechCrunchによると、OpenAIは今年の夏に新しいオープンソース大規模言語モデルを発表する計画です。これは寛容なライセンスを採用し、無料ダウンロードと商用利用を許可します。このモデルは、性能面でMetaのLlamaやDeepSeekの既存オープンソースモデルを上回ることを目指しており、オープンソースモデルが難題に直面した場合にOpenAIのクラウド大規模モデルを呼び出して処理を支援する「ハンドオフ(handoff)」機能を含む可能性があります。この動きは、OpenAIのオープンソース戦略における大きな転換と見なされ、開発者を引き付け、競争力を強化し、AIエコシステムを完成させることを目的としています。(出典: 智东西)

OpenAI、今夏に新たなオープンソースモデルを発表予定

MCPプロトコルがAI Agentエコシステムの発展を推進するも、商業的課題に直面:MCP(Model Communication Protocol)プロトコルは、AIモデルと外部ツール/サービスとのインタラクションを標準化し、統合の複雑さ(M×NからM+Nへ)を簡素化することを目的としており、AIアプリケーションの「USB-Cインターフェース」と称されています。Manus Agentの成功したデモンストレーションやOpenAIなどの大手企業(Alibaba、Tencent、Baiduなどの国内メーカーも追随)によるMCPのサポートは、その普及とAgentエコシステムの発展を大きく推進しました。しかし、各メーカーはMCPを採用する一方で、しばしば「完全なクローズドループ」エコシステム(例:Alibaba CloudがAmapを統合、Tencent CloudがWeReadに接続)を構築し、自社のデータとエコシステムの優位性を保護しています。これはエコシステムの断片化を招き、MCPが真に汎用的な標準となることを制限する可能性があります。将来のAgentエコシステムは「限定的なオープン」な状況を呈し、MCPは唯一の標準ではなく「エコシステムコネクタ」としての役割を果たす可能性があります。(出典: 产业家)

MCPプロトコルがAI Agentエコシステムの発展を推進するも、商業的課題に直面

大規模モデルの価格競争続く、Baiduの李彦宏氏がDeepSeekを「遅くて高価」と評す:Baiduは文心4.5 TurboおよびX1 Turboモデルを発表し、DeepSeekに対するコストパフォーマンスの高さを強調しました。李彦宏氏は、DeepSeekは能力が限定的(主にテキスト処理)であるだけでなく、呼び出しコストが高く、速度も遅いと指摘しました。文心4.5 Turboの価格はDeepSeek V3の割引期間を下回り、X1 Turboの価格はDeepSeek R1の割引期間と同水準ですが、標準期間よりはるかに低価格です。ByteDanceの豆包、GoogleのGemini Flashなどの新モデルも、低価格戦略で対応しています。しかし、記事はコストパフォーマンスだけでは勝利に不十分であり、DeepSeekの成功の鍵はその思考連鎖などの技術革新がもたらす独自の体験にあると指摘しています。国内モデルの商業化ルートは比較的単一(API課金)ですが、海外(OpenAIなど)ではC向けサブスクリプションなど多様なモデルがあります。(出典: 直面AI)

大規模モデルの価格競争続く、Baiduの李彦宏氏がDeepSeekを「遅くて高価」と評す

AI創薬業界の10年の浮き沈み、商業化と技術的課題に直面:AI創薬業界は10年以上にわたり発展し、AIを用いて医薬品開発の効率を高め、コストを削減することを目指してきました。FDAが最近、動物実験の要件を撤廃したことは、AIモデリングなどの代替方法にとって追い風となっています。業界は資本ブーム(2021年がピーク)を経験しましたが、一部のパイプラインが臨床段階で失敗(BenevolentAIなど)し、資本が引き揚げられるにつれて、調整期に入りました。スター企業である晶泰科技(XtalPi)(AI+CRO)は上場後、より迅速な商業的リターンを求めてAI+新素材などの分野に進出しました。一方、英矽智能(Insilico Medicine)は「自社開発パイプライン+License Out」モデルを堅持し、すでにいくつかのライセンス契約を締結しています。業界は依然としてデータ取得の困難さ(製薬会社が核心データを共有しない)、アルゴリズム検証期間の長さ、上市された医薬品の欠如などの課題に直面しています。しかし、AlphaFoldや生成AIなどの技術的ブレークスルーが新たな希望をもたらしており、業界は初のAI開発医薬品が成功裏に上市される「シンギュラリティ」を期待しています。(出典: 亿欧网)

AI創薬業界の10年の浮き沈み、商業化と技術的課題に直面

面壁智能(ModelBest)のエッジ側大規模モデルがスマートコックピットを駆動、10ヶ月で量産車に搭載:面壁智能は、同社のエッジ側大規模モデルMiniCPMを搭載したスマートコックピットアシスタントcpmGOを発表し、長安マツダの新車にわずか10ヶ月で量産搭載を実現しました。cpmGOは完全にローカルで動作し、データプライバシーを保護し、ミリ秒レベルの応答を実現し、ネットワーク制限を受けません。マルチモーダル知覚(視覚、音声、UI)とインタラクション能力を備え、「見たまま操作」をサポートし、内蔵された純粋なエッジ側GUI Agentが画面操作を理解し実行できます。面壁智能はQualcomm、MediaTek、Intel、ThunderSoftなど多数のチップおよびTier1メーカーと協力し、自動車分野でのエッジAIの応用を推進しており、クラウドソリューションのコスト、遅延、プライバシーの問題点を解決し、よりスムーズで安全なスマートコックピット体験を実現することを目指しています。(出典: 量子位)

面壁智能エッジ側大規模モデルがスマートコックピットを駆動、10ヶ月で量産車に搭載

上海科学智能研究院(SAIL)、AIを活用し多分野の研究パラダイム変革を推進:SAILは復旦大学などの高等教育機関と連携し、CFFF計算プラットフォーム(40 PFlop/sの計算能力)を基盤として、AIを用いて生命科学、気象、材料、医学、気候、人文社会科学などの分野の研究を推進しています。成果には、「扶揺(Fuyao)」気象大規模モデルによるキロメートル級・秒単位の都市天気予報の実現、「女媧(Nuwa)」生命大規模モデルによるsiRNA医薬品開発の加速、「燧人(Suiren)」物質大規模モデルによる新材料と創薬の探索、中山病院との共同開発による「観心CardioMind」心血管専門大規模モデル、多分野の知識を統合して気候変動に対応するPI@Climate気候大規模モデル、台風進路確率予報を最適化するVI-CNOPsアルゴリズム、考古学や古文字研究を支援する中華文明大規模モデル、そして連合学習、マルチモーダル、グラフ学習などの基礎AI技術におけるブレークスルーが含まれ、共同でオープンな協調的科学インテリジェンスエコシステムを構築しています。(出典: 量子位)

上海科学智能研究院、AIを活用し多分野の研究パラダイム変革を推進

🧰 ツール

スタンフォード大学、AIレポート生成ツールStormをオープンソース化:Stormは、自動的にウェブ検索を行い、情報を統合し、Wikipedia風の構造化されたレポートを生成できるAIツールです。ユーザーがトピックを入力すると、Stormは研究者のワークフローを模倣します:研究概要の計画、関連情報源の検索、情報の統合、レポートの執筆。これは、背景レポート、文献レビュー、または詳細な分析を迅速に作成する必要があるユーザーにとって非常に役立ちます。プロジェクトはGitHubでオープンソース化されており、オンライン試用版も提供されています。(出典: karminski3)

スタンフォード大学、AIレポート生成ツールStormをオープンソース化

オープンソースのナレッジグラフフレームワークGraphitiがリリース:Graphitiは、ユーザーインタラクション、構造化/非構造化データ、および外部情報を継続的に検索可能なナレッジグラフに統合できるフレームワークです。その特徴は、グラフ全体を再計算することなく増分更新と効率的な検索をサポートすることであり、コンテキスト認識と履歴追跡が必要なインタラクティブAIアプリケーション開発に特に適しています。このプロジェクトはGitHubで高い注目度(4.4K Star)を集めています。(出典: karminski3)

オープンソースのナレッジグラフフレームワークGraphitiがリリース

Lovable 2.0がアップデート、AIウェブサイト構築体験を向上:AIウェブサイト構築ツールLovableが2.0バージョンをリリースし、複数人での共同編集、自動セキュリティスキャン、10倍インテリジェントになったチャットエージェント、アプリ内で直接コードを編集できる開発モード、カスタムドメインサポートなどの機能を追加しました。同時に、ブランドイメージとUIデザインも更新され、より強力で安全、協調性の高いAI駆動のウェブサイト開発体験を提供することを目指しています。(出典: op7418)

ByteDanceの「即夢(Dreamina)」動画モデルがアップグレード、マルチショットの一貫性を向上:ByteDanceの動画生成ツール「即夢」が3.0モデルのアップデートを発表しました。ユーザーが共有した事例によると、新モデルは1回の生成でマルチショット動画を作成する際に、優れたキャラクターとシーンの一貫性を示し、この一貫性効果は安定して再現可能です。このモデルはテキストからの動画生成と画像からの動画生成の2つのモードをサポートし、AI動画制作の実用性と品質を大幅に向上させています。(出典: op7418)

WAN Videoが商用化段階へ、無料サービスも継続提供:AI動画生成プラットフォームWAN Videoは商用化段階に入ったことを発表しましたが、同時に無料の「Relax mode」を導入し、無制限の無料生成回数を提供します。ユーザーが共有した事例では、レゴ兵士の戦争シーンを生成する効果が示されており、プロンプトの要求は高いものの、結果はまずまずです。これにより、ユーザーは無料でAI動画生成能力を体験し利用する機会を得られます。(出典: dotey)

WAN Videoが商用化段階へ、無料サービスも継続提供

MiniMax TTSがMCP-Serverに接続、マルチモーダルアプリケーション開発を簡素化:MiniMaxは、強力な中国語TTS(テキスト読み上げ)および音声クローン能力を、テキストから画像/動画生成、画像から動画生成などのツールと共に、オープンソースのMCP-Server(Model Communication Protocol Server)を通じて提供します。ユーザーはCursorなどMCPをサポートするクライアントでこれらのツールを簡単に呼び出し、役柄別のオーディオブック生成や、マスク氏の声色をクローンして物語を語らせるなどのクリエイティブなアプリケーションを実現できます。MCPプロトコルはAIモデルとツールの統合を簡素化し、開発のハードルを下げます。(出典: 袋鼠帝AI客栈)

MiniMax TTSがMCP-Serverに接続、マルチモーダルアプリケーション開発を簡素化

EasyDoc:RAGに最適化されたインテリジェント文書解析エンジン:EasyDocは、PDF、Word、PPTなどの文書を解析し、LLM処理に適したJSON形式で出力するAPIサービスを提供します。その利点は、コンテンツブロックをインテリジェントに認識し、文書の階層構造(親子関係を保持)を分析し、表や画像の内容を深く解釈(構造化データと意味理解を提供)できる点にあり、RAGアプリケーションにおける文書前処理の課題、例えば複雑な図文混在レイアウトや表の抽出精度が低いといった問題を効果的に解決します。Lite、Pro、Premiumの3つのモードと無料試用枠を提供し、プライベートデプロイメントもサポートしています。(出典: AI进修生)

EasyDoc:RAGに最適化されたインテリジェント文書解析エンジン

Dyad:ローカルで動作するオープンソースのAIアプリケーションビルダー:Dyadは、無料でオープンソース、ローカルで実行可能なAIアプリケーション構築ツールであり、v0、Lovable、Boltなどのプラットフォームの代替と位置付けられています。ローカルコンピュータ上で開発できるため、IDE(Cursorなど)との連携が容易です。最新バージョンではOllamaとの統合が追加され、ローカルの大規模言語モデルを使用した構築をサポートしています。ユーザーは無料のAPIキー(Geminiなど)を利用して開発できます。(出典: Reddit r/LocalLLaMA)

Dyad:ローカルで動作するオープンソースのAIアプリケーションビルダー

📚 学び

無問芯穹(Infinigence)、AI Infraのトレンドと実践を共有:無問芯穹のチーフソリューションアーキテクト劉川林氏がAI Partner大会でAIインフラストラクチャのトレンドと実践について共有しました。同氏は、事前学習データが枯渇しつつある中、強化学習(DeepSeek R1パラダイムなど)がモデル性能向上の鍵となり、これがInfraに新たな課題を突きつけていると指摘しました。無問芯穹はソフトウェアとハードウェアの連携最適化能力を活かし、多様な異種混合の国産チップをサポートする計算能力プラットフォームを構築し、自社開発のトレーニングフレームワーク、通信効率の最適化、動的なリソース割り当てなどを通じて、LLMおよびMoEモデルのトレーニングニーズに対応し、生数科技(ShengShu Technology)などのマルチモーダルモデルトレーニングをサポートしています。同時に、推論シナリオ向けにDeepSeek R1のデプロイメントを最適化し、ComfyUIベースのインターフェース化されたサービスを通じてAIGCのトラフィック変動問題に対処し、AIアプリケーションのコストを削減しています。(出典: 36氪)

無問芯穹、AI Infraのトレンドと実践を共有

達摩院(DAMO Academy)、DyDiTアーキテクチャをオープンソース化:計算能力半減で視覚生成品質は損なわれず:達摩院などの機関がICLR 2025で提案した動的アーキテクチャDyDiTは、DiT(Diffusion Transformer)モデルの推論効率を最適化することを目的としています。DyDiTは、生成プロセスのタイムステップと画像の空間領域に応じて計算リソースの割り当てを動的に調整し、単純なステップや背景領域では計算量を削減します。実験によると、わずかなファインチューニングコストで、DyDiTはDiT-XLモデルの推論FLOPsを51%削減し、速度を1.73倍向上させると同時に、生成画像の品質(FID指標)をほぼ維持できます。この手法はオープンソース化されており、さらに多くのテキストから画像/動画生成モデルへの適用が計画されています。(出典: 量子位)

達摩院、DyDiTアーキテクチャをオープンソース化:計算能力半減で視覚生成品質は損なわれず

UniToken:理解と生成を融合した統一的な視覚エンコーディングソリューション:復旦大学と美団(Meituan)はUniTokenフレームワークを提案し、マルチモーダル大規模モデルにおけるテキスト・画像理解タスクと画像生成タスク間の表現の乖離およびトレーニング干渉の問題解決を目指しています。UniTokenは、連続的(SigLIP)および離散的(VQ-GAN)な2種類の視覚エンコーダーを融合することで、下流タスクに高レベルのセマンティクスと低レベルの詳細を兼ね備えた統一的な視覚表現を提供します。多段階トレーニング戦略(視覚セマンティクスのアライメント、マルチタスク共同トレーニング、インストラクションファインチューニング)を採用し、詳細な視覚強化技術(AnyRes、ViTファインチューニング)と組み合わせることで、UniTokenは複数のベンチマークテストでSOTAまたはそれに近い性能を達成しました。コードとモデルはオープンソース化されています。(出典: 量子位)

UniToken:理解と生成を融合した統一的な視覚エンコーディングソリューション

清華大学などがテスト時強化学習TTRLを提案:既存のテスト時スケーリング(TTS)技術が新しいデータ分布に対して汎化能力が限られている点、およびテスト時トレーニング(TTT)が報酬信号を欠いている問題に対処するため、清華大学と上海AI LabはTTRLを提案しました。この手法は、ラベルなしデータの場合でも、モデル自身の事前知識を利用し、多数決などの方法で疑似ラベルと報酬信号を生成し、LLMに対して強化学習を行います。実験によると、TTRLは多様なタスクでモデル性能を継続的に向上させることができ、例えばQwen-2.5-Math-7BのAIME 2024におけるpass@1指標を159%向上させ、性能は教師あり学習モデルに匹敵します。(出典: AINLPer)

清華大学などがテスト時強化学習TTRLを提案

上海交通大学&Ant Group、混合アテンションメカニズムRodimus*を提案:Transformerの推論時にKVキャッシュがもたらす高い時間空間計算量の問題を解決するため、上海交通大学とAnt GroupはRodimusモデルシリーズを提案しました。このアーキテクチャは、データ駆動型の温度制御選択メカニズム(DDTS)によって線形アテンションの状態更新を改善し、スライディングウィンドウ共有キーアテンション(SW-SKA)と組み合わせることで、セマンティクス、Token、Headの圧縮を効果的に融合します。Rodimusは推論時にO(1)の空間計算量を実現できます。このアーキテクチャに基づいてトレーニングされた軽量コードモデルRodimus+-Coder(1.6Bおよび4B)は、同規模でSOTAの性能を達成しました。論文はICLR 2025に採択され、コードはオープンソース化されています。(出典: AINLPer)

上海交通大学&Ant Group、混合アテンションメカニズムRodimus*を提案

RAG Agentデプロイにおける10の経験則:Contextual AIの創設者Douwe Kiela氏がRAG Agentのデプロイ経験を共有しました:1. モデル性能よりもシステム能力を優先する;2. 内部の専門知識が中核的な価値の燃料となる;3. 大規模でノイズの多いデータを処理する能力が参入障壁となる;4. 本番環境への導入はパイロットよりもはるかに難しい;5. 完璧さよりもスピード、迅速なイテレーション;6. エンジニアの時間は貴重、低レベル最適化の罠を避ける;7. 利用障壁を下げ、既存システムに組み込む;8. 「驚きの瞬間」を創出し、ユーザーエンゲージメントを高める;9. 精度よりも観測可能性(帰属、監査)が重要;10. 目標は高く、中核業務への挑戦を恐れない。(出典: AI觉醒)

RAG Agentデプロイにおける10の経験則

💼 ビジネス

NVIDIA、Lepton AIを買収後、その運営を停止:NVIDIAは、贾扬清氏、白俊杰氏が設立したAIクラウドプラットフォーム企業Lepton AIを買収した後、2025年5月20日にLepton AIプラットフォームの運営を停止すると発表し、すでに新規ユーザー登録を停止しています。贾扬清氏は取引が「人材獲得ではない」と回答しましたが、詳細は明らかにしていません。Lepton AIはAIモデルの開発、トレーニング、デプロイのクラウドサービスおよび計算能力レンタルに特化しており、NVIDIAの一部顧客(CoreWeaveなど)と競合関係にありました。今回の買収とその後の動きは、NVIDIAがAIサプライチェーン(チップからサービスまで)の垂直統合を強化し、AIコンピューティング分野での主導的地位を高めようとしていることを反映している可能性があります。(出典: AI前线)

NVIDIA、Lepton AIを買収後、その運営を停止

AI Partner大会投資家円卓会議:AIスーパーアプリの確実性を探る:36氪のAI Partner大会で、金沙江聯合資本の呉楠氏、上海産投の鄒澤炯氏、創新工場の任博冰氏などの投資家がAIスーパーアプリの投資ロジックについて議論しました。投資家は、基盤技術や市場構造には不確実性が存在するものの、確実な機会は、実際の問題を解決し、PMFを見つけ、収益を生み出す特定分野のアプリケーション(AI+医療、AI+教育、自動運転など)に存在すると考えています。スタートアップ企業は大手との競争に直面する中で、特定分野を深く掘り下げ、大手がカバーしきれない細分化されたシナリオと深いKnow-Howを活用して障壁を築くべきです。同時に、起業家は学際的な能力と効率的な意思決定能力を備え、チームビルディングとビジネスモデル検証に注力する必要があります。DeepSeekの成功は、技術主導で、粘り強く、人材の潜在能力を引き出せるチームに注目するよう投資家に示唆を与えています。(出典: 36氪)

AI Partner大会投資家円卓会議:AIスーパーアプリの確実性を探る

資産情報掲示板:AIおよびロボット分野の資産取引情報:36氪の資産情報掲示板第160号が公開され、AIおよびロボット関連資産の売買情報が多数含まれています。譲渡情報には、智元ロボット(Agibot)、云深处科技(DeepRobotics)、沃飞长空(TCab Tech)(eVTOL関連)の株式を保有するファンドのLP持分が含まれます。購入希望情報には、ByteDance、銀河通用(Galaxy Universal)、宇树科技(Unitree Robotics)、云深处科技(DeepRobotics)、智元ロボット(Agibot)、摩尔线程(Moore Threads)、星动纪元(Stardust Intelligence)などの企業の株式が含まれます。さらに、人型ロボット分野における一般的な購入希望もあります。これらの取引情報は、現在の資本市場がAI、人型ロボット、自動運転、半導体などのハードテック分野のトップ企業に強い関心を持っていることを反映しています。(出典: 36氪)

国産Agent企業Manus AIが5億元超の資金調達、評価額は5倍に:Bloombergによると、汎用AI Agent製品Manusの親会社である蝴蝶效应(Butterfly Effect)は、シリコンバレーのベンチャーキャピタルBenchmarkが主導する7500万ドル(約5.5億元)の新たな資金調達を完了し、投資後の評価額は約5億ドルに達しました。Manus Agentはチケット予約や株価分析などのウェブタスクを自律的に実行でき、以前は高価な内部テストコードで注目を集めました。新たな資金は、サービスを米国、日本、中東などの市場に拡大するために使用され、日本にオフィスを設立する計画もあります。製品は人気がありますが、Anthropic Claudeモデルへの依存によりコストが高く(タスクあたり平均2ドル)、サーバー容量の制限にも直面しています。(出典: 智东西, 硅兔君)

国産Agent企業Manus AIが5億元超の資金調達、評価額は5倍に

Tuya Smart、AI Agentプラットフォームへ転換、AIハードウェア市場に参入:AIoTクラウドプラットフォームのTuya Smartは、TuyaOpenオープンソースフレームワーク、Haideaエッジコンピューティングプラットフォーム、Tuya.AI、およびアップグレード版AI Agent開発プラットフォームを発表し、全面的にAIを受け入れています。同社は、AI大規模モデル(特にマルチモーダルインタラクション、専門家レベルの効率、分散型意思決定能力)がスマートハードウェアの使用障壁を大幅に引き下げ、業界の普及を促進すると考えています。Tuya AI Agentプラットフォームはすでに世界の主要な大規模モデルに接続されており、顧客がスマートリングやAI人形などの人気製品を開発するのを支援し、Kidswantなどと協力してAI搭載のパーソナルスマートハードウェアを推進しています。同社は2025年が新しいAIハードウェアの爆発的な年になると予測しており、そのAI Agent戦略は2〜3年後に収穫期に入ると見込んでいます。(出典: 36氪)

🌟 コミュニティ

AIトレーニングコースの混乱:虚偽の宣伝と効果への疑問:ソーシャルメディアには、「AIで速成金持ち」を謳うトレーニングコースの広告が溢れており、一般人がAI描画やモデルファインチューニングなどを学ぶことで迅速に収益化できると主張しています。しかし、実際の体験や消費者のフィードバックからは多くの問題が明らかになっています:講師の資格が曖昧、あるいは偽造されている(Coverhero創設者の身元が不実など);コース内容が宣伝された約束と異なり、「案件受注で収益化」の効果を達成するのが難しい;飢餓マーケティングや虚偽の事例を利用して消費を誘導する;返金が困難。業界関係者は、この種のコース内容はしばしば理論的すぎるか表面的であり、一般人が短期的なトレーニングで転職や安定した収入を得るのに十分なAIスキルを習得するのは難しいと指摘しています。ユーザーには無料のリソースやコミュニティを活用して学習し、高価な速成コースの罠に警戒するよう勧めています。(出典: 新周刊)

AIトレーニングコースの混乱:虚偽の宣伝と効果への疑問

開発者がClaudeとGemini 2.5 + Cursorのプログラミング体験を比較:ある開発者が、ClaudeとGemini 2.5 Pro + Cursorを使用してスペリングゲームを開発した体験を共有しました。Claude APIの使用には417ドルかかり、体験は良くありませんでした:コンテキストウィンドウが失われやすく、モデルが頻繁に「記憶喪失」を起こしました;バグ修正時にしばしば新たな問題を引き起こしました;コードの正確性を検証できませんでした。対照的に、無料のGemini 2.5 Pro(Cursor経由で統合)を使用した場合、体験は大幅に向上しました:コストはゼロ;コンテキスト理解能力がより強力(Cursorのファイル構造伝達のおかげ);インタラクションプロセスがよりペアプログラミングに近い;デバッグプロセスがより合理的。結論として、Gemini 2.5 + Cursorの組み合わせは、より実用的で効率的なAI支援プログラミング体験を提供しました。(出典: CSDN)

開発者がClaudeとGemini 2.5 + Cursorのプログラミング体験を比較

Perplexity iOSアシスタントが初期評価で好評:PerplexityのCEOがユーザーレビューを転送し、同社のiOS AIアシスタントが初期評価で良好なパフォーマンスを示していることを明らかにしました。レビューでは、このアシスタントがAppleエコシステム内でのパフォーマンスにおいてSiriよりも優れており、例えば音声指示に基づいて特定のYouTube動画を再生するなどのタスクでより正確であると指摘されています。これは、Perplexityアシスタントが自然言語の意図を理解し、クロスアプリケーション操作を実行する上で一定の優位性を持っていることを示唆しています。(出典: AravSrinivas)

Perplexity iOSアシスタントが初期評価で好評

Redditで話題:AI生成画像と本物の写真の区別:Redditユーザーが議論を開始し、似たような女性の写真5枚を提示、そのうち1枚が本物の写真で、残りはAIによって生成されたものだとし、どれが本物かを見分けるよう求めました。コメント欄では活発な議論が交わされ、ユーザーは光と影、肌の質感、アクセサリーの細部(ネックレスのチェーンなど)といった観点から分析しましたが、意見は分かれました。これは、現在のAI画像生成技術のレベルの高さと、真偽を見分けることの難しさを反映しています。(出典: Reddit r/ChatGPT)

Redditで話題:ChatGPTが奇妙な画像を生成:複数のユーザーがRedditで、特定の画像(「アメリカの地図」など)を生成するようChatGPTに要求したところ、予期せず核爆発(きのこ雲)や他の無関係な画像(R2D2など)が表示されたと共有しました。これはモデルの安定性や潜在的なバイアスに関する議論を引き起こしましたが、モデルのランダムなエラーなのか、特定のプロンプトが異常を引き起こしたのかはまだ不明です。(出典: Reddit r/ChatGPT)

Redditで話題:ChatGPTが奇妙な画像を生成

Redditでの議論:AIはソフトウェアエンジニアを中毒にするか?:あるソフトウェアエンジニアがRedditに投稿し、AIツール(プログラミングアシスタントなど)が作業効率と品質を大幅に向上させ、一度使うとやめられなくなり、少し「中毒」になっている感じがすると述べました。コメント欄ではこれについて議論が展開され、一部の人はこれをコンパイラに依存するのと同様に、効率的なツールへの依存であり、生産性向上の自然な結果だと考えています。他の人は、「中毒」のリスクがある可能性を認め、過度の依存がスキルの低下につながることを懸念し、意識的に「AIデトックス」を行うか、基礎的なスキルの訓練を維持することを提案しています。(出典: Reddit r/ArtificialInteligence)

Redditでの議論:AI宗教と崇拝現象:ユーザーはAIが宗教や崇拝の対象になる可能性があるかどうかを議論しています。論点には、すでに「AI Jesus」が登場していること、AIの意識に関する議論が信仰につながる可能性があること、Longtermismなどの思潮が宗教的な色彩を帯びていること、LLMがパーソナライズされた精神的な慰めや指導を提供できることなどが含まれます。コメントでは、実際の事例(jrprudence.comのNovaプロトコルなど)に言及し、AIが人間の精神的なニーズを満たす上での可能性とリスク、そして「AIカルト」への懸念について議論されています。(出典: Reddit r/ArtificialInteligence)

Redditでの議論:AI生成画像は古い写真を「修復」できない:ユーザーは実験を通じて、ChatGPTなどのAIツールで古い写真を処理する際、AIは実際には修復や解像度向上を行っているのではなく、元の画像に基づいて新しい、似たような画像を生成していることを証明しました。有名人の写真(Samuel L Jacksonなど)でテストした場合、生成された結果は明らかに別人であり、スタイルやポーズが似ているだけでした。これは、ユーザーがAI画像処理能力の限界を正しく理解する必要があることを示唆しており、AIは「修復」よりも「創作」を得意としています。(出典: Reddit r/ChatGPT)

💡 その他

AI Partner大会 名言集:36氪は、2025 AI Partner大会におけるゲストの優れた視点の要約を整理し、公開しました。これらの視点は、AIスーパーアプリの将来の進化、業界変革、およびビジネスロジックの再構築といったテーマを中心に展開され、現在のAI分野の専門家や業界のパイオニアたちの思考を反映しています。(出典: 36氪)

AI Partner大会 名言集

アラブ首長国連邦、AIを用いて法律を起草する最初の国に:The Hillによると、アラブ首長国連邦は人工知能を利用して法律文書の起草を支援し始めています。この取り組みは、立法分野におけるAIの初期応用を示しており、立法効率の向上や複雑な規制の分析を目的としている可能性があります。このニュースは、AIがガバナンスにおいて果たす役割、例えば従来の政治的役割への依存を減らすことができるかといった議論を引き起こしています。(出典: Reddit r/ArtificialInteligence)

アラブ首長国連邦、AIを用いて法律を起草する最初の国に

Anthropic、「AIモデルの福祉」研究プロジェクトを開始:Anthropic社は、AIモデルの「福祉」(model welfare)を研究することを目的とした新しい計画を開始すると発表しました。この分野には議論がありますが(一部の専門家はモデルに主観的な感情や価値観はないと考えています)、Anthropicのこの動きは、より責任ある、より倫理的なモデル開発とインタラクションの方法を探求すること、またはモデルがトレーニングやインタラクション中に生じる可能性のある「望ましくない」状態や行動を評価し、軽減する方法を研究することを目的としている可能性があります。(出典: Reddit r/ClaudeAI)

Anthropic、「AIモデルの福祉」研究プロジェクトを開始

AIが大量の水を必要とすることが注目を集める:米国政府の報告書およびメディア(404media)は、大規模AIモデルのトレーニングと運用には大量の水資源が必要であり、主にデータセンターの冷却に使用されると指摘しています。これは、特に水資源が逼迫している地域において、AI開発の環境コストに対する懸念を引き起こしています。(出典: Reddit r/artificial)

AIが大量の水を必要とすることが注目を集める

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です