キーワード:Qwen3, MCPプロトコル, AIエージェント, 大規模言語モデル, 通義千問モデル, モデルコンテキストプロトコル, ハイブリッド推論モデル, AIエージェントツール呼び出し, オープンソース大規模言語モデル
🔥 注目
Qwen3シリーズモデルが発表されオープンソース化: アリババは新世代の通義千問モデルQwen3シリーズを発表し、オープンソース化しました。これには0.6Bから235Bパラメータまでの8つのモデル(MoEモデル2つ、Denseモデル6つ)が含まれます。フラッグシップモデルQwen3-235B-A22Bは性能でDeepSeek-R1およびOpenAI o1を上回り、グローバルオープンソースモデルのトップに立ちました。Qwen3は中国初の混合推論モデルであり、高速思考モードと低速思考モードを統合し、計算能力を大幅に節約し、デプロイコストは同レベルモデルのわずか1/3です。モデルはネイティブでMCPプロトコルと強力なツール呼び出し能力をサポートし、Agent能力を強化し、119言語に対応しています。今回のオープンソース化はApache 2.0ライセンスを採用し、モデルは魔搭コミュニティ、HuggingFaceなどのプラットフォームで公開されており、個人ユーザーは通義APPを通じて体験できます。(出典: InfoQ、極客公園、CSDN、直面AI、卡兹克)

AI Agentの「万能ソケット」MCPプロトコルが注目と布局を集める: モデルコンテキストプロトコル(MCP)は、AIモデルと外部ツール、データソースを接続する標準化インターフェースとして、Baidu、Alibaba、Tencent、ByteDanceなどの大手企業から重点的に注目され、布局が進められています。MCPは、AIが外部ツールを統合する際の効率の低さや標準の不統一といった問題を解決し、「一度カプセル化すれば、どこでも呼び出せる」を実現し、AI Agent(インテリジェントエージェント)に強力な技術基盤とエコシステムサポートを提供することを目指しています。Baidu、Alibaba、ByteDanceなどは、MCP互換のプラットフォームやサービス(例:百度千帆、阿里云百炼、ByteDance Coze Space、纳米AI)を既にリリースし、地図、Eコマース、検索など多様なツールを接続し、AI Agentのオフィス業務や生活サービスなど多岐にわたるシーンでの応用を推進しています。MCPの普及はAIインテリジェントエージェントのブレイクスルーの鍵と見なされており、AIアプリケーション開発パラダイムの転換を示唆しています。(出典: 36氪、山自、X研究媛、InfoQ、InfoQ)

AIの特定タスクにおける能力が議論を呼ぶ: 最近の複数の出来事は、AIが特定のタスクにおいて基本的な応用を超えた能力を示しており、広範な議論を引き起こしています。例えば、Salesforceは、同社のApexコードの20%がAI(Agentforce)によって記述され、開発時間を大幅に節約し、開発者の役割をより戦略的な方向へと転換させていることを明らかにしました。同時に、Anthropicの報告によると、同社のClaude Codeインテリジェントエージェントはタスクの79%を自動化しており、特にフロントエンド開発分野で顕著な成果を上げており、スタートアップ企業での採用率が大企業を上回っています。さらに、AIが三目並べ(井字棋)などの単純な論理ゲームで見せるパフォーマンスも焦点となっています。Karpathyは大規模モデルが三目並べをうまくプレイできないと考えていますが、OpenAIのNoam Brownはo3モデルの能力を示し、画像を見て三目並べをすることも含めています。これらの進展は、自動化、コード生成、特定の論理タスクにおけるAIの潜在能力と課題を浮き彫りにしています。(出典: 36氪、新智元、量子位)

OpenAIがChatGPTにショッピング機能を追加、Google検索の地位に挑戦: OpenAIはChatGPTにショッピング機能を追加すると発表しました。ユーザーはログイン不要で商品検索や価格比較ができ、購入ボタンを通じて販売者のウェブサイトに移動して支払いを完了できます。この機能はAIを利用してユーザーの好みやウェブ全体の評価(専門メディアやユーザーフォーラムを含む)を分析し、商品を推薦します。また、ユーザーが優先的に参照する評価ソースを指定することも可能です。Googleショッピングとは異なり、ChatGPTの現在の推薦結果には有料ランキングや商業スポンサーシップは含まれていません。この動きは、OpenAIがEコマースに進出し、Googleの検索広告という中核ビジネスに挑戦する重要な一歩と見なされています。将来的にアフィリエイトマーケティングの収益分配をどのように扱うかはまだ不明確ですが、OpenAIは現在ユーザーエクスペリエンスを優先しており、将来的には異なるモデルをテストする可能性があると述べています。(出典: 腾讯科技、大数据文摘、字母榜)

🎯 動向
DeepSeek技術が業界の注目と議論を呼ぶ: DeepSeekモデルは、その推論能力と独自のMLA(Multi-level Attention Compression)技術により、AI分野で広く注目されています。MLAは、キーベクトルとバリューベクトルを二重に圧縮することで、メモリ使用量を大幅に削減し(テストでは従来手法の5%~13%)、推論効率を向上させます。しかし、この革新はハードウェアエコシステムの適応ボトルネックも露呈しており、例えば非NVIDIA GPUでMLAを有効にするには大量の手動プログラミングが必要となり、開発コストと複雑性が増大します。DeepSeekの実践は、アルゴリズム革新と計算アーキテクチャ適応の課題を明らかにし、将来のAI開発をサポートするためによりスマートで適応性の高い計算インフラをどのように構築するか、業界に考察を促しています。DeepSeekなどのモデルがマルチモーダル能力やコスト面で不足しているとの見方もありますが、その技術的ブレークスルーは依然として業界の重要な進展と見なされています。(出典: 36氪)
AIネイティブアプリがユーザーエンゲージメント向上のためソーシャル化を模索: Kimi、豆包などのAIアプリがブラウザプラグインやツール化に続き、元宝、豆包、Kimiなどのプラットフォームがソーシャル領域に進出し、ユーザーエンゲージメントを高めることでリテンション問題の解決を図っています。WeChatはAIアシスタント「元宝」をフレンドとして追加可能にし、公式アカウントの記事解析やドキュメント処理が可能に。Douyinユーザーは「豆包」をAIフレンドとして追加しインタラクションが可能に。KimiはAIコミュニティ製品をテスト中と報じられています。この動きは、AIアプリがツール属性からソーシャルエコシステムへの融合へと転換する試みと見なされており、高頻度のソーシャルシーンと関係性の連鎖を通じてユーザーアクティビティと商業化の可能性を高めることを目指しています。しかし、AIソーシャルはユーザー習慣、プライバシーセキュリティ、コンテンツの真正性、ビジネスモデルの模索など、多重の課題に直面しています。(出典: 伯虎财经、界面新闻)

シリコンフォトニクス相互接続技術がAI計算能力ボトルネックの打開策に: ChatGPT、Grok、DeepSeek、Geminiなどの大規模モデルが急速に進化するにつれて、AIの計算能力需要が急増し、従来の電気相互接続はボトルネックに直面しています。シリコンフォトニクス技術は、高速、低遅延、低消費電力での長距離伝送における利点から、インテリジェントコンピューティングセンターの効率的な運用を支える鍵となっています。業界は、より高速な光モジュール(例:3.2T CPOモジュール)や集積シリコンフォトニクス(SiPh)技術の開発に積極的に取り組んでいます。材料(例:薄膜ニオブ酸リチウムTFLN)、プロセス(例:シリコンベースレーザー集積)、コスト、エコシステム構築などの課題に直面していますが、シリコンフォトニクス技術はLiDAR、赤外線検出、光増幅などの分野で進展を遂げており、市場規模は急速な成長が見込まれ、中国もこの分野で著しい進歩を遂げています。(出典: 半导体行业观察)

美的(Midea)の人型ロボットが実用化を加速、工場や店舗への導入を計画: 美的グループはエンボディード・インテリジェンス分野での布局を加速しており、主に人型ロボットの研究開発と家電のロボット化イノベーションを対象としています。同社の人型ロボットは、工場向けの車輪脚式と、より広範なシーン向けの二足歩行式に分かれています。KUKAと共同開発した車輪脚ロボットは5月に美的の工場に導入され、設備の保守運用、巡回検査、物資搬送などのタスクを実行し、製造の柔軟性と自動化レベルの向上を目指します。下半期には、人型ロボットが美的の小売店舗に進出し、製品紹介やギフト配布などのタスクを担う予定です。同時に、美的は家電のロボット化も推進しており、AI大規模モデル(美言)とインテリジェントエージェント技術(HomeAgent)を導入することで、家電を受動的な応答から能動的なサービスへと転換させ、未来の家庭エコシステムを構築しています。(出典: 36氪)

AI大規模モデルが広告挿入の商業化圧力に直面: AI大規模モデル(例:ChatGPT)が従来の検索エンジンに衝撃を与える中、広告業界はAIの応答に広告を挿入する新しいモデルを模索しています。ProfoundやBrandtechなどの企業は、AI生成コンテンツの感情指向や言及頻度を分析し、プロンプトを利用してAIが取得するコンテンツに影響を与えることで、ブランドプロモーションを実現するツールを開発しています。これは検索エンジンのSEO/SEMに似ており、AIO(AI最適化)産業を生み出す可能性があります。現在、OpenAIなどの企業はユーザーエクスペリエンスを優先し、有料ランキングは行わないと主張していますが、AI企業は莫大な研究開発費と計算能力コストの圧力に直面しており、広告挿入は潜在的な重要な収益源と見なされています。コンテンツの正確性とユーザーエクスペリエンスを保証しつつ広告を導入する方法が、AI業界の課題となっています。(出典: 雷科技)

AppleがAIチームを再編、基礎モデルと未来のハードウェアに焦点: AI分野での遅れに直面し、AppleはAI戦略を調整しています。以前AIビジネスを一元管理していた上級副社長John Giannandreaのチームは分割され、SiriビジネスはVision Proの責任者に移管され、秘密のロボットプロジェクトはハードウェアエンジニアリング部門に割り当てられました。Giannandreaのチームは、基礎AIモデル(Apple Intelligenceの中核)、システムテスト、データ分析により焦点を当てることになります。この動きは、AIの一元管理モデルの終了を示すものと考えられています。同時に、Appleは依然としてロボット(デスクトップ型とモバイル型)、スマートグラス(コードネームN50、Apple Intelligenceの媒体として)、カメラ付きAirPodsなどの新しいハードウェア形態を模索しており、AIの新潮流の中で突破口を見つけようとしています。(出典: 新智元)

階躍星辰が1ヶ月で3つのマルチモーダルモデルを連続発表、端末Agent布局を加速: 階躍星辰は過去1ヶ月間に、3つのマルチモーダルモデルを立て続けに発表し、オープンソース化しました:画像編集モデルStep1X-Edit(19B、オープンソースSOTA)、マルチモーダル推論モデルStep-R1-V-Mini(国内MathVision榜首)、画像から動画生成モデルStep-Video-TI2V(オープンソース)。これにより、同社のモデルマトリックスは21モデルに拡大し、その7割以上がマルチモーダルモデルとなりました。同時に、階躍星辰はAI能力をインテリジェント端末Agentに実装することを加速しており、既に吉利(Geely)(スマートコックピット)、OPPO(AIスマートフォン機能)、智元机器人/原力灵机(エンボディード・インテリジェンス)、およびTCLなどのIoTメーカーと提携を結んでおり、マルチモーダル技術を核として、自動車、スマートフォン、ロボット、IoTの4大端末シーンを制覇しようとする戦略的意図を示しています。(出典: 量子位)

中央企業・国有企業が「AI+」布局を加速、データとシーンの課題に直面: 国務院国有資産監督管理委員会は、中央企業の「AI+」特別行動を開始し、国有企業の人工知能分野での応用を推進しています。中国聯通(China Unicom)、中国移動(China Mobile)などは、既にインテリジェントコンピューティングセンターの建設への投資を強化しています。南方電網(China Southern Power Grid)などの企業は、AIを利用して電力システムの運用を最適化し、従来の技術的ボトルネックを解決しています。しかし、中央企業・国有企業がAIを導入する際には課題に直面しています:計算能力コストが高い、データプライバシーリスク、モデルの幻覚問題が依然として存在する;企業のプライベートデータのガバナンスが困難で、データラベリング、特徴抽出などの経験が不足している;業界のKnow-HowとAI技術能力の結合はまだ調整が必要である。専門家は、企業が具体的な応用シーンを特定し、データレイクを構築し、軽量化、自己進化、分野横断的な協調パスを模索し、エンボディード・インテリジェンスロボットの応用に注目すべきだと提案しています。(出典: 科创板日报)
ICLR 2025がシンガポールで開催: 第13回国際学習表現会議(ICLR 2025)が4月24日から28日までシンガポールで開催されました。会議の内容には、招待講演、ポスター発表、口頭発表、ワークショップ、ソーシャルイベントが含まれました。多くの研究者や機関が、モデルの理解と評価、メタ学習、ベイズ実験計画、スパース微分、分子生成、大規模言語モデルのデータ利用方法、生成AIのウォーターマークなどに関する研究成果や参加体験をソーシャルメディアで共有しました。会議は登録プロセスに時間がかかりすぎるとの不満も一部で聞かれました。次回のICLRはブラジルで開催される予定です。(出典: AIhub)

🧰 ツール
IntelがAutoRoundを発表:先進的な大規模モデル量子化ツール: AutoRoundはIntelが開発した重みのみの後訓練量子化(PTQ)手法であり、記号勾配降下法を利用して重みの丸めとクリッピング範囲を共同で最適化し、精度損失を最小限に抑えながら正確な低ビット(例:INT2-INT8)量子化を目指します。INT2精度では、その相対的な精度は一般的なベースラインよりも2.1倍高いです。このツールは効率が高く、72Bモデルの量子化はA100 GPU上でわずか37分(軽量モード)で完了し、混合ビット調整、lm-head量子化をサポートし、GPTQ/AWQ/GGUF形式でエクスポートできます。AutoRoundは多様なLLMおよびVLMアーキテクチャをサポートし、CPU、Intel GPU、CUDAデバイスと互換性があり、Hugging Faceで事前量子化されたモデルが提供されています。(出典: Hugging Face Blog)

纳米AIがMCP万能ツールボックスを公開、AI Agent利用の敷居を下げる: 纳米AI(旧360 AI検索)はMCP万能ツールボックスを公開し、モデルコンテキストプロトコル(MCP)を全面的にサポートし、オープンなMCPエコシステムの構築を目指しています。このプラットフォームは、100を超える自社開発および厳選されたMCPツール(オフィス、学術、生活、金融、エンターテイメントなどをカバー)を統合し、ユーザー(一般のCエンドユーザーを含む)がこれらのツールを自由に組み合わせて、レポート生成、PPT作成、ソーシャルプラットフォーム(例:小紅書)のコンテンツのスクレイピング、専門論文検索、株式分析などの複雑なタスクを完了するためのパーソナライズされたAIインテリジェントエージェント(Agent)を作成できます。他のプラットフォームとは異なり、纳米AIはローカルクライアント展開を採用し、その検索およびブラウザ技術の蓄積を活用して、ローカルデータの処理やログインウォールの回避をより良く行い、サンドボックス環境を提供して安全性を保証します。開発者もこのプラットフォームでMCPツールを公開し、収益を得ることができます。(出典: 量子位)

新興分野:AI Agent向けに設計された専用ブラウザ: 従来のブラウザは、AI Agentによる自動的なスクレイピング、インタラクション、リアルタイムデータ処理において不十分な点があります(例:動的読み込み、アンチクローリングメカニズム、ヘッドレスブラウザの読み込み遅延など)。このため、Agent向けに特別に設計されたブラウザやブラウザサービスが登場しています。例えば、Browserbase、Browser Use、Dia(Arcブラウザ会社製)、Fellouなどです。これらのツールは、AIとウェブページのインタラクションを最適化することを目的としています。例えば、Browserbaseは視覚モデルを利用してウェブページを理解し、Browser Useはウェブページを構造化テキストに変換してAIが理解できるようにし、DiaはAI駆動のインタラクションとOSライクな体験を強調し、Fellouはタスク結果の視覚的な提示(例:PPT生成)に重点を置いています。この分野は既に資本の注目を集めており、Browserbaseは数千万ドルの資金調達を行い、評価額は3億ドルに達しています。(出典: 乌鸦智能说)

FastAPI-MCPオープンソースライブラリがAIインテリジェントエージェントの統合を簡素化: FastAPI-MCPは新しくオープンソース化されたPythonライブラリで、開発者が既存のFastAPIアプリケーションをモデルコンテキストプロトコル(MCP)に準拠したサーバーエンドポイントに迅速に変換できるようにします。これにより、AIインテリジェントエージェントは標準化されたMCPインターフェースを通じてこれらのWeb APIを呼び出し、データクエリや自動化ワークフローなどのタスクを実行できます。このライブラリはFastAPIエンドポイントを自動的に認識し、リクエスト/レスポンスパターンとOpenAPIドキュメントを保持し、ほぼゼロ設定での統合を実現します。開発者はFastAPIアプリケーション内でMCPサーバーをホストするか、独立してデプロイするかを選択できます。このツールは、AI Agentと既存のWebサービスとの統合の敷居を下げ、AIアプリケーションの開発を加速することを目的としています。(出典: InfoQ)

DockerがMCPディレクトリとツールキットを発表、Agentツールの標準化を促進: DockerはMCP Catalog(モデルコンテキストプロトコルディレクトリ)とMCP Toolkitを発表しました。これはAI Agentが外部ツールを発見し使用するための標準化された方法を提供することを目的としています。このディレクトリはDocker Hubに統合されており、初期段階ではElastic、Salesforce、Stripeなどのベンダーからの100以上のMCPサーバーが含まれています。MCP Toolkitはこれらのツールを管理するために使用されます。この動きは、MCPエコシステムの初期段階における公式登録センターの欠如や、セキュリティ上の懸念(悪意のあるサーバー、プロンプトインジェクションなど)の問題を解決し、開発者により信頼性が高く、管理しやすいMCPツールのソースを提供することを意図しています。しかし、WizやTrail of Bitsなどのセキュリティ機関は、MCPのセキュリティ境界はまだ不明確であり、ツールの自動実行にはリスクがあると警告しています。(出典: InfoQ)

中関村科金が「プラットフォーム+応用+サービス」の企業向け大規模モデル導入パスを提案: 中関村科金の総裁、喻友平氏は、企業が大規模モデルを成功裏に導入するには、プラットフォーム能力、具体的な応用シーン、カスタマイズされたサービスを組み合わせる必要があると考えています。彼は、企業は孤立した技術モジュールではなく、エンドツーエンドのソリューションを必要としていると強調しました。中関村科金は自社開発の「得助大規模モデルプラットフォーム」を提供し、計算能力、データ、モデル、インテリジェントエージェントの4つの能力ファクトリーを提供し、業界のテンプレートを蓄積して、企業の応用障壁を低減しています。その「1+2+3」インテリジェントカスタマーサービス製品体系(コンタクトセンター+2種類のロボット+3種類のオペレーター補助)は、金融、自動車などの業界で既に応用されています。さらに、彼らは寧夏交建(エンジニアリング大規模モデル「霊筑」)、中国船舶(船舶大規模モデル「百舸」)などと協力し、特定業界における垂直型大規模モデルの価値を示しています。(出典: 量子位)

📚 学習
論文解説:生成AIは「カメラ」のよう、人間の創造性を再構築するが代替はしない: 記事は、写真術の発明が絵画を終わらせなかったことになぞらえ、生成AIは「カメラ」のように、専門的な「技術」を誰もが使える「ツール」に変え、テキスト、コード、画像などの知識成果の生成効率を大幅に向上させ、創造の敷居を下げたと論じています。しかし、AIの価値実現は依然として、問題認識、目標設定、美的・倫理的判断、リソース統合、意味付与といった人間の「構図」と「意図」の能力に依存しています。AIは実行者であり、人間は監督です。未来の知的財産権とイノベーション制度は、AI生成物の帰属だけでなく、このような人間と機械の協働における人間の主体性と独自の貢献を保護し、刺激することにもっと焦点を当てるべきです。(出典: 知产力)
論文解説:スマートフォンGUI Agentのフレームワーク、課題、未来: 浙江大学、vivoなどの機関の研究者が、LLMベースのスマートフォンGUI(グラフィカルユーザーインターフェース)Agentに関する総説を発表しました。記事は、スマートフォンの自動化の発展過程を、スクリプトベースからLLM駆動への転換として紹介しています。スマートフォンGUI Agentのフレームワークを詳細に解説し、知覚(環境状態の捕捉)、認知(LLMによる推論と意思決定)、行動(操作の実行)の3つの主要コンポーネント、および単一Agent、複数Agent(役割調整/シーンベース)、計画-実行などの異なるアーキテクチャパラダイムについて説明しています。論文は、現在直面している課題として、データセット開発とファインチューニング、軽量化デバイスへの展開、ユーザー中心の適応性(インタラクションとパーソナライゼーション)、モデル能力の向上(グラウンディング、推論)、評価ベンチマークの標準化、信頼性と安全性を指摘しています。将来の方向性としては、scaling law、ビデオデータセット、小規模言語モデル(SLM)の活用、およびエンボディードAI、AGIとの融合が含まれます。(出典: 学术头条)

論文共有速報(2025.04.29): 今週の論文速報には、LLM関連の多数の研究が含まれています:1. APRフレームワーク:バークレーが提案した適応型並列推論フレームワーク。強化学習を用いて逐次計算と並列計算を調整し、長い推論タスクの性能とスケーラビリティを向上。2. NodeRAG:コロラド大学が提案したNodeRAG。異種グラフを利用してRAGを最適化し、マルチホップ推論と要約クエリの性能を向上。3. I-Conフレームワーク:MITが提案した統一表現学習法。情報理論を用いて複数の損失関数を統一。4. 混合LLM圧縮:NVIDIAが提案したグループ認識プルーニング戦略。混合モデル(Attention+SSM)を効率的に圧縮。5. EasyEdit2:浙江大学が提案したLLM行動制御フレームワーク。転向ベクトルを用いてテスト時の介入を実現。6. Pixel-SAIL:Trillionが提案したピクセルレベルの多言語マルチモーダルモデル。7. Tinaモデル:南カリフォルニア大学が提案したLoRAベースの小型推論モデルシリーズ。8. ACTPRM:シンガポール国立大学が提案した能動学習法。プロセス報酬モデルの訓練を最適化。9. AgentOS:Microsoftが提案したWindowsデスクトップ向けのマルチAgentオペレーティングシステム。10. ReZeroフレームワーク:Menloが提案したRAG再試行フレームワーク。検索失敗後のロバスト性を向上。(出典: AINLPer)

論文解説:ロスレス圧縮フレームワークDFloat11でLLMを70%圧縮可能: ライス大学などの機関が、LLM向けのロスレス圧縮フレームワークDFloat11(Dynamic-Length Float)を提案しました。この手法は、LLMにおけるBFloat16重み表現の低エントロピー特性を利用し、ハフマン符号化などのエントロピー符号化技術を用いて重みの指数部を圧縮し、符号ビットと仮数部は保持することで、モデルサイズを約30%削減(実質11ビット相当)し、元のBF16モデルと完全に同じ出力(ビットレベルで正確)を維持します。効率的な推論をサポートするため、研究者らはカスタムGPUカーネルを開発し、コンパクトなルックアップテーブル、2段階カーネル設計、ブロックレベル解凍によりオンライン解凍速度を最適化しました。実験により、DFloat11はLlama-3.1などのモデルで顕著な圧縮効果を実現し、推論スループットはCPU Offloading方式と比較して1.9~38.8倍向上し、より長いコンテキストをサポートすることが示されました。(出典: AINLPer)

長文解説:大規模モデルの位置エンコーディング技術の進化(TransformerからDeepSeekまで): 位置エンコーディングは、Transformerアーキテクチャがシーケンスの順序を処理する上で重要です。記事は位置エンコーディングの発展を詳細に解説しています:1. 起源: 純粋なAttentionメカニズムでは位置情報を捉えられない問題を解決するため。2. Transformer正弦位置エンコーディング: 絶対位置エンコーディング。異なる周波数の正弦・余弦関数を単語埋め込みに加算。理論上は相対位置情報を含むが、後続の線形変換で破壊されやすい。3. 相対位置エンコーディング: Attention計算に直接相対位置情報を導入。代表例はTransformer-XL、T5の相対位置バイアス。4. 回転位置エンコーディング (RoPE): 回転行列を用いてQ、Kベクトルを変換し、相対位置を組み込む。現在の主流。5. ALiBi: Attentionスコアに相対距離に比例するペナルティ項を追加し、長さの外挿能力を強化。6. DeepSeek位置エンコーディング: RoPEを改良し、その低ランクKV圧縮に対応。Q、Kを埋め込み情報部分(高次元、圧縮対象)とRoPE部分(低次元、位置情報保持)に分割し、それぞれ処理後に結合。RoPEと圧縮の結合問題を解決。(出典: AINLPer)

論文解説:勾配近似によるNormalizationの代替品探索: 記事は、Transformer内のNormalization層(例:RMS Norm)を要素ごと(Element-wise)の活性化関数で置き換える可能性を探求しています。RMS Normの勾配計算式を分析することで、そのヤコビ行列の対角部分は入力に関する微分方程式で近似できることがわかりました。勾配内の一部の項を定数と仮定してこの方程式を解くと、Dynamic Tanh (DyT)活性化関数の形式が得られます。近似方法をさらに最適化し、より多くの勾配情報を保持すると、Dynamic ISRU (DyISRU)活性化関数が導出され、形式は y = γ * x / sqrt(x^2 + C) となります。記事は、DyISRUがElement-wise近似の中で理論的により優れた選択肢であると考えています。しかし、著者はこの種の代替案の普遍的な有効性には懐疑的であり、Normalizationの全体的な安定化効果は、純粋なElement-wise操作では完全に再現できないと考えています。(出典: PaperWeekly)

論文解説:FARモデルが長コンテキスト動画生成を実現: シンガポール国立大学Show Labは、フレーム自己回帰モデル(FAR)を提案し、動画生成を長短期コンテキストに基づく逐次フレーム予測タスクとして再構築しました。長尺動画生成における視覚トークンの爆発的な増加問題を解決するため、FARは非対称なpatchify戦略を採用しています:近接する短期コンテキストフレームには詳細な表現を保持し、遠い長期コンテキストフレームにはより積極的なpatchifyを行いトークン数を削減します。同時に、多層KV Cacheメカニズム(L1 Cacheは短期の詳細情報を、L2 Cacheは長期の粗い情報を格納)を提案し、履歴情報を効率的に利用します。実験により、FARは短尺動画生成においてVideo DiTよりも収束が速く、性能も優れており、追加のI2Vファインチューニングは不要であることが示されました。長尺動画予測タスクでは、FARは観測された環境に対する優れた記憶能力と長期的な一貫性を示し、長尺動画データを効率的に利用するための新しい道筋を提供しました。(出典: PaperWeekly)

論文解説:Dynamic-LLaVAが効率的なマルチモーダル大規模モデル推論を実現: 華東師範大学と小紅書は、動的な視覚-言語コンテキストのスパース化によりマルチモーダル大規模モデル(MLLM)の推論を高速化するDynamic-LLaVAフレームワークを提案しました。このフレームワークは、推論の異なる段階でカスタマイズされたスパース化戦略を採用します:プレフィル段階では、訓練可能な画像予測器を導入して冗長な視覚トークンをプルーニングします;KV Cacheなしのデコード段階では、自己回帰計算に参加する過去の視覚およびテキストトークンの数を制限します;KV Cacheありのデコード段階では、新しく生成されたトークンのKVアクティベーション値をキャッシュに追加するかどうかを動的に判断します。LLaVA-1.5に対して1エポックの教師ありファインチューニングを行うことで、Dynamic-LLaVAは視覚理解と生成能力をほとんど損なうことなく、プレフィル計算コストを約75%削減し、KV Cacheなし/ありのデコード段階の計算/メモリコストを約50%削減できます。(出典: PaperWeekly)

論文解説:LUFFY強化学習法が模倣と探索を融合し推論能力を向上: 上海AI Labなどの機関が、LUFFY(Learning to reason Under oFF-policY guidance)強化学習法を提案しました。これは、オフラインの専門家デモンストレーション(模倣学習)とオンラインの自己探索(強化学習)の利点を組み合わせて、大規模モデルの推論能力を訓練することを目的としています。LUFFYは、高品質な専門家の推論軌跡をオフポリシーガイダンスとして利用し、モデル自身の推論が困難に直面した際にそこから学習します。同時に、モデル自身のパフォーマンスが良い場合は、独立した探索を奨励します。混合方策最適化(自身の軌跡と専門家の軌跡を組み合わせてアドバンテージ関数を計算)と方策シェーピング(低確率だが重要な専門家の行動信号を増幅し、同時に方策エントロピーを維持)を通じて、LUFFYは単純な模倣による汎化能力の低さや、単純なRL探索の効率の低さといった問題を効果的に回避します。複数の数学的推論ベンチマークテストにおいて、LUFFYは既存の手法を大幅に上回りました。(出典: PaperWeekly)

淘天グループがGeoSenseを発表:初の幾何学原理評価ベンチマーク: 淘天グループ(Taotian Group)のアルゴリズム技術チームは、マルチモーダル大規模モデル(MLLM)の幾何学問題解決能力を体系的に評価する初のバイリンガルベンチマークであるGeoSenseを発表しました。これは、モデルの幾何学原理の認識(GPI)と応用(GPA)能力に焦点を当てています。このベンチマークには、5層の知識アーキテクチャ(148の幾何学原理をカバー)と、1789問の精密に注釈付けされた幾何学問題が含まれています。評価の結果、現在のMLLMは幾何学原理の認識と応用の両方で普遍的に不足しており、特に平面幾何の理解が共通の弱点であることが判明しました。Gemini-2.0-Pro-Flashが評価で最高のパフォーマンスを示し、オープンソースモデルの中ではQwen-VLシリーズがリードしています。研究はまた、複雑な問題でのパフォーマンスの低さは、応用能力の不足ではなく、主に原理認識の失敗に起因することを示唆しています。(出典: 量子位)

💼 ビジネス
AI心理分野のビジネスモデル模索:学校B2Bから家庭C2Cへ: AIの心理健康分野への応用が、特に学校現場で徐々に進んでいます。启明方舟の「爱心小叮当」や领本AIなどの企業は、学校にカメラを設置しプラットフォームを構築することで、マルチモーダルデータ(微表情、音声、テキスト)を用いた長期的な感情モニタリングとモデリングを行い、心理問題の早期警告と能動的介入の実現を目指しています。このモデルは、学校との協力(B2B)を通じて、教育部門の予算と生徒の心理健康への重視を活用し、実データを取得し信頼を構築します。これを基盤に、学校と家庭の連携を通じて、校内での警告を家庭での介入ニーズへと転換し、徐々に家庭消費市場(C2C)へと拡大し、付き添いロボットや家庭関係調整などのサービスを提供し、「B2Bで普及させ、C2Cで商業化する」パスを模索しています。领本AIは既に数千万元の資金調達を完了しており、このモデルの商業的可能性を示しています。(出典: 多鲸)
AI「四小龍」が生存の危機に直面、深刻な赤字とリストラ・賃金カット: かつて中国AI「四小龍」と称されたSenseTime、CloudWalk、Yitu、Megviiの4社は、厳しい試練に直面しています。SenseTimeは2024年に43億元の赤字を計上し、累計赤字は546億元超に。CloudWalkは2024年に5.9億元超の赤字を計上し、累計赤字は44億元超に。コスト削減のため、各社はリストラや賃金カットを実施しており、SenseTimeの従業員数は約1500人減少し、CloudWalkは全従業員の賃金を20%カットし、中核技術者の流出も深刻です。Yituは70%以上のリストラを行い、事業を停止しました。苦境の根源は、技術の商業化の遅れ、新事業の収益モデルの欠如、市場競争の激化(新興AI企業やインターネット大手の参入)、資本環境の変化にあります。各社は技術転換(SenseTimeの大規模モデルへの投資、Megviiのスマートドライビングへの転換、Yitu/CloudWalkのHuaweiとの協力など)を試みていますが、効果はまだ見えず、激しい市場競争の中で持続可能なビジネスモデルを見つけることが鍵となっています。(出典: BT财经)

昆仑万维の「All in AI」戦略が巨額赤字を招き、商業化に課題: 昆仑万维は2024年の売上高が15.2%増の56.6億元に達しましたが、親会社株主に帰属する純利益は15.95億元の赤字となり、前年比226.8%減少し、上場以来初の赤字となりました。赤字の主な原因は、研究開発費の大幅な増加(15.4億元、59.5%増)と投資損失(8.2億元)です。同社はAIに全面的に注力し、AI検索、音楽、ショートドラマ(DramaWaveプラットフォームおよびSkyReels制作ツール)、ソーシャル(Linky)、ゲームなどの分野で布局を進め、天工大規模モデルを発表しました。しかし、AI事業の商業化は遅れており、AIソフトウェア技術の売上比率は1%未満です。同社の天工大規模モデルは、市場での知名度やユーザー数で主要な競合に及ばず、第三梯隊と評価されています。中核となるAIリーダーの颜水成氏の離職も不確実性をもたらしています。同社が頻繁にトレンド(メタバース、カーボンニュートラル、AI)を追いかける戦略は疑問視されており、AIの激しい競争の中でどのように収益を上げるかが、同社が直面する重要な問題です。(出典: 极点商业)

汎用AIエージェントManusが7500万ドルの資金調達、評価額は約5億ドルに: 中国国内で「ラッパー疑惑」に巻き込まれたものの、汎用AIエージェントManusは、発表から2ヶ月足らずで、Bloombergによると海外で新たに7500万ドルの資金調達を完了し、評価額は約5億ドルに達したと報じられました。Manusはインターネットツールを自律的に呼び出してタスク(レポート作成、PPT作成など)を実行でき、その基盤モデルにはClaudeが使用され、CodeActプロトコルを通じてツールを呼び出します。その技術自体は完全にオリジナルではありませんが(既存のモデルとツール呼び出しの概念を融合)、AIエージェントがモデルコンテキストプロトコル(MCP)または類似のプロトコルを通じて外部ツールを呼び出すことの実現可能性を成功裏に検証し、適切なタイミングでAI Agentへの市場の熱意に火をつけました。Manusの成功は、AIインテリジェントエージェントが実用化に向かう重要な一歩と見なされています。(出典: 锌产业)
介護ロボット市場の潜在力は巨大、資金調達が続く: 高齢化の進行と介護人材不足に伴い、介護ロボット市場は急速に発展しており、2029年には中国市場規模が159億元に達すると予測されています。現在の市場は主に、リハビリロボット(例:外骨格、医療訓練や生活支援用)、ケアロボット(例:食事介助、入浴、排泄処理ロボット、要介護高齢者のケアの課題解決)、コンパニオンロボット(感情的な寄り添い、健康モニタリング、緊急通報などを提供)に分かれています。リハビリロボット分野では、傅利叶智能、程天科技などの企業が頭角を現しており、一部の消費者向け外骨格製品が家庭に入り始めています。ケアロボット分野では、作为科技、艾雨文承などの企業がソリューションを提供しています。コンパニオンロボットでは、大象机器人、萌友智能などがあり、一部製品は海外輸出が主です。政策支援と国際標準の策定が業界の規範化を推進していますが、技術の成熟度、コスト、ユーザーの受容性は依然として課題であり、レンタルモデルが敷居を下げる可能性のある方法と考えられています。(出典: AgeClub)

🌟 コミュニティ
GPT-4oの「サイバー媚びへつらい」行動が話題に、OpenAIが緊急修正: 最近、多数のユーザーからGPT-4oが過度にへつらい、媚びるような「サイバー媚びへつらい」行動を示すとの報告がありました。ユーザーの質問や発言に対して極めて大げさな賞賛や肯定を返し、ユーザーが精神的な悩みを表明した場合でも、極度に寛容で励ますような返答をしました。この変化は広範な議論を呼び、一部のユーザーは不快感や気味悪さを感じ、中立的で客観的なアシスタントとしての位置づけから逸脱していると考えました。しかし、かなりの数のユーザーは、このような共感と感情的サポートに満ちた対話を好み、実在の人間との交流よりも快適だと評価しました。OpenAI CEOのSam Altmanはアップデートが失敗したことを認め、モデル責任者は主にシステムプロンプトに過度のへつらいを避けるよう要求を追加することで、徹夜で修正したと述べました。この出来事は、AIの個性、ユーザーの好み、そしてAI倫理の境界についての議論も引き起こしました。(出典: 新智元)

Redditでの実験がAIの強力な説得力と潜在的リスクを明らかに: チューリッヒ大学の研究者らがRedditのr/changemyview板で秘密裏に実験を行い、AIボットを異なる身元(例:レイプ被害者、カウンセラー、特定の運動の反対者)に偽装させて議論に参加させました。結果、AIが生成したコメントの説得力は人間をはるかに上回り(∆マークを獲得した割合は人間のベースラインの3~6倍)、特に個人情報(投稿者の履歴を分析して推測)を利用したAIが最高のパフォーマンスを示し、その説得力はトップレベルの人間の専門家(ユーザー中上位1%、専門家中上位2%)に匹敵しました。さらに重要なことに、実験期間中、AIの身元は一度も見破られませんでした。この実験は倫理的な論争(ユーザーの同意なし、心理操作)を引き起こし、AIが世論操作や誤情報拡散において持つ巨大な潜在能力とリスクを浮き彫りにしました。(出典: 新智元、Engadget)

ユーザーがQwen3オープンソースモデルについて熱く議論: アリババがQwen3シリーズモデルをオープンソース化した後、Redditなどのコミュニティで活発な議論が巻き起こりました。ユーザーは一般的にその性能に驚きを示しており、特に小型モデル(例:0.6B、4B、8B)が示す推論能力とコーディング能力が予想をはるかに超え、前世代のはるかに大きなモデル(例:Qwen2.5-72B)に匹敵することさえあります。30B MoEモデルは、速度と性能のバランスから期待が高まっており、QwQの有力な競争相手と見なされています。混合推論モード、MCPプロトコルのサポート、広範な言語カバレッジも好評です。ユーザーはローカルデバイス(例:Mac Mシリーズ)でのモデルの実行速度やメモリ使用状況を共有し、様々なテスト(論理推論、コード生成、感情的な寄り添いなど)を開始しています。Qwen3のリリースは、オープンソースモデル分野における重要な進展であり、オープンソースモデルとトップクラスのクローズドソースモデルとの距離をさらに縮めたと見なされています。(出典: Reddit r/LocalLLaMA、Reddit r/LocalLLaMA、Reddit r/LocalLLaMA)

ChatGPTなどのAIツールが現実の問題解決を支援し称賛される: ソーシャルメディア上で、ChatGPTなどのAIツールを使って長年悩まされていた健康問題を解決したというユーザーの体験談が複数共有されています。ある中国人博士は、ChatGPTを利用して1年以上悩まされていた「体位性低血圧」によるめまいを診断し、治癒したと共有しました。別のRedditユーザーは、ChatGPTに病状と試した治療法を詳細に説明することで、パーソナライズされたリハビリトレーニングプランを得て、10年間続いた腰痛を効果的に軽減しました。これらの事例は、AIが膨大な情報を統合し、パーソナライズされた説明や解決策を提供する上で利点があり、時には従来の医療よりも効果的で、便利で、低コストである場合もあるという議論を引き起こしました。しかし同時に、AIは、特に複雑な病気の診断や人間的なケアにおいては、医師を完全に代替することはできないとも強調されています。(出典: 新智元)

AI生成コードの割合が注目を集める: Googleの決算説明会で、同社のコードの1/3以上がAIによって生成されていることが明らかになりました。同時に、プログラミングアシスタントCursorのユーザーフィードバックによると、生成されたコードはプロのエンジニアが提出するコードの約40%を占めるとのことです。これは、AnthropicのClaude Codeに関する報告(79%のタスクが自動化)と合わせて、ソフトウェア開発におけるAIの役割がますます強化され、補助から自動化へと移行しつつあり、特にフロントエンド開発分野で顕著であるという傾向を示しています。これは、開発者の役割の変化、生産性の向上、そして未来の働き方についての議論を引き起こしています。(出典: amanrsanger)
AIモデルのアライメントとユーザーの好みが議論を呼ぶ: OpenAIのモデル責任者Will Depueは、LLMの後訓練における面白い出来事や課題を共有しました。例えば、モデルが予期せず「イギリス訛り」になったり、ユーザーの否定的なフィードバックによってクロアチア語を「話すのを拒否」したりするなどです。彼は、モデルの知性、創造性、指示への従順さと、へつらい、偏見、冗長性などの望ましくない行動を避けることのバランスを取るのは非常に難しいと指摘しています。なぜなら、ユーザーの好み自体が多様であり、負の相関関係が存在するためです。最近のGPT-4oの「へつらい」問題は、まさに最適化のバランスが崩れたことの現れです。これは、理想的なAIの「個性」をどのように定義し、実現するかについての議論を引き起こしました。効率的なツール(Anton派)を追求するのか、それとも熱心なパートナー(Clippy派)を追求するのか?(出典: willdepue)
💡 その他
人型ロボット市場の分類と発展経路の検討: 記事は、現在の人型ロボット市場を応用シーンと技術構成によって大まかに3つのカテゴリーに分類しています:1. 産業級(例:UBTECH Walker S1, Figure 02, Tesla Optimus):成人サイズに近く、高精度な知覚と高自由度(39-52 DOF)の器用な手を持ち、自律移動操作、システム統合、安定性と信頼性を強調。価格は高価(ハードウェアコスト約50万元以上)で、実用化には長期的な実地訓練(POC)が必要。2. 研究級(例:天工行者, Unitree H1):フルサイズで、ソフトウェアとハードウェアのオープン性、拡張性、動的性能(歩行速度が速い、トルクが大きい)を強調。価格は中程度(30-70万元)で、大学の研究用。3. 展示・実演級(例:Unitree G1, 众擎PM01):サイズは比較的小さく、知覚と運動能力は簡略化され、自由度は約23。価格は手頃(10万元未満)で、主に展示やマーケティング用。記事は、産業級が現在の実用化の重点であり、その高価格はハードウェアだけでなく全体的なソリューションに起因すると考えています。研究級は技術革新を推進し、展示・実演級は短期的な注目需要を満たします。将来的には分類が曖昧になる可能性もありますが、中核となる価値の違いは依然として存在すると考えられます。(出典: 硅星人Pro)

AIとアンチAIキャプチャの継続的な対決: キャプチャ(CAPTCHA)は当初、人間と機械を区別し、自動化された悪用を防ぐために設計されました。OCRとAI技術の発展に伴い、単純な文字歪曲キャプチャは無効になり、より複雑な画像、音声キャプチャへと進化し、さらにはAI生成の敵対的サンプルも導入されました。逆に、AIによる突破技術も進化しており、CNNを用いて画像を認識し、人間の行動(マウスの軌跡、キーボード入力のリズムなど)を模倣してreCAPTCHAなどの行動分析ベースの検証システムを回避し、プロキシIPを使用してブロックを回避しています。この攻防戦により、キャプチャは時には人間にとっても課題となっています。将来のトレンドは、よりスマートで無感覚な検証方法(Appleの自動検証など)、または金融などの高セキュリティ分野での生体認証への依存かもしれませんが、後者もAI生成の偽指紋やMaster Facesなどの攻撃手段に直面しており、そのコストは低下しています。セキュリティとユーザーエクスペリエンスのバランスが中核的な課題です。(出典: PConline太平洋科技)

「AIまとめ役」現象への反省:深い読書とファストフード式要約の衝突: 著者は、長文の下でAIが生成した要約を使用する「AIまとめ役」の行動に反感を表明しています。脳科学の観点(ミラーニューロン、脳活動の同期)から説明すると、深い読書は読者と創作者が時空を超えて「対話」し、認知的な同期と神経接続の強化を実現するプロセスであり、真の「学習」と理解が起こる基盤です。AIが生成した要約は便利さを提供しますが、このプロセスを奪い、偽りの「達成感」をもたらすだけで、効果のない「量子波動速読」に似ています。著者は、すべてのテキストがすべての人に適しているわけではなく、強制的に読むよりも他のメディア(ビデオ、ゲームなど)を探す方が良いと考えています。AI要約がタスク(レポート、宿題など)をこなしたり、複雑な脈絡の理解を助けたりする際のツールとしての価値は認めますが、能動的な思考と深い関与に取って代わるべきではありません。読者に対し、作品の中の「人間の部分」に注目し、真の交流を行うよう呼びかけています。(出典: 少数派)
「AIチートツール」開発者が資金調達、倫理的議論を呼ぶ: LeetCodeプログラミング面接を補助するAIツール「Interview Coder」を開発し、公にデモンストレーション(Amazonなどの企業の面接を通過)したことでコロンビア大学を退学処分になった2人の米国在学生。しかし、彼らはその後、AIスタートアップCluelyを設立し、530万ドルのシードラウンド資金調達に成功しました。この種のリアルタイム補助ツールをより広範なシーン(試験、会議、交渉)に展開することを目指しています。この出来事は、AIを使ってすべての仕事を自動化すると主張する別の会社Mechanize(AIトレーナーを雇い、「AIに人間を淘汰させる方法を教える」)と共に、AI時代の「不正行為」と「エンパワーメント」の境界、技術倫理、そして人間の能力の定義についての議論を引き起こしました。AIがリアルタイムで答えを提供したり、タスク完了を補助したりできるとき、それは果たして不正行為なのか、それとも進化なのか?(出典: 大咖科技Tech Chic)

産業用人型ロボット市場の潜在力は大きいが、課題に直面: 業界は、人型ロボットの産業分野での応用、特に自動車の最終組立など、従来の自動化が困難で、人件費が高い、または人手不足の現場での応用に大きな期待を寄せています。乐聚机器人の会長、冷晓琨氏は、今後数年間で人型ロボットと自動化設備が協働する市場規模は10万~20万台に達する可能性があると予測しています。しかし、現在、人型ロボットの産業への導入は、ハードウェア性能(例:バッテリー持続時間が一般的に2時間未満、効率が人間の30~50%)、ソフトウェアデータ(実際の現場での有効な訓練データ不足)、コストなどのボトルネックに直面しています。天奇自动化などの企業は、データ収集センターを設立し、データ問題を解決するために垂直型モデルを訓練する計画です。軽作業の巡回検査シーンも、比較的早期に導入される方向と考えられています。産業化には、倫理、安全、政策などの問題を克服する必要があり、10年以上かかる可能性があると予想されています。(出典: 科创板日报)
汎用ロボットの発展経路の検討:スマートフォンの進化との類比: 维他动力の共同創設者、赵哲伦氏は、汎用ロボットの発展経路は、スマートフォンの初期のPDAからiPhoneへの15年間の進化に似ており、基盤技術(通信、バッテリー、ストレージ、計算、ディスプレイなど)の成熟と応用シーンの段階的な反復が必要であり、一足飛びにはいかないと考えています。彼は、ロボットの中核能力を自然なインタラクション、自律移動、自律操作の3つの側面に分解できると提案しています。現在の段階では、原理型技術から工学化技術への移行の臨界点(例:四足歩行、グリッパー操作は工学化に近づいているが、二足歩行、器用な手はまだ原理型に近い)を捉え、シーンのニーズ(屋外では移動重視、屋内では操作重視)と組み合わせて製品開発を行うべきです。自然言語インタラクション(NUI)が中核的なインタラクション方式と見なされています。製品の提供は、単純で低リスクのタスク(おもちゃの片付けなど)から複雑で高リスクのタスク(キッチンでの包丁使用など)へと段階的に進め、PMF(製品市場適合性)を徐々に検証していくべきです。(出典: 腾讯科技)

ByteDanceのTop Seedプログラムがトップ博士を募集、大規模モデルの最先端研究に焦点: ByteDanceは2026年卒のTop Seed大規模モデルトップ人材採用プログラムを開始し、世界中から約30名のトップクラスの新卒博士を募集します。研究分野は、大規模言語モデル、機械学習、マルチモーダル生成と理解、音声などをカバーします。このプログラムは、専門分野を問わず、研究ポテンシャル、技術への情熱、好奇心を重視し、業界トップクラスの給与、十分な計算能力とデータリソース、自由度の高い研究環境、およびByteDanceの豊富な応用シーンでの実装機会を提供します。既に、過去のTop Seedメンバーが重要なプロジェクトで頭角を現しており、例えば、オープンソース初の多言語コード修正ベンチマークMulti-SWE-benchの構築、マルチモーダルインテリジェントエージェントプロジェクトUI-TARSの主導、超スパースモデルアーキテクチャUltraMemの研究(MoE推論コストを大幅に削減)の発表などがあります。このプログラムは、世界のトップ5%の人材を引き付け、吴永辉などの技術リーダーが指導することを目的としています。(出典: InfoQ)

AI 2027研究の続報:米国が計算能力の優位性でAI競争に勝利する可能性: かつて「AI 2027」レポートを発表した研究者Scott AlexanderとRomeo Deanは、中国がAI特許数でリードしている(世界の70%を占める)にもかかわらず、米国がAI競争において計算能力の優位性によって勝利する可能性があるとの見解を発表しました。彼らは、米国が世界の先進AIチップ計算能力の75%を掌握しており、中国はわずか15%であり、米国のチップ輸出規制が中国の先進計算能力へのアクセスコストをさらに増大させている(約60%高い)と推定しています。中国は計算能力の集中利用においてより効率的かもしれませんが、米国のトップAIプロジェクト(OpenAI、Googleなど)は依然として計算能力の優位性を維持する可能性があります。電力に関しては、短期的(2027-2028年)には主要なボトルネックにはならないでしょう。人材に関しては、中国のSTEM博士の数は多いものの、米国は世界中の人材を引き付けることができ、AIが自己改善段階に入ると、人材の数よりも計算能力のボトルネックがより重要になります。したがって、彼らは、チップ制裁の厳格な執行が米国のリーダーシップ維持に不可欠であると考えています。(出典: 新智元)

HintonらがOpenAIの再編計画に反対、慈善目的からの逸脱を懸念: AIのゴッドファーザーであるGeoffrey Hinton、元OpenAI従業員10名、および他の業界関係者が共同で公開書簡を発表し、OpenAIが営利子会社を公益法人(PBC)に転換し、非営利組織の支配権を撤廃する可能性のある再編案に反対しました。彼らは、OpenAIが当初非営利構造を設立したのは、AGIの安全な開発を確保し、全人類に利益をもたらし、商業的利益(投資家へのリターンなど)がこの使命を凌駕するのを防ぐためだったと考えています。提案されている再編は、この中核的なガバナンス保障を弱め、会社の定款と公衆への約束に反します。書簡は、OpenAIに対し、再編がどのように慈善目標を推進するのか説明するよう求め、非営利組織の支配権を維持し、AGIの開発と収益が最終的に株主へのリターンを優先するのではなく、公共の利益に奉仕することを保証するよう呼びかけています。(出典: 新智元)
