キーワード:AI, 人工知能, AI主権のジレンマ, HBMと先進パッケージング, AI駆動型科学発見, Gemini 2.5 Proプログラミング能力, AI数学難問解決
🔥 注目
AI主権のジレンマ:国家安全保障の物語はいかに公共価値を蝕むか?:レポートは、「AI主権」という概念、すなわち国家によるAI技術スタック(data、computing power、talent、energy)のコントロール力について深く掘り下げています。現在の世界的なトレンドは、同盟国に依存する「弱い主権」から、完全な国産化を目指す「強い主権」へと移行しており、特に米国の政策がこれを推進しています。この転換は国家安全保障と軍事的優位性を確保することを目的としていますが、過度の集中化、オープンイノベーションの阻害、国際協力の妨げ、そしてAI軍拡競争を引き起こす可能性への懸念も引き起こしています。記事は、AIを過度に安全保障化することは、公共の利益に貢献し、地球規模の課題を解決するその巨大な潜在能力を犠牲にする可能性があると主張し、主権の要求とオープンな協力との間でバランスを模索し、AIが地政学的競争の犠牲品ではなく、人類の集団的進歩のためのツールとなるよう呼びかけています。(出典: 人工智能主权困局:国家安全叙事如何吞噬AI的公共价值?)
HBMと先進パッケージング:AIコンピューティングパワー革命の隠れた勝負所:AI大規模モデルによるコンピューティングパワーへの指数関数的な需要は、従来のコンピューティングアーキテクチャを「メモリウォール」のボトルネックに直面させています。High Bandwidth Memory(HBM)は、3D stackingとTSV技術により帯域幅を数倍(例:HBM3Eは1TB/s超)に向上させ、データ転送遅延を大幅に緩和します。同時に、先進パッケージング技術(TSMCのCoWoS、IntelのEMIBなど)は、ヘテロジニアスインテグレーションによってCPU、GPU、HBMなどのチップを緊密に統合し、シングルチップの制限を突破し、コンピューティングパワー密度とエネルギー効率比を向上させます。HBMと先進パッケージングは、AIチップ(特にトレーニング側)の重要な標準構成となっており、その市場はSK Hynix、Samsung、Micron(HBM)およびTSMC(パッケージング)などの巨大企業によって主導され、投資は莫大で生産能力は逼迫しています。これら2つの技術の協調的発展は、半導体サプライチェーンの構造を再構築する(パッケージングの価値比率が向上)だけでなく、AIコンピューティングパワー競争の行方を決定する重要な戦場となっています。(出典: HBM与先进封装:AI算力革命的隐形赛点)
ノーベル賞受賞者の衝撃宣言:AIは1年で10億年分の「博士研究時間」を達成:ノーベル賞受賞者であり、Google DeepMindのCEOであるDemis Hassabis氏は、彼のチームのAIプロジェクトAlphaFold-2が、地球上で知られている2億種のタンパク質構造を予測することで、過去に10億年の博士研究時間が必要だった科学的探求を1年で完了したと述べました。彼は、AI、特にAlphaFoldが科学的発見の速度と規模を根本的に変え、知識獲得を民主化していると強調しました。Hassabis氏はCambridge Universityでの講演で、AIが推進する「digital biology」時代の到来をさらに詳しく説明し、AIの未来は単に言語処理に依存するのではなく、物理世界を理解し、推論と計画を実行できる「world model」(JEPAアーキテクチャなど)を構築することにあると考えています。彼はオープンソースAIへのコミットメントを再確認し、これが技術進歩を推進するための最良の方法であると述べました。(出典: 诺奖得主震撼宣言:AI一年完成10亿年“博士研究时间”)
Gemini 2.5 Proのプログラミング能力がトップに、コストパフォーマンスの優位性が顕著:aiderマルチリンガルプログラミングベンチマークによると、Googleが最近リリースしたGemini 2.5 Proモデルは、プログラミング能力においてClaude 3.7 Sonnetを上回り、世界第1位となりました。性能が優れているだけでなく、API呼び出しコストが非常に低い(約6ドル)ため、同等またはそれ以下の性能の競合製品(GPT-4o、Claude 3.7 Sonnetなど)よりもはるかに低コストです。Jeff Dean氏もそのコストパフォーマンスの優位性を強調しました。さらに、コミュニティで噂されている未発表のGoogleモデル「Dragontail」は、Web開発テストにおいてGemini 2.5 Proよりも優れたパフォーマンスを示しており、GoogleがAIプログラミング分野でまだ切り札を持っていることを示唆しています。Gemini 2.5 Proは、複数の総合ベンチマークテストでも上位にランクされており、高性能、低コスト、大規模なコンテキストウィンドウ、無料利用権により、OpenAIとAnthropicに全面的に挑戦しています。(出典: Gemini 2.5编程全球霸榜,谷歌重回AI王座,神秘模型曝光,奥特曼迎战)
AIが50年来の未解決数学難問の証明を支援:中国人研究者のWeiguo Yin氏(Brookhaven National Laboratory)は、OpenAIのo3-mini-highモデルを利用して、1次元J_1-J_2 q状態Pottsモデルの厳密解の研究でブレークスルーを達成し、この分野における50年来の難問を解決しました。AIモデルは、q=3の特定の場合を処理する際に、対称性分析を通じて複雑な9×9転送行列を効果的な2×2行列に簡略化することに成功しました。この重要なステップは、研究者がこの方法を一般化するきっかけとなり、最終的に任意のq値に適用可能な解析解を見つけ出しました。この成果は、AIが複雑な数学的導出や非自明な証明において持つ潜在能力を示すだけでなく、凝縮系物理学における相転移などの問題を理解するための新しい理論的ツールを提供します。(出典: 刚刚,AI破解50年未解数学难题,南大校友用OpenAI模型完成首个非平凡数学证明)
🎯 動向
ゲームNPC分野におけるAIの応用と進化:記事は、ゲームNPCにおけるAI技術の発展の歴史を振り返ります。初期の『Pac-Man』の有限状態機械から、ビヘイビアツリー、そしてモンテカルロ木探索と深層ニューラルネットワークを組み合わせた複雑なAI(AlphaGoなど)まで。記事は、AIが『StarCraft 2』や『Dota 2』などのゲームでトップレベルの人間のプレイヤーを打ち負かすことができるようになったものの、一般プレイヤーにとっては強すぎるAIは良い体験ではないと指摘しています。理想的なゲームAIは、人間の行動をよりシミュレートし、感情的な価値と適応的な難易度(『Middle-earth』のNemesisシステム、『Resident Evil 4』の動的難易度など)を提供することに重点を置くべきです。最近では、Mihoyoの『Whispers from the Star』のStellaを例に、生成AIがNPCのリアルタイムな対話、感情反応、ストーリー展開を駆動するために使用されています。遅延や記憶などの課題に直面していますが、AI NPCがより人間らしく、より深いインタラクションを持つ方向に向かっていることを示しています。(出典: AI,让游戏再次伟大)
OpenAIがAPIアクセス権限を強化、組織認証を導入:OpenAIは最近、新しいAPI組織認証ポリシーを実施しました。これにより、ユーザーはサポートされている国または地域が発行した有効な政府身分証明書(ID)を提供しなければ、最先端のモデルや機能にアクセスできなくなります。各IDは90日ごとに1つの組織しか認証できません。OpenAIはこの措置がAIの安全でない使用を減らし、間もなくリリースされる「エキサイティングな新モデル」(GPT-4.1、o3、o4-miniなどの複数のバージョンを含む可能性がある)に備えるためであると述べています。このポリシー変更は、コミュニティで広範な注目と懸念を引き起こしており、特にサポートされていない国/地域にいる開発者やサードパーティAPIサービスに依存するユーザーにとっては、アクセスが制限されたりコストが増加したりする可能性があり、OpenAIのオープン性に関する議論も引き起こしています。(出典: GitHub中国IP访问崩了又复活,OpenAI API新政恐锁死GPT-5?, op7418, Reddit r/artificial)
Apple参入で「AIドクター」発展を推進、課題と規制が共存:Apple社は、AIを活用してHealth Appの機能を強化し、「AI Health Coach」などのサービスを開始すると伝えられており、「AI Doctor」が世界的なホットトピックになることをさらに推進しています。しかし、真の臨床AI応用は多くの課題に直面しています。開発コストが高いこと、大量の機密性の高い医療データへの依存(プライバシー規制に関わる)、データラベリングの困難さなどです。現在、AIの多くは診断補助ツールです。中国市場では、医療資源の不均衡や、AIによる段階的診療支援の特別なニーズという課題もあります。Baichuan Intelligentなどの企業は、これらの問題を解決するために「デュアルドクターモデル」(AIドクター+AI支援人間ドクター)を提案しています。記事は、AI医療の広範な応用は、診断の正確性、データセキュリティ、ユーザーの信頼を確保し、潜在的なリスクを回避するために、厳格な規制と認証システムの上に構築されなければならないと強調しています。(出典: 苹果入局,「AI医生」成全球热点,患者隐私保护成最大障碍?)
MicrosoftのAIによるゲーム直接生成の試みは効果不十分:Microsoftは最近、同社の「Muse」AIモデルを使用して『Quake 2』のゲーム画面を直接生成するDEMOを展示し、AIによるゲームプロトタイプの迅速な生成能力を示そうとしました。しかし、このDEMOの効果は悪く、低解像度、低フレームレート、多数のバグ(敵の行動異常、物理法則の破綻、環境の混乱など)が存在し、「崩壊し続ける夢」と評価されました。記事は、これは現在の生成AI技術(特に「幻覚」問題が存在する)が、複雑でプレイ可能なインタラクティブなゲーム体験を直接かつ確実に生成するにはまだ不十分であることを示していると考えています。これに対し、AIをゲーム開発パイプラインの特定の段階(NPCインタラクション、素材生成など)に応用する方がより現実的です。ゲーム画面やゲームプレイを直接生成する道筋は、現時点では非常に困難であるように見えます。(出典: 微软的AI游戏翻车,直接生成游戏或是条不归路)
Google、医療健康分野のオープンソースモデルTxGemmaをリリース:Googleは、GemmaおよびGeminiモデルファミリーに基づいて構築され、医療健康および創薬分野向けに特別に最適化されたオープンソースモデルであるTxGemmaシリーズを発表しました。この動きは、生物医学研究および治療開発により専門的なAIツールを提供し、この分野のイノベーションを促進することを目的としています。TxGemmaのリリースは、Googleが汎用および特定分野のオープンソースモデルを提供する戦略の一部です。(出典: JeffDean)
DeepSeek、内部推論エンジンのオープンソース化計画を発表:DeepSeek AIは、内部で使用している推論エンジンをオープンソース化する計画を発表しました。説明によると、このエンジンは人気のvLLMフレームワークを修正・最適化したバージョンです。DeepSeekのこの動きは、最適化された推論技術をオープンソースコミュニティに還元し、開発者が大規模モデルをより効率的にデプロイできるよう支援することを目的としています。この計画は、DeepSeekのオープンソースコミュニティへの貢献意欲を示すものであり、コードはGitHubで公開される予定です。(出典: karminski3)
ChatGPTに記憶機能を追加し、一貫性を向上:OpenAIは、ChatGPTモデルに記憶(Memory)機能を追加しました。この機能により、ChatGPTは複数回の対話を通じて、ユーザーが以前に提供した情報、好み、または議論したトピックを記憶することができます。目的は、対話の連続性とパーソナライズの度合いを高め、ユーザーが後続の対話で同じ背景情報を繰り返し提供するのを避け、ユーザーエクスペリエンスを向上させることです。(出典: Ronald_vanLoon)
Skywork、オープンソース推論モデルOR1シリーズをリリース:中国企業Skywork(天工-昆仑万维)は、新しいオープンソース推論モデルシリーズSkywork OR1をリリースしました。このシリーズには、数学に最適化されたOR1-Math-7B、および数学とコーディングで優れたパフォーマンスを発揮するプレビュー版のOR1-7BとOR1-32Bが含まれており、32Bバージョンは数学能力においてDeepSeek-R1に匹敵すると言われています。Skyworkは、モデルの重み、トレーニングデータ、完全なトレーニングコードを公開したことで、そのオープン性が称賛されています。(出典: natolambert)
AI駆動ロボットのナビゲーションと精密操作能力が向上:ソーシャルメディアでは、AI駆動の自律型ロボットが複雑な環境で正確にナビゲーションし、タスクを実行する能力が紹介されています。これらのロボットは、computer vision、SLAM(Simultaneous Localization and Mapping)、reinforcement learningなどのAI技術を活用し、非構造化または動的な環境下での効率的な運用を実現しており、ロボットの知覚、計画、制御における進歩を示しています。(出典: Ronald_vanLoon)
AI駆動の外骨格が車椅子利用者の歩行を支援:AI技術を利用した先進的な外骨格デバイスが紹介されており、車椅子利用者が再び立ち上がり歩行するのを支援することができます。AIは、ユーザーの意図を解釈し、バランスを維持し、運動を調整し、さまざまな環境に適応するために使用される可能性があり、AIが障害者の生活の質を向上させる可能性を示しており、補助ロボット技術の重要な進歩です。(出典: Ronald_vanLoon)
AI Agentがサイバー攻撃に利用される可能性、懸念高まる:MIT Technology Reviewの記事は、自律型AI Agentが複雑なサイバー攻撃を実行するために使用される可能性があると指摘しています。これらのAI Agentは、脆弱性を自動的に発見し、攻撃コードを生成し、攻撃を実行する潜在能力を持っており、その規模と速度は人間のハッカーをはるかに超える可能性があり、既存のサイバーセキュリティ防御システムに深刻な課題をもたらします。これは、AIの兵器化とセキュリティリスクに対する懸念を引き起こしています。(出典: Ronald_vanLoon)
OpenAIがライブ配信イベントを予告、新モデル発表の可能性も:OpenAIは、曖昧なメッセージ(開発者と超大質量ブラックホール)を通じてライブ配信イベントを予告しました。同時に、ウェブサイトで更新されたアイコンやモデルカードの情報がネット上で拡散しており、GPT-4.1シリーズ(nano、miniバージョンを含む)、o4-mini、および完全版o3を含む複数の新モデルが間もなく発表される可能性を示唆しています。これは、OpenAIが激化する市場競争に対応するため、一連の新製品またはモデルのアップデートを準備している可能性があることを示しています。(出典: openai, op7418)
Figureロボット、強化学習によりシミュレーションから現実への自然な歩行を実現:Figure AIは、強化学習(RL)を用いて、純粋なシミュレーション環境でFigure 02人型ロボットに自然な歩行パターンを習得させることに成功しました。効率的なシミュレーターで大量のデータを生成し、domain randomizationとロボット本体の高周波トルクフィードバックを組み合わせることで、戦略をシミュレーションから現実へゼロショットで転移させました。この方法は開発プロセスを加速するだけでなく、単一のニューラルネットワーク戦略で複数のロボットを制御する可能性を証明し、将来のロボットの商業化応用にとって重要な意味を持ちます。(出典: 一套算法控制机器人军团!纯模拟环境强化学习,Figure学会像人一样走路)
🧰 ツール
即梦AI 3.0によるスタイル化文字デザイン生成とPrompt共有:ユーザーは、国産AI描画ツール「即梦AI 3.0」を使用してデザイン性の高い文字画像を生成した経験と方法を共有しました。フォント名を直接指定しても効果が低いため、著者は詳細なプロンプトテンプレートを作成しました。これには、複数の視覚スタイル(インダストリアル風、スイートハート風、テクノロジー風、水墨画風など)がプリセットされており、入力された文字の意味や感情に基づいてAIが自動的にスタイルをマッチングまたは融合させるルールが設定されています。ユーザーはターゲットとなる文字(例:「eスポーツ少年」、「飴が食べたい」)を入力するだけで、テンプレートがスタイル、背景、レイアウト、雰囲気を含む完全な描画プロンプトを生成し、即梦AIで高品質なグラフィックとテキストのデザイン効果を得ることができます。記事では、このプロンプトテンプレートと多数の生成例が提供されています。(出典: 即梦AI 3.0制作含字体封面,这个方案酷到封神【附:16+案例和Prompt】, AI生成字体设计我有点玩明白了,用这套Prompt提效50%。)
マルチモーダルAIを利用して食品写真をメニュー風画像に変換:ソーシャルメディアユーザーは、GPT-4oなどのマルチモーダルAIモデルを利用して、普通の食品写真を洗練されたメニュー画像に変換するテクニックを紹介しました。この方法は、AIに元の写真を提供し、記述的なプロンプト(例:「高級五つ星ホテルのメニュー基準とスタイルを参照」)と組み合わせることで、AIに画像のスタイル化処理と編集を誘導し、プロフェッショナルな感覚を持つ料理の展示画像を生成します。これは、マルチモーダルAIが画像理解、編集、スタイル転送において実用的な可能性を持っていることを示しています。(出典: karminski3)
Slideteam.net:AI駆動の即時スライド作成ツールか:ソーシャルメディアでは、Slideteam.netが「即座に」完璧なスライドを作成できると言及されており、AI技術を利用してプレゼンテーションのデザインと生成プロセスを自動化している可能性を示唆しています。この種のツールは通常、AIによって自動レイアウト、コンテンツ提案、スタイルマッチングなどの機能を実現し、PPT作成の効率向上を目指しています。(出典: Ronald_vanLoon)
AIマッサージロボットのデモンストレーション:ビデオでは、AI駆動のマッサージロボットが紹介されています。このロボットは、ロボットアームの物理的操作能力とAIのインテリジェントな制御を組み合わせています。AIは、ユーザーのニーズを理解し、身体の部位を認識し、マッサージ経路を計画し、力加減やテクニックを調整し、さらにはセンサーを通じてユーザーの反応を感知してマッサージ体験を最適化するために使用される可能性があり、AIがパーソナライズされた健康サービスや自動化された理学療法において応用される可能性を示しています。(出典: Ronald_vanLoon)
GitHub CopilotがWindows Terminalに統合:Microsoftは、Windows TerminalのCanaryプレビュー版にGitHub Copilot機能を統合し、「Terminal Chat」と名付けました。Copilotに登録しているユーザーは、ターミナル環境で直接AIと対話し、コマンドラインの提案、説明、ヘルプを得ることができます。この動きは、開発者がコマンドを作成する際にアプリケーションを切り替える必要性を減らし、コンテキストを認識してインテリジェントな支援を提供することで、コマンドライン操作の効率と正確性を向上させることを目的としており、特に複雑または不慣れなタスクに適しています。(出典: GitHub Copilot 现可在 Windows 终端中运行了)
OpenWebUIデプロイのハードウェア要件に関する議論:Redditコミュニティのユーザーは、約30人のチーム向けにOpenWebUI(LLM Webインターフェース)をデプロイするために必要なAzure仮想マシンの構成について議論しました。ユーザーはSnowflake埋め込みモデルをローカルで実行し、OpenAI APIを使用する予定です。議論では、リソースのスケーリング、埋め込みモデルのサイズがCPU/RAM/ストレージに与える影響、データの前処理の重要性などが取り上げられました。コミュニティは、APIへの依存度が高い場合はローカルのハードウェア要件を低減できるが、ローカルでモデル(特に埋め込みモデル)を実行する場合はより強力な構成が必要であると提案しています。リソースが限られている場合は、埋め込み処理にもAPIを使用することを推奨しています。(出典: Reddit r/OpenWebUI)
📚 学習
推論AIモデル、前提欠落時に「過剰思考」する欠陥:メリーランド大学などの研究機関の研究により、現在の推論モデル(DeepSeek-R1、o1など)は、必要な情報が欠落している(前提欠落、MiP)問題に直面した際、問題自体の欠陥を迅速に特定するのではなく、冗長で無効な回答を生成する傾向があることが明らかになりました。この「MiP過剰思考」現象は計算資源の浪費につながり、モデルが最終的に前提の欠落に気づけるかどうかとはあまり関係がありません。対照的に、非推論モデルの方が優れたパフォーマンスを示します。研究は、これが現在の推論モデルに批判的思考能力が欠けていることを露呈しており、強化学習の訓練パラダイムや知識蒸留プロセスの問題に起因する可能性があると考えています。(出典: 推理AI“脑补”成瘾,废话拉满,马里兰华人学霸揭开内幕)
CVPR 2025:CADCrafterが単一画像から編集可能なCADファイルを生成:Magic Core Technology、南洋理工大学などの研究者は、CADCrafterフレームワークを提案しました。これは、単一の画像(部品のレンダリング画像、実物の写真など)から、従来のメッシュや点群モデルではなく、パラメータ化され編集可能なCADエンジニアリングファイル(CAD命令シーケンスで表現)を直接生成することができます。この方法は、VAEを使用してCAD命令をエンコードし、Diffusion Transformerを組み合わせて画像条件付きで潜在空間生成を行い、マルチビューからシングルビューへの蒸留戦略によって性能を向上させ、DPOを利用して生成された命令のコンパイル可能性を確保します。生成されたCADファイルは直接生産加工に使用でき、命令を編集してモデルを修正することもサポートしており、AIが生成する3Dモデルの実用性と表面品質を大幅に向上させます。(出典: 单图直出CAD工程文件!CVPR 2025新研究解决AI生成3D模型“不可编辑”痛点|魔芯科技NTU等出品)
浙江大学、OPPOなどがOS Agentsに関するレビュー論文を発表:このレビュー論文は、マルチモーダル大規模モデル(MLLM)に基づくオペレーティングシステムインテリジェントエージェント(OS Agents)の研究現状を体系的に整理しています。OS Agentsとは、オペレーティングシステムのインターフェース(GUI)を通じて、コンピュータやスマートフォンなどのデバイス上でタスクを自動的に実行できるAIを指します。論文では、その重要な要素(環境、観察空間、行動空間)、コア能力(理解、計画、実行)を定義し、構築方法(基礎モデルアーキテクチャとトレーニング、エージェントフレームワーク設計)をレビューし、評価プロトコル、ベンチマークテスト、および関連する商用製品をまとめています。最後に、セキュリティとプライバシー、パーソナライゼーションと自己進化などの課題と将来の方向性を議論し、この分野の研究に包括的な参考資料を提供しています。(出典: 浙大、OPPO等发布最新综述:基于多模态大模型的计算机、手机与浏览器智能体研究)
ICLR 2025:Nabla-GFlowNetが拡散モデルの効率的な多様性報酬ファインチューニングを実現:拡散モデルの報酬ファインチューニングにおける収束の遅さ(従来のRL)や多様性の損失(直接最適化)の問題に対処するため、研究者らはNabla-GFlowNet法を提案しました。この方法は、生成フローネットワーク(GFlowNet)フレームワークに基づいて、新しいフローバランス条件(Nabla-DB)と損失関数を導出し、報酬勾配情報を利用してファインチューニングをガイドします。特定のパラメータ化設計により、生成サンプルの多様性を維持しながら、DDPOなどの方法よりも速い収束速度を実現し、Stable Diffusionモデル上で美的感覚や指示追従などの報酬関数を用いて検証し、既存の方法よりも優れた効果を示しました。(出典: ICLR 2025 | 扩散模型奖励微调新突破!Nabla-GFlowNet让多样性与效率兼得)
DeepSeek-R1の推論メカニズム分析:McGill大学の研究は、DeepSeek-R1などの推論モデルの「思考」プロセスを深く分析しました。研究によると、その推論連鎖の長さと性能は必ずしも正の相関関係にあるわけではなく、「最適点」が存在し、長すぎる推論はかえって有害になる可能性があることがわかりました。モデルは、長いコンテキストや複雑な問題を処理する際に、既存の表現に繰り返し固執する可能性があります。さらに、非推論モデルと比較して、DeepSeek-R1は安全性においてより顕著な脆弱性が存在する可能性があります。この研究は、現在の推論モデルの動作メカニズムのいくつかの特徴と潜在的な限界を明らかにしました。(出典: LLM每周速递!| 涉及多模态、MoE模型、Deepseek推理、Agent安全控制、模型量化等)
MoEモデルのテスト時最適化新手法C3PO:ジョンズ・ホプキンス大学は、混合エキスパート(MoE)大規模モデルの性能をテスト時に最適化するためのC3PO(Critical Layers, Core Experts, and Collaborative Path Optimization)手法を提案しました。この手法は、重要なレイヤーのコアエキスパートを再重み付けし、各テストサンプルに合わせて最適化することで、エキスパートパスの最適化問題を解決します。実験により、C3POはMoEモデルの精度を大幅に向上させ(7〜15%)、小規模なパラメータのMoEモデルの性能がより大きなパラメータを持つ密なモデルを超えることさえ可能にし、MoEアーキテクチャの効率を高めることが示されました。(出典: LLM每周速递!| 涉及多模态、MoE模型、Deepseek推理、Agent安全控制、模型量化等)
量子化が推論モデル性能に与える影響の系統的研究:清華大学などの機関は、モデル量子化が推論モデル(DeepSeek-R1、Qwenシリーズなど)の性能に与える影響を初めて系統的に研究しました。実験では、異なるビット幅(重み、KVキャッシュ、活性化値)とアルゴリズム下での量子化効果を評価しました。研究によると、W8A8またはW4A16量子化は通常、損失なしまたはそれに近い性能を実現できますが、より低いビット幅ではリスクが著しく増加します。モデルのサイズ、ソース、タスクの難易度はすべて、量子化後の性能に影響を与える重要な要因です。研究結果と量子化モデルはオープンソース化されています。(出典: LLM每周速递!| 涉及多模态、MoE模型、Deepseek推理、Agent安全控制、模型量化等)
APIGen-MT:高品質なマルチターンAgentインタラクションデータ生成フレームワーク:Salesforceは、マルチターンインタラクションAI Agentのトレーニングに必要な高品質なデータが不足している問題を解決するために、APIGen-MTフレームワークを提案しました。このフレームワークは2段階で構成されます。まず、LLMのレビューと反復的なフィードバックを使用して詳細なタスクブループリントを生成し、次に人間と機械のインタラクションをシミュレートしてブループリントを完全な軌跡データに変換します。このフレームワークに基づいてトレーニングされたxLAM-2モデルシリーズは、マルチターンAgentベンチマークテストで優れたパフォーマンスを示し、GPT-4oなどのモデルを上回り、このデータ生成方法の有効性を検証しました。合成データとモデルはオープンソース化されています。(出典: LLM每周速递!| 涉及多模态、MoE模型、Deepseek推理、Agent安全控制、模型量化等)
研究が示す:思考連鎖が長いほど推論性能が高いわけではない、強化学習はより簡潔にできる:Wand AIの研究によると、推論モデル(特にPPOなどのRLアルゴリズムで訓練されたモデル)は、より長い応答を生成する傾向がありますが、これは正確性の必要性からではなく、RLメカニズム自体が原因である可能性があります。つまり、誤った答え(負の報酬)に対して応答の長さを延ばすことで、各トークンのペナルティを「薄める」ことができ、損失を低減できます。研究は、簡潔な推論がより高い精度と関連していることを証明し、2段階のRL訓練法を提案しています。まず、難しい問題で訓練して能力を向上させ(応答が長くなる可能性がある)、次に中程度の難易度の問題で訓練して簡潔さを促し、精度を維持します。これは、非常に小さなデータセットでも性能とロバスト性を効果的に向上させることができます。(出典: 更长思维并不等于更强推理性能,强化学习可以很简洁)
中国科学技術大学、ZTEがCurr-ReFTを提案:小型VLMのポストトレーニング新パラダイム:小型視覚言語モデル(VLM)が教師ありファインチューニング後に直面する汎化能力の低さ、推論能力の限界、訓練の不安定さ(「brick wall」現象)などの問題に対処するため、中国科学技術大学とZTEはCurr-ReFTポストトレーニングパラダイムを提案しました。この方法は、カリキュラム強化学習(Curr-RL)と拒絶サンプリングに基づく自己改善を組み合わせています。Curr-RLは難易度を認識した報酬メカニズムを通じて、モデルが易しいものから難しいものへと段階的に学習するように導きます。拒絶サンプリングは、高品質なサンプルを利用してモデルの基礎能力を維持します。Qwen2.5-VL-3B/7Bモデルでの実験により、Curr-ReFTはモデルの推論能力と汎化性能を大幅に向上させ、小型モデルが多くのベンチマークで大型モデルを上回るパフォーマンスを示すことが示されました。コード、データ、モデルはオープンソース化されています。(出典: 中科大、中兴提出新后训练范式:小尺寸多模态模型,成功复现R1推理)
清華大学、上海AI LabがGenPRMを提案:スケーラブルな生成型プロセス報酬モデル:従来のプロセス報酬モデル(PRM)がLLMの推論を監督する際に解釈可能性とテスト時のスケーラビリティに欠ける問題を解決するため、清華大学と上海AI LabはGenPRMを提案しました。これは、自然言語の思考連鎖(CoT)と実行可能な検証コードを生成することで推論ステップを評価し、より透明性の高いフィードバックを提供します。GenPRMはテスト時の計算スケーリングをサポートし、複数の評価パスをサンプリングして報酬を平均化することで精度を向上させます。このモデルはわずか23Kの合成データで訓練され、1.5Bバージョンはテスト時のスケーリングを利用してGPT-4oを上回り、7Bバージョンは72Bベースラインモデルを上回りました。GenPRMは、回答の反復的な改善のためのステップレベルの批評家としても機能します。(出典: 过程奖励模型也可以测试时扩展?清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o)
世界最大のオープンソース数学データセットMegaMath公開(371B Tokens):LLM360は、3710億tokensを含むMegaMathデータセットを発表しました。これは現在、数学的推論に特化した世界最大のオープンソース事前学習データセットであり、オープンソースコミュニティとクローズドソースの数学コーパス(DeepSeek-Mathなど)との間の規模と品質のギャップを埋めることを目的としています。データセットは3つの部分で構成されています:大規模な数学関連ウェブデータ(279B、15Bの高品質サブセットを含む)、数学コード(28B)、高品質な合成データ(64B、Q&A、コード生成、画像とテキストの混合を含む)。慎重に処理され、複数回の事前学習検証を経て、Llama-3.2モデルでMegaMathを使用して事前学習を行うと、GSM8K、MATHなどのベンチマークで15〜20%の大幅な性能向上がもたらされます。(出典: 3710亿数学Tokens!全球最大开源数学数据集MegaMath震撼发布,碾压DeepSeek-Math)
CVPR 2025:NLPromptがノイズ付きラベル下でのVLMプロンプト学習のロバスト性を向上:上海科技大学YesAI Labは、視覚言語モデル(VLM)のプロンプト学習がラベルノイズに直面した際の性能低下問題を解決するために、NLPrompt法を提案しました。研究によると、プロンプト学習のシナリオでは、平均絶対誤差(MAE)損失(PromptMAE)がクロスエントロピー(CE)損失よりもロバストであることがわかりました。同時に、最適輸送に基づくPromptOTデータ浄化法を提案し、プロンプトが生成したテキスト特徴をプロトタイプとして利用し、データセットをクリーンセットとノイズセットに分割します。NLPromptはクリーンセットにはCE損失を、ノイズセットにはMAE損失を使用し、両者の利点を効果的に組み合わせます。実験により、この方法は合成および実際のノイズデータセットの両方で、CoOpなどのプロンプト学習方法のロバスト性と性能を大幅に向上させることが証明されました。(出典: CVPR 2025 | MAE损失+最优传输双剑合璧!上科大提出全新鲁棒提示学习方法)
知識蒸留技術のモデル圧縮における応用と議論:コミュニティでは、知識蒸留技術について議論されました。これは、大規模な「教師」モデルを使用して小型の「生徒」モデルを訓練し、特定のタスクで教師モデルに近い性能を達成させつつ、コストを大幅に削減する技術です。あるユーザーは、GPT-4oの感情分析タスクにおける能力(92%の精度)を小型モデルに蒸留し、コストを14倍削減することに成功した経験を共有しました。コメントでは、蒸留の効果は顕著であるものの、通常は特定の分野に限定され、生徒モデルは教師モデルの汎化能力に欠けると指摘されています。また、データの変化に継続的に適応する必要がある専門的なシナリオでは、自己訓練モデルを維持するコストが、大規模APIを直接使用するコストよりも高くなる可能性があるとも述べられています。(出典: Reddit r/MachineLearning)

AI Agentの定義が注目を集める:McKinseyなどのコンサルティング会社がAI Agentの概念を定義し議論し始めており、目標を達成するために自律的に知覚、意思決定、行動できるインテリジェントエンティティとしてのAI Agentが、ビジネスおよび技術分野でますます重要になっていることを反映しています。AI Agentの定義、能力、応用シナリオを理解することが業界の注目点となっています。(出典: Ronald_vanLoon)
💼 ビジネス
アリババのAI戦略を解読:AGIを核に、インフラへの重点投資で変革を促進:分析によると、アリババは正式なAI戦略を発表していないものの、その行動は明確なビジョンを示しています。AGIの追求を最優先目標とし、競争において主導権を取り戻すことを目指しています。今後3年間で3800億人民元以上をAIおよびクラウドコンピューティングインフラストラクチャの構築に投資する計画であり、急増する推論需要を満たすことに重点を置いています。戦略的パスには、DingTalkを通じたAI Agent能力の普及、Qwenシリーズのオープンソースモデルを活用したAlibaba Cloudの成長促進、Tongyi APIのMaaSモデルの開発が含まれます。同時に、アリババはAIを用いて既存のビジネスを深く変革します。例えば、Taobaoのユーザーエクスペリエンスの向上、QuarkをフラッグシップAIアプリケーション(検索+Agent)に育成、AutoNaviの生活サービスにおけるAI応用の探求などです。アリババは投資や買収を通じてAIの展開を加速させる可能性もあります。(出典: 解秘阿里 AI 战略:从未发布,但已开始狂奔)
AI人材市場の新トレンド:学歴より実践重視、複合的能力が好まれる:中国の主要都市における約3000件の高給AI職の分析に基づき、レポートはAI人材需要の3つの主要なトレンドを明らかにしました:1) アルゴリズムエンジニアの需要は旺盛で給与も高く、自動車業界が採用の主力となっています。2) 企業(DeepSeekなどのスター企業を含む)は学歴に対する厳格な要件を徐々に緩和し、実際のエンジニアリング能力と複雑な問題解決の経験をより重視するようになっています。3) 複合型人材への需要が増加しており、例えばAIプロダクトマネージャーはユーザー、モデル、プロンプトエンジニアリングを同時に理解する必要があります。なぜなら、AIがより専門的なタスクを担うようになり、人間がより高い次元で統合し監督する必要があるためです。(出典: 从近3000个招聘数据里,我找到了挖掘AI人才的三条铁律)
UBTECHは赤字続き、人型ロボットの商業化は依然として厳しい:人型ロボット企業UBTECHの2024年の財務報告によると、売上高は23.7%増の13億元に達したものの、依然として11.6億元の赤字を計上しました。同社の中核事業である人型ロボットの商業化は進捗が遅く、年間わずか10台の納入にとどまり、単価は350万元と市場予想や競合他社(例えば宇樹科技のG1はわずか9.9万元)を大幅に上回っています。加えて、業界のもう一つの大手企業である達闥機器人(DataroBot)の資金繰り問題が伝えられたことで、人型ロボット業界の商業化の実現可能性に対する疑問が投げかけられ、以前の投資家である朱啸虎氏の慎重な見方を裏付ける形となりました。高コスト、限られた応用シーン、安全性と信頼性が、現在の人型ロボットの大規模な商業化における主な障害となっています。(出典: 优必选一年亏损近12亿 朱啸虎这下更有话说了)
AIが通信、ハイテク、メディア業界の成長を牽引:人工知能(生成AIを含む)が、通信、ハイテク、メディア業界の成長を推進する重要な力となっていることが議論されています。AI技術は、顧客体験の改善、ネットワーク運用の最適化、コンテンツ作成の自動化、運用効率の向上、革新的なサービスの開発などに広く応用されており、これらの業界の企業が急速に変化する市場で競争優位性を獲得するのを支援しています。(出典: Ronald_vanLoon)
Hugging Faceがオープンソースロボット企業Pollen Roboticsを買収:著名なAIモデルおよびツールプラットフォームであるHugging Faceは、オープンソースの人型ロボットReachyで知られるスタートアップ企業Pollen Roboticsを買収しました。この買収は、Hugging Faceが成功したオープンソースモデルをAIロボティクス分野に拡大する意図を示しており、オープンなハードウェアおよびソフトウェアソリューションを通じて、この分野の協力とイノベーションを促進し、ロボット技術の民主化プロセスを加速することを目指しています。(出典: huggingface, huggingface, huggingface, huggingface)
🌟 コミュニティ
AI時代は文系出身者にとって有利になる可能性:シリコンバレーのAI+コミュニティ創設者であるLynn Duan氏は、AIツール(Cursorなど)がプログラミングの敷居を下げるにつれて、エンジニアリング能力の重要性が相対的に低下し、商業化、マーケティング、コミュニケーションなどの人文社会科学系のスキルがより重要になると考えています。AIは一部の初級技術職を代替しましたが、技術と市場を結びつけることができる複合型人材への需要を創出しました。彼女は卒業生に対し、急速な成長のためにスタートアップ企業を検討し、学歴だけでなく実践的なプロジェクト(モデルのデプロイ、アプリケーション開発など)を通じて能力を示すことを勧めています。また、創業者の資質(信念、業界理解など)が純粋な技術的背景よりも重要であると指摘し、米国のSaaSおよび中国のスマートハードウェア分野におけるAIスタートアップの機会に期待しています。(出典: AI反而是文科生的好时代|对话硅谷AI+创始人Lynn Duan)
GitHubが一時的に中国IPを「ブロック」、懸念広がるも公式は誤操作と説明:最近、一部の中国ユーザーがログインしていない状態でGitHubにアクセスできなくなり、IPが制限されているとのメッセージが表示され、コミュニティ内で「ブロック」される可能性への懸念が広がりました。GitHub公式は迅速に、設定ミスが原因であり修正済みであると回答しましたが、この出来事は依然として議論を呼んでいます。GitHubが過去に米国の制裁政策に基づいてイランやロシアなどの地域からのアクセスを制限したことがあるため、今回の出来事は潜在的な制限措置の「予行演習」と一部で解釈されました。記事は、GitHubが中国の開発者やオープンソースエコシステム(多くのAIプロジェクトを含む)にとって重要であること、およびこのような制限がもたらす可能性のある悪影響を強調し、代替オプションとしてGiteeやCODINGなどの国内コードホスティングプラットフォームを挙げています。(出典: “Bug”还是“预演”?GitHub 突然“封禁”所有中国 IP,官方:只是“手滑”技术出错了)
Claude AIの性能とサービスがユーザー間で論争を呼ぶ:Reddit上の議論によると、一部のユーザーはAnthropicのClaudeモデルに対して不満を表明しており、性能の低下、コーディング時の不必要な変更、有料プランやレート制限への失望などを挙げています。著名な開発者の中には、他のモデル(Gemini 2.5 Proなど)に移行すると表明した人もいます。しかし、Claude(特に旧バージョンのSonnet 3.5)が特定のタスク(コーディングなど)で依然として優位性を持っていると考えるユーザーや、レート制限に頻繁に遭遇していないと述べるユーザーもいます。この論争は、ユーザーのClaudeに対する体験にばらつきがあること、そして激しい競争の中でユーザーがAIモデルの性能とサービスに高い期待を寄せていることを反映しています。(出典: Reddit r/ClaudeAI)

Gemini Deep Research機能の規模が議論を呼ぶ:ユーザーは、Google Gemini AdvancedのDeep Research機能を使用した際、AIが1つの質問に答えるために約700のウェブサイトにアクセスし、長文のレポート(例:37ページ)を生成した経験を共有しました。この規模はユーザーに感銘を与えましたが、情報の質に関する議論も引き起こしました。コメント投稿者は、これほど大量のウェブ情報を処理することが、正確性と深さを保証できるのか、それとも単に誤りが存在する可能性のあるウェブ検索結果をより広範囲にまとめただけなのか疑問視しています。これは、コミュニティがAI研究ツールの情報処理能力(深さ対広さ)に関心を持ち、吟味していることを反映しています。(出典: Reddit r/artificial)

Gemini 2.5 Proのプログラミング能力がコミュニティで高評価:複数のユーザーがコミュニティで、Google Gemini 2.5 Proを使用したプログラミングの肯定的な経験を共有し、その知能レベルが高く、ユーザーの意図をよく理解でき、100万トークンの長いコンテキスト処理能力(大規模なコードベースの分析に十分)を持ちながら無料である点を評価し、総合的なパフォーマンスがClaudeなどの競合製品よりも優れていると考えています。いくつかの小さな欠点(存在しないライブラリ関数を時折幻覚するなど)はありますが、全体的な評価は高く、現在最も人気のあるコーディングモデルの1つと見なされており、Googleが将来リリースする可能性のあるより強力なモデル(Dragontailなど)への期待も表明されています。(出典: Reddit r/ArtificialInteligence)
小型オープンソースモデルの急速な発展、ユーザーの認識更新が必要:コミュニティでは、オープンソースLLMの急速な進歩に感嘆の声が上がっています。QwQ-32BやGemma-3-27Bのような、現在では優れたモデルと見なされているものが、1〜2年前(GPT-4がリリースされたばかりの頃)にあれば革命的だったであろうと指摘されています。これは、現在の小型オープンソースモデルの実力を過小評価すべきではなく、それらがすでにかなり高いレベルに達していることを思い出させてくれます。コメントでは、これらのモデルがトップクラスのクローズドソースモデルと比較してまだ差があること(安定性、速度、コンテキスト処理など)も認められていますが、その進歩の速さと可能性を強調し、将来的には単なるパラメータの積み重ねではなく、アーキテクチャの革新によってより大きなブレークスルーが実現する可能性があると考えています。(出典: Reddit r/LocalLLaMA)
コミュニティメンバーが無料のA100コンピューティングパワーを提供しAIプロジェクトを支援:4台のNvidia A100 GPUを所有するユーザーがRedditコミュニティに投稿し、革新的でポジティブな影響を目指し、計算資源に制約のあるAI愛好家のプロジェクトに無料のコンピューティングパワー(約100 A100時間)を提供すると申し出ました。この申し出は好意的に受け止められ、多くの研究者や開発者が、新しいモデルアーキテクチャのトレーニング、モデルの解釈可能性、モジュラー学習、人間とコンピュータのインタラクション応用など、具体的なプロジェクト計画を提案しました。これは、AI研究コミュニティにおける計算資源への渇望と相互扶助の精神を示しています。(出典: Reddit r/deeplearning)
Claude AIのレート制限問題がコミュニティで論争を呼ぶ:Claude AIモデルの使用中に頻繁にレート制限(例:わずか5メッセージ使用後)に達するという不満がコミュニティで論争を引き起こしています。一部のユーザーは、このような不満は誇張であるか、ユーザーの不適切な使用(例:毎回非常に長いコンテキストをアップロードするなど)によるものだと強く疑問視し、証拠の提示を求めています。しかし、他のユーザーは、高負荷のタスク(大規模なコード編集など)を実行する際に実際に頻繁に制限に達し、ワークフローに影響が出ていると証言しています。この議論は、ユーザーのレート制限に対する体験が大きく異なること、具体的な使用方法やタスクの複雑さに関連している可能性があること、そして同時に有料サービスの制限に対するユーザーの敏感さを示しています。(出典: Reddit r/ClaudeAI)
💡 その他
AIGCとAI Agentエコシステム大会(上海)が6月開催:第2回AIGCと人工知能体エコシステム大会が2025年6月12日に上海で開催されます。テーマは「智链万物·共生无界」(知能が万物を繋ぎ、共生は境界なし)。大会は生成AI(AIGC)とインテリジェントエージェント(AI Agent)の協調的イノベーションとエコシステムの融合に焦点を当て、内容はAIインフラストラクチャ、大規模言語モデル、AIGCマーケティングとシーン応用(メディア、Eコマース、産業、医療など)、マルチモーダル技術、自律的意思決定フレームワークなどを網羅します。AIを単一のツールからエコシステム連携へとアップグレードし、技術提供者、需要者、資本、政策立案者を繋ぐことを目指します。(出典: 6月上海|“智链万物”上海峰会:AIGC+智能体生态融合)
36Kr AI Partner大会はSuper APPに焦点:36Krは2025年4月18日に上海模速空間で「Super APP来了·2025 AI Partner大会」を開催します。会議は、AIアプリケーションがどのようにビジネス界を再構築し、破壊的な「スーパーアプリケーション」を生み出すかを探求することを目的としています。大会にはAMD、Baidu、360、Qualcommなどの企業幹部や投資家が集まり、産業のAI化、AIコンピューティングパワー、AI検索、AI教育などのホットなトピックについて議論し、AIネイティブアプリケーションのイノベーション事例やAI Partnerイノベーション大賞を発表します。同時に、AI普惠サロンやAI海外進出に関するクローズドなセミナーも開催されます。(出典: Super App来了!看AI应用正如何「改写」商业世界?|2025 AI Partner大会核心看点)
Horizon Robotics、3D再構成/生成アルゴリズムインターンを募集:Horizon Robotics社の具身知能チームは、上海と北京で3D再構成/生成分野のアルゴリズムインターンを募集しています。このポジションでは、Real2Simアルゴリズムの設計と開発に参加し、3D Gaussian Splatting、フィードフォワード再構成、3D/ビデオ生成などの技術を利用してロボットのデータ取得コストを削減し、シミュレータの性能を最適化します。修士以上の学歴、関連する経験とスキルが求められます。正社員登用の機会、GPUリソース、専門的な指導が提供されます。(出典: 上海/北京内推 | 地平线机器人具身智能团队招聘3D重建/生成方向算法实习生)
OceanBaseが第1回AIハッカソンを開催:データベースベンダーのOceanBaseは、Ant Group Open Source、Machine Heartなどと共同で、第1回AIハッカソンを開催します。テーマは「DB+AI」で、賞金総額は10万元です。この大会は、開発者がOceanBaseとAI技術の組み合わせを探求することを奨励しており、方向性としては、OceanBaseをAIアプリケーションのデータ基盤として使用すること、またはOceanBaseエコシステム内(CAMEL AI、FastGPTなどと連携)でAIアプリケーション(Q&A、診断システムなど)を構築することが含まれます。応募期間は4月10日から5月7日までで、個人およびチームが参加できます。(出典: 10万奖金×认知升级!OceanBase首届AI黑客松广发英雄帖,你敢来么?)
Meituan Hotel & Travel、L7-L8レベルの大規模モデルアルゴリズムエンジニアを募集:Meituan Hotel & Travelの供給アルゴリズムチームは、北京でL7-L8レベルの大規模モデルアルゴリズムエンジニア(社会人採用)を募集しています。職務には、NLP、大規模モデル技術を利用してホテル・旅行供給理解体系(ラベル、ホットスポット、類似度分析)を構築し、商品展示素材(タイトル、画像・テキスト)を最適化し、休暇パッケージの組み合わせを構築し、供給側アルゴリズムにおける最先端の大規模モデル技術の応用を探求することが含まれます。修士以上の学歴、2年以上の経験、確かなアルゴリズムとプログラミング能力が求められます。(出典: 北京内推 | 美团酒旅供给算法团队招聘L7-L8大模型算法工程师)
Quantum Bit、AI分野の編集者/ライターを募集:AIテクノロジーメディアのQuantum Bitは、正社員の編集者/ライターを募集しています。勤務地は北京の中関村で、社会人採用と新卒採用の両方を対象としており、インターンからの正社員登用の機会もあります。募集分野には、AI大規模モデル、具身知能ロボット、端末ハードウェア、およびAIニューメディア編集(Weibo/Xiaohongshu)が含まれます。AI分野への情熱、優れた文章表現能力と情報収集能力が求められます。AIツールの習熟、論文解読能力、プログラミング能力などは加点対象となります。競争力のある給与福利厚生と専門的な成長機会が提供されます。(出典: 量子位招聘 | DeepSeek帮我们改的招聘启事)
チューリング賞受賞者LeCun氏がAIの発展を語る:人間の知能は汎用的ではなく、次世代AIは非生成型になる可能性:ポッドキャストのインタビューで、Yann LeCun氏は、現在のAGI(汎用人工知能)の追求には誤解があると主張しました。なぜなら、人間の知能自体は高度に専門化されており、汎用的ではないからです。彼は、次世代AIのブレークスルーは、彼が提案するJEPAアーキテクチャのような非生成モデルに基づいている可能性が高いと予測しています。重点は、AIに物理世界を理解させ、推論と計画能力(world model)を持たせることであり、単に言語を処理することではありません。彼は、現在のLLMには真の推論能力が欠けていると考えています。LeCun氏はまた、オープンソース(MetaのLLaMAなど)がAIの発展を推進する上で重要であると強調し、スマートグラスなどのデバイスがAI技術の実用化における重要な方向性であると考えています。(出典: 图灵奖得主LeCun:人类智能不是通用智能,下一代AI可能基于非生成式)
中国AIGC産業サミットが間もなく開催(4月16日、北京):第3回中国AIGC産業サミットが4月16日に北京で開催されます。サミットには、Baidu、Huawei、AWS、Microsoft Research Asia、Mianbi Intelligence、Shengshu Technology、Fenbi、NetEase Youdao、Quwan Technology、Qingsong Healthなどの企業や機関から20名以上の業界リーダーが集結し、AI技術の最新動向、様々な産業における応用展開、コンピューティングインフラ、安全性と制御可能性などの核心的な議題について議論します。サミットは、AIが産業のアップグレードをどのように支援するかを示し、関連する賞や「中国AIGC応用全景図」を発表することを目的としています。(出典: 倒计时2天!20余位行业大佬共话AI,中国AIGC产业峰会最全攻略在此)
低コストGPUを最大限活用し、数百億パラメータ級大規模モデルを実行するソリューションの検討:記事では、Intel® Arc™ グラフィックスカード(A770など)とXeon® Wプロセッサーを使用して、コストを抑えた(10万元レベル)AI一体型マシンソリューションを構築することについて議論しています。このソリューションは、ソフトウェアとハードウェアの連携(IPEX-LLM、OpenVINO™、oneAPI)による最適化を通じて、単一のマシンでQwQ-32B(速度32 tokens/s)や、さらには671B DeepSeek R1(FlashMoE最適化により、速度約10 tokens/s)などの大規模モデルを実行できます。これにより、企業はローカルまたはエッジ環境で大規模モデルをデプロイするためのコスト効率の高い選択肢を得られ、オフライン推論やデータセキュリティなどのニーズを満たすことができます。Intelはまた、OPEAプラットフォームを発表し、エコシステムパートナーと協力して企業向けAIアプリケーションの標準化と普及を推進しています。(出典: 榨干3000元显卡,跑通千亿级大模型的秘方来了)
外科手術ロボットが高精度操作を披露:ビデオでは、外科手術ロボットが生のうずらの卵の殻とその内部の薄膜を正確に分離する様子が示されており、現代のロボットが精密な操作と制御において持つ高度なレベルを示しています。(出典: Ronald_vanLoon)
半導体リソグラフィ技術の進展概要:SPIE Advanced Lithography + Patterningカンファレンスの内容に関する記事を指し示しており、High-NA EUV、EUVコスト、パターンシェーピング、新しいフォトレジスト(金属酸化物、ドライレジスト)、およびHyper-NAなどの次世代チップ製造技術の最新動向について議論しています。これらの技術は、将来のAIチップの発展を支える上で極めて重要です。(出典: dylan522p)
車輪型ロボットの精密スキルデモンストレーション:ビデオでは、車輪型ロボットの高精度な運動または操作スキルが紹介されており、制御と知覚のためにAIおよび機械学習技術が使用されている可能性があります。(出典: Ronald_vanLoon)