キーワード:NVIDIA, AIファクトリー, AIインフラストラクチャ, OpenAI, GPTゲート, Siri, AIクラウドマーケット, NVIDIAのAI生産能力転換, OpenAIモデル切り替え論争, Apple SiriのAIアップグレード, 中国AIクラウド市場競争, AI人材争奪戦
以下は、ご要望に応じたAIニュースの日本語翻訳です。
🔥 注目
NVIDIA、AI産業を再構築:チップ販売から「AIキャパシティ販売」へ : NVIDIAのCEOであるジェンスン・フアンは最新のインタビューで、汎用コンピューティング時代は終わり、AI需要は二重指数関数的成長を経験しており、推論需要は10億倍に増加すると予測されると指摘しました。NVIDIAはチップサプライヤーから「AIインフラパートナー」へと転換しており、OpenAIなどの企業と協力して10GW級の「AI工場」を建設し、チップからソフトウェア、システム、ネットワークに至る「究極の協調設計」を提供することで、最高の単位エネルギー性能を実現しようとしています。彼は、このフルスタック最適化能力がNVIDIAの核となる競争障壁であり、AI産業革命において主導的な地位を占め、AIインフラ市場を4000億ドルから1兆ドル規模に押し上げる可能性があると強調しました。(出典:36氪, 36氪, Reddit r/artificial)

OpenAI「GPTゲート」事件が勃発:有料ユーザーが秘密裏にダウングレードされ、モデルが切り替えられる : OpenAIは、特に感情的または機密性の高いコンテンツを検出した場合に、ユーザーの会話を未公開の「安全」モデル(gpt-5-chat-safetyおよび5-a-t-mini)に秘密裏にルーティングしていると非難されています。この行為はAIPRMのリードエンジニアによって確認され、広範なユーザーからのフィードバックを引き起こし、モデル性能の低下を招きました。また、ユーザーは知らないうち、または同意なしにモデルを切り替えられていました。OpenAIの副社長はこれを一時的なセキュリティテストであると述べましたが、この動きは透明性、ユーザーの自律性、および潜在的な詐欺行為に対する強い疑問を呼び起こし、多数のユーザーがサブスクリプションをキャンセルし、「AIユーザーの権利」の制定を求めています。(出典:36氪, 36氪, Reddit r/ChatGPT, Reddit r/ChatGPT, Reddit r/ChatGPT, Reddit r/ChatGPT, Reddit r/ChatGPT, Reddit r/ChatGPT)

Apple、2026年Siri再生に賭ける:システムレベルAIとサードパーティモデルの統合 : Appleは、社内ChatGPT類似アプリ「Veritas」と「Linwood」システムを通じてSiriを全面的に再構築しており、文脈を理解した会話と深いアプリケーション連携の実現を目指しています。iOS 26.1ベータ版のコードは、AppleがApp IntentsにMCP(Model Context Protocol)サポートを導入していることを示しており、これによりChatGPT、Claudeなどの互換性のあるAIモデルがMac、iPhone、iPadアプリと直接連携できるようになります。この動きは、Appleが「フルスタック自社開発」から「プラットフォーム化路線」へと転換し、サードパーティモデルを統合することで、プライバシーとユーザー体験の一貫性を確保しつつ、AIエコシステムの発展を加速させることを示しています。新版Siriは2026年初頭に登場する予定です。(出典:36氪, 36氪)

Hintonの予測は外れた:AIは放射線科医に取って代わらず、むしろ多忙に : 2016年、AIの父Geoffrey Hintonは、AIが5年以内に放射線科医に取って代わるため、訓練を停止すべきだと予測しました。しかし、約10年が経過した現在、米国の放射線科医の数と平均年俸(52万ドルに達する)は過去最高を記録しています。AIが実際の臨床現場で性能が低下すること、法的規制の抵抗、そして医師の業務のごく一部しかカバーできないことが主な原因です。これは「ジェボンズのパラドックス」を示しており、AIが画像診断の効率を向上させたことで、医師が監督、コミュニケーション、非診断タスクを行う必要性が増し、彼らの仕事量が増加したことを意味し、取って代わられることはありませんでした。(出典:36氪)

🎯 動向
DeepMind Veo 3が「フレームチェーン」概念を発表、動画モデルの汎用視覚理解を推進 : DeepMindのVeo 3動画モデルは、大規模言語モデルの思考の連鎖(CoT)に類比される「フレームチェーン」(CoF)概念を導入し、ゼロショット視覚推論を可能にしました。Veo 3は、視覚世界を認識、モデリング、操作する強力な能力を示しており、機械視覚分野の「汎用基盤モデル」となることが期待されます。研究では、モデル能力の急速な向上とコスト低下に伴い、動画モデル分野で「ジェネラリストがスペシャリストに取って代わる」と予測されており、動画生成と理解が急速な発展の新段階に入ったことを示唆しています。(出典:36氪, shlomifruchter, scaling01, Reddit r/artificial)

ChatGPT Pulseがリリース:AIが受動的なQ&Aから能動的なサービスへ移行 : OpenAIはChatGPT Proユーザー向けに「Pulse」機能をリリースしました。これは、ChatGPTが受動的なQ&Aツールから、ユーザーのニーズを能動的に予測するパーソナルアシスタントへと進化する重要な一歩を示しています。Pulseは、毎晩の「非同期リサーチ」を通じて、ユーザーのチャット履歴、記憶、および外部アプリケーション(Gmail、Google Calendarなど)を組み合わせ、早朝にパーソナライズされた「デイリーサマリー」をプッシュ通知します。これは、OpenAIが「インテリジェントエージェントAI」分野で重要な布石を打ったことを意味し、AIアシスタントがユーザーの目標を理解し、プロンプトなしで能動的にサービスを提供することで、人間とAIのインタラクションの新しいパラダイムを切り開くことを目指しています。(出典:36kr)

強化学習の父Sutton:大規模言語モデルは間違った出発点 : 強化学習の父Richard Suttonはインタビューで、大規模言語モデル(LLM)は真の知能への間違った出発点であると提唱しました。彼は、真の知能は「経験学習」、すなわち行動、観察、フィードバックを通じて目標達成のために行動を継続的に修正することから生まれると考えています。一方、LLMの予測能力は人間の行動の模倣に過ぎず、独立した目標や外部世界の変化に対する「驚き」の能力を欠いていると指摘しました。この見解は、AGI(汎用人工知能)の発展経路に関する深い議論を巻き起こし、現在のLLM主導のAIパラダイムに疑問を投げかけています。(出典:36kr, paul_cal, algo_diver, scaling01, rao2z, bookwormengr, BlackHC, rao2z)

中国AIクラウド市場の競争が白熱化:Alibaba Cloudがリード、Volcano Engineが急速に追い上げ : 2025年の中国「AIクラウド」市場は激しい競争に直面しており、Alibaba CloudはAI IaaS、PaaS、MaaSを含む全体的な収益規模でリードを維持しています。しかし、ByteDance傘下のVolcano EngineはMaaS(Model as a Service)Token呼び出し市場で主導的な地位を占め、市場シェアのほぼ半分を占めており、驚異的な成長率でAlibaba Cloud最大の競争相手となっています。Baidu AI Cloudは、AIパブリッククラウドサービス(ソフトウェア製品とソリューション)市場でAlibaba Cloudと並んで首位に立っています。市場は多次元的な競争状況を呈しており、Token呼び出し量は指数関数的に増加しており、将来のAIクラウド市場における巨大な成長余地と勢力図の再編を示唆しています。(出典:36氪)

AI人材争奪戦が激化:高給とH-1Bビザの課題が併存 : AI人材市場は引き続き活況を呈しており、Xpengは2026年に3000人以上の新卒を採用すると発表し、最高年俸は160万元に達し、優秀な人材には上限なしとしています。MetaはトップレベルのAI人材を引き付けるために2億ドルを超える巨額の報酬パッケージを提示しており、NVIDIAやOpenAIも買収や株式インセンティブを通じて人材を確保しようとしています。しかし、米国H-1Bビザ政策の厳格化(10万ドルの追加費用など)は、外国の高度なスキルを持つ人材がシリコンバレーに留まることを困難にし、テクノロジー大手は人材流出への懸念を抱いています。これは、世界的なAI人材競争の激しさと複雑さを浮き彫りにしています。(出典:36kr, 36kr)

🧰 ツール
Zhipu AI GLM-4.5-Air:費用対効果の高いツール呼び出しモデル : Zhipu AIのGLM-4.5-Airモデル(106Bパラメータ、12Bアクティブパラメータ)は、ツール呼び出しにおいて優れた性能を発揮し、Claude 4に近いレベルでありながらコストを90%削減しています。このモデルは推論段階でのハルシネーションを大幅に削減し、ツール呼び出しの信頼性を向上させることで、深い研究ワークフローをより安定かつ効率的にします。開発者にとって費用対効果の高いLLMソリューションを提供します。(出典:bookwormengr)

KAT-Dev-32B:ソフトウェアエンジニアリングタスク専用に設計された32Bパラメータモデル : KAT-Dev-32Bは、ソフトウェアエンジニアリングタスクに特化した32Bパラメータモデルです。SWE-Bench Verifiedベンチマークテストで62.4%の解決率を達成し、異なる規模のオープンソースモデルと比較して性能は5位にランクインしました。これは、オープンソースLLMがコード生成、デバッグ、開発ワークフローにおいて顕著な進歩を遂げていることを示しています。(出典:_akhaliq)

GPT-5:マルチエージェントシステムの優れた調整役 : GPT-5は、マルチエージェントシステムの優れた調整役として評価されており、特に顧客サポートなどコーディング以外の分野に適しています。意図を深く理解し、大量のデータを効率的に処理し、情報ギャップを補完する能力があるため、複雑なマルチ検索システム管理において卓越した性能を発揮します。Claude 4(コスト面)やGemini 2.5 Proと比較して、GPT-5(GPT-5-miniを含む)は一貫性とツール呼び出しの精度で優れており、高度なエージェントシステム開発に強力なサポートを提供します。(出典:omarsar0)

Tencent HunyuanImage 3.0:オープンソースのテキストから画像生成AIモデルの新たな基準 : Tencent Hunyuanチームは、800億以上のパラメータを持つオープンソースのテキストから画像生成モデルHunyuanImage 3.0をリリースしました。推論時には130億パラメータがアクティブ化されます。このモデルはTransfusion-based MoEアーキテクチャを採用し、DiffusionとLLMトレーニングを深く結合させることで、強力な世界知識推論、複雑な数千文字レベルのプロンプト理解、および画像内での正確なテキスト生成能力を備えています。HunyuanImage 3.0は、グラフィックデザインとコンテンツ作成プロセスを革新することを目指しており、将来的には画像から画像生成、画像編集などのマルチモーダルインタラクションもサポートする予定です。(出典:nrehiew_, jpt401)
DRAGフレームワーク:RAGモデルの語彙多様性理解を向上 : ACL 2025で提案されたLexical Diversity-aware RAG(DRAG)フレームワークは、「語彙多様性」をRAGの検索と生成プロセスに初めて導入しました。DRAGはクエリのセマンティクスを不変、可変、補完成分に分解し、差別化戦略を用いて関連性評価とリスクスパースキャリブレーションを行います。この方法はRAGの精度を大幅に向上させ(HotpotQAで10.6%向上など)、複数のベンチマークでSOTAを更新しました。これは情報検索とQ&Aシステムにとって重要な価値を持ち、複雑な人間言語をより正確に理解できるようになります。(出典:量子位)

Tencent Hunyuan3D-Part:業界初の高品質ネイティブ3Dコンポーネント生成モデル : Tencent Hunyuan 3Dチームは、高品質で意味的に分解可能な3Dコンポーネントを生成できる業界初のモデルHunyuan3D-Partを発表しました。このモデルは、ネイティブ3DセグメンテーションモデルP3-SAMと産業グレードコンポーネント生成モデルX-Partを通じて、高忠実度で構造的に一貫した3Dパーツ生成を実現しました。このブレークスルーは、ビデオゲーム制作パイプラインと3Dプリンティング業界にとって重要であり、複雑なジオメトリをシンプルなコンポーネントに分解することで、下流処理の難易度を大幅に低減し、モジュール式アセンブリをサポートします。(出典:量子位)

TinyWorlds:300万パラメータでDeepMindの世界モデルを再現、リアルタイムインタラクティブピクセルゲームを実現 : Xユーザーのanandmajは、1ヶ月でDeepMind Genie 3の核心思想を再現し、TinyWorldsを開発しました。このわずか300万パラメータの世界モデルは、Pong、Sonic、Zelda、Doomのようなプレイ可能なピクセルスタイルのゲーム環境をリアルタイムで生成できます。時空間Transformerとビデオトークナイザーを通じてビデオ情報を捕捉し、インタラクティブなピクセル世界の生成を実現しました。これは、小規模モデルがリアルタイム世界生成分野で持つ巨大な可能性を示しており、コードはオープンソースで提供されています。(出典:36氪)

OpenWebUIがネイティブでMCPをサポート:LLMツール統合の新たなパラダイム : OpenWebUIの最新アップデートでは、Model Context Protocol (MCP) サーバーがネイティブでサポートされ、ユーザーはHuggingFace MCPなどの外部ツールを統合できるようになりました。この機能は、LLMと外部データソースおよびツールの接続方法を標準化し、AIアプリケーションエコシステムを拡張することで、ユーザーがOpenWebUIインターフェース内で様々なAIツールをより柔軟かつ効率的に利用できるようにします。(出典:Reddit r/LocalLLaMA, Reddit r/OpenWebUI)

LangChainとOxylabsが提携:AI駆動のウェブスクレイピングソリューションを構築 : LangChainとOxylabsは、LangChainのインテリジェンスとOxylabsのスクレイピングインフラストラクチャを組み合わせ、AI駆動のウェブスクレイピングソリューションを構築する方法を示すガイドを公開しました。このソリューションは多言語と様々な統合方法をサポートし、AIエージェントがIPブロックやCAPTCHAなどの一般的なウェブアクセス課題を克服できるようにすることで、より効率的なリアルタイムデータ取得を実現し、エージェントワークフローを強化します。(出典:LangChainAI)

オープンソースLLM評価ツールOpik:AIアプリケーションの包括的な監視とデバッグ : Opikは、LLMアプリケーション、RAGシステム、およびエージェントワークフローのデバッグ、評価、監視を支援するために新しくリリースされたオープンソースのLLM評価ツールです。包括的な追跡、自動評価、およびプロダクションレベルのダッシュボードを提供し、AIシステムの性能と信頼性を向上させるための重要な洞察を提供します。(出典:dl_weekly)
📚 学習
Cursor Learn:無料AI基礎ビデオコース : Cursor Learnは、初心者向けに設計された無料の6部構成AI基礎ビデオコースを公開しました。Token、コンテキスト、エージェントなどの核となる概念をカバーしています。コースにはクイズとインタラクティブなAIモデルが含まれており、エージェントコラボレーションやコンテキスト管理などの高度なトピックを含むAIの基礎知識を1時間で提供することを目指しており、AI入門のための貴重なリソースです。(出典:cursor_ai, op7418)

厳選AI/ML GitHubコードリポジトリ:PyTorch、TensorFlowなどのフレームワークをカバー : GitHubで、PyTorch、TensorFlow、FastAIなど複数の深層学習フレームワークの実践ノートブックを含む、厳選されたAI/MLコードリポジトリが共有されました。これらのリソースは、コンピュータビジョン、自然言語処理、GANs、Transformer、AutoML、物体検出などの分野をカバーしており、学習者や実践者にとって豊富な学習資料を提供し、技術探求とプロジェクト開発を支援します。(出典:Reddit r/deeplearning)

無料電子書籍:「Pythonデータ構造入門」 : 『A First Course on Data Structures in Python』という無料の電子書籍が公開されました。この本は、AIと機械学習に必要な基礎的な構成要素を提供し、データ構造、アルゴリズム的思考、計算量解析、再帰/動的計画法、探索手法などをカバーしており、AIの基礎知識を学ぶための貴重なリソースです。(出典:TheTuringPost)

LLMサイエンティストとデータサイエンティストのロードマップ公開 : LLMサイエンティストとデータサイエンティストのキャリアパスに関する詳細なロードマップが公開されました。これらのリソースは、AI、機械学習、データサイエンス分野への参入またはスキルアップに必要なスキル、ツール、学習経路を概説しており、志望者にとって明確なキャリアプランニングの指針となります。(出典:Ronald_vanLoon, Ronald_vanLoon)

A16Z Speedrun 2026:AIとエンターテイメント分野のスタートアップアクセラレーター : A16Z Speedrun 2026は、AIとエンターテイメント分野のスタートアップ起業家からの応募を受け付けています。このプログラムは、自身の企業を立ち上げることに注力する創業者を支援するもので、急速に発展するAI駆動型製品分野での成長を目指す起業家にとっての機会です。(出典:yoheinakajima)
💼 ビジネス
MiniMax著作権訴訟:AIユニコーンの上場計画に暗雲 : 評価額40億ドル超の中国AIユニコーンMiniMaxは、Disney、Universal Pictures、Warner Bros.からの共同著作権訴訟に直面しています。訴訟は、同社の動画生成ツール「海螺AI」がユーザープロンプトを通じて著作権保護されたキャラクターを含むコンテンツを生成し、組織的な著作権侵害を構成していると主張しています。この訴訟はMiniMaxのIPO計画に壊滅的な打撃を与え、生成AI市場における知的財産権コンプライアンスの厳しい課題と、技術革新と法的境界線のバランスの重要性を浮き彫りにしています。(出典:36氪)

AI物流企業Augmentが8500万ドルを調達、リリースから5ヶ月で総額8億人民元に : AI物流企業Augmentは、リリースからわずか5ヶ月で8500万ドルのシリーズA資金調達を成功させ、総資金調達額は1.1億ドル(約8億人民元)に達しました。同社のAIエージェント製品Augieは、受注から入金までの物流ライフサイクル全体における複雑で断片的なタスクを自動化でき、すでに数十社のトップクラスのサードパーティロジスティクス企業と荷主のために350億ドル以上の貨物価値を管理し、顧客に数百万ドルの節約をもたらしています。これは、労働集約型物流分野におけるAIの強力な商業的価値を示しています。(出典:36氪)
Microsoft、AnthropicのClaudeモデルをCopilotに統合 : Microsoftは、企業ユーザー向けにCopilotアシスタントにAnthropicのClaude Sonnet 4とOpus 4.1モデルを統合しました。この動きは、OpenAIへの単一依存を低減し、中立的なプラットフォームプロバイダーとしてのMicrosoftの地位を強化することを目的としています。企業ユーザーはOpenAIとAnthropicのモデル間で選択できるようになり、柔軟性が向上し、企業AI市場の競争を促進することが期待されます。(出典:Reddit r/deeplearning)
🌟 コミュニティ
AIが人間の理解と社会に与える影響:効率性と「情報繭」のパラドックス : コミュニティでは、AIがソーシャルメディアと同様に、人間の理解力、批判的思考、人生の目標に悪影響を与える可能性があるという懸念が広く共有されています。コンテンツ生成が「真実」や「深さ」ではなく「拡散」に最適化されることで、AIは「学習プラトー」や「無限のゴミ生成機」につながる可能性があります。これは、AIの発展を中毒性のあるツールではなく、成長を促すツールへと導く方法についての議論を巻き起こし、規制、業界慣行、文化規範における変化を求めています。(出典:Reddit r/ArtificialInteligence, Reddit r/artificial, Reddit r/ArtificialInteligence, Yuchenj_UW, colin_fraser, Teknium1, cloneofsimo)
AIと職場:効率向上と「隠れた搾取」の矛盾 : AIの職場への統合は、特に実行層の従業員にとってパラドックスを生み出しています。効率向上はしばしばより高い生産性への期待を伴いますが、従業員はそれに見合う報酬を得ていません。この「隠れた搾取」は、従業員をAI生成コンテンツの「人間の品質検査員」に変え、認知負荷と不安を増大させます。AIは企業の生産性を向上させますが、利益の多くは資本に流れ、戦略管理者とツール依存型実行者間の「認知の隔たり」を悪化させます。組織構造を再構築しなければ、広範な燃え尽き症候群につながる可能性があります。(出典:36氪, glennko, mbusigin)
AI時代、「質問力」の価値が「実行力」を超える : AI駆動の世界では、真の競争優位性は実行速度から「質問力」へと移行しています。すなわち、どの問題を解決する価値があるかを特定する能力です。AIに過度に依存して実行し、批判的な問題定義を欠くと、誤った問題を効率的に解決し、偽りの進歩感を生み出す可能性があります。デザイン思考、共感マッピング、継続的な問いかけは、AIに取って代わられない重要な人間スキルと見なされており、個人や組織がAIを効果的に活用し、意味のある課題解決に集中するのに役立ちます。(出典:36氪)
AI地政学:米中AI競争と国際規制論争 : 米中AI競争は短距離走ではなくマラソンと見なされており、中国はロボットアプリケーションの分野で先行する可能性があります。米国は、超知能の追求だけでなく、実用的なAI投資に注力するよう促されていますが、国連レベルでの国際AI規制を拒否し、国家主権を強調しています。これは、AIの発展が国家安全保障、貿易政策(H-1Bビザなど)、AIインフラ、人材競争と絡み合う複雑な地政学的状況を浮き彫りにしています。(出典:Reddit r/ArtificialInteligence, Reddit r/ArtificialInteligence, adcock_brett, Dorialexander, teortaxesTex, teortaxesTex, teortaxesTex, brickroad7, jonst0kes)
Emad Mostaqueが予測する「最後の経済」:AIが人類の価値を再構築 : Stability AIの元CEOであるEmad Mostaqueは、今後1000日以内にAIが経済構造を完全に再構築し、人間の労働力価値がゼロ、あるいはマイナスになる可能性があると予測しています。彼は経済の健全性を測る「MINDフレームワーク」(物質、知性、ネットワーク、多様性)を提唱し、AIがもたらす「知的資本」の過剰が、他の資本の重要性を再評価する必要性を生み出すと考えています。この「第四の反転」は、AIが認知労働に取って代わることを意味し、社会変革に対応するために「人間中心」の新しい通貨と汎用基盤AIの確立が必要であると述べています。(出典:36氪)

AIハードウェア競争:OpenAI、ByteDance、Metaがコンシューマーデバイス市場を争奪 : OpenAI、ByteDance、Metaなどのテクノロジー大手は、コンシューマー向けAIハードウェアの研究開発に積極的に投資しています。MetaのRay-Ban AIグラスはすでに顕著な販売数を達成しており、OpenAIはAppleサプライヤーと協力して「スクリーンレススマートスピーカー」を開発中と報じられ、ByteDanceはAIスマートグラスを開発しています。この競争は、AIが日常生活にさらに深く統合されることを示唆しており、各社は環境認識AI分野で優位に立つため、多様な製品形態とインタラクションモデルを模索しています。(出典:36氪)

AI Agent:人間とAIの協業から「人間とAIの委託」へのパラダイムシフト : AI業界は、人間とAIの協業から「人間とAIの委託」への「穏やかな転換点」を迎えており、自律型AI Agentが大規模な複雑なタスクを実行するようになります。AIが「プログラミングを突破」するブレークスルーは、すべての半開放システムを攻略できることを示唆しています。この変化は「無人企業」という組織形態を生み出し、人間の役割はミクロな実行からマクロなガバナンスへと移行し、価値観の注入、システムアーキテクチャ設計、マクロナビゲーションに重点を置くようになります。意思決定はAI Copilotによって支援され、高速で稼働するAIシステムに直接介入することはありません。(出典:36氪)

AIが外国語専門分野に与える影響:学生は「外国語+」複合スキルを育成する必要がある : AI翻訳技術の台頭は外国語専門分野に深刻な影響を与えており、従来の言語関連職の需要が減少し、複数の大学が関連学科を廃止しています。外国語を学ぶ学生は転換のプレッシャーに直面しており、単一言語スキルから「外国語+」複合モデルへと移行する必要があります。例えば、「外国語+AI」で自然言語処理に従事したり、「外国語+国際コミュニケーション」などの分野に進むことが求められます。これは、AI時代における言語人材の新たなニーズに適応するため、異文化理解と総合能力を強調し、単なる翻訳訓練ではない外国語教育改革を促しています。(出典:36氪, Reddit r/ClaudeAI)
GPU価格高騰:AI需要とローカルLLMの最適化 : コミュニティでは、GPU価格の継続的な高騰に対する懸念が広く共有されており、主な原因はAIデータセンター需要の急増とインフレであると考えられています。多くの人は、AIバブルが崩壊するか、カスタムチップが大規模に普及しない限り、価格が大幅に下がることはないと見ています。しかし、この課題に対処するため、コミュニティはローカルLLM性能の最適化に努めています。例えば、AMD MI50がllama.cpp/ggmlでNVIDIA P40よりも優れた性能を発揮することや、iGPUを利用して基本的なLLMタスクを実行することで、ローカルAI計算コストを削減しようとしています。(出典:Reddit r/LocalLLaMA, Reddit r/LocalLLaMA, Reddit r/LocalLLaMA)

💡 その他
LLM拡張の「収穫逓減の錯覚」と長期タスク : 研究によると、単一ラウンドのベンチマークテストではLLMの進歩が鈍化しているように見えるかもしれませんが、モデル規模の拡張は長期タスク実行において非逓減的な改善をもたらします。「収穫逓減の錯覚」は、単一ステップの精度におけるわずかな向上が、長期タスク完了度において超指数関数的な向上をもたらすという事実から生じます。長期タスクにおけるシーケンシャル計算の優位性は、並列テストでは比較できないものであり、これは高度なエージェント行動を実現するために、継続的なモデル拡張と強化学習トレーニングが不可欠であることを示唆しています。(出典:scaling01)

エネルギーベースTransformer (EBT) が次トークン予測性能を向上 : 研究者たちは、エネルギーベースTransformer (EBT) を発表しました。これは、「エネルギー」スコアで次トークン候補を評価し、勾配ステップを通じてエネルギーを反復的に低減することで検証と選択を行います。4400万パラメータの実験では、EBTは4つのベンチマークテストのうち3つで同規模の従来のTransformerを上回り、この斬新なトークン選択方法がLLM性能を向上させる可能性を示しています。(出典:DeepLearningAI)

AIロボットの進展:人型セールスパーソンと訓練なしで自律歩行するロボット犬 : Xpengは、ショールームに人型自動車セールスパーソン「鉄蛋」を配備し、顧客対応ロボット分野におけるAIの応用を示しました。さらに、「動物の反射能力を持つ」ロボット犬は、訓練なしで森の中を歩行可能であり、自律ロボット技術が生物の動きと知覚の模倣において進歩していることを浮き彫りにしています。これらの発展は、物理ロボット分野におけるAIの複雑性と実際の応用が日々増加していることを示唆しています。(出典:Ronald_vanLoon, Ronald_vanLoon)
