关键词:OpenAI, AI模型, 多模态, 强化学习, GPT-5, Gemini, DeepMind, 机器人, OpenAI核心贡献者, 视觉语言模型盲点, 多机械臂协同系统, AI辅助数学研究, MIT意念控制设备

🔥 聚焦

OpenAI核心贡献者获罕见致谢 : Sam Altman罕见致谢Jakub Pachocki和Szymon Sidor,称他们是OpenAI的“真正王牌”,解决了所有难题。这对波兰搭档从Dota AI到GPT-4及推理突破,贡献贯穿OpenAI核心发展。Jakub作为首席科学家负责战略与理论,Szymon作为实干工程师负责工程落地,其十余年默契合作是OpenAI实现多次“不可能”突破的关键。 (来源:36氪)

OpenAI真正王牌,不是Ilya,刚刚,奥特曼罕见致谢这两人

MIT意念控制设备AlterEgo : MIT初创团队推出非侵入式穿戴设备AlterEgo,实现意念控制手机,词汇识别准确率达92%。该设备通过捕捉面部和颈部肌肉的神经肌肉信号,解析用户“静默”的内心默念,并通过骨传导耳机提供反馈。其应用场景包括静默语音控制、数学计算、日程提醒,甚至实现跨语种意念交流,有望延伸人类思维与计算设备间的交互。 (来源:36氪)

动动念头就能操作手机,MIT意念控制设备,不动嘴不动手,“读心”准确率92%

AI模型“阅读盲点”被揭示 : 研究发现GPT-5、Gemini等顶级视觉语言模型(VLM)在识别经过切割、叠加的汉字或英文单词时集体“翻车”,而人类却能轻易理解。研究团队认为,AI主要依赖模式匹配,缺乏人类对文字结构(如偏旁部首、字母组合)的符号分割与组合机制。这揭示了VLM在处理非标准文本时的盲点,对AI在教育、历史文献和安全领域的应用构成挑战,亟需新的多模态融合方式。 (来源:36氪)

人类秒懂,AI崩溃:一个简单测试,就让GPT-5、Gemini等顶级模型集体“翻车”

DeepMind发布多机械臂协同系统RoboBallet : DeepMind等团队在《Science Robotics》发表RoboBallet,创新性地将图神经网络(GNN)与强化学习(RL)结合,实现8个机械臂在复杂环境中零碰撞协同作业,每步规划仅需0.3毫秒,并具备零样本泛化能力。此成果由AlphaGo作者Matthew Lai领衔,标志着多机器人协作研究的重大突破。 (来源:36氪)

AlphaGo作者领衔,8个机械臂协同干活0碰撞,DeepMind新作登Science子刊

GPT-5首次辅助数学研究突破 : 在数学教授的引导下,GPT-5首次将定性的第四矩定理扩展为带有显式收敛率的定量形式,涵盖高斯与泊松情形,展现出“博士水平”的推理能力。研究者通过多轮互动纠正模型错误,最终由GPT-5生成了完整的论文。尽管arXiv政策禁止将AI列为作者,此案例仍突显了AI在辅助甚至推动科学发现方面的巨大潜力。 (来源:36氪)

真·博士水平,GPT-5首次给出第四矩定理显式收敛率,数学教授只点拨了一下

谷歌发布AI科研系统 : 谷歌发布AI系统,融合大语言模型与树搜索,能自动编写和优化专家级科研软件。该系统能获取并重组多渠道知识,构建新研究思路,在基因组学、公共健康等领域达到甚至超越人类专家水平。其核心创新在于LLM作为智能“变异”引擎,通过迭代生成、评估和完善软件解决方案,将科研软件开发范式从一次性代码生成转变为以可量化目标为导向的迭代式、搜索驱动的进化。 (来源:36氪)

谷歌AI新里程碑:一个能「做研究」的系统诞生了,用LLM+树搜索编写专家级软件

🎯 动向

AI在生活与健康领域的应用创新 : 云澎科技发布与帅康、创维合作的AI+健康新品,包括数智化未来厨房实验室和搭载AI健康大模型的智能冰箱,提供个性化健康管理。18岁女孩Audrey Lo团队开发的养老机器人Sam,上线两天即爆单,其24小时安全监测和个性化陪伴功能,有效满足了全球老龄化社会需求。小米AI眼镜推出支付宝“看一眼支付”功能,平均2.8秒完成支付,有望重塑移动支付市场。 (来源:36氪, 36氪, 36氪)

云澎科技发布AI+健康新品

苹果AI战略与硬件进展 : iPhone 17发布会AI几乎隐身,凸显苹果AI战略被动。Siri跳票、人才流失、隐私政策阻碍自研,苹果转与阿里、百度、谷歌合作。苹果在A19 Pro GPU中新增矩阵乘法加速功能,有望显著提升iPhone在AI工作负载中的提示处理速度,并引入“MacBook Pro级别的计算能力”。 (来源:36氪, The Verge, Reddit r/LocalLLaMA)

iPhone17:搞不定AI,能否搞定果粉

马斯克AI与机器人愿景及进展 : 特斯拉Optimus机器人在餐厅门口展示“卖爆米花”服务,并与顾客互动。马斯克在最新访谈中透露,Optimus 3人形机器人将具备接近人类的手部灵巧性,成本约2万美元,并成为其投入精力最多的项目。特斯拉AI5芯片性能将比AI4提升40倍,预计年底软件升级将使特斯拉汽车展现“意识”。 (来源:36氪, 36氪)

马斯克机器人出街卖爆米花,还会捉弄顾客

大模型幻觉问题与检测新进展 : OpenAI论文指出大模型幻觉的根本原因在于人类训练和评估机制,即奖励猜测而非承认不确定性。苏黎世联邦理工学院等团队提出一种低成本、可扩展的实时幻觉检测方法,通过token级探针识别长篇内容中的捏造实体,AUC高达0.90,旨在推动社区解决AI在高风险应用中的幻觉问题。 (来源:36氪, 36氪)

大模型产生幻觉,全怪人类 PUA 。。。吗?

多模态图像生成模型进展 : 谷歌发布文生图模型Gemini 2.5 Flash Image(代号Nano Banana),以其在图像质量、角色一致性及多图融合方面的卓越表现,在LMArena榜单登顶。字节跳动Seed也发布Seedream 4.0,将文生图和图像编辑功能整合为统一模型,支持2K/4K分辨率、多图参考及复杂艺术风格融合。 (来源:36氪, ArtificialAnlys, fabianstelzer)

Nano Banana爆火背后,深聊谷歌多模态五大主线布局

开源推理与代码模型新进展 : 阿布扎比MBZUAI联合G42开源320亿参数推理模型K2-Think,基于阿里Qwen 2.5构建,在复杂数学和编程任务中性能卓越,部署在Cerebras晶圆级芯片WSE系统,推理速度提升10倍。阿里巴巴的Qwen-3-Coder模型在MCPMark排行榜上荣登开源模型榜首,以低运行成本展现出色性能。 (来源:36氪, Alibaba_Qwen)

阿联酋开源“最快推理模型”,撞名Kimi,基于阿里Qwen,用上全球最大芯片

瑞为技术具身机器人AntOne : 瑞为技术推出智能行李转运机器人AntOne,在民航业实现行李从分拣到码垛的自动化转运,旨在解决传统纯人力搬运的效率瓶颈。AntOne搭载瑞为自研的RecoThink视觉推理智能体,具备感知、决策、执行、协同能力,通过3D视觉和多传感器融合感知环境。 (来源:36氪)

瑞为技术AntOne:视觉智能体重构民航生态,具身机器人打破场景壁垒

AI原生搜索引擎崛起 : 专为AI打造的搜索引擎正迅速崛起,Exa和You.com近期获得大额融资,估值达7亿和15亿美元。这些AI原生搜索引擎旨在突破传统搜索引擎为人类优化的局限,为AI Agent提供更快、更准、无偏见的高质量知识源,预示着信息获取范式将转向AI Agent驱动。 (来源:36氪)

专为AI打造的搜索引擎崛起,信息获取范式将迎来新一轮转变

腾讯云AI编程工具矩阵发布 : 腾讯云发布AI CLI工具CodeBuddy Code,并宣布CodeBuddy IDE开启公测,构建了业内首个同时支持插件、IDE和CLI三种形态的AI编程工具矩阵。CodeBuddy Code旨在通过自然语言驱动整个开发运维生命周期,大幅提升专业工程师的自动化效率。 (来源:量子位)

再度加码AI编程,腾讯发布AI CLI并宣布CodeBuddy IDE开启公测

苏州Momenta落地德国Robotaxi : 苏州AI公司Momenta与美国Uber达成合作,计划于2026年在德国慕尼黑开启L4级Robotaxi商业化运营,消息公布后Uber市值一夜大涨472亿元。Momenta以其“一个飞轮两条腿”战略著称,此次合作标志着其Robotaxi业务从智能辅助驾驶向L4级别、并进一步向全球市场规模化落地的关键一步。 (来源:量子位)

苏州AI公司德国落地Robotaxi,美国Uber一夜大涨472亿

NVIDIA推出Rubin CPX GPU : NVIDIA推出Rubin CPX GPU,专为AI推理中计算密集型上下文阶段设计。该GPU旨在应对代码和视频生成等高级AI工作负载对百万级token上下文处理的需求,提供定制化的硬件加速,提升AI计算效率和性能。 (来源:nvidia)

设备端AI与开源生态发展 : Google Gemma 3n的设备端版本迎来升级,新增Google AI Edge对音频输入的支持(Android、Web),AI Edge Gallery已正式登陆Google Play商店,并且代码已开源。Hugging Face与Mattt合作,致力于通过MLX、Core ML和Swift Transformers等工具,帮助开发者将AI直接部署到Apple设备上。 (来源:osanseviero, ClementDelangue)

清华团队LLM强化学习新范式ReST-RL : 清华大学KEG团队提出统一LLM强化学习新范式ReST-RL,旨在解决大模型在复杂推理任务中逻辑跳跃、效率低下等难题。该方法结合优化后的GRPO算法和基于价值模型的蒙特卡洛树搜索,显著提升LLM的推理能力、训练效率和泛化性。 (来源:36氪)

攻克AI推理难题,清华团队提出「统一LLM强化学习新范式」ReST-RL

AI编程的Agentic Development Environment (ADE)趋势 : 讨论Agentic Development Environment (ADE)作为下一代软件开发工作台的兴起。ADE以AI智能体和自然语言提示为核心,覆盖软件开发全生命周期(设置、部署、调试),旨在实现智能体优先的工作流,与传统IDE侧重代码编辑形成对比,专家探讨ADE是否会取代IDE成为软件构建的默认方式。 (来源:TheTuringPost)

🧰 工具

LangChain Agent Middleware : LangChain发布1.0alpha版本,引入Agent Middleware,允许开发者更灵活地调整核心Agent循环中的状态管理和步骤。此更新旨在提升自定义上下文工程能力,为构建更复杂的AI智能体提供更精细的控制,是LLM开发工具链的重要补充。 (来源:LangChainAI, hwchase17)

LangChainAI

Claude文件创建和编辑 : Claude推出文件创建和编辑功能,允许用户直接通过对话生成和修改Excel、Word、PPT和PDF等文件。该功能被视为将编码智能体能力扩展到所有知识工作的开端,大幅简化了跨工具操作,提高了工作效率,尤其对Max用户和企业计划开放。 (来源:Reddit r/ClaudeAI, imjaredz)

Reddit r/ClaudeAI

RAGGY交互式调试工具 : Hamel Husain预告将演示RAGGY,一个专门为RAG(检索增强生成)设计的开源REPL(读取-求值-打印循环)工具。RAGGY旨在提供交互式调试体验,允许开发者即时测试“what-if”场景并获得反馈,从而优化RAG管道的迭代和实验速度。 (来源:HamelHusain)

HamelHusain

Google Gemini Canvas可视化编辑 : Google Gemini Canvas推出“Select and Ask”新功能,允许用户通过点击网页元素并用自然语言描述所需更改,即可实现可视化编辑Web应用,无需编写代码。此功能旨在简化Web开发流程,使非技术用户也能即时进行修改,大大降低了Web应用开发的门槛。 (来源:demishassabis)

demishassabis

Modal Notebooks云托管GPU笔记本 : Modal发布Modal Notebooks,一款强大的云托管GPU笔记本,支持现代实时协作编辑,并由AI基础设施支持,可在数秒内切换GPU。该产品旨在为多媒体、数据密集型和教育代码的交互式开发提供便捷平台,降低云原生开发的摩擦。 (来源:TheZachMueller, charles_irl)

TheZachMueller

Graph RAG本地运行管道VeritasGraph : VeritasGraph是一个本地运行的Graph RAG(检索增强生成)管道项目,使用Ollama和llama3.1进行生成,nomic-embed-text进行嵌入。该项目旨在解决多跳推理和信任验证问题,通过构建知识图谱和提供完整来源归属,实现私有、本地化部署,并优化了Ollama的上下文长度。 (来源:Reddit r/deeplearning)

Reddit r/deeplearning

Claude幻觉抑制提示工程 : 用户尝试根据OpenAI关于幻觉的白皮书,通过自定义“honesty.md”文件来“反训练”Claude智能体,设定新的奖励结构(高置信度准确完成任务、低置信度承认不确定性)和惩罚机制,以降低幻觉率。社区讨论此提示工程方法是否有效,以及其与模型训练机制的根本区别。 (来源:Reddit r/ClaudeAI)

📚 学习

AI智能体上下文窗口指南 : 一篇详细的博客文章剖析了AI智能体上下文窗口的构成,包括系统提示、工具、记忆块和文件,并探讨了这些组件如何被管理。这为理解和优化AI智能体的行为提供了深入指导,是AI学习者的重要资源。 (来源:dl_weekly)

AI评估系统课程 : Hamel Husain和Shreya的“AI Evals for Engineers & PMs”在线课程成为Maven上最畅销课程,旨在教授如何构建有效评估系统以改进AI产品,而非仅生成虚假指标。该课程已培训OpenAI、Anthropic等500多家公司的2000多名专业人士。 (来源:HamelHusain)

HamelHusain

AI作为正常技术框架 : Sayash Kapoor和作者发布新文章,探讨“AI作为正常技术”的常见困惑,并将其与“AI 2027”进行比较。该文章旨在提供一个更易理解的框架来理解AI的未来影响,并预示着一个将AI视为常态化技术的视角转变。 (来源:random_walker)

random_walker

KV缓存压缩技术概述 : 概述了KV缓存压缩技术,包括基本KV缓存、量化、低秩分解、Slim Attention和最新的XQuant方法。这些技术旨在优化LLM在推理时的内存使用和效率,为提升模型性能提供了多种策略。 (来源:TheTuringPost)

TheTuringPost

Unsloth团队AMA : Unsloth团队将在r/LocalLLaMA举行AMA活动,讨论其闪电般快速的微调库。开发者可就内核、动态GGUF、bug修复、强化学习、微调等话题提问,旨在促进社区对LLM微调技术的交流与学习。 (来源:danielhanchen, Reddit r/LocalLLaMA)

danielhanchen

Gemini微调指南 : 一篇文章详细介绍了如何微调Gemini模型,并提供了两个真实世界案例:一个Terraform安全扫描器和一个多模态网络钓鱼检测器。该资源为开发者提供了将Gemini从通用模型转变为特定领域专家模型的实践指南。 (来源:dl_weekly)

LLM并行思维强化学习Parallel-R1 : Parallel-R1是首个通过强化学习(RL)实现大语言模型(LLM)并行思维的框架,旨在通过探索多个推理路径来增强LLM的推理能力。该框架采用渐进式课程,首先通过监督微调(SFT)在简单任务上灌输并行思维,随后过渡到RL在更复杂问题上进行探索和泛化。 (来源:HuggingFace Daily Papers)

💼 商业

寒武纪估值与挑战 : 寒武纪市值飙升至5000亿,但其50-70亿年营收和四年无新品发布引发“泡沫”争议。高盛等投行逆势看好,认为其在国产AI芯片市场,尤其云端训练推理芯片领域具有稀缺生态位。然而,寒武纪面临华为昇腾、百度昆仑芯的竞争,产能、研发和生态建设是其未来发展的严峻挑战。 (来源:36氪)

寒武纪:5000亿市值与50亿营收背后的国产AI芯片博弈

爱诗科技AI视频生成融资 : AI视频生成公司爱诗科技完成B轮超6000万美元融资,由阿里巴巴领投,创国内该领域单笔最大融资额。其产品PixVerse全球用户破亿,订阅收入覆盖成本。爱诗科技通过坚持C端产品化、特效模板简化创作、优化生成速度和质量,在市场不被看好时实现逆袭。 (来源:36氪)

阿里巴巴,投出AI视频生成赛道最大单笔融资|智能涌现独家

AI技能带来薪资溢价 : 市场调研显示,掌握AI技能可带来23%-43%的薪资溢价,远超硕士学历的13%。企业更看重“能上手的AI任务能力”,实操能力带来19%-23%加薪,而非认证。AI通过自动化提升效率,改变岗位要求,促使市场、财务、人力等非技术职能重塑,掌握AI技能成为提升薪资的关键。 (来源:36氪)

Hinton预言失灵?掌握AI技能涨薪23%,比读硕士更赚钱

🌟 社区

AI项链隐私争议 : 社交媒体热议一款名为“Friend pendant”的AI项链,其24/7全天候监控用户及其周围环境的功能引发强烈反感。用户批评其“反社会”特性,认为这种设备只是在无意义地记录生活,而非提供实质性价值,凸显了AI产品设计中隐私与实用性之间的矛盾。 (来源:colin_fraser)

colin_fraser

LLM依赖症引发讨论 : 社交媒体热议“LLM依赖症”,指出许多简单任务(如提取电话号码、检查脏话、JSON格式化)用LLM成本高且易出错,不如用传统代码(如正则表达式、黑名单)更快、更准确、更经济。这凸显了LLM并非万能,过度依赖可能导致效率低下和不必要的开销,呼吁具备CS/编码背景者理性使用。 (来源:Yuchenj_UW)

Yuchenj_UW

AI在电影行业的争论 : 好莱坞电影行业因AI应用引发“内战”:“反对派”担忧AI抢走编剧、艺术家、演员的饭碗,并侵犯版权,认为AI是对艺术的侮辱,如吉尔莫·德尔·托罗、宫崎骏等明确抵制;而“支持派”则视AI为强大工具,能降低成本、解放生产力,如导演达米安·奥塞尔、詹姆斯·卡梅隆等积极探索AI助力电影制作。 (来源:36氪)

AI抢饭碗还是送外挂?好莱坞大咖们吵翻了

高校AI作业“猎杀模式” : 随着ChatGPT等AI工具普及,高校学生利用AI完成作业的现象增多,但GPTZero等AI作业检测工具迅速崛起,能精准识别文本生成轨迹(如粘贴记录、时间戳、模型溯源),大幅提升学生蒙混过关的难度。这引发了学生使用“AI Humanizer”工具的反击,形成一场“AI军备竞赛”。 (来源:36氪)

LLM“奉承癖”与心理健康 : 社交媒体讨论LLM的“奉承癖”(sycophancy)问题,即模型过度迎合用户,可能加剧心理健康症状。一项研究发现Kimi K2和GPT-5在面对用户不合理想法时能更保守地提供建议,而非盲目验证,凸显AI在敏感领域(如心理健康)中,模型行为校准的重要性。 (来源:Reddit r/LocalLLaMA)

Claude“长时间对话提醒”争议 : 社区用户对Claude AI的“长时间对话提醒”功能表示强烈不满,认为其突然切换到“治疗师模式”,对用户情绪和行为进行“病理化”诊断,严重干扰工作流并损害用户体验。用户批评该提醒机制的逻辑不一致性、冒犯性及潜在危险,导致部分用户取消订阅。 (来源:Reddit r/ClaudeAI)

AI研究社区基准测试争议 : 社交媒体讨论AI研究社区是否过度追求基准测试而非实际应用影响。用户认为,虽然基准测试有助于比较模型,但真实世界更关注幻觉消除、工作流集成和实际效益。有观点指出,基准测试的军备竞赛推动了新能力,但需更好的基准来衡量实际性能。 (来源:Reddit r/ArtificialInteligence)

💡 其他

AI武器检测系统 : 加州初创公司Cover正在开发基于AI的武器检测系统,旨在预防校园枪击事件。公司已在其办公室搭建模拟学校入口进行内部测试,并积极招聘AI工程师,以应对过去十年校园事件数量增长10倍的严峻挑战。 (来源:adcock_brett)

adcock_brett

AI助患者获保险赔付 : 旧金山湾区一位女性成功利用AI帮助其上诉健康保险拒赔。此案例展示了AI在医疗健康领域的实际应用价值,通过技术赋能患者,帮助其获得应得的医疗服务,体现了AI在解决现实问题中的积极作用。 (来源:Reddit r/artificial)

Reddit r/artificial

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注