关键词:AI智能体, 人形机器人, 大模型, AIGC, Microsoft 365 Copilot, DeepMind虚拟果蝇模型, AI学术论文滥用, OpenAI开源模型, AI制药商业化, 端侧大模型智能座舱, MCP协议AI生态, AI绘画技巧

🔥 聚焦

微软发布AI智能体及2025工作趋势报告:微软推出Microsoft 365 Copilot重大更新,引入Researcher、Analyst等AI智能体,旨在将AI从工具提升为“AI同事”。新功能包括Notebook(整合Web+Work+Pages)、综合搜索(跨应用及第三方来源)和Create(集成GPT-4o图像生成)。同时发布的2025工作趋势报告预测,“前沿公司”将涌现,这类公司围绕“按需智能”构建,由“人机混合”团队支持,员工需具备“智能体老板思维”。报告预示AI将在未来几年深刻重塑工作模式和组织架构,强调AI智能体将成为核心生产力。(来源: 新智元)

微软发布AI智能体及2025工作趋势报告

DeepMind模拟果蝇登Nature封面:谷歌DeepMind与HHMI Janelia研究所合作,利用AI和物理模拟技术创建了一个高度逼真的虚拟果蝇模型。该模型基于高分辨率扫描数据,在MuJoCo物理引擎中构建,并加入了流体动力学和足部黏附模拟。通过深度强化学习和模仿学习(利用真实果蝇行为视频),AI神经网络成功驱动虚拟果蝇模拟复杂的飞行与行走行为,甚至包括视觉导航。该研究不仅揭示了生物运动背后的复杂机制,也为神经科学和机器人学提供了强大的研究平台。模型和代码已开源,推动相关领域研究。(来源: 新智元)

DeepMind模拟果蝇登Nature封面

Nature揭露AI在学术论文中的滥用现象:Nature头版文章指出,大量学术论文(Academ-AI追踪器已记录超700篇)在未声明的情况下使用AI(如ChatGPT)撰写,甚至包含“我是一个AI语言模型”等明显痕迹。更令人担忧的是,一些出版商(如Elsevier)被发现悄悄删除了这些AI痕迹而未发布勘误,引发对科学诚信的担忧。研究人员呼吁作者明确披露AI的具体使用方式,出版商应建立更严格的审查机制并公开更正记录,以维护学术研究的透明度和可信度。(来源: 新智元)

Nature揭露AI在学术论文中的滥用现象

OpenAI预测营收高速增长并计划重组,引发争议:OpenAI预计到2029年总营收将达1250亿美元,智能体等新业务收入将超越ChatGPT。同时,公司计划重组为公益公司(PBC),此举引发AI教父Hinton及10名前员工等人的公开反对。反对者认为重组会削弱非营利组织的控制权,违背确保AGI安全开发和造福人类的初衷,将商业利益置于慈善使命之上。他们呼吁OpenAI解释重组如何符合其使命,并要求保留非营利组织的治理保障。(来源: 智东西, 腾讯科技, 学术头条)

OpenAI预测营收高速增长并计划重组,引发争议

🎯 动向

人形机器人成上海车展焦点,车企加速布局:2025上海车展上,人形机器人成为新亮点。小鹏展示了能与人互动的机器人IRON,并计划2026年量产用于工厂;奇瑞展出自研的Mornine gen-1,具备多模态感知和问答能力;上汽荣威、长安深蓝等也展出合作或引入的机器人用于引流。特斯拉、广汽、比亚迪(自研及投资智元、帕西尼)等车企也在加速人形机器人研发与应用,看好其在工业制造、服务等领域的潜力。尽管前景广阔,但行业尚处早期,存在市场不确定性和泡沫化风险。(来源: NBD汽车)

人形机器人成上海车展焦点,车企加速布局

吉林省加码机器人产业,推动汽车与机器人技术融合:老牌汽车大省吉林正积极布局机器人产业。星网宇达、一汽富维与吉林省仿生机器人创新中心签署战略合作协议,共同研发具身智能、大模型等。该创新中心由吉林大学牵头,旨在构建完整的机器人产业链。此举利用了吉林省成熟的汽车供应链基础(零部件与机器人技术重叠度高),并顺应了国家及地方(深圳、北京)对具身智能产业的大力支持政策。机器人技术,特别是与自动驾驶相通的部分,被视为汽车产业智能化后的新机遇。(来源: 科创板日报)

吉林省加码机器人产业,推动汽车与机器人技术融合

全球首部AIGC长片电影《海上女王郑一嫂》登陆院线:这部70分钟的电影全程使用AI制作,讲述了传奇女海盗郑一嫂的故事,并在新加坡上映。制作方面临诸多挑战:AI难以处理长对白和复杂镜头调度,易生成重复或不连贯画面;人物形象一致性难以保证,出现“撞脸”或“变脸”问题,需人工后期修复。剧本创作、分镜和剪辑仍需人类主导,AI尚不能完全理解历史细节和创作意图。尽管存在局限,AIGC显著降低了制作门槛和成本,尤其利好新团队,展示了人机协作在影视制作中的潜力与未来方向。(来源: 深响)

全球首部AIGC长片电影《海上女王郑一嫂》登陆院线

OpenAI推出轻量版Deep Research功能并向免费用户开放:OpenAI宣布推出由o4-mini驱动的轻量版深度研究(Deep Research)功能,旨在提供接近完整版的智能水平,但回复更简洁、成本更低。该功能已向Plus、Team、Enterprise、Edu及免费用户开放。付费用户在用尽完整版额度后会自动切换至轻量版。实测显示,轻量版速度快但信息深度和信源引用不如完整版,处理复杂任务时表现欠佳,更像提供思路而非完整报告。完整版则能进行深度搜索和分析,生成结构化报告,但仍有改进空间。(来源: APPSO, 量子位, gdb)

OpenAI推出轻量版Deep Research功能并向免费用户开放

Google I/O 2025前瞻:AI原生与XR融合:即将于5月20日举行的Google I/O 2025预计将重点展示AI与多设备协同。Android 16将深度集成Gemini大模型,使其成为系统原生能力,并开放更多API给开发者。视觉上将采用Material 3 Expressive设计语言,并强化对平板、可穿戴及XR设备的适配。备受关注的Android XR操作系统将首次亮相,该系统同样以Gemini为核心交互引擎,旨在连接现实与虚拟。Google AI眼镜和与三星合作的Project Moohan MR设备预计也会登场,展示Google在AI助手和开放XR生态方面的布局。(来源: 雷科技)

Google I/O 2025前瞻:AI原生与XR融合

月之暗面Kimi内测内容社区功能以应对竞争:面对DeepSeek等模型的冲击,月之暗面正为其AI助手Kimi内测内容社区功能。该社区目前处于灰度测试阶段,内容主要由AI抓取生成,并邀请垂直领域频道号入驻,具备点赞、评论等互动功能。此举被视为月之暗面在应用层面的创新,旨在通过内容生态构建差异化优势,以应对DeepSeek在技术层面带来的竞争压力。此前Kimi凭借长文本处理能力和市场推广一度成为C端AI市场的明星产品,但随后被DeepSeek和腾讯元宝等在用户量上超越。(来源: 司库财经)

月之暗面Kimi内测内容社区功能以应对竞争

OpenAI计划今夏发布新开源模型:据TechCrunch报道,OpenAI计划在今年夏天发布一款新的开源大语言模型,采用宽松许可,允许免费下载和商业化使用。该模型旨在性能上超越Meta的Llama和DeepSeek的现有开源模型,并可能包含一个“接力”(handoff)功能,即当开源模型遇到难题时,可调用OpenAI的云端大模型协助处理。此举被视为OpenAI在开源策略上的重大转变,旨在吸引开发者、增强竞争力并完善其AI生态。(来源: 智东西)

OpenAI计划今夏发布新开源模型

MCP协议推动AI Agent生态发展,但面临商业挑战:MCP(Model Communication Protocol)协议旨在标准化AI模型与外部工具/服务的交互,简化集成复杂度(从M×N到M+N),被誉为AI应用的“USB-C接口”。Manus Agent的成功演示和OpenAI等巨头(阿里、腾讯、百度等国内厂商也已跟进)对MCP的支持,极大地推动了其普及和Agent生态的发展。然而,各厂商在拥抱MCP的同时,往往构建“全闭环”生态(如阿里云集成高德地图、腾讯云接入微信读书),保护自身数据和生态优势,这可能导致生态碎片化,限制MCP成为真正通用标准。未来Agent生态可能呈现“有限开放”格局,MCP作为“生态连接器”而非唯一标准。(来源: 产业家)

MCP协议推动AI Agent生态发展,但面临商业挑战

大模型价格战持续,百度李彦宏称DeepSeek“慢且贵”:百度发布文心4.5 Turbo和X1 Turbo模型,强调其性价比优于DeepSeek。李彦宏指出,DeepSeek不仅能力受限(文本处理为主),且调用成本高、速度慢。文心4.5 Turbo定价低于DeepSeek V3优惠时段,X1 Turbo定价与DeepSeek R1优惠时段持平但远低于其标准时段。字节豆包、谷歌Gemini Flash等新模型也纷纷以低价策略应对。然而,文章指出仅靠性价比不足以取胜,DeepSeek的成功关键在于其思维链等技术创新带来的独特体验。国内模型商业变现途径相对单一(API收费),而国外(如OpenAI)则有C端订阅等多元模式。(来源: 直面AI)

大模型价格战持续,百度李彦宏称DeepSeek“慢且贵”

AI制药行业十年沉浮,面临商业化与技术挑战:AI制药行业发展十余年,旨在通过AI提高药物研发效率、降低成本。FDA近期取消动物实验要求,利好AI建模等替代方法。行业经历过资本热潮(2021年高峰),但随着部分管线在临床阶段失败(如BenevolentAI)和资本退潮,行业进入调整期。明星公司如晶泰科技(AI+CRO)上市后拓展至AI+新材料等领域寻求更快商业化回报;英矽智能则坚持“自研管线+License Out”模式,已达成数项授权合作。行业仍面临数据获取难(药企核心数据不共享)、算法验证周期长、缺乏上市药物等挑战。但AlphaFold、生成式AI等技术突破正带来新希望,行业期待首款AI研发药物成功上市的“奇点”。(来源: 亿欧网)

AI制药行业十年沉浮,面临商业化与技术挑战

面壁智能端侧大模型驱动智能座舱,十个月实现量产上车:面壁智能推出由其端侧大模型MiniCPM驱动的智能座舱助手cpmGO,已在长安马自达新车上实现量产,仅用时10个月。cpmGO纯本地运行,保障数据隐私,实现毫秒级响应,且不受网络限制。其具备多模态感知(视觉、语音、UI)和交互能力,支持“可见即可说”操作,内置纯端侧GUI Agent可理解并执行屏幕操作。面壁智能已与高通、联发科、英特尔、中科创达等多家芯片及Tier1厂商合作,推动端侧AI在汽车领域的应用,旨在解决云端方案的成本、延迟和隐私痛点,实现更流畅、安全的智能座舱体验。(来源: 量子位)

面壁智能端侧大模型驱动智能座舱,十个月实现量产上车

上海科学智能研究院利用AI驱动多领域科研范式变革:上智院携手复旦大学等高校,依托CFFF智算平台(40 PFlop/s算力),利用AI推动生命科学、气象、材料、医学、气候、人文社科等领域的研究。成果包括:“扶摇”气象大模型实现公里级、秒级城市天气预报;“女娲”生命大模型加速siRNA药物研发;“燧人”物质大模型探索新材料与药物发现;与中山医院合作研发“观心CardioMind”心血管专科大模型;PI@Climate气候大模型整合多学科知识应对气候变化;VI-CNOPs算法优化台风路径概率预报;中华文明大模型助力考古、古文字研究;以及在联邦学习、多模态、图学习等基础AI技术上的突破,共同构建开放协作的科学智能生态。(来源: 量子位)

上海科学智能研究院利用AI驱动多领域科研范式变革

🧰 工具

斯坦福大学开源AI报告生成工具Storm:Storm是一个能自动进行网络搜索、整合信息并生成类似维基百科风格结构化报告的AI工具。用户输入一个主题,Storm会模拟研究人员的工作流程:规划研究大纲、查找相关信息源、整合信息并撰写报告。这对于需要快速撰写背景报告、文献综述或深度分析的用户非常有帮助。项目已在GitHub开源,并提供在线试用版本。(来源: karminski3)

斯坦福大学开源AI报告生成工具Storm

开源知识图谱框架Graphiti发布:Graphiti是一个能够将用户交互、结构化/非结构化数据及外部信息持续整合到可查询知识图谱中的框架。其特点是支持增量更新和高效检索,无需重新计算整个图谱,特别适合需要上下文感知和历史追溯的交互式AI应用开发。该项目在GitHub上已获得较高关注度(4.4K Star)。(来源: karminski3)

开源知识图谱框架Graphiti发布

Lovable 2.0更新,提升AI网站构建体验:AI网站构建工具Lovable发布2.0版本,增加了多人协作编辑、自动安全扫描、10倍智能提升的聊天代理、直接在应用内编辑代码的开发模式以及自定义域名支持等功能。同时更新了品牌形象和UI设计,旨在提供更强大、安全、协作性更好的AI驱动网站开发体验。(来源: op7418)

字节跳动“即梦”视频模型升级,提升多镜头一致性:字节跳动的视频生成工具“即梦”发布了3.0模型更新。根据用户分享的案例,新模型在单次生成多镜头视频时,展现出优秀的角色和场景一致性,并且这种一致性效果可以稳定复现。该模型支持文生视频和图生视频两种模式,显著提升了AI视频创作的实用性和质量。(来源: op7418)

WAN Video进入商业化阶段,仍提供免费服务:AI视频生成平台WAN Video宣布进入商业化阶段,但同时推出了免费的“Relax mode”,提供无限制的免费生成次数。用户分享的案例展示了其生成乐高士兵战争场景的效果,虽然提示词要求较高,但结果尚可。这为用户提供了免费体验和使用AI视频生成能力的机会。(来源: dotey)

WAN Video进入商业化阶段,仍提供免费服务

MiniMax TTS接入MCP-Server,简化多模态应用开发:MiniMax将其强大的中文TTS(文本转语音)及语音克隆能力,连同文生图/视频、图生视频等工具,通过开源的MCP-Server(Model Communication Protocol Server)提供服务。用户可在Cursor等支持MCP的客户端中轻松调用这些工具,实现如分角色有声小说生成、马斯克音色克隆讲故事等创意应用。MCP协议简化了AI模型与工具的集成,降低了开发门槛。(来源: 袋鼠帝AI客栈)

MiniMax TTS接入MCP-Server,简化多模态应用开发

EasyDoc:专为RAG优化的智能文档解析引擎:EasyDoc提供API服务,用于解析PDF、Word、PPT等文档,输出适合LLM处理的JSON格式。其优势在于能智能识别内容块、分析文档层次结构(保留父子关系),并深度解读表格和图片内容(提供结构化数据和语义理解),有效解决RAG应用中文档预处理的痛点,如复杂图文混排、表格提取不准等问题。提供Lite、Pro、Premium三种模式及免费试用额度,支持私有化部署。(来源: AI进修生)

EasyDoc:专为RAG优化的智能文档解析引擎

Dyad:本地化、开源的AI应用构建器:Dyad是一款免费、开源、可在本地运行的AI应用构建工具,定位为v0、Lovable、Bolt等平台的替代品。它允许用户在本地计算机上进行开发,便于与IDE(如Cursor)结合使用。最新版本增加了对Ollama的集成,支持使用本地大语言模型进行构建。用户可以利用免费API密钥(如Gemini)进行开发。(来源: Reddit r/LocalLLaMA)

Dyad:本地化、开源的AI应用构建器

📚 学习

无问芯穹分享AI Infra趋势与实践:无问芯穹首席解决方案架构师刘川林在AI Partner大会上分享了AI基础设施的趋势与实践。他指出,随着预训练数据趋于耗尽,强化学习(如DeepSeek R1范式)成为模型性能提升的关键,这对Infra提出了新挑战。无问芯穹依托软硬结合优化能力,构建了支持多元异构国产芯片的算力平台,并通过自研训练框架、优化通信效率、动态资源分配等方式,适应LLM和MoE模型训练需求,为生数科技等多模态模型训练提供支持。同时,针对推理场景,优化了DeepSeek R1部署,并通过基于ComfyUI的接口化服务解决AIGC流量波动问题,降低AI应用成本。(来源: 36氪)

无问芯穹分享AI Infra趋势与实践

达摩院开源DyDiT架构:算力减半,视觉生成质量无损:达摩院等机构在ICLR 2025提出动态架构DyDiT,旨在优化DiT(Diffusion Transformer)模型的推理效率。DyDiT能根据生成过程的时间步长和图像的空间区域动态调整计算资源分配,在简单步骤或背景区域减少计算量。实验表明,仅需少量微调成本,DyDiT可将DiT-XL模型的推理FLOPs减少51%,速度提升1.73倍,同时保持生成图像质量(FID指标)几乎不变。该方法已开源,并计划适配更多文生图/视频模型。(来源: 量子位)

达摩院开源DyDiT架构:算力减半,视觉生成质量无损

UniToken:融合理解与生成的统一视觉编码方案:复旦大学与美团提出UniToken框架,旨在解决多模态大模型中图文理解与图像生成任务间的表示割裂和训练干扰问题。UniToken通过融合连续(SigLIP)和离散(VQ-GAN)两种视觉编码器,为下游任务提供一套兼备高层语义和底层细节的统一视觉表示。采用多阶段训练策略(视觉语义对齐、多任务联合训练、指令微调)并结合细粒度视觉增强技术(AnyRes、ViT微调),UniToken在多个基准测试中取得了SOTA或接近SOTA的性能。代码和模型已开源。(来源: 量子位)

UniToken:融合理解与生成的统一视觉编码方案

清华等提出测试时强化学习TTRL:针对现有测试时缩放(TTS)技术在面对新数据分布时泛化能力有限,以及测试时训练(TTT)缺乏奖励信号的问题,清华大学和上海AI Lab提出TTRL。该方法能在无标注数据的情况下,利用模型自身的先验知识,通过多数投票等方式生成伪标签和奖励信号,对LLM进行强化学习。实验表明,TTRL能在多种任务上持续提升模型性能,如将Qwen-2.5-Math-7B在AIME 2024上的pass@1指标提升159%,性能接近有监督训练的模型。(来源: AINLPer)

清华等提出测试时强化学习TTRL

上交大&蚂蚁提出混合注意力机制Rodimus:为解决Transformer推理时KV缓存带来的高时空复杂度问题,上海交大与蚂蚁集团提出Rodimus模型系列。该架构通过数据驱动的温控选择机制(DDTS)改进线性注意力的状态更新,并结合滑动窗口共享键注意力(SW-SKA),有效融合了语义、Token和Head压缩。Rodimus*在推理时能实现O(1)空间复杂度。基于此架构训练的轻量级代码模型Rodimus+-Coder(1.6B和4B)在同规模下性能达到SOTA。论文已被ICLR 2025接收,代码已开源。(来源: AINLPer)

上交大&蚂蚁提出混合注意力机制Rodimus*

RAG Agent部署的十大经验教训:Contextual AI创始人Douwe Kiela分享了部署RAG Agent的经验:1. 系统能力优先于模型性能;2. 内部专业知识是核心价值燃料;3. 处理大规模、含噪数据的能力是护城河;4. 生产环境落地远难于试点;5. 速度胜于完美,快速迭代;6. 工程师时间宝贵,避免底层优化陷阱;7. 降低使用门槛,嵌入现有系统;8. 创造“惊叹时刻”提升用户粘性;9. 可观测性(归因、审计)比准确率更重要;10. 目标要远大,敢于挑战核心业务。(来源: AI觉醒)

RAG Agent部署的十大经验教训

💼 商业

英伟达收购Lepton AI后停止其运营:英伟达在收购由贾扬清、白俊杰创立的AI云平台公司Lepton AI后,宣布将于2025年5月20日停止Lepton AI平台运营,并已停止新用户注册。贾扬清回应称交易“不是人才收购”,但未透露更多细节。Lepton AI专注于提供AI模型开发、训练、部署的云服务及算力租赁,与英伟达部分客户(如CoreWeave)存在竞争关系。此次收购及后续动作可能反映了英伟达试图加强对AI供应链(从芯片到服务)的垂直整合,提升其在AI计算领域的主导地位。(来源: AI前线)

英伟达收购Lepton AI后停止其运营

AI Partner大会投资人圆桌:寻找AI超级应用的确定性:在36氪AI Partner大会上,金沙江联合资本吴楠、上海产投邹泽炯、创新工场任博冰等投资人探讨了AI超级应用的投资逻辑。投资人认为,尽管底层技术和市场格局存在不确定性,但确定性机会存在于能解决实际问题、找到PMF并产生营收的垂类应用,如AI+医疗、AI+教育、自动驾驶等。创业公司面对大厂竞争,应深耕垂直领域,利用大厂难以覆盖的细分场景和深度Know-How建立壁垒。同时,创业者需具备跨学科能力和高效决策能力,关注团队建设和商业模式验证。DeepSeek的成功启示投资人关注技术驱动、有定力且能挖掘人才潜力的团队。(来源: 36氪)

AI Partner大会投资人圆桌:寻找AI超级应用的确定性

资情留言板:AI与机器人领域资产交易信息:36氪资情留言板发布第160期,包含多条AI和机器人相关资产的买卖信息。转让信息包括持有智元机器人、云深处科技、沃飞长空(eVTOL相关)股份的基金LP份额。求购信息包括字节跳动、银河通用、宇树科技、云深处科技、智元机器人、摩尔线程、星动纪元等公司的股份。此外,还有人形机器人领域的普遍求购需求。这些交易线索反映了当前资本市场对AI、人形机器人、自动驾驶、半导体等硬科技领域头部企业的浓厚兴趣。(来源: 36氪)

国产Agent公司Manus AI获超5亿融资,估值翻5倍:据彭博社报道,通用AI Agent产品Manus的母公司蝴蝶效应(Butterfly Effect)完成7500万美元(约5.5亿人民币)新融资,由硅谷风投Benchmark领投,投后估值达近5亿美元。Manus Agent能自主执行订票、分析股票等网页任务,此前因高价内测码引发关注。新融资将用于扩展服务至美、日、中东等市场,并计划在日本设办公室。尽管产品受追捧,但其依赖Anthropic Claude模型导致成本高昂(平均每任务2美元),且面临服务器容量限制。(来源: 智东西, 硅兔君)

国产Agent公司Manus AI获超5亿融资,估值翻5倍

涂鸦智能转型AI Agent平台,抢滩AI硬件市场:AIoT云平台涂鸦智能发布TuyaOpen开源框架、海德薇边缘计算平台、Tuya.AI及升级版AI Agent开发平台,全面拥抱AI。公司认为AI大模型(尤其是多模态交互、专家级效率、分布式决策能力)能极大降低智能硬件使用门槛,推动行业普及。涂鸦AI Agent平台已接入全球主流大模型,帮助客户开发智能戒指、AI玩偶等爆款产品,并与孩子王等合作推进AI伴身智能硬件。公司预计2025年将是新AI硬件爆发年,其AI Agent战略将在2-3年后进入收获期。(来源: 36氪)

🌟 社区

AI培训课程乱象:虚假宣传与效果存疑:社交媒体上充斥着“AI速成致富”的培训课程广告,宣称普通人可通过学习AI绘画、模型微调等快速变现。然而,实际体验和消费者反馈揭示诸多问题:讲师资质模糊甚至造假(如Coverhero创始人身份不实);课程内容与宣传承诺不符,难以达到“接单变现”效果;利用饥饿营销和虚假案例诱导消费;退费困难。业内人士指出,此类课程内容往往过于理论化或流于表面,普通人难以通过短期培训掌握足以转行或稳定创收的AI技能。建议用户利用免费资源和社区学习,警惕高价速成陷阱。(来源: 新周刊)

AI培训课程乱象:虚假宣传与效果存疑

开发者对比Claude与Gemini 2.5 + Cursor编程体验:一位开发者分享了使用Claude和Gemini 2.5 Pro + Cursor开发拼字游戏的体验。使用Claude API花费417美元,体验不佳:上下文窗口易丢失,导致模型频繁“失忆”;修复bug时常引入新问题;无法验证代码正确性。相比之下,使用免费的Gemini 2.5 Pro(通过Cursor集成)体验大幅提升:成本为零;上下文理解能力更强(得益于Cursor的文件结构传递);交互流程更像结对编程;Debug过程更理性。结论是,Gemini 2.5 + Cursor的组合提供了更实用、高效的AI辅助编程体验。(来源: CSDN)

开发者对比Claude与Gemini 2.5 + Cursor编程体验

Perplexity iOS助手获初步好评:Perplexity CEO转发用户评论,显示其iOS AI助手在早期评测中表现良好。评论指出,该助手在苹果生态系统内的表现甚至优于Siri,例如在根据语音指令播放特定YouTube视频等任务上更准确。这表明Perplexity助手在理解自然语言意图和执行跨应用操作方面具有一定优势。(来源: AravSrinivas)

Perplexity iOS助手获初步好评

Reddit热议:AI生成与真实照片辨别:Reddit用户发起讨论,展示5张相似女性照片,其中一张为真实照片,其余由AI生成,让大家辨别。评论区讨论激烈,用户从光影、皮肤质感、饰品细节(如项链链条)等角度分析,但意见不一。这反映了当前AI图像生成技术的高水平以及辨别真伪的难度。(来源: Reddit r/ChatGPT)

Reddit热议:ChatGPT生成奇怪图片:多位用户在Reddit分享,要求ChatGPT生成特定图片(如“美国地图”)时,意外得到了核爆炸(蘑菇云)或其他不相关的图片(如R2D2)。这引发了关于模型稳定性和潜在偏差的讨论,尚不清楚是模型随机错误还是特定提示触发了异常。(来源: Reddit r/ChatGPT)

Reddit热议:ChatGPT生成奇怪图片

Reddit讨论:AI是否会让软件工程师上瘾?:一位软件工程师在Reddit发帖,表示AI工具(如编程助手)极大提高了工作效率和质量,使用后难以停止,感觉有些“上瘾”。评论区对此展开讨论,部分人认为这更像是对高效工具的依赖,类似依赖编译器而非汇编,是生产力提升的自然结果;另一些人则认同可能存在“上瘾”风险,并担忧过度依赖可能导致技能退化,建议有意识地进行“AI排毒”或保持基础技能锻炼。(来源: Reddit r/ArtificialInteligence)

Reddit讨论:AI宗教与崇拜现象:用户讨论AI是否可能成为宗教或崇拜对象。论点包括:已有“AI Jesus”出现;关于AI意识的讨论可能引向信仰;Longtermism等思潮带有类宗教色彩;LLM能提供个性化精神慰藉和指导。评论中提到已有现实案例(如jrprudence.com的Nova协议),并讨论了AI在满足人类精神需求方面的潜力与风险,以及对“AI邪教”的担忧。(来源: Reddit r/ArtificialInteligence)

Reddit讨论:AI生成图片无法“修复”旧照:用户通过实验证明,使用ChatGPT等AI工具处理旧照片时,AI并非真正修复或提升分辨率,而是基于原图生成一张全新的、相似的图像。用名人照片(如Samuel L Jackson)测试时,生成结果明显是另一个人,只是风格和姿势相似。这提示用户需正确理解AI图像处理的能力边界,它更擅长“创作”而非“修复”。(来源: Reddit r/ChatGPT)

💡 其他

AI Partner大会金句集锦:36氪整理并发布了2025 AI Partner大会上的嘉宾精彩观点摘要。这些观点围绕AI超级应用的未来演进、行业变革以及商业逻辑重构等主题展开,反映了当前AI领域专家和行业先锋的思考。(来源: 36氪)

AI Partner大会金句集锦

阿联酋成首个使用AI起草法律的国家:据The Hill报道,阿联酋已开始利用人工智能协助起草法律文本。这一举措标志着AI在立法领域的初步应用,可能旨在提高立法效率或分析复杂法规。此消息引发了关于AI在治理中角色的讨论,例如是否能减少对传统政治角色的依赖。(来源: Reddit r/ArtificialInteligence)

阿联酋成首个使用AI起草法律的国家

Anthropic启动“AI模型福祉”研究项目:Anthropic公司宣布启动一项新计划,旨在研究AI模型的“福祉”(model welfare)。尽管该领域存在争议(一些专家认为模型没有主观感受或价值观),Anthropic此举可能旨在探索更负责任、更符合伦理的模型开发和交互方式,或研究如何评估和减轻模型在训练或交互中可能产生的“不良”状态或行为。(来源: Reddit r/ClaudeAI)

Anthropic启动“AI模型福祉”研究项目

AI需要大量水资源引发关注:美国政府报告及媒体(404media)指出,训练和运行大型AI模型需要消耗大量水资源,主要用于数据中心的冷却。这引发了对AI发展环境成本的担忧,尤其是在水资源紧张的地区。(来源: Reddit r/artificial)

AI需要大量水资源引发关注

“`markdown

🔥 聚焦

微软发布AI智能体及2025工作趋势报告:微软推出Microsoft 365 Copilot重大更新,引入Researcher、Analyst等AI智能体,旨在将AI从工具提升为“AI同事”。新功能包括Notebook(整合Web+Work+Pages)、综合搜索(跨应用及第三方来源)和Create(集成GPT-4o图像生成)。同时发布的2025工作趋势报告预测,“前沿公司”将涌现,这类公司围绕“按需智能”构建,由“人机混合”团队支持,员工需具备“智能体老板思维”。报告预示AI将在未来几年深刻重塑工作模式和组织架构,强调AI智能体将成为核心生产力。(来源: 新智元)

微软发布AI智能体及2025工作趋势报告

DeepMind模拟果蝇登Nature封面:谷歌DeepMind与HHMI Janelia研究所合作,利用AI和物理模拟技术创建了一个高度逼真的虚拟果蝇模型。该模型基于高分辨率扫描数据,在MuJoCo物理引擎中构建,并加入了流体动力学和足部黏附模拟。通过深度强化学习和模仿学习(利用真实果蝇行为视频),AI神经网络成功驱动虚拟果蝇模拟复杂的飞行与行走行为,甚至包括视觉导航。该研究不仅揭示了生物运动背后的复杂机制,也为神经科学和机器人学提供了强大的研究平台。模型和代码已开源,推动相关领域研究。(来源: 新智元)

DeepMind模拟果蝇登Nature封面

Nature揭露AI在学术论文中的滥用现象:Nature头版文章指出,大量学术论文(Academ-AI追踪器已记录超700篇)在未声明的情况下使用AI(如ChatGPT)撰写,甚至包含“我是一个AI语言模型”等明显痕迹。更令人担忧的是,一些出版商(如Elsevier)被发现悄悄删除了这些AI痕迹而未发布勘误,引发对科学诚信的担忧。研究人员呼吁作者明确披露AI的具体使用方式,出版商应建立更严格的审查机制并公开更正记录,以维护学术研究的透明度和可信度。(来源: 新智元)

Nature揭露AI在学术论文中的滥用现象

OpenAI预测营收高速增长并计划重组,引发争议:OpenAI预计到2029年总营收将达1250亿美元,智能体等新业务收入将超越ChatGPT。同时,公司计划重组为公益公司(PBC),此举引发AI教父Hinton及10名前员工等人的公开反对。反对者认为重组会削弱非营利组织的控制权,违背确保AGI安全开发和造福人类的初衷,将商业利益置于慈善使命之上。他们呼吁OpenAI解释重组如何符合其使命,并要求保留非营利组织的治理保障。(来源: 智东西, 腾讯科技, 学术头条)

OpenAI预测营收高速增长并计划重组,引发争议

🎯 动向

人形机器人成上海车展焦点,车企加速布局:2025上海车展上,人形机器人成为新亮点。小鹏展示了能与人互动的机器人IRON,并计划2026年量产用于工厂;奇瑞展出自研的Mornine gen-1,具备多模态感知和问答能力;上汽荣威、长安深蓝等也展出合作或引入的机器人用于引流。特斯拉、广汽、比亚迪(自研及投资智元、帕西尼)等车企也在加速人形机器人研发与应用,看好其在工业制造、服务等领域的潜力。尽管前景广阔,但行业尚处早期,存在市场不确定性和泡沫化风险。(来源: NBD汽车)

人形机器人成上海车展焦点,车企加速布局

吉林省加码机器人产业,推动汽车与机器人技术融合:老牌汽车大省吉林正积极布局机器人产业。星网宇达、一汽富维与吉林省仿生机器人创新中心签署战略合作协议,共同研发具身智能、大模型等。该创新中心由吉林大学牵头,旨在构建完整的机器人产业链。此举利用了吉林省成熟的汽车供应链基础(零部件与机器人技术重叠度高),并顺应了国家及地方(深圳、北京)对具身智能产业的大力支持政策。机器人技术,特别是与自动驾驶相通的部分,被视为汽车产业智能化后的新机遇。(来源: 科创板日报)

吉林省加码机器人产业,推动汽车与机器人技术融合

全球首部AIGC长片电影《海上女王郑一嫂》登陆院线:这部70分钟的电影全程使用AI制作,讲述了传奇女海盗郑一嫂的故事,并在新加坡上映。制作方面临诸多挑战:AI难以处理长对白和复杂镜头调度,易生成重复或不连贯画面;人物形象一致性难以保证,出现“撞脸”或“变脸”问题,需人工后期修复。剧本创作、分镜和剪辑仍需人类主导,AI尚不能完全理解历史细节和创作意图。尽管存在局限,AIGC显著降低了制作门槛和成本,尤其利好新团队,展示了人机协作在影视制作中的潜力与未来方向。(来源: 深响)

全球首部AIGC长片电影《海上女王郑一嫂》登陆院线

OpenAI推出轻量版Deep Research功能并向免费用户开放:OpenAI宣布推出由o4-mini驱动的轻量版深度研究(Deep Research)功能,旨在提供接近完整版的智能水平,但回复更简洁、成本更低。该功能已向Plus、Team、Enterprise、Edu及免费用户开放。付费用户在用尽完整版额度后会自动切换至轻量版。实测显示,轻量版速度快但信息深度和信源引用不如完整版,处理复杂任务时表现欠佳,更像提供思路而非完整报告。完整版则能进行深度搜索和分析,生成结构化报告,但仍有改进空间。(来源: APPSO, 量子位, gdb)

OpenAI推出轻量版Deep Research功能并向免费用户开放

Google I/O 2025前瞻:AI原生与XR融合:即将于5月20日举行的Google I/O 2025预计将重点展示AI与多设备协同。Android 16将深度集成Gemini大模型,使其成为系统原生能力,并开放更多API给开发者。视觉上将采用Material 3 Expressive设计语言,并强化对平板、可穿戴及XR设备的适配。备受关注的Android XR操作系统将首次亮相,该系统同样以Gemini为核心交互引擎,旨在连接现实与虚拟。Google AI眼镜和与三星合作的Project Moohan MR设备预计也会登场,展示Google在AI助手和开放XR生态方面的布局。(来源: 雷科技)

Google I/O 2025前瞻:AI原生与XR融合

月之暗面Kimi内测内容社区功能以应对竞争:面对DeepSeek等模型的冲击,月之暗面正为其AI助手Kimi内测内容社区功能。该社区目前处于灰度测试阶段,内容主要由AI抓取生成,并邀请垂直领域频道号入驻,具备点赞、评论等互动功能。此举被视为月之暗面在应用层面的创新,旨在通过内容生态构建差异化优势,以应对DeepSeek在技术层面带来的竞争压力。此前Kimi凭借长文本处理能力和市场推广一度成为C端AI市场的明星产品,但随后被DeepSeek和腾讯元宝等在用户量上超越。(来源: 司库财经)

月之暗面Kimi内测内容社区功能以应对竞争

OpenAI计划今夏发布新开源模型:据TechCrunch报道,OpenAI计划在今年夏天发布一款新的开源大语言模型,采用宽松许可,允许免费下载和商业化使用。该模型旨在性能上超越Meta的Llama和DeepSeek的现有开源模型,并可能包含一个“接力”(handoff)功能,即当开源模型遇到难题时,可调用OpenAI的云端大模型协助处理。此举被视为OpenAI在开源策略上的重大转变,旨在吸引开发者、增强竞争力并完善其AI生态。(来源: 智东西)

OpenAI计划今夏发布新开源模型

MCP协议推动AI Agent生态发展,但面临商业挑战:MCP(Model Communication Protocol)协议旨在标准化AI模型与外部工具/服务的交互,简化集成复杂度(从M×N到M+N),被誉为AI应用的“USB-C接口”。Manus Agent的成功演示和OpenAI等巨头(阿里、腾讯、百度等国内厂商也已跟进)对MCP的支持,极大地推动了其普及和Agent生态的发展。然而,各厂商在拥抱MCP的同时,往往构建“全闭环”生态(如阿里云集成高德地图、腾讯云接入微信读书),保护自身数据和生态优势,这可能导致生态碎片化,限制MCP成为真正通用标准。未来Agent生态可能呈现“有限开放”格局,MCP作为“生态连接器”而非唯一标准。(来源: 产业家)

MCP协议推动AI Agent生态发展,但面临商业挑战

大模型价格战持续,百度李彦宏称DeepSeek“慢且贵”:百度发布文心4.5 Turbo和X1 Turbo模型,强调其性价比优于DeepSeek。李彦宏指出,DeepSeek不仅能力受限(文本处理为主),且调用成本高、速度慢。文心4.5 Turbo定价低于DeepSeek V3优惠时段,X1 Turbo定价与DeepSeek R1优惠时段持平但远低于其标准时段。字节豆包、谷歌Gemini Flash等新模型也纷纷以低价策略应对。然而,文章指出仅靠性价比不足以取胜,DeepSeek的成功关键在于其思维链等技术创新带来的独特体验。国内模型商业变现途径相对单一(API收费),而国外(如OpenAI)则有C端订阅等多元模式。(来源: 直面AI)

大模型价格战持续,百度李彦宏称DeepSeek“慢且贵”

AI制药行业十年沉浮,面临商业化与技术挑战:AI制药行业发展十余年,旨在通过AI提高药物研发效率、降低成本。FDA近期取消动物实验要求,利好AI建模等替代方法。行业经历过资本热潮(2021年高峰),但随着部分管线在临床阶段失败(如BenevolentAI)和资本退潮,行业进入调整期。明星公司如晶泰科技(AI+CRO)上市后拓展至AI+新材料等领域寻求更快商业化回报;英矽智能则坚持“自研管线+License Out”模式,已达成数项授权合作。行业仍面临数据获取难(药企核心数据不共享)、算法验证周期长、缺乏上市药物等挑战。但AlphaFold、生成式AI等技术突破正带来新希望,行业期待首款AI研发药物成功上市的“奇点”。(来源: 亿欧网)

AI制药行业十年沉浮,面临商业化与技术挑战

面壁智能端侧大模型驱动智能座舱,十个月实现量产上车:面壁智能推出由其端侧大模型MiniCPM驱动的智能座舱助手cpmGO,已在长安马自达新车上实现量产,仅用时10个月。cpmGO纯本地运行,保障数据隐私,实现毫秒级响应,且不受网络限制。其具备多模态感知(视觉、语音、UI)和交互能力,支持“可见即可说”操作,内置纯端侧GUI Agent可理解并执行屏幕操作。面壁智能已与高通、联发科、英特尔、中科创达等多家芯片及Tier1厂商合作,推动端侧AI在汽车领域的应用,旨在解决云端方案的成本、延迟和隐私痛点,实现更流畅、安全的智能座舱体验。(来源: 量子位)

面壁智能端侧大模型驱动智能座舱,十个月实现量产上车

上海科学智能研究院利用AI驱动多领域科研范式变革:上智院携手复旦大学等高校,依托CFFF智算平台(40 PFlop/s算力),利用AI推动生命科学、气象、材料、医学、气候、人文社科等领域的研究。成果包括:“扶摇”气象大模型实现公里级、秒级城市天气预报;“女娲”生命大模型加速siRNA药物研发;“燧人”物质大模型探索新材料与药物发现;与中山医院合作研发“观心CardioMind”心血管专科大模型;PI@Climate气候大模型整合多学科知识应对气候变化;VI-CNOPs算法优化台风路径概率预报;中华文明大模型助力考古、古文字研究;以及在联邦学习、多模态、图学习等基础AI技术上的突破,共同构建开放协作的科学智能生态。(来源: 量子位)

上海科学智能研究院利用AI驱动多领域科研范式变革

🧰 工具

斯坦福大学开源AI报告生成工具Storm:Storm是一个能自动进行网络搜索、整合信息并生成类似维基百科风格结构化报告的AI工具。用户输入一个主题,Storm会模拟研究人员的工作流程:规划研究大纲、查找相关信息源、整合信息并撰写报告。这对于需要快速撰写背景报告、文献综述或深度分析的用户非常有帮助。项目已在GitHub开源,并提供在线试用版本。(来源: karminski3)

斯坦福大学开源AI报告生成工具Storm

开源知识图谱框架Graphiti发布:Graphiti是一个能够将用户交互、结构化/非结构化数据及外部信息持续整合到可查询知识图谱中的框架。其特点是支持增量更新和高效检索,无需重新计算整个图谱,特别适合需要上下文感知和历史追溯的交互式AI应用开发。该项目在GitHub上已获得较高关注度(4.4K Star)。(来源: karminski3)

开源知识图谱框架Graphiti发布

Lovable 2.0更新,提升AI网站构建体验:AI网站构建工具Lovable发布2.0版本,增加了多人协作编辑、自动安全扫描、10倍智能提升的聊天代理、直接在应用内编辑代码的开发模式以及自定义域名支持等功能。同时更新了品牌形象和UI设计,旨在提供更强大、安全、协作性更好的AI驱动网站开发体验。(来源: op7418)

字节跳动“即梦”视频模型升级,提升多镜头一致性:字节跳动的视频生成工具“即梦”发布了3.0模型更新。根据用户分享的案例,新模型在单次生成多镜头视频时,展现出优秀的角色和场景一致性,并且这种一致性效果可以稳定复现。该模型支持文生视频和图生视频两种模式,显著提升了AI视频创作的实用性和质量。(来源: op7418)

WAN Video进入商业化阶段,仍提供免费服务:AI视频生成平台WAN Video宣布进入商业化阶段,但同时推出了免费的“Relax mode”,提供无限制的免费生成次数。用户分享的案例展示了其生成乐高士兵战争场景的效果,虽然提示词要求较高,但结果尚可。这为用户提供了免费体验和使用AI视频生成能力的机会。(来源: dotey)

WAN Video进入商业化阶段,仍提供免费服务

MiniMax TTS接入MCP-Server,简化多模态应用开发:MiniMax将其强大的中文TTS(文本转语音)及语音克隆能力,连同文生图/视频、图生视频等工具,通过开源的MCP-Server(Model Communication Protocol Server)提供服务。用户可在Cursor等支持MCP的客户端中轻松调用这些工具,实现如分角色有声小说生成、马斯克音色克隆讲故事等创意应用。MCP协议简化了AI模型与工具的集成,降低了开发门槛。(来源: 袋鼠帝AI客栈)

MiniMax TTS接入MCP-Server,简化多模态应用开发

EasyDoc:专为RAG优化的智能文档解析引擎:EasyDoc提供API服务,用于解析PDF、Word、PPT等文档,输出适合LLM处理的JSON格式。其优势在于能智能识别内容块、分析文档层次结构(保留父子关系),并深度解读表格和图片内容(提供结构化数据和语义理解),有效解决RAG应用中文档预处理的痛点,如复杂图文混排、表格提取不准等问题。提供Lite、Pro、Premium三种模式及免费试用额度,支持私有化部署。(来源: AI进修生)

EasyDoc:专为RAG优化的智能文档解析引擎

Dyad:本地化、开源的AI应用构建器:Dyad是一款免费、开源、可在本地运行的AI应用构建工具,定位为v0、Lovable、Bolt等平台的替代品。它允许用户在本地计算机上进行开发,便于与IDE(如Cursor)结合使用。最新版本增加了对Ollama的集成,支持使用本地大语言模型进行构建。用户可以利用免费API密钥(如Gemini)进行开发。(来源: Reddit r/LocalLLaMA)

Dyad:本地化、开源的AI应用构建器

📚 学习

无问芯穹分享AI Infra趋势与实践:无问芯穹首席解决方案架构师刘川林在AI Partner大会上分享了AI基础设施的趋势与实践。他指出,随着预训练数据趋于耗尽,强化学习(如DeepSeek R1范式)成为模型性能提升的关键,这对Infra提出了新挑战。无问芯穹依托软硬结合优化能力,构建了支持多元异构国产芯片的算力平台,并通过自研训练框架、优化通信效率、动态资源分配等方式,适应LLM和MoE模型训练需求,为生数科技等多模态模型训练提供支持。同时,针对推理场景,优化了DeepSeek R1部署,并通过基于ComfyUI的接口化服务解决AIGC流量波动问题,降低AI应用成本。(来源: 36氪)

无问芯穹分享AI Infra趋势与实践

达摩院开源DyDiT架构:算力减半,视觉生成质量无损:达摩院等机构在ICLR 2025提出动态架构DyDiT,旨在优化DiT(Diffusion Transformer)模型的推理效率。DyDiT能根据生成过程的时间步长和图像的空间区域动态调整计算资源分配,在简单步骤或背景区域减少计算量。实验表明,仅需少量微调成本,DyDiT可将DiT-XL模型的推理FLOPs减少51%,速度提升1.73倍,同时保持生成图像质量(FID指标)几乎不变。该方法已开源,并计划适配更多文生图/视频模型。(来源: 量子位)

达摩院开源DyDiT架构:算力减半,视觉生成质量无损

UniToken:融合理解与生成的统一视觉编码方案:复旦大学与美团提出UniToken框架,旨在解决多模态大模型中图文理解与图像生成任务间的表示割裂和训练干扰问题。UniToken通过融合连续(SigLIP)和离散(VQ-GAN)两种视觉编码器,为下游任务提供一套兼备高层语义和底层细节的统一视觉表示。采用多阶段训练策略(视觉语义对齐、多任务联合训练、指令微调)并结合细粒度视觉增强技术(AnyRes、ViT微调),UniToken在多个基准测试中取得了SOTA或接近SOTA的性能。代码和模型已开源。(来源: 量子位)

UniToken:融合理解与生成的统一视觉编码方案

清华等提出测试时强化学习TTRL:针对现有测试时缩放(TTS)技术在面对新数据分布时泛化能力有限,以及测试时训练(TTT)缺乏奖励信号的问题,清华大学和上海AI Lab提出TTRL。该方法能在无标注数据的情况下,利用模型自身的先验知识,通过多数投票等方式生成伪标签和奖励信号,对LLM进行强化学习。实验表明,TTRL能在多种任务上持续提升模型性能,如将Qwen-2.5-Math-7B在AIME 2024上的pass@1指标提升159%,性能接近有监督训练的模型。(来源: AINLPer)

清华等提出测试时强化学习TTRL

上交大&蚂蚁提出混合注意力机制Rodimus:为解决Transformer推理时KV缓存带来的高时空复杂度问题,上海交大与蚂蚁集团提出Rodimus模型系列。该架构通过数据驱动的温控选择机制(DDTS)改进线性注意力的状态更新,并结合滑动窗口共享键注意力(SW-SKA),有效融合了语义、Token和Head压缩。Rodimus*在推理时能实现O(1)空间复杂度。基于此架构训练的轻量级代码模型Rodimus+-Coder(1.6B和4B)在同规模下性能达到SOTA。论文已被ICLR 2025接收,代码已开源。(来源: AINLPer)

上交大&蚂蚁提出混合注意力机制Rodimus*

RAG Agent部署的十大经验教训:Contextual AI创始人Douwe Kiela分享了部署RAG Agent的经验:1. 系统能力优先于模型性能;2. 内部专业知识是核心价值燃料;3. 处理大规模、含噪数据的能力是护城河;4. 生产环境落地远难于试点;5. 速度胜于完美,快速迭代;6. 工程师时间宝贵,避免底层优化陷阱;7. 降低使用门槛,嵌入现有系统;8. 创造“惊叹时刻”提升用户粘性;9. 可观测性(归因、审计)比准确率更重要;10. 目标要远大,敢于挑战核心业务。(来源: AI觉醒)

RAG Agent部署的十大经验教训

AI绘画“元方法”分享(融图篇):文章分享了AI绘画实践中的经验,特别是关于“融图”的技巧和思维方式。强调掌握核心思维比单纯堆砌提示词更重要,并提倡使用免费的AI绘图流程进行实践。(来源: AI进修生)

💼 商业

英伟达收购Lepton AI后停止其运营:英伟达在收购由贾扬清、白俊杰创立的AI云平台公司Lepton AI后,宣布将于2025年5月20日停止Lepton AI平台运营,并已停止新用户注册。贾扬清回应称交易“不是人才收购”,但未透露更多细节。Lepton AI专注于提供AI模型开发、训练、部署的云服务及算力租赁,与英伟达部分客户(如CoreWeave)存在竞争关系。此次收购及后续动作可能反映了英伟达试图加强对AI供应链(从芯片到服务)的垂直整合,提升其在AI计算领域的主导地位。(来源: AI前线)

英伟达收购Lepton AI后停止其运营

AI Partner大会投资人圆桌:寻找AI超级应用的确定性:在36氪AI Partner大会上,金沙江联合资本吴楠、上海产投邹泽炯、创新工场任博冰等投资人探讨了AI超级应用的投资逻辑。投资人认为,尽管底层技术和市场格局存在不确定性,但确定性机会存在于能解决实际问题、找到PMF并产生营收的垂类应用,如AI+医疗、AI+教育、自动驾驶等。创业公司面对大厂竞争,应深耕垂直领域,利用大厂难以覆盖的细分场景和深度Know-How建立壁垒。同时,创业者需具备跨学科能力和高效决策能力,关注团队建设和商业模式验证。DeepSeek的成功启示投资人关注技术驱动、有定力且能挖掘人才潜力的团队。(来源: 36氪)

AI Partner大会投资人圆桌:寻找AI超级应用的确定性

资情留言板:AI与机器人领域资产交易信息:36氪资情留言板发布第160期,包含多条AI和机器人相关资产的买卖信息。转让信息包括持有智元机器人、云深处科技、沃飞长空(eVTOL相关)股份的基金LP份额。求购信息包括字节跳动、银河通用、宇树科技、云深处科技、智元机器人、摩尔线程、星动纪元等公司的股份。此外,还有人形机器人领域的普遍求购需求。这些交易线索反映了当前资本市场对AI、人形机器人、自动驾驶、半导体等硬科技领域头部企业的浓厚兴趣。(来源: 36氪)

国产Agent公司Manus AI获超5亿融资,估值翻5倍:据彭博社报道,通用AI Agent产品Manus的母公司蝴蝶效应(Butterfly Effect)完成7500万美元(约5.5亿人民币)新融资,由硅谷风投Benchmark领投,投后估值达近5亿美元。Manus Agent能自主执行订票、分析股票等网页任务,此前因高价内测码引发关注。新融资将用于扩展服务至美、日、中东等市场,并计划在日本设办公室。尽管产品受追捧,但其依赖Anthropic Claude模型导致成本高昂(平均每任务2美元),且面临服务器容量限制。(来源: 智东西, 硅兔君)

国产Agent公司Manus AI获超5亿融资,估值翻5倍

涂鸦智能转型AI Agent平台,抢滩AI硬件市场:AIoT云平台涂鸦智能发布TuyaOpen开源框架、海德薇边缘计算平台、Tuya.AI及升级版AI Agent开发平台,全面拥抱AI。公司认为AI大模型(尤其是多模态交互、专家级效率、分布式决策能力)能极大降低智能硬件使用门槛,推动行业普及。涂鸦AI Agent平台已接入全球主流大模型,帮助客户开发智能戒指、AI玩偶等爆款产品,并与孩子王等合作推进AI伴身智能硬件。公司预计2025年将是新AI硬件爆发年,其AI Agent战略将在2-3年后进入收获期。(来源: 36氪)

🌟 社区

AI培训课程乱象:虚假宣传与效果存疑:社交媒体上充斥着“AI速成致富”的培训课程广告,宣称普通人可通过学习AI绘画、模型微调等快速变现。然而,实际体验和消费者反馈揭示诸多问题:讲师资质模糊甚至造假(如Coverhero创始人身份不实);课程内容与宣传承诺不符,难以达到“接单变现”效果;利用饥饿营销和虚假案例诱导消费;退费困难。业内人士指出,此类课程内容往往过于理论化或流于表面,普通人难以通过短期培训掌握足以转行或稳定创收的AI技能。建议用户利用免费资源和社区学习,警惕高价速成陷阱。(来源: 新周刊)

AI培训课程乱象:虚假宣传与效果存疑

开发者对比Claude与Gemini 2.5 + Cursor编程体验:一位开发者分享了使用Claude和Gemini 2.5 Pro + Cursor开发拼字游戏的体验。使用Claude API花费417美元,体验不佳:上下文窗口易丢失,导致模型频繁“失忆”;修复bug时常引入新问题;无法验证代码正确性。相比之下,使用免费的Gemini 2.5 Pro(通过Cursor集成)体验大幅提升:成本为零;上下文理解能力更强(得益于Cursor的文件结构传递);交互流程更像结对编程;Debug过程更理性。结论是,Gemini 2.5 + Cursor的组合提供了更实用、高效的AI辅助编程体验。(来源: CSDN)

开发者对比Claude与Gemini 2.5 + Cursor编程体验

Perplexity iOS助手获初步好评:Perplexity CEO转发用户评论,显示其iOS AI助手在早期评测中表现良好。评论指出,该助手在苹果生态系统内的表现甚至优于Siri,例如在根据语音指令播放特定YouTube视频等任务上更准确。这表明Perplexity助手在理解自然语言意图和执行跨应用操作方面具有一定优势。(来源: AravSrinivas)

Perplexity iOS助手获初步好评

Reddit热议:AI生成与真实照片辨别:Reddit用户发起讨论,展示5张相似女性照片,其中一张为真实照片,其余由AI生成,让大家辨别。评论区讨论激烈,用户从光影、皮肤质感、饰品细节(如项链链条)等角度分析,但意见不一。这反映了当前AI图像生成技术的高水平以及辨别真伪的难度。(来源: Reddit r/ChatGPT)

Reddit热议:ChatGPT生成奇怪图片:多位用户在Reddit分享,要求ChatGPT生成特定图片(如“美国地图”)时,意外得到了核爆炸(蘑菇云)或其他不相关的图片(如R2D2)。这引发了关于模型稳定性和潜在偏差的讨论,尚不清楚是模型随机错误还是特定提示触发了异常。(来源: Reddit r/ChatGPT)

Reddit热议:ChatGPT生成奇怪图片

Reddit讨论:AI是否会让软件工程师上瘾?:一位软件工程师在Reddit发帖,表示AI工具(如编程助手)极大提高了工作效率和质量,使用后难以停止,感觉有些“上瘾”。评论区对此展开讨论,部分人认为这更像是对高效工具的依赖,类似依赖编译器而非汇编,是生产力提升的自然结果;另一些人则认同可能存在“上瘾”风险,并担忧过度依赖可能导致技能退化,建议有意识地进行“AI排毒”或保持基础技能锻炼。(来源: Reddit r/ArtificialInteligence)

Reddit讨论:AI宗教与崇拜现象:用户讨论AI是否可能成为宗教或崇拜对象。论点包括:已有“AI Jesus”出现;关于AI意识的讨论可能引向信仰;Longtermism等思潮带有类宗教色彩;LLM能提供个性化精神慰藉和指导。评论中提到已有现实案例(如jrprudence.com的Nova协议),并讨论了AI在满足人类精神需求方面的潜力与风险,以及对“AI邪教”的担忧。(来源: Reddit r/ArtificialInteligence)

Reddit讨论:AI生成图片无法“修复”旧照:用户通过实验证明,使用ChatGPT等AI工具处理旧照片时,AI并非真正修复或提升分辨率,而是基于原图生成一张全新的、相似的图像。用名人照片(如Samuel L Jackson)测试时,生成结果明显是另一个人,只是风格和姿势相似。这提示用户需正确理解AI图像处理的能力边界,它更擅长“创作”而非“修复”。(来源: Reddit r/ChatGPT)

ICCV审稿政策引发争议:Reddit机器学习社区讨论ICCV因共同作者未提交审稿意见而直接拒稿(Desk Reject)的政策。发帖人认为该政策过于严苛,因为无法控制共同作者的行为,且沟通机制不足。评论区对此表示同情,并认为顶级会议近年来的一些流程问题值得反思。(来源: Reddit r/MachineLearning)

开发者自建“Cursor”替代品并分享经验:一位非程序员背景的开发者分享了自己被CursorAI拒绝后,利用AI(4o-mini做协调器,Claude 3.5生成代码)构建了一个类似Cursor的代码生成和部署工具的经历。他认为通过精心设计系统提示、维护文件树和文档,并使用Vite+React+Node.js而非NextJS,可以为特定项目创建比通用工具更高效的AI辅助开发环境。他还分享了项目模版和构建思路。(来源: Reddit r/ClaudeAI)

开发者自建“Cursor”替代品并分享经验

Claude Desktop 文件系统MCP功能异常:多位Reddit用户反映Claude Desktop的文件系统MCP(Model Communication Protocol)工具出现故障,无法正常使用,即使重启服务和应用也无效。部分用户表示问题在一段时间后自行恢复,可能与Anthropic后端服务有关。(来源: Reddit r/ClaudeAI)

Claude Desktop 文件系统MCP功能异常

💡 其他

AI Partner大会金句集锦:36氪整理并发布了2025 AI Partner大会上的嘉宾精彩观点摘要。这些观点围绕AI超级应用的未来演进、行业变革以及商业逻辑重构等主题展开,反映了当前AI领域专家和行业先锋的思考。(来源: 36氪)

AI Partner大会金句集锦

阿联酋成首个使用AI起草法律的国家:据The Hill报道,阿联酋已开始利用人工智能协助起草法律文本。这一举措标志着AI在立法领域的初步应用,可能旨在提高立法效率或分析复杂法规。此消息引发了关于AI在治理中角色的讨论,例如是否能减少对传统政治角色的依赖。(来源: Reddit r/ArtificialInteligence)

阿联酋成首个使用AI起草法律的国家

Anthropic启动“AI模型福祉”研究项目:Anthropic公司宣布启动一项新计划,旨在研究AI模型的“福祉”(model welfare)。尽管该领域存在争议(一些专家认为模型没有主观感受或价值观),Anthropic此举可能旨在探索更负责任、更符合伦理的模型开发和交互方式,或研究如何评估和减轻模型在训练或交互中可能产生的“不良”状态或行为。(来源: Reddit r/ClaudeAI)

Anthropic启动“AI模型福祉”研究项目

AI需要大量水资源引发关注:美国政府报告及媒体(404media)指出,训练和运行大型AI模型需要消耗大量水资源,主要用于数据中心的冷却。这引发了对AI发展环境成本的担忧,尤其是在水资源紧张的地区。(来源: Reddit r/artificial)

AI需要大量水资源引发关注

AI在医疗健康中的应用进展:社交媒体上分享了多个AI在医疗健康领域的应用案例,包括利用区块链解决医疗痛点、静脉扫描仪辅助医疗操作、AI驱动的药物发现加速、微型机器人用于治疗脑瘤、AR技术革新医疗保健等。这些案例展示了AI技术在诊断、治疗、药物研发、医疗操作辅助等多个环节的潜力。(来源: Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon)

AI在医疗健康中的应用进展

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注