AI科技精读:主动式AI成新风向,具身智能商业化提速
在 OpenAI 举办的一场企业活动上,公司 CEO 萨姆·奥尔特曼提出了 AI 产品开发的三阶段理论。他认为,继聊天机器人和 AI 智能体(Agent)之后,行业下一阶段的发展重点将是"主动式 AI(Proactive AI)",即能够在后台持续运行并主动为用户提供帮助的 AI 系统。奥尔特曼将当前 AI 产品的发展划分为三个阶段:第一阶段是以 ChatGPT 为代表的聊天机器人;第二阶段是能够执行具体任务的 AI 智能体系统,例如 Codex;而第三阶段则是进一步提升自动化程度的"主动式 AI"。他表示"我打赌接下来出现的就会是这种持续运行的主动式 AI",并认为这是未来一年最值得准备的方向。主动式 AI 将能够在后台持续运行,在用户未主动请求的情况下,提前预判需求并主动提供帮助。
说人话: AI 正在从"你问我答"变成"我主动帮你",未来 AI 会像一个贴身管家,不用你说就会提前准备好你需要的帮助。
高盛最新预测显示,SpaceX 若想在 IPO 中支撑 1.78 万亿美元估值,关键押注在 AI 业务。按照高盛的模型,SpaceX AI 部门收入需要到 2030 年增长约 100 倍。预测显示,SpaceX AI 部门收入将从 2025 年的 32 亿美元增至 2030 年的 3220 亿美元,SpaceX 总收入则将从去年的 187 亿美元增至 2030 年的 4740 亿美元。这组激进预测凸显出,大型科技公司推动 AI 投资热潮时,背后依赖的是非常大胆的增长假设。这轮 AI 投资热潮已经带动美国股市连续创下新高,SpaceX 已启动 IPO 路演,最高可能融资 860 亿美元。SpaceX 招股书显示,其估值基础之一是 xAI 的潜在市场规模。目前的 SpaceX 是马斯克旗下横跨火箭、卫星互联网和聊天机器人业务的集团,其中 xAI 是 SpaceX 的 AI 部门,2025 年亏损约 10 亿美元。
说人话: SpaceX 要上市估值 1.78 万亿美元,全靠押注 AI 业务 5 年内赚 100 倍,这就像赌徒押全部身家翻盘,风险极大但回报也惊人。
戴盟机器人近日完成亿元 A 轮融资,由汇川技术旗下产业基金汇川产投与中国电信联合投资。资金将用于进一步打造超大规模含物理交互信息数据集,加速物理世界模型研发,并驱动真实物理场景下的数据飞轮与商业闭环。戴盟机器人于 2023 年正式运营,核心团队长期聚焦机器人灵巧操作与物理交互智能领域。联合创始人兼首席科学家王煜教授曾任港科大机器人研究院创始院长,他所提出的"具身技能"与"技能克隆"等概念,是戴盟机器人核心技术路线的重要组成部分。创始人兼 CEO 段江哗博士及主要技术负责人均来自港科大机器人研究院核心团队,具备 10 年操作智能 Know-how。首席 AI 科学家原玮浩曾为阿里通义实验室多模态研究专家,拥有将世界模型迁移至机器人物理操作的前沿经验。随着人形落地从舞台演示走向实景作业,整机精细化实操门槛持续抬升,能否采集高质量物理交互数据,已经成为具身智能领域的关键竞争壁垒。
说人话: 一家深圳机器人公司拿到了汇川和中国电信的投资,他们的传感器能让机器人"摸得准",在这个细分领域已经是行业第一了。
苏州材科源图正式发布全球首个有机高分子材料研发应用智能体(Organic Polymer Agent)。该智能体依托自主构建的通用材料科学智能体框架,面向高分子材料研发场景打造专家级人工智能系统,推动"人工驱动"向"人工智能协同驱动"加速跃迁,为高新材料的高效自主研发提供了关键的技术支撑。有机高分子应用智能体聚焦高分子材料研发中的关键痛点,融合材料知识图谱、多模态数据理解、大模型推理与领域机理模型能力,构建覆盖"设计-预测-优化-决策"的全流程智能研发体系。依托这一技术架构,系统可实现高分子分子结构设计与性能预测、配方体系智能生成与多目标优化、工艺参数推荐与实验路径规划,以及文献知识解析、研发知识沉淀等核心功能,推动材料研发从长期依赖专家经验、试错成本高、知识难以沉淀复用的行业瓶颈中突破。
说人话: 研发新材料就像猜谜,现在有了 AI 智能体能帮你设计配方、预测性能、优化工艺,就像给科学家配了个超级助手。
Endava 正在使用 AI 智能体、ChatGPT Enterprise 和 Codex 来加速软件交付、自动化工作流程,并在整个企业范围内构建 AI 原生文化。作为一家数字化转型服务公司,Endava 将 AI 智能体深度集成到软件开发全流程中,从需求分析、代码生成、测试到部署,实现了前所未有的效率提升。Endava 的案例展示了企业如何将 AI 智能体从"概念验证"推向"规模化生产",为其他公司提供了可参考的实施路径。该案例还强调了 AI 智能体在企业部署中的关键成功因素:逐步推进、员工培训、安全可控、持续优化。
说人话: 一家叫 Endava 的公司把 AI 融入到写软件的每个环节,从写代码到测试都让 AI 帮忙,效率提升了好几倍,就像给程序员配了个智能助手。
大规模网络爬取数据集推动了跨模态检索的进步,但不可避免地遭受噪声对应关系的困扰,这严重降低了模型的泛化能力。现有方法主要通过过滤噪声或寻找替代标签来解决这一问题,但它们主要仍受限于"离散选择"范式。研究人员指出,依赖单一离散代理会导致"单点脆弱性"和"离散化误差"。针对这一问题,新提出的"Intra-Modal Neighbors Never Lie"方法通过基于图的内模态推理来纠正跨模态噪声对应关系。该方法利用模态内邻居的一致性来识别和纠正噪声,避免了过度依赖单一标签的问题,提升了跨模态检索的鲁棒性和准确性。这一研究为多模态 AI 系统在真实场景中的可靠部署提供了重要技术支撑。
说人话: 多模态 AI 就像同时看图和读文,但如果图片和文字不匹配就会出错。新方法通过检查"同类的图片"来判断真假,就像通过对比相似答案来找出错误信息。
部署大型语言模型面临显著的内存和计算要求挑战。虽然一些方法通过从头开发小型或微型语言模型来解决这一问题,但这些方法需要大量的 GPU 训练。压缩预训练的 LLM 以部署到边缘设备提供了一个有吸引力的替代方案。除了剪枝和量化之外,神经架构搜索(NAS)可以实现有效压缩,但之前的 NAS 方法通常只关注剪枝或量化中的一个,导致次优的压缩结果。新研究提出了"LLM Compression with Jointly Optimizing Architectural and Quantization choices"方法,联合优化架构和量化选择,同时探索网络结构和量化比特位,实现了更好的压缩效果。该方法通过自动化搜索最优架构-量化配置组合,显著减少了 LLM 的内存占用和计算开销,同时保持了模型性能。
说人话: 大模型太占资源跑不动,新方法像给模型"瘦身",同时精简结构和精度,让小设备也能跑大模型。
真正的通用智能不仅需要物理世界模型,还需要社会世界模型:推断个体心理状态如何相互作用并结晶为群体层面结果的能力。尽管在个体层面的心理推理方面取得了显著进展,但现有的多模态大语言模型在这个更广泛的任务上失败了。集体行为从社会张力、从众动态和结构影响中非线性地涌现,需要将个体心智建模与涌现的群体结果联系起来。GroupToM-Bench 是首个专门评估多模态大模型群体心理推理能力的基准测试,通过复杂的社会场景测试模型理解群体心理动态、预测集体行为的能力。该基准填补了 AI 社会智能评估的空白,为推动 AI 在社交场景中的可靠应用提供了重要工具。
说人话: AI 不仅要懂物理世界,还要懂社交世界。新测试像让 AI 理解"一个人开心"和"一群人开心"的区别,看它能不能读懂群体心理。
企业人工智能智能体的前置部署验证仍然是大语言模型能力基准测试与生产部署之间的关键差距。部署后监控、人在回路控制和提示级保护措施一旦智能体在生产环境中运行,只能提供有限的保证。研究人员提出了基于本体论的验证框架,结合三个组件:智能体操作包络、本体论模拟环境和信任认证体系。该框架通过在生产前模拟智能体在各种场景下的行为,评估其安全性、可靠性和合规性,为企业的 AI 智能体部署提供了前置风险管控工具。这一研究填补了企业 AI 智能体验证领域的空白,为企业规模化部署 AI 智能体提供了重要保障。
说人话: AI 智能体上线前要先"模拟考试",在各种场景里测试它的安全性和可靠性,就像新药上市前要做临床试验一样。
随着大语言模型被更广泛地部署,它们越来越多地被期望与其他 AI 智能体协作工作,而不是独立运行。在这些设置中有效的协作需要智能体能够交流、共享信息并在不确定性下做出决策。SMAC-Talk 是星际争霸多智能体挑战的自然语言扩展,用于评估基于 LLM 的智能体在协作多智能体环境中的能力。该环境为测试智能体的自然语言交流、信息共享和决策协调能力提供了基准平台。研究人员通过 SMAC-Talk 评估了当前 LLM 在协作场景中的表现,发现了它们在多智能体协调和自然语言交流方面的优势和局限。这一研究为推动 LLM 在多智能体协作中的应用提供了重要评估工具。
说人话: 让 AI 在"星际争霸"游戏里组队打怪,通过聊天交流配合,看它们能不能像人类玩家一样合作完成任务。
大语言模型智能体积累的历史记录会超出它们的上下文窗口,这推动了一个关于记忆系统的不断增长的文献。然而,大多数现有设计都针对单一场景(多会话聊天或单一轨迹格式)进行调优,几乎没有证据表明它们能够泛化到智能体在部署中遇到的异构轨迹。研究人员重新审视了八个记忆系统加上针对搜索问题的智能体工具,在五个场景上进行了评估:单一轨迹格式、多会话聊天、搜索任务、长程规划和复杂决策。研究发现,现有的记忆系统在跨场景泛化方面存在显著局限,大多数设计在超出训练场景时性能大幅下降。研究提出了一个强基准测试和诊断框架,为未来记忆系统的研究提供了重要参考。
说人话: AI 的记忆系统就像人的记忆,有些人在某些场合记性好,换个场合就记不住了。研究发现现有 AI 记忆系统也有这个问题。
阿尔茨海默病(AD)影响全球超过 5500 万人。通过常规临床评估准确、可解释地检测正常认知(NC)、轻度认知障碍(MCI)和 AD 仍然是一个关键的未满足需求。研究人员开发了一个 XGBoost 分类器,使用来自阿尔茨海默病神经影像学倡议(ADNI)的八个临床特征进行三分类检测:简易精神状态检查(MMSE)、临床痴呆评级(CDR)全局、CDR 盒总和(CDR-SB)、年龄、教育年限、APOE ε4 等位基因状态、功能性活动问卷(FAQ)和临床痴呆评级-暂定(CDR-SB)。该模型在 ADNI 数据集上实现了高准确率,并提供了可解释的决策依据,为阿尔茨海默病的早期诊断和干预提供了重要工具。
说人话: AI 通过分析病人的 8 项检查数据,就能提前判断会不会得老年痴呆,准确率很高还能告诉医生为什么这么判断。
为数字硬件设计自动生成 RTL 代码仍然具有挑战性,因为存在长期推理、多步依赖以及 Verilog 和 VHDL 中的严格正确性约束。StepPRM-RTL 是一个新颖的框架,结合了逐步轨迹建模、过程奖励建模(PRM)和检索增强微调(RAFT),以增强基于 LLM 的 RTL 代码生成的功能正确性和推理保真度。该框架通过逐步生成和验证 RTL 代码,结合检索到的相关代码示例,显著提高了硬件设计自动化的效率和准确性。这一研究为数字硬件设计的自动化提供了重要技术支撑,有望大幅降低硬件开发的门槛和成本。
说人话: 写芯片代码很难,新框架像给 AI 配了个"老师",一步步教它写代码、查错、改错,让 AI 写的硬件代码更可靠。
随着自主 AI 智能体从对话系统转向长期软件执行,决定何时中断智能体的运行时安全层变得至关重要。研究人员使用连续 18 维情感动态引擎(HEART)作为诊断探针来研究这个时机问题,评估了四种干预触发机制:绝对状态阈值、复合状态-动作模式、正则推理特征提取和零样本 LLM 判决。研究发现,基于情感的触发器和 LLM 判决在时机选择上存在系统性失败,经常错过最佳干预窗口或过早/过晚干预。这一研究揭示了当前 AI 智能体安全机制的局限性,为改进智能体安全设计提供了重要洞察。
说人话: AI 智能体干活时要防它出错,但什么时候叫停它是个大问题。研究发现现有方法经常把握不好时机,要么叫早了要么叫晚了。
大语言模型越来越多地被用于日常健康问题,包括用户是否可以安全地再次服用某种非处方(OTC)药物。然而,这个常见的安全相关设置在现有的医学 QA 评估中仍未得到充分探索,其中正确答案需要跟踪剂量时间、计算 24 小时滚动摄入量、遵循产品标签约束以及处理不完整的用药史。研究人员引入了一个专注于 OTC 剂量问答的新基准测试,评估 LLM 在时序不确定性下的决策能力。研究发现,即使是当前最先进的 LLM,在处理需要时序推理和剂量计算的医疗问题时也存在显著困难。这一研究为提升 LLM 在医疗问答中的可靠性和安全性提供了重要方向。
说人话: 病人问"我还能再吃这药吗?",AI 需要算上次吃的是什么时候、24 小时内吃了多少、说明书怎么说,这比想象中难多了。
今天的 AI 科技动态呈现出几个明显的趋势特征:
1. 主动式 AI 成为新方向 OpenAI CEO 奥尔特曼明确提出"主动式 AI"作为聊天机器人和智能体之后的下一阶段,这标志着 AI 正从"被动响应"向"主动服务"演进。主动式 AI 的核心价值在于持续运行、预判需求、无需用户请求即可提供帮助,这将彻底改变人机交互模式。从企业需求驱动来看,智能体虽然备受关注,但用户面临整合困难,主动式 AI 有望解决这一痛点。
2. 具身智能商业化加速 戴盟机器人获得亿元融资,其"视触觉"传感器出货量行业第一,说明具身智能领域已经从学术研究走向商业落地。具身智能的关键竞争壁垒是物理交互数据,谁能采集高质量数据,谁就能建立护城河。国内机器人公司在传感器、数据集、物理世界模型等关键环节已经形成优势,未来在工业机器人、服务机器人等领域有望实现突破。
3. AI 部署从实验室走向生产 今天的多篇论文关注企业 AI 智能体的前置验证、跨场景泛化、安全干预等实际问题,说明 AI 部署已经从"概念验证"阶段进入"规模化生产"阶段。企业需要的不再是"能用的模型",而是"可靠的系统"。前置验证框架、跨场景记忆系统、干预时机优化等技术,都是为了让 AI 在真实生产环境中安全、可靠、可控地运行。
4. 多模态 AI 向社会智能演进 GroupToM-Bench 基准测试评估 AI 的群体心理推理能力,说明多模态 AI 正在从"理解物理世界"向"理解社会世界"演进。真正的通用智能不仅需要物理世界模型,还需要社会世界模型,理解个体心理如何形成群体结果。这一方向对 AI 在社交、协作、管理等领域应用至关重要。
5. AI 安全与可解释性日益重要 医疗 AI 的可解释性、LLM 医疗问答的时序推理、智能体安全干预时机等问题,都反映了 AI 部署对安全性和可解释性的迫切需求。AI 不再是"黑箱",而需要提供可解释的决策依据、可靠的安全保障,特别是在医疗、金融、交通等高风险领域。
6. 资本市场对 AI 增长预期过高 高盛预测 SpaceX AI 部门收入需要到 2030 年增长 100 倍才能支撑 1.78 万亿美元估值,这种激进预测凸显了资本市场对 AI 增长的超高预期。虽然 AI 确实是未来趋势,但 100 倍增长的目标极其困难,一旦实际增长不及预期,可能引发估值调整。
整理时间:2026 年 6 月 5 日 数据