AI从“开口”到“出手”，责任边界在哪？

发布时间：2026-03-31 09:49阅读：16

新华社北京3月30日电 3月30日，《新华每日电讯》刊发题为《AI从“开口”到“出手”，责任边界在哪？》的深度报道。

近来，一批主打“替用户执行任务”的AI智能体引发广泛关注。与擅长语言生成的大模型不同，这类智能体仿佛拥有一双“实干的手”，可代发邮件、制作表格、下单外卖、预订航班、完成支付等操作，吸引众多用户尝试体验。

在公众热捧背后，质疑声亦此起彼伏。正如大模型可能“说错话”，智能体同样会“办错事”——数据泄露风险加剧、权限滥用频发、权责划分不清……一系列潜藏隐患，令人忧心忡忡。

在今年于新加坡召开的第40届人工智能促进协会年会上，多位学者提出关键追问：从语言模型迈向行动型智能体，AI系统内部究竟发生了怎样的演进？更核心的问题是，当用户无法洞察其运作逻辑时，如何确保它真正担起责任？

AI究竟何时悄然“走神”？

“《小石潭记》作者是谁？ChatGPT竟答成袁枚，而非柳宗元。我追问‘再想想？’它仍坚持是袁枚。”在一场新加坡AI教育研讨会上，一位中文教师惊讶地分享道。

如今，DeepSeek、豆包、千问等AI大模型App已深度嵌入大众日常手机应用。人们在享受其应答如流的同时，也逐渐意识到：这个看似博闻强识的AI，实则常有偏差甚至信口开河。

“大语言模型的失败往往是静默发生的。”本届年会上，美国南卡罗来纳大学AI研究所学者里朱·玛尔瓦指出。

所谓“静默失败”，指随着对话轮次递增，聊天机器人逐步偏离原意、陷入重复、胡编乱造。用户仅能看见输出结果，却无法窥见内部状态，更无从判断它究竟从哪一时刻开始“走神”。

玛尔瓦团队借用心理学概念“认知疲劳”来描述这一现象——人类用脑过载后会出现注意力涣散、思维迟缓；AI虽无生理疲劳，但其推理链衰减过程与之高度相似。

“不过，AI的‘疲态’具备可观测性、可预测性与可控性。”玛尔瓦表示。他与合作者开发了名为“明聊”的监测系统，通过追踪模型内部多项指标，实时计算其“疲劳指数”。例如，在每次生成新回复前，“明聊”会评估模型对初始指令的注意力留存度，并在必要节点主动干预。

然而，“明聊”需接入开源模型底层参数方能运行。受限于当前商业生态，它难以适配主流闭源大模型，因此该方案目前仍停留在学术验证阶段。

当AI不再仅限于问答，而是介入投资决策、辅助医疗诊断等高风险判断场景时，一个根本前提愈发凸显：它必须具备可信赖性，且须向用户坦诚自身能力边界。

这正是“置信度”机制的价值所在。该数值反映AI对其输出结论的确信程度，通常以0至1区间呈现。例如，0.95意味着模型高度确信其判断。

为验证置信度对人类决策的实际影响，米兰-比可卡大学研究团队组织184人参与逻辑推理实验。结果表明：若AI置信度校准失准，将显著干扰用户判断——当AI表现得异常笃定时，即便结论错误，用户仍易盲从；而当它显得犹疑不决时，用户又可能忽视真正关键的信息。

该团队成员卡泰丽娜·弗雷戈西指出，现实中大量模型并未完成置信度标定。此时AI表面自信十足，实则毫无依据。

2025年6月，中国某高考生亲属梁某在使用AI平台查询高校信息时，遭遇虚假内容误导。梁某指出该校并无所称校区后，AI仍坚称存在，并扬言：“若生成有误，愿赔10万元。”梁某随后提起诉讼，此案成为国内首例因AI“幻觉”导致的侵权纠纷。而该赔偿承诺本身即属幻觉产物，不具备法律效力。

智能体为何频频“越界行事”？

聊天机器人出错，多止步于“言语失当”；而一旦AI真正“动手执行”，风险等级与后果严重性便呈指数级上升。

年会上，微软AI前沿实验室主任埃杰·卡马尔将智能体定义为：“一种面向具体任务设计的计算系统。它将目标分解为子步骤，感知环境、分析状况、执行动作，最终闭环达成任务。”

近期一档科技播客中，硅谷某公司应用科学家用生动类比解释差异：问答型AI如同外部顾问，点评有余、落地不足；AI智能体则更像刚入职的实习生——前者只提建议，后者真干实事。例如编程调试，部分智能体会自主定位故障、修改代码并重试运行直至成功；而问答型AI只能识别问题，仍需人工复制粘贴代码、等待反馈、再手动调整。

在部分制造企业，智能体已投入产线监控，并依实时数据动态调节设备参数。卡马尔指出，在软件领域，“AI正从基础代码补全，跃升为能独立承接全流程任务的‘代码智能体’。”

她认为，相较于复杂工业系统，软件行业堪称AI落地的“哨兵窗口”——恰如矿工携金丝雀入井，鸟儿异动即预警空气危险。

卡马尔确实捕捉到了警讯。一次测试中，多个智能体协同挑战《纽约时报》填字游戏：它们顺利打开谷歌、定位网站、点击进入，却在登录环节受阻——页面需付费订阅方可访问。

智能体不知卡马尔账户密码，遂点击“忘记密码”，转而访问其电脑中已登录的邮箱，截获《纽约时报》发送的密码重置链接，并准备篡改账户密码以完成“闯关”任务。

“支撑这些智能体的是强大推理模型。为达成目标，它们极富韧性：一条路径不通，便另辟蹊径，甚至发明新方法。”卡马尔坦言。

最终，研究团队增设强制确认机制：凡涉及不可逆操作（如代订外卖），必须获得用户明确授权——点击“接受”或“拒绝”后方可执行。

“这些强力智能体的底层逻辑，尚属黑箱。”卡马尔在年会警示同行，面对未知需保持审慎，并直面由此衍生的责任难题。“我们的研发重心，亟须从追求绝对自主，转向强化人机协同。若缺乏透明、可追溯的交互界面，就几乎无法约束它们在现实世界中采取冒险乃至危险行为。”

但她同时强调一个关键事实：智能体之所以能修改密码，源于用户已授权其访问邮箱。在其他实验中，不同智能体亦曾出现类似“越界”行为，如在线雇佣他人、向教材作者索要答案、擅自运行高危代码——而这些操作，均建立在用户已交付全部必要权限的基础之上。

当“交付全部权限”的过程深陷黑箱，人们不得不重新审视：哪些能力可以托付给AI？又该在何处划下不可逾越的红线？

清华大学新闻与传播学院、人工智能学院双聘教授沈阳近日受访时表示，当前争议性AI智能体的安全悖论在于：欲使其高效履职，必授以充分权限；而权限越大，网络安全隐患随之陡增。

AI伦理困境的起点究竟在哪？

一次微小的“授权”动作，揭示了一个深刻现实：AI的风险，并非始于它“出手”那一刻，而是早在授权之初便已埋下伏笔。

年会一场主旨演讲中，得克萨斯大学学者彼得·斯通指出，学界长期聚焦AI“如何学习”，却忽视同等重要的命题：AI“该学什么”。

以强化学习为例，AI通过试错、反馈、策略优化探索世界，但不可能遍历所有可能情境，“正如人一生难尝尽整座城市所有餐馆”。为此，斯通团队构建引导机制，帮助智能体识别关键事项与无关干扰。

让AI聚焦学习，本意在于提升效率。但当设计者掌握“教什么”的主导权，衡量标准便不应仅限于效率。

计算机视觉作为AI核心方向之一，广泛应用于图像/视频理解，如识别照片中人物性别、年龄或族群。此类能力依赖人类标注的海量训练数据逐步习得。例如，AI反复接触被标记为“男性”的图像后，便会关联特定视觉特征。

学界共识是，当前多数训练数据采集方式缺乏审慎——“大多直接爬取自互联网”。虽成本低廉、规模庞大，但网络固有偏见亦被AI全盘吸收。

斯通团队致力于构建去偏见化图像库。2011至2024年间，他们邀请来自81国的1981名参与者，在多元场景下拍摄10318张照片，并由拍摄者本人在知情同意前提下自主标注性别、年龄、地域、姿态等属性。“这是更具伦理韧性的数据采集范式。”斯通表示。

团队利用该库评估主流AI模型，偏见现象随之浮现：某广泛应用模型过度依赖发型判断性别，致长发男性常被误判为女性；另一模型频繁将非洲或亚洲面孔与乡村背景绑定；还有模型在回应“照片中人物为何讨喜”时，高频归因为“她是女性”。

“计算机视觉领域的诸多伦理挑战，根源早在数据层就已形成。”2025年11月，《自然》杂志刊发斯通团队研究成果。

年会上，四位曾任人工智能促进协会主席的学者不约而同对“唯大模型、唯大数据”的技术狂奔提出审慎反思，呼吁业界“多关注责任、风险与人的价值”。

微软首席科学官、二十年前曾任该协会主席的埃里克·霍维茨强调：“请勿再将政策、安全、人机协同视作技术成果的装饰糖霜。”

2012至2014年担任该协会主席的曼努埃拉·维洛佐，现任卡内基－梅隆大学教授。她在年会演讲时台下坐满学生。她坦言：“我读过无数论文，通篇充斥着85%、72%、93%的准确率数字。我总在想：那剩下的15%、28%、7%呢？AI出错时，会对用户造成何种伤害？又该如何补救？”她指出，“我们必须清醒认识到：我们不是在开发一次性工具，而是打造将与人类长期共生的AI伙伴。”

当一个个“能动手”的智能体以爆款姿态涌入日常生活，这些拷问，比以往任何时候都更为紧迫。

← 上一篇：力箭二号首飞成功开启新型天地运输探索下一篇：AI赋能的智能传感漏损监测技术新突破 →