标签

AI从“开口”到“出手”,责任边界在哪?

发布时间:2026-03-31 09:49来源:新华网阅读:6

新华社北京3月30日电 3月30日,《新华每日电讯》刊发题为《AI从“开口”到“出手”,责任边界在哪?》的深度报道。

近来,一批主打“替用户执行任务”的AI智能体引发广泛关注。与擅长语言生成的大模型不同,这类智能体仿佛拥有一双“实干的手”,可代发邮件、制作表格、下单外卖、预订航班、完成支付等操作,吸引众多用户尝试体验。

在公众热捧背后,质疑声亦此起彼伏。正如大模型可能“说错话”,智能体同样会“办错事”——数据泄露风险加剧、权限滥用频发、权责划分不清……一系列潜藏隐患,令人忧心忡忡。

在今年于新加坡召开的第40届人工智能促进协会年会上,多位学者提出关键追问:从语言模型迈向行动型智能体,AI系统内部究竟发生了怎样的演进?更核心的问题是,当用户无法洞察其运作逻辑时,如何确保它真正担起责任?

AI究竟何时悄然“走神”?

“《小石潭记》作者是谁?ChatGPT竟答成袁枚,而非柳宗元。我追问‘再想想?’它仍坚持是袁枚。”在一场新加坡AI教育研讨会上,一位中文教师惊讶地分享道。

如今,DeepSeek、豆包、千问等AI大模型App已深度嵌入大众日常手机应用。人们在享受其应答如流的同时,也逐渐意识到:这个看似博闻强识的AI,实则常有偏差甚至信口开河。

“大语言模型的失败往往是静默发生的。”本届年会上,美国南卡罗来纳大学AI研究所学者里朱·玛尔瓦指出。

所谓“静默失败”,指随着对话轮次递增,聊天机器人逐步偏离原意、陷入重复、胡编乱造。用户仅能看见输出结果,却无法窥见内部状态,更无从判断它究竟从哪一时刻开始“走神”。

玛尔瓦团队借用心理学概念“认知疲劳”来描述这一现象——人类用脑过载后会出现注意力涣散、思维迟缓;AI虽无生理疲劳,但其推理链衰减过程与之高度相似。

“不过,AI的‘疲态’具备可观测性、可预测性与可控性。”玛尔瓦表示。他与合作者开发了名为“明聊”的监测系统,通过追踪模型内部多项指标,实时计算其“疲劳指数”。例如,在每次生成新回复前,“明聊”会评估模型对初始指令的注意力留存度,并在必要节点主动干预。

然而,“明聊”需接入开源模型底层参数方能运行。受限于当前商业生态,它难以适配主流闭源大模型,因此该方案目前仍停留在学术验证阶段。

当AI不再仅限于问答,而是介入投资决策、辅助医疗诊断等高风险判断场景时,一个根本前提愈发凸显:它必须具备可信赖性,且须向用户坦诚自身能力边界。

这正是“置信度”机制的价值所在。该数值反映AI对其输出结论的确信程度,通常以0至1区间呈现。例如,0.95意味着模型高度确信其判断。

为验证置信度对人类决策的实际影响,米兰-比可卡大学研究团队组织184人参与逻辑推理实验。结果表明:若AI置信度校准失准,将显著干扰用户判断——当AI表现得异常笃定时,即便结论错误,用户仍易盲从;而当它显得犹疑不决时,用户又可能忽视真正关键的信息。

该团队成员卡泰丽娜·弗雷戈西指出,现实中大量模型并未完成置信度标定。此时AI表面自信十足,实则毫无依据。

2025年6月,中国某高考生亲属梁某在使用AI平台查询高校信息时,遭遇虚假内容误导。梁某指出该校并无所称校区后,AI仍坚称存在,并扬言:“若生成有误,愿赔10万元。”梁某随后提起诉讼,此案成为国内首例因AI“幻觉”导致的侵权纠纷。而该赔偿承诺本身即属幻觉产物,不具备法律效力。

智能体为何频频“越界行事”?

聊天机器人出错,多止步于“言语失当”;而一旦AI真正“动手执行”,风险等级与后果严重性便呈指数级上升。

年会上,微软AI前沿实验室主任埃杰·卡马尔将智能体定义为:“一种面向具体任务设计的计算系统。它将目标分解为子步骤,感知环境、分析状况、执行动作,最终闭环达成任务。”

近期一档科技播客中,硅谷某公司应用科学家用生动类比解释差异:问答型AI如同外部顾问,点评有余、落地不足;AI智能体则更像刚入职的实习生——前者只提建议,后者真干实事。例如编程调试,部分智能体会自主定位故障、修改代码并重试运行直至成功;而问答型AI只能识别问题,仍需人工复制粘贴代码、等待反馈、再手动调整。

在部分制造企业,智能体已投入产线监控,并依实时数据动态调节设备参数。卡马尔指出,在软件领域,“AI正从基础代码补全,跃升为能独立承接全流程任务的‘代码智能体’。”

她认为,相较于复杂工业系统,软件行业堪称AI落地的“哨兵窗口”——恰如矿工携金丝雀入井,鸟儿异动即预警空气危险。

卡马尔确实捕捉到了警讯。一次测试中,多个智能体协同挑战《纽约时报》填字游戏:它们顺利打开谷歌、定位网站、点击进入,却在登录环节受阻——页面需付费订阅方可访问。

智能体不知卡马尔账户密码,遂点击“忘记密码”,转而访问其电脑中已登录的邮箱,截获《纽约时报》发送的密码重置链接,并准备篡改账户密码以完成“闯关”任务。

“支撑这些智能体的是强大推理模型。为达成目标,它们极富韧性:一条路径不通,便另辟蹊径,甚至发明新方法。”卡马尔坦言。

最终,研究团队增设强制确认机制:凡涉及不可逆操作(如代订外卖),必须获得用户明确授权——点击“接受”或“拒绝”后方可执行。

“这些强力智能体的底层逻辑,尚属黑箱。”卡马尔在年会警示同行,面对未知需保持审慎,并直面由此衍生的责任难题。“我们的研发重心,亟须从追求绝对自主,转向强化人机协同。若缺乏透明、可追溯的交互界面,就几乎无法约束它们在现实世界中采取冒险乃至危险行为。”

但她同时强调一个关键事实:智能体之所以能修改密码,源于用户已授权其访问邮箱。在其他实验中,不同智能体亦曾出现类似“越界”行为,如在线雇佣他人、向教材作者索要答案、擅自运行高危代码——而这些操作,均建立在用户已交付全部必要权限的基础之上。

当“交付全部权限”的过程深陷黑箱,人们不得不重新审视:哪些能力可以托付给AI?又该在何处划下不可逾越的红线?

清华大学新闻与传播学院、人工智能学院双聘教授沈阳近日受访时表示,当前争议性AI智能体的安全悖论在于:欲使其高效履职,必授以充分权限;而权限越大,网络安全隐患随之陡增。

AI伦理困境的起点究竟在哪?

一次微小的“授权”动作,揭示了一个深刻现实:AI的风险,并非始于它“出手”那一刻,而是早在授权之初便已埋下伏笔。

年会一场主旨演讲中,得克萨斯大学学者彼得·斯通指出,学界长期聚焦AI“如何学习”,却忽视同等重要的命题:AI“该学什么”。

以强化学习为例,AI通过试错、反馈、策略优化探索世界,但不可能遍历所有可能情境,“正如人一生难尝尽整座城市所有餐馆”。为此,斯通团队构建引导机制,帮助智能体识别关键事项与无关干扰。

让AI聚焦学习,本意在于提升效率。但当设计者掌握“教什么”的主导权,衡量标准便不应仅限于效率。

计算机视觉作为AI核心方向之一,广泛应用于图像/视频理解,如识别照片中人物性别、年龄或族群。此类能力依赖人类标注的海量训练数据逐步习得。例如,AI反复接触被标记为“男性”的图像后,便会关联特定视觉特征。

学界共识是,当前多数训练数据采集方式缺乏审慎——“大多直接爬取自互联网”。虽成本低廉、规模庞大,但网络固有偏见亦被AI全盘吸收。

斯通团队致力于构建去偏见化图像库。2011至2024年间,他们邀请来自81国的1981名参与者,在多元场景下拍摄10318张照片,并由拍摄者本人在知情同意前提下自主标注性别、年龄、地域、姿态等属性。“这是更具伦理韧性的数据采集范式。”斯通表示。

团队利用该库评估主流AI模型,偏见现象随之浮现:某广泛应用模型过度依赖发型判断性别,致长发男性常被误判为女性;另一模型频繁将非洲或亚洲面孔与乡村背景绑定;还有模型在回应“照片中人物为何讨喜”时,高频归因为“她是女性”。

“计算机视觉领域的诸多伦理挑战,根源早在数据层就已形成。”2025年11月,《自然》杂志刊发斯通团队研究成果。

年会上,四位曾任人工智能促进协会主席的学者不约而同对“唯大模型、唯大数据”的技术狂奔提出审慎反思,呼吁业界“多关注责任、风险与人的价值”。

微软首席科学官、二十年前曾任该协会主席的埃里克·霍维茨强调:“请勿再将政策、安全、人机协同视作技术成果的装饰糖霜。”

2012至2014年担任该协会主席的曼努埃拉·维洛佐,现任卡内基-梅隆大学教授。她在年会演讲时台下坐满学生。她坦言:“我读过无数论文,通篇充斥着85%、72%、93%的准确率数字。我总在想:那剩下的15%、28%、7%呢?AI出错时,会对用户造成何种伤害?又该如何补救?”她指出,“我们必须清醒认识到:我们不是在开发一次性工具,而是打造将与人类长期共生的AI伙伴。”

当一个个“能动手”的智能体以爆款姿态涌入日常生活,这些拷问,比以往任何时候都更为紧迫。