从语言智能迈向多感认知：AI演进中的法律新挑战

发布时间：2026-05-31 09:47阅读：32

人工智能的演进正由“语言模型”迈向“具身智能”的时代。当机器开始通过传感器模拟人类的触觉、嗅觉与空间感知能力，并具备自主决策能力时，传统“数据黑箱”将转变为“物理责任黑洞”。对AI法律从业者而言，这不仅是一次技术飞跃，更是数据主权与人身安全的全新防线。

当AI从“会说话”进化为“能感知”——借助触觉、嗅觉、视觉等多模态传感器与现实世界深度交互时，法律合规的焦点正从“数据黑箱”转向“物理世界的责任盲区”。具身智能的“黑箱”属性使得其决策过程难以完全解释和预测，即便是系统设计者也难以完全掌控其所有行为。这带来了两个核心挑战：一是物理伤害的责任归属——当具身AI失控造成人身或财产损失时，传统产品责任体系已难以应对，需探索AI保险、算法透明度、多方共担责任等多元治理机制；二是数据主权的本土化博弈——“数据不出端”的理念虽理想，但在中国必须与《数据安全法》《个人信息保护法》下的数据本地化义务相协调。正如专家所言：“当前AI正从感知型、生成型向代理型和物理型演进”，法律必须同步完成从“数据合规”到“行为规制”的范式转变。让机器像人一样感知，但让法律像磐石一样守住底线——这，就是我们这一代律师的使命。

智能穿戴设备正迅速发展，这已是不争的事实。但真正推动这一趋势的，是硬件通过传感器在多大程度上能“感知”环境。机器正以各自方式观察、体验世界——它们借助摄像头等分析工具，将数据输送给作为“大脑”的大语言模型。

简单说，过去的AI只有“耳朵”（语音识别）和“嘴巴”（文字输出），而未来的AI将长出“眼睛”“皮肤”甚至“鼻子”——它能看、能摸、能闻。

这种演进正在加速。智能眼镜领域去年扩大了两倍，在科技零售中占比更大。机器人应用也在商业领域不断扩展，自动化正深度渗透制造、服务乃至清洁类工作。

全球首富埃隆·马斯克曾乐观预测：“在理想情境下，我们最终可能都不用工作了。不是全民基本收入，而是全民高收入——商品和服务将不再短缺。”

这听起来像科幻，但对技术前沿的人而言，这种思路不容忽视。

然而，技术的光明面背后，隐藏着深刻隐忧。

今年4月，MIT举办的“Imagination in Action”活动上，一场专题讨论直面了这些挑战。MIT Media Lab的Paul Liang主持讨论，他问嘉宾：当前AI主流研究路径最可能在哪里走偏？

斯坦福大学Alvin Graylin的回答一针见血：

“我最担心的是——随着AI与手表、戒指、笔、眼镜等生活传感器相连，AI将对我们无所不知。若用户无法掌控这些数据，终有一天我们会臣服于那些拥有数据平台的势力。AI扩张、数据更易获取之际，丧失主体性，是人类面临的最大风险之一。”

这话说得非常重，但绝非危言耸听。

想想看：当智能眼镜记录你每天看到的一切，当智能手表捕捉你的心率、体温甚至情绪波动，当智能音箱收录你的每一句对话——这些数据汇集起来，就是一部关于你的“数字全息档案”。如果这些数据被平台掌控而非由你自主支配，那你的隐私、选择自由、甚至思想独立，都将面临前所未有的威胁。

关于AI的技术路径，专家们存在显著分歧。

Godela CEO Cinnamon Schipfer认为，所谓“通用智能”或“物理推理”的表现，并非仅靠把某一个模型无限扩大就能涌现。“要解决复杂物理问题、让真正的物理推理嵌入AI，不能只依赖单一万能模型，而要组合、协调多个模型进行管控。”

这种“多模型编排”的思路，与当前主流追求单一超大规模模型的路径形成鲜明对比。

TwelveLabs开发者体验负责人James Lee介绍了他们的做法：传统企业多用大数据加监督学习，机械且缺乏灵活性。而他们专注于反向路径——用大量视频内容让模型从原生视频学习，理解时间维度及空间随时间的关系。当被问及特定实体或活动时，模型能够推导出上下文图与知识图。

这背后反映了一个核心分歧：AI应该先学语言再嫁接其他感官，还是从一开始就多模态同步学习？

讨论中反复触及一个核心问题：我们应追求可解释AI，还是另有方向？

Schipfer指出了黑盒系统的缺陷，暗示“向模型猛灌数据、指望它解一切问题”的做法，在当前较难平衡价值与投资回报。

Graylin进一步揭示了机器人训练的局限性：

“仅靠视频训练机器人执行动作是不够精确的——没有压力数据、没有方向数据、没有细微信息。当某事发生、局势变复杂时会出现大量遮挡，物体被隐藏，还需要肢体各部位极精细的位置数据。因此仅用海量视频无法解决上述问题。需结合高质量标注数据与异类多模态传感，才能构建更高级的学习。”

这是一个关键洞察：物理世界的复杂性远超文本世界。让AI理解重力、摩擦力、材料的软硬、物体的温度——这些都需要从物理传感器中获取的“第一手经验”，而非从文本中学习的“二手描述”。

Lee补充道：“若先以语言训练，会引入文本模态偏差。而我们领域中时间性运动部分极为重要——后期才追加视频效果有限。”

Graylin用一个生动的类比来说明问题：

“从生物学看，人类学物理世界先于学语言。因此构建多模态学习模型完全合理。若要建模大脑，同时从所有模态学习意义重大——就像学多语儿童，起步略慢但最终能自然在各语言间翻译。”

然而，Liang提出了一个尖锐的质疑：“饶有趣味。但经验证据尚未显示‘大规模原生多模态预训练’优于‘先训语言模型再嫁接其他模态’。各位认为模型架构、训练方法、数据收集呈现方式需改变吗？”

这个问题直击要害：语言优先路径在商业上已经证明了巨大的成功，而原生多模态路径还缺乏足够的大规模验证。但专家们普遍认为，随着物理AI的发展，后者的优势将逐渐显现。

Graylin以自动驾驶为例指出：早期靠大量标注数据，后期更强的LLM带来了高阶推理能力——这说明两条路径并非互斥，而是可以互补演进。

谈及隐私与用户主体性，Graylin主张数据共享不应被预设：

“这必须是默认设置：系统在采集数据的终端不外传该数据，且仅为用户自身利益使用。用户主动选择与平台共享是合理的，但若被平台、设备厂商或广告商自动获取，必引发强烈反弹。”

这一“Permissionless”（无默许上传）理念，将数据控制权交还给用户本人，而非默认归属于设备厂商或平台。这不仅是技术设计理念，更是一种权利主张。

Lee从政府与国防用例的角度佐证了隐私与安全的重要性。Schipfer则指出：“本地部署需求极强，但很多人还未理清它与云化基础设施、‘自持技术栈’愿望的兼容关系——这正是催生有趣商业模式之处，当然也会引出更宏观的哲学追问。”

Graylin进一步追问了一个深刻的哲学问题：

“如何防止人类把所有事都交给机器下令？万物被感知后，机器只给答案，我们自动盲从——驾车已如此，若蔓延至生活每一面呢？”

这个担忧触及了AI时代的核心悖论：AI越智能、越便利，人类越容易放弃自主思考，将决策权让渡给机器。

Liang在总结时表达了对AI感官扩展的期待：

“我非常期待触觉与嗅觉。正如诸位提及，我们需要理解物理世界的AI。而要理解物理世界，须像人类一样感知物体、与之互动。

那怎么造出真正优秀的触觉传感器？怎么造捕捉各种气味的传感器，并关联到‘这东西好不好、危不危险’的判断？这些都是扩展人类感官、将其植入AI机器的迷人问题。”

这段话揭示了一个令人兴奋的前景：AI正在走向真正的“具身化”。它不再只是处理文字和图像，而是通过触觉传感器感受物体的软硬冷热，通过嗅觉传感器辨别气味的安全与危险。这将是AI从“虚拟存在”走向“物理存在”的关键一步。

读罢专家们的讨论，作为一名中国的AI律师，我深感震撼，亦倍感压力。

我们正在见证历史的拐点：AI从“脑”的进化，转向了“身”的觉醒。当AI不再只是屏幕后的代码，而是通过传感器在物理世界自主行动时，法律的重心也必须从“数据合规”转移至“行为规制”。

此前，AI犯错最多是生成虚假信息——伪造合同、传播谣言、侵犯名誉权，这些都属于虚拟世界的损害，尚可被删除、道歉、赔偿所补救。

但当具身AI（如工业机器人、自动驾驶汽车、家用服务机器人）通过触觉、压力传感器与环境互动时，一旦失控，造成的将是物理实体的伤害——人被撞伤、财产被损毁、甚至生命被威胁。

具身智能正推动生产关系从“人主机辅”向“人机共创”转变，这对现有治理方式提出了新的调适需求。大模型的“黑箱”特性使得决策过程不易完全解释和预测——即使是系统设计者，也无法确保完全掌控系统的所有行为。

在自动驾驶、医疗机器人、工业机器人等典型场景中，具身智能的发展对传统责任认定机制提出了优化要求。传统的产品责任体系基于人为设计、机器执行的模式，责任主体相对明确；而具身智能系统的自主学习和决策能力使得这一体系面临挑战。

学界和业界已提出了多种方案，包括建立AI保险制度、设立算法透明度要求、创建多方共担责任机制等。例如在自动驾驶领域，我国道路交通安全法修订和行业标准制定中，正在考虑细化制造商、软件供应商、车辆所有者等多方主体的责任承担方式。

我们的《产品质量法》和《侵权责任法》是否已准备好迎接这种“具有物理执行力的AI”？这需要法律界尽快给出答案。

“数据不出端”是保护隐私的理想方案。但在中国，这必须与《数据安全法》和《个人信息保护法》下的“数据本地化”与“安全评估”义务相平衡。

具身智能系统高度依赖环境数据进行决策与适应，其中可能涉及个人敏感信息。现行的隐私保护法律法规主要针对传统的数据收集和处理方式设计，对于具身智能等新型数据的规制能力较为有限。

我国个人信息保护法和欧盟人工智能法案均对数据处理活动设置了严格的合规要求，明确在机器人数据收集中须遵循知情同意原则。技术层面，隐私计算技术正逐步应用，力求在数据利用与隐私保护之间实现平衡。

企业若为了追求效率而将数据完全留在端侧，是否会导致监管机构无法追踪违法线索？这中间的张力，需要我们去弥合。

从“语言大模型”到“多模态感知”，从“云端大脑”到“具身智能”，AI正在经历一场深刻的“肉身觉醒”。这不仅是技术维度的变革，更是法律维度的挑战。

当AI能闻到燃气泄漏的味道并自主关闭阀门时，我们要确保它不会因为误判而切断整栋楼的电源。当AI能通过触觉感知病人的脉搏并调整手术力度时，我们要确保它不会因为算法偏差而伤害患者。

学界和业界应紧密合作，坚持人类主导的原则，尤其是在涉及生命健康、重大财产和伦理敏感等领域。建议制定风险等级评估标准，根据决策可能产生的后果严重程度将智能系统的决策行为分为不同等级：低风险决策可以交由系统自主完成，中等风险决策需要人类监督确认，高风险决策则必须由人类主导。

让机器像人一样感知，但让法律像磐石一样守住底线。

这，就是我们这一代律师的使命。

← 上一篇：AI法律研究第36篇：物理智能体迈入现实世界的合规难题下一篇：AI 浪潮下，影像医师与技师谁更面临淘汰？ →