郑南宁院士解读：机器行为与具身智能的未来

发布时间：2026-05-31 12:00阅读：21

各位好，本次汇报的主题聚焦于“机器行为与具身智能”。

一、前言

首先，让我们观察一个基础的十字路口情境，其中包含行人、非机动车及机动车。虽然交通状况充满不确定性，但场景内的各个实体凭借直觉判断及对彼此行为关系的认知，构建了一个相互关联的稳定体系。人类能在此类环境中快速洞察各对象在空间与行为上的联系。自动驾驶系统若想做出精准决策，也必须具备抽象并表达这种关联的能力。事实上，我们难以预先为交通场景的动态演变编写所有规则，因此，探究交互场景中多智能体的自适应行为显得尤为关键。

以 F1 赛车为例，维修团队通过紧密协作能极速完成轮胎更换。如何利用机器人集群协同作业并赋予其科学解释，是值得深思的课题。

二、机器行为的模仿与阐释

阐释行为比产生行为更具挑战性，因为人类行为大多源于环境学习，即刺激与反应的产物。图灵机虽能以假乱真地活动，但单纯的行为模仿不足以复现人类智能，二者本质迥异。阐释需清晰揭示潜在的概括性规律，并将其与普适原理相连，这正是认知理解的核心。

纵观人工智能演进历程，可划分为以下阶段：

1. 专家系统：将领域知识与规则注入机器供其检索。

2. 特征工程：由人工定义特征与答案，引导机器学习。

3. 深度学习：向机器提供原始数据与标签，依托深度神经网络自动提取特征。此阶段，AI 在语音及图像识别分类上取得突破性进展，甚至超越人类。

4. 通用人工智能：人类仅需下达任务与目标，机器便能像人一样感知理解世界，实现人际或社会与物理世界的自然交互。理论上，通用 AI 具备自我意识、自主思考、规划学习、解题及理解复杂概念的能力，能在未知情境中适应并执行任务。这需要海量背景知识与常识，以及抽象思维等人类智能关键特质，是一个充满不确定性的长远目标。

三、机器行为遭遇的挑战

通用人工智能不仅面临技术瓶颈，还涉及伦理道德、社会法律等多重议题。研究复杂动态不确定环境下的机器行为，存在两大核心难题：

1. 条件难题：无法穷举行为的所有前置条件。

2. 分支难题：无法穷举行为可能引发的所有隐性后果。

传统 AI 理论框架基于演绎逻辑与形式化方法，难以对所有对象或行为建立完备模型。

机器行为研究的关键挑战，在于如何赋予 AI 系统协作性行为。

德国心理学家曾设计儿童实验：一岁半幼童与母亲在角落，成人进房反复撞击柜门试图打开。无人求助或指令，孩子却蹒跚上前协助开门。该实验旨在证明儿童具备自发助人能力，但对 AI 而言却是巨大挑战：能否解析儿童脑内机制，使机器人也拥有此类智能、灵活与协作行为？

另一案例是，针对西安绝句“海棠不惜胭脂色，独立蒙蒙细雨中”，让计算机与人分别从图库检索最契合图像。计算机选中挂满雨滴的海棠，人类却选出一位雨中漫步的少女。人类将少女喻为海棠，借认知欣赏诗意。这表明机器视觉与自然语言理解等重要 AI 应用，亟需大量世界认知信息。计算机虽需掌握知识，但如何高效传授给机器人，仍是待解难题。

四、机器行为的研究范畴

诺奖得主西蒙在《人工科学》中提出，自然科学研究自然体与现象，人工科学则关注人造物与现象。当前，智能机器渗透社会各层面，机器行为研究聚焦智能机器而非传统机械。其范畴涵盖：

1. 机器行为生成的人工设计：智能体如何依经验产生行为。

2. 机器行为的可解释性：智能体如何依据场景响应行为。

若机器行为失去监管，恐生隐患，这与智能体及 AI 行为的信任度紧密相关。诺奖得主、荷兰动物学家廷伯根指出，全面理解演化特性需回答四问：

1. 行为生成机制：基于算法与环境特点，利用可解释技术解析特定行为模式背后的机理。

2. 行为发展：智能体行为随时间演进，需探究机器获取特定行为的路径。这既可是工程选择结果，亦可是经验积累。

3. 行为功能：分析特定行为如何影响智能体全生命周期功能，研究行为对特定功能的作用。

4. 行为进化：智能体受进化史及与其他智能体交互影响，研究机器行为需关注其进化过程。

智能个体获取特定行为的三大途径：

1. 人类通过算法直接赋予机器行为发展模式。

2. 利用特定交互训练，刺激并塑造机器行为。

3. 机器凭借自身经验（如记忆或强化学习）自主获取行为能力。

在机器行为进化中，其行为可在发展中与环境及人持续交互，朝特定方向演进。机器进化可突破生物局限，可进化的行为或广泛传播至群体，也可能受限而阻滞，呈现出不同于有机进化的轨迹。例如，进化后的无人驾驶算法可共享至车队，实现能力传播。

人与智能机器的行为关联：

1. 机器重塑人类行为：社会系统引入智能机器可改变人类行为方式，具备变革社会结构的潜力。

2. 人类塑造机器行为：人类通过主动输入或被动观察训练 AI 系统，利用算法直接调整机器行为。

3. 人机混合协同行为：多数 AI 算法在复杂混合系统中与人类共存，分析刻画此类系统中人机交互属性（如合作、竞争、协调）至关重要。

五、具身智能与行为生成

具身智能指机器自主感知环境、学习及理解行动的能力。从生物进化视角看，地球所有智力活动皆是生物通过身体与环境交互，经学习进化遗留的智力遗产。智能是具身化且情境化的，具身智能强调智能生物的智能化程度与其身体结构高度相关。身体非等待加载算法的容器，而是应参与算法进化的主体。

非具身学习与具身学习之对比：

• 非具身学习：采用“大模型无监督预训练 + 小样本有监督微调”范式训练神经网络，所得模型可直接部署于不同硬件，算法学习独立于硬件与环境，性能取决于模型泛化力。

• 具身学习：在虚拟环境中训练大模型获取常识表征，再于具体场景 via 强化学习完成模型进化，使模型能在特定硬件与环境中自主适配。

大模型凭借超大规模数据与参数量，拥有卓越泛化力与应用性能。其具身智能行为生成主要分两部分：

1. 人机交互：人类以自然语言或图文形式将任务需求输入多模态大模型，模型嵌入特征后理解任务、推演概念，生成知识决策，最终由机器人执行相应行为。

2. 系统与环境交互：机器人先利用传感器完成情境具身感知，再依据大模型学习结果对情境产生行为，最终输出行为。

六、基于表征学习与因果推理的具身智能计算架构

欲使机器具备类人认知，首需建立事件模型，有效表征物体、事件、事实等知识，构建持续学习系统。解决具体任务时，机器基于感知数据、意识先验、表征学习及知识库进行推理，探寻最优策略。

意识先验概念较为抽象。当身处情境试图理解时，你会意识到某些现实层面情景或过往经历。意识先验是在原始输入与高级表征基础上形成的抽象层级。

七、动态开放环境中的人机协同具身智能

为使具身智能更趋近人类智能，需在动态开放环境中强化人机协同。既往运动策略学习倾向排除人类，仅靠试错搜索获取长期累积回报，难以适应开放动态环境。

而人在回路的决策学习，由任务目标引导搜索，实现行为决策类人化。此外，可通过嵌入式视觉、模仿及交互学习引入人的作用。动态开放环境中人机协同具身智能的基本框架为：人在回路的协同决策可使具身智能向人类学习。例如，自动驾驶系统经行为克隆向人类驾驶员学习，10 小时训练虽获基本驾驶行为，但仍难避障及应对突发状况。

八、自动驾驶面临的挑战

自动驾驶是开放环境中典型的具身智能系统，复杂交通环境下需确保可靠驾驶行为。其面临挑战如下：

1. 周密感知：须解决复杂交通场景中的“周密感知”，无论天气光照如何，均需在所有条件下检测道路特征。

2. 预行为理解：需进行“预行为”理解，因人类驾驶员均依预行为传达行驶意图。

3. 意外遭遇应对：需应对“意外遭遇”，简单的基于规则自动驾驶无法为每场景预先编码。

4. 网络安全：如软件漏洞或黑客恶意攻击等。

九、自动驾驶行为生成

自动驾驶行为生成流程如下：

1. 导航路径生成：系统融合经验常识、场景理解及交通态势评估，利用模型对结构化与非结构化道路场景预训练，生成导航路径。

2. 运动规划：基于具身智能完成目标状态采样、候选路径生成及最优路径选择，进行运动规划，最终生成合理可执行的驾驶行为。

重点探讨自动驾驶行为决策：将思维抽象为符号计算极大推动了 AI 发展，但为所有交通对象建模不可行。诸多交通场景的复杂动态性并非完全可观测可控，行驶中对异常的处理能力无法仅靠大量样本训练获得，且难获大量负样本（如事故）。人类驾驶是将车外无穷状态空间约简为动态变化的“可行驶”二域状态空间，自动驾驶决策即寻找可行驶区域。认知层面需解决的问题，是如何将复杂未知的现实世界转化为有限空间环境的语义理解，即一种直观理解。

十、自动驾驶的认知表征

场景感知与情景认知之别：

• 场景：特定时空下交通场合的具体情景或景象，由传感器数据获取。

• 情境：某一时空内诸多具体情形的概括，“境”指构成并隐含于场景中相互交织的因素及其关系。情境计算是对场景中各对象空间行为交互关系的阐释，交通场景中物体或对象的空间关系与行为描述对自动驾驶至关重要。

如何发展具备进化与自主学习能力的自动驾驶系统？

需从认知角度理解人类驾驶员如何注意并获取交通环境信息。人类对交通场景的理解基于记忆与先验知识的模式匹配。自动驾驶算法需在一定程度上引入人类对交通场景认知的加工机制。人类对变化极为敏感，如颜色、纹理、大小、位置、运动等突变对注意力影响最大。注意机制已成为构建自动驾驶 AI 架构的灵感源泉

← 上一篇：AI教育试点全面推进下一篇：郝建业加盟！Hermes时代AI智能体大会阵容升级，美团龙猫负责人将现身 →