标签

郑南宁院士解读:机器行为与具身智能的未来

发布时间:2026-05-31 12:00来源:微信阅读:10

各位好,本次汇报的主题聚焦于“机器行为与具身智能”。

一、前言

首先,让我们观察一个基础的十字路口情境,其中包含行人、非机动车及机动车。虽然交通状况充满不确定性,但场景内的各个实体凭借直觉判断及对彼此行为关系的认知,构建了一个相互关联的稳定体系。人类能在此类环境中快速洞察各对象在空间与行为上的联系。自动驾驶系统若想做出精准决策,也必须具备抽象并表达这种关联的能力。事实上,我们难以预先为交通场景的动态演变编写所有规则,因此,探究交互场景中多智能体的自适应行为显得尤为关键。

以 F1 赛车为例,维修团队通过紧密协作能极速完成轮胎更换。如何利用机器人集群协同作业并赋予其科学解释,是值得深思的课题。

二、机器行为的模仿与阐释

阐释行为比产生行为更具挑战性,因为人类行为大多源于环境学习,即刺激与反应的产物。图灵机虽能以假乱真地活动,但单纯的行为模仿不足以复现人类智能,二者本质迥异。阐释需清晰揭示潜在的概括性规律,并将其与普适原理相连,这正是认知理解的核心。

纵观人工智能演进历程,可划分为以下阶段:

1. 专家系统:将领域知识与规则注入机器供其检索。

2. 特征工程:由人工定义特征与答案,引导机器学习。

3. 深度学习:向机器提供原始数据与标签,依托深度神经网络自动提取特征。此阶段,AI 在语音及图像识别分类上取得突破性进展,甚至超越人类。

4. 通用人工智能:人类仅需下达任务与目标,机器便能像人一样感知理解世界,实现人际或社会与物理世界的自然交互。理论上,通用 AI 具备自我意识、自主思考、规划学习、解题及理解复杂概念的能力,能在未知情境中适应并执行任务。这需要海量背景知识与常识,以及抽象思维等人类智能关键特质,是一个充满不确定性的长远目标。

三、机器行为遭遇的挑战

通用人工智能不仅面临技术瓶颈,还涉及伦理道德、社会法律等多重议题。研究复杂动态不确定环境下的机器行为,存在两大核心难题:

1. 条件难题:无法穷举行为的所有前置条件。

2. 分支难题:无法穷举行为可能引发的所有隐性后果。

传统 AI 理论框架基于演绎逻辑与形式化方法,难以对所有对象或行为建立完备模型。

机器行为研究的关键挑战,在于如何赋予 AI 系统协作性行为。

德国心理学家曾设计儿童实验:一岁半幼童与母亲在角落,成人进房反复撞击柜门试图打开。无人求助或指令,孩子却蹒跚上前协助开门。该实验旨在证明儿童具备自发助人能力,但对 AI 而言却是巨大挑战:能否解析儿童脑内机制,使机器人也拥有此类智能、灵活与协作行为?

另一案例是,针对西安绝句“海棠不惜胭脂色,独立蒙蒙细雨中”,让计算机与人分别从图库检索最契合图像。计算机选中挂满雨滴的海棠,人类却选出一位雨中漫步的少女。人类将少女喻为海棠,借认知欣赏诗意。这表明机器视觉与自然语言理解等重要 AI 应用,亟需大量世界认知信息。计算机虽需掌握知识,但如何高效传授给机器人,仍是待解难题。

四、机器行为的研究范畴

诺奖得主西蒙在《人工科学》中提出,自然科学研究自然体与现象,人工科学则关注人造物与现象。当前,智能机器渗透社会各层面,机器行为研究聚焦智能机器而非传统机械。其范畴涵盖:

1. 机器行为生成的人工设计:智能体如何依经验产生行为。

2. 机器行为的可解释性:智能体如何依据场景响应行为。

若机器行为失去监管,恐生隐患,这与智能体及 AI 行为的信任度紧密相关。诺奖得主、荷兰动物学家廷伯根指出,全面理解演化特性需回答四问:

1. 行为生成机制:基于算法与环境特点,利用可解释技术解析特定行为模式背后的机理。

2. 行为发展:智能体行为随时间演进,需探究机器获取特定行为的路径。这既可是工程选择结果,亦可是经验积累。

3. 行为功能:分析特定行为如何影响智能体全生命周期功能,研究行为对特定功能的作用。

4. 行为进化:智能体受进化史及与其他智能体交互影响,研究机器行为需关注其进化过程。

智能个体获取特定行为的三大途径:

1. 人类通过算法直接赋予机器行为发展模式。

2. 利用特定交互训练,刺激并塑造机器行为。

3. 机器凭借自身经验(如记忆或强化学习)自主获取行为能力。

在机器行为进化中,其行为可在发展中与环境及人持续交互,朝特定方向演进。机器进化可突破生物局限,可进化的行为或广泛传播至群体,也可能受限而阻滞,呈现出不同于有机进化的轨迹。例如,进化后的无人驾驶算法可共享至车队,实现能力传播。

人与智能机器的行为关联:

1. 机器重塑人类行为:社会系统引入智能机器可改变人类行为方式,具备变革社会结构的潜力。

2. 人类塑造机器行为:人类通过主动输入或被动观察训练 AI 系统,利用算法直接调整机器行为。

3. 人机混合协同行为:多数 AI 算法在复杂混合系统中与人类共存,分析刻画此类系统中人机交互属性(如合作、竞争、协调)至关重要。

五、具身智能与行为生成

具身智能指机器自主感知环境、学习及理解行动的能力。从生物进化视角看,地球所有智力活动皆是生物通过身体与环境交互,经学习进化遗留的智力遗产。智能是具身化且情境化的,具身智能强调智能生物的智能化程度与其身体结构高度相关。身体非等待加载算法的容器,而是应参与算法进化的主体。

非具身学习与具身学习之对比:

• 非具身学习:采用“大模型无监督预训练 + 小样本有监督微调”范式训练神经网络,所得模型可直接部署于不同硬件,算法学习独立于硬件与环境,性能取决于模型泛化力。

• 具身学习:在虚拟环境中训练大模型获取常识表征,再于具体场景 via 强化学习完成模型进化,使模型能在特定硬件与环境中自主适配。

大模型凭借超大规模数据与参数量,拥有卓越泛化力与应用性能。其具身智能行为生成主要分两部分:

1. 人机交互:人类以自然语言或图文形式将任务需求输入多模态大模型,模型嵌入特征后理解任务、推演概念,生成知识决策,最终由机器人执行相应行为。

2. 系统与环境交互:机器人先利用传感器完成情境具身感知,再依据大模型学习结果对情境产生行为,最终输出行为。

六、基于表征学习与因果推理的具身智能计算架构

欲使机器具备类人认知,首需建立事件模型,有效表征物体、事件、事实等知识,构建持续学习系统。解决具体任务时,机器基于感知数据、意识先验、表征学习及知识库进行推理,探寻最优策略。

意识先验概念较为抽象。当身处情境试图理解时,你会意识到某些现实层面情景或过往经历。意识先验是在原始输入与高级表征基础上形成的抽象层级。

七、动态开放环境中的人机协同具身智能

为使具身智能更趋近人类智能,需在动态开放环境中强化人机协同。既往运动策略学习倾向排除人类,仅靠试错搜索获取长期累积回报,难以适应开放动态环境。

而人在回路的决策学习,由任务目标引导搜索,实现行为决策类人化。此外,可通过嵌入式视觉、模仿及交互学习引入人的作用。动态开放环境中人机协同具身智能的基本框架为:人在回路的协同决策可使具身智能向人类学习。例如,自动驾驶系统经行为克隆向人类驾驶员学习,10 小时训练虽获基本驾驶行为,但仍难避障及应对突发状况。

八、自动驾驶面临的挑战

自动驾驶是开放环境中典型的具身智能系统,复杂交通环境下需确保可靠驾驶行为。其面临挑战如下:

1. 周密感知:须解决复杂交通场景中的“周密感知”,无论天气光照如何,均需在所有条件下检测道路特征。

2. 预行为理解:需进行“预行为”理解,因人类驾驶员均依预行为传达行驶意图。

3. 意外遭遇应对:需应对“意外遭遇”,简单的基于规则自动驾驶无法为每场景预先编码。

4. 网络安全:如软件漏洞或黑客恶意攻击等。

九、自动驾驶行为生成

自动驾驶行为生成流程如下:

1. 导航路径生成:系统融合经验常识、场景理解及交通态势评估,利用模型对结构化与非结构化道路场景预训练,生成导航路径。

2. 运动规划:基于具身智能完成目标状态采样、候选路径生成及最优路径选择,进行运动规划,最终生成合理可执行的驾驶行为。

重点探讨自动驾驶行为决策:将思维抽象为符号计算极大推动了 AI 发展,但为所有交通对象建模不可行。诸多交通场景的复杂动态性并非完全可观测可控,行驶中对异常的处理能力无法仅靠大量样本训练获得,且难获大量负样本(如事故)。人类驾驶是将车外无穷状态空间约简为动态变化的“可行驶”二域状态空间,自动驾驶决策即寻找可行驶区域。认知层面需解决的问题,是如何将复杂未知的现实世界转化为有限空间环境的语义理解,即一种直观理解。

十、自动驾驶的认知表征

场景感知与情景认知之别:

• 场景:特定时空下交通场合的具体情景或景象,由传感器数据获取。

• 情境:某一时空内诸多具体情形的概括,“境”指构成并隐含于场景中相互交织的因素及其关系。情境计算是对场景中各对象空间行为交互关系的阐释,交通场景中物体或对象的空间关系与行为描述对自动驾驶至关重要。

如何发展具备进化与自主学习能力的自动驾驶系统?

需从认知角度理解人类驾驶员如何注意并获取交通环境信息。人类对交通场景的理解基于记忆与先验知识的模式匹配。自动驾驶算法需在一定程度上引入人类对交通场景认知的加工机制。人类对变化极为敏感,如颜色、纹理、大小、位置、运动等突变对注意力影响最大。注意机制已成为构建自动驾驶 AI 架构的灵感源泉