机器人时代降临——物理AI与边缘计算的机遇
作者:Pete Bernard
EDGE AI FOUNDATION首席执行官
千百年来,人类始终在描绘"机器人"的轮廓——这一想象最早可追溯至公元前3000年,彼时埃及水钟借助人形雕像来报响整点的钟声。此后,机器人形象不断渗入我们对未来的想象,从1927年的电影《大都会》,到《星球大战》系列中的C3PO与R2D2,皆为经典例证。
然而回归现实,如今真正投入运行的机器人远没有那么戏剧化。过去数十年间,它们被设计用于承担危险与重复性的工作,与人类外形毫无关联。它们在仓库与矿井间穿梭,在田间播撒肥料;还借助空中与地面巡查系统拓展了人类的感知边界,综合运用视觉及其他传感输入。
当下,伴随边缘AI技术的演进与日益精进,物理人工智能(Physical AI)的理念正蓬勃兴起,有望成为一项举足轻重的平台,而其根基正是边缘AI技术。业界普遍认可的物理人工智能定义如下:
运行于包含物理执行器的自主机器人系统上的AI工作负载的统合体。
这正是"真实场景中的AI",因为此类系统凭借运动、触觉、视觉以及抓取、搬运等物理操控手段与现实世界交互。它能将一整套边缘AI技术汇聚于一台设备之中。在数据源头就近执行AI工作负载,对这些平台实现低延迟与低资源需求至关重要。相关技术涵盖:
所有这些均集成于同一系统中,并配备企业级部署、管理与维护所必需的复杂编排、安全及管控机制。加之TOPS/瓦特(每瓦万亿次运算)更高、功耗更低、性能更强的边缘AI平台陆续面市,这类系统的移动性、成本与电池续航也将获得显著改善。
机器人学是AI与物理世界的交汇点。它们既需要复杂的物理能力以完成移动、抓取、感知拓展及各类任务,又是需要训练与决策的软件平台,因而成为承载最复杂AI能力组合的理想载体。加速半导体平台、先进传感网络、用于编排的复杂中间件、调优后的AI模型、新兴的强大小语言模型(SLM)、应用软件以及高性能通信网络的协同涌现,正在开启物理人工智能的新纪元。
对机器人进行分类的方式多种多样——可以按所处环境(仓库)、承担功能(载荷)乃至移动方式(无人机)来划分。以下列举的是当前已部署的若干机器人类型:
预编程机器人
此类机器涵盖重型工业机器人,适用于高度受控环境中执行重复性与精密性兼备的制造任务。它们通常被固定于防护栏内,单台造价高达数十万美元。
远程操控机器人
它们充当人类的"远程延伸",用于在恶劣环境下执行巡查、观测或维修任务——包括无人机以及用于焊接修补的水下机器人。最为人熟知的远程操控机器人或许当属NASA在过去数十年间送往火星的那些。此外还有名为SoFi的机器鱼,它借助尾鳍与双鳍模拟推进,可在太平洋中下潜至18米深处。
自主机器人
你家或许就有一台——无需人工监督、依靠传感器自主导航的扫地机器人便是典型代表。近年间,众多"割草机"机器人也涌入市场,将这项繁重劳作揽入怀中。在农业领域,机器人已在长期劳动力短缺的行业中执行巡查与收割作业。自主仓储机器人同样蓬勃发展——亚马逊仓库中的那些便是例证。
增强型机器人
此类机器人专为辅助或增强人类能力而生,假肢与外骨骼皆是典型代表。你或许最早在电视剧《无敌金刚》中接触过这一类别——但更实际地讲,它们为截肢者赋予了不可思议的能力,也为体力劳动者营造了更安全的工作环境。
人形机器人
这才是真正引人入胜之处。我们早已构建了一个双足行走主导的世界——为何不打造能在其中自如作业的机器人呢?人形机器人效仿人类形态——双足(或如波士顿动力所造的四足),能够借助自然语言与面部表情交流,并运用四肢、双手及类人肢体完成各类任务。四足机器人在全球的部署量仅有数千台,我们仍处于开发、部署与成本可控的极早期阶段。像Enchanted Tools这样的公司已在展示能够在人群中穿梭、搬运轻物、递送物品并以自然语言交流的人形机器人。尽管人形机器人在未来几年将攫取大部分媒体关注,并承受最大的"文化冲击",但其他类别的机器人同样将从生成式AI中获益良多,并在各行各业驱动显著的效率跃升。
生成式AI对机器人领域的深远影响,再怎么强调也不为过。除了更自然的沟通与理解能力外,生成式AI模型架构(如Transformer)还将与其他模型架构(如CNN、隔离森林等)相结合,为图像识别、异常检测和示教学习赋予上下文理解与人机交互界面。这将构成从"金属到云端"的完整边缘AI技术栈。
让我们来审视机器人领域所使用的传统AI与生成式AI之间的差异:
传统AI:
生成式AI:
综上所述,众多边缘AI形态在资源受限与低功耗环境中分析现有数据并进行预测方面表现出色且不可或缺,而边缘生成式AI如今将赋予其基于经验创造新数据与动态适应的能力。将生成式AI引入机器人领域,将开启示教学习、丰富沟通以及更广泛的机器人应用前景——覆盖各行各业与日常生活的方方面面。
每当我们谈及机器人,文化中"邪恶机器人"的联想总会如影随形——《终结者》中的天网、奥创、《西部世界》中的枪手皆是典型。同时我们也钟爱被赋予拟人色彩的机器人,如C3PO、R2D2与瓦力。还有一些介于两者之间的形象,比如电影《AI创世者》中的角色。
随着人们日益关注生成式AI迈向通用人工智能(AGI)的演进趋势,有哪些护栏、最佳实践与立法举措能够确保机器人——与生成式AI融合后——始终保持在"善"或"中立"的范畴之内?
艾萨克·阿西莫夫在1942年的短篇小说《转圈圈》中提出了著名的机器人三定律:
2021年,麻省理工学院媒体实验室人机交互、机器人伦理与知识产权领域的理论与政策研究专家凯特·达林博士在《卫报》撰文指出,我们应当更倾向于将机器人视作动物,而非人类的对手。一旦完成这一观念转变,我们便能更顺畅地探讨谁应对机器人的行为担责,谁应对机器人引发的社会影响(如劳动力市场的变革)担责。
欧盟早在2017年便发布了《机器人技术民事法律规则》,涉及机器人定义、责任归属、保险角色等关键议题。2023年,美国马萨诸塞州提出了一项法律,拟:1)禁止销售与使用搭载武器的机器人设备;2)禁止利用机器人设备进行威胁或骚扰;3)禁止使用机器人设备对个人实施物理限制。类似立法何时以及能否上升至联邦层面尚不明朗。
在边缘AI的版图中,训练历来在"云端"或服务器级GPU环境中完成,推理则在轻量级边缘端执行。随着强化学习与持续学习新成果的不断涌现,我们将看到边缘端成为更具可行性的训练平台。
然而在物理人工智能平台中,示教学习(亦称行为克隆)使机器人能够仅凭观察人类来习得新技能——无论是在现实世界还是模拟的物理环境中。机器人无需逐步编程,而是通过观察人类行为与动作,在其神经网络中建立关联。这种非结构化的训练方式将使机器人更深刻地理解特定任务中的细微差别,并使其与人类的交互更加自然流畅。
在示教学习的AI模型方面已取得一系列重要进展——从CNN模型类型起步,到近期对扩散模型类型的运用,诸如微软研究院2023年论文《基于扩散模型模仿人类行为》中所提出的方法。
2024年3月,英伟达推出了Gr00t,这是一款专为ISAAC/JETSON机器人平台示教学习量身打造的基础模型。黄仁勋在NVIDIA GTC主题演讲中演示了该模型,它还借助Omniverse"数字孪生"环境来构建虚拟化的物理场景,从而在安全、灵活的虚拟环境中通过示教学习训练机器人。2025年,该模型迭代为Gr00t N1,并新增了"Newton"物理引擎。我们现已看到专为机器人平台调优的基础模型,如Gr00t,以及Covariant的RFM-1等。预计这一领域将如云端大语言模型的基础模型一样,迅速涌现出多种选择。
机器人构成一个"三计算设备问题"——云端借助生成式AI与大语言模型进行AI模型训练;机器人平台自身运行模型推理与机器人操作系统(ROS);模拟/数字孪生环境则用于安全高效地开发与训练。
"一切会动的东西都将变成机器人。"——黄仁勋
生成式AI与机器人技术的交汇正将机器人议题重新拉回聚光灯下。尽管波士顿动力目前在全球仅部署了约1500台Spot机器人,但我们有理由期待数量将大幅攀升,以更丰富的配置现身于仓库、农田与制造车间。我们还将见证更多的人形机器人实验,以及伴随而来的炒作浪潮——媒体将不遗余力地报道每一次失利的案例。
在这些平台上运行生成式AI需要强劲的TOPS算力、高性能内存子系统,以及先进的控制器、执行器与传感器。我们将看到"数据中心级"半导体向这些平台下沉,与此同时,边缘原生半导体平台也在向上拓展——它们具备适合工业环境的耐热与物理特性、低功耗以及集成通信能力。我们还将看到许多新型独立AI加速芯片与传统服务器级芯片搭配使用。手机与AI PC等大众平台将凭借其市场规模助力成本下降。
然而,除了顶级半导体与充足内存外,机器人平台——尤其是人形机器人——还需要极其精密的传感器、执行器与机电设备,在可预见的未来成本仍将高达数万美元。
让我们来做个参照——高盛预测2035年人形机器人的潜在市场规模(TAM)为380亿美元,出货量达140万台。对人形机器人而言这并非庞大的出货量(PC年出货约2.5亿台,智能手机超过10亿台)——但我们可以预期,数量将高出几个数量级的"功能性外形机器人"将涌现于仓库、家庭吸尘及其他专项任务中。
这些平台——如高通、英伟达、恩智浦、亚德诺等公司目前推出的那些——正吸引着开发者将服务器级软件技能与嵌入式计算专长融会贯通。与移动技术一样,机器人与物理人工智能正以全新的方式向开发者与设计者发起挑战,并为劳动力发展、技能提升与职业成长提供了独特机遇。
此处的一大关键挑战在于避免重蹈工业4.0与物联网的覆辙——我们该如何作为一个行业携手协作,在数据共享模型、数字孪生模型、代码可移植性及机器人技术栈的其他要素方面实现标准化?若这一领域变得愈发碎片化与孤岛化,我们可能会看到更先进的、由生成式AI驱动的机器人的实际部署出现显著延迟。
开发者、设计师与科学家们正不断突破极限,缩小想象与现实之间的鸿沟。与基于云的AI一样,物理人工智能的使用需要重要的规范约束与最佳实践,这不仅是为了保障我们的安全,更是为了让物理人工智能能力的全新拓展真正造福人类社会。
我们不能低估新型机器人平台对文化、劳动力和存在主义心态的冲击。我们正伫立于一个转折点——边缘AI技术(如物理人工智能)正将传统的传感器AI与机器学习同生成式AI相融合——这不仅是对边缘AI"技术栈"(从金属到云端)中所有技术供应商的集结号,也为各行各业的公司提供了重新审视的契机:这些新平台将如何以我们仍在想象之中的方式,运用这项新兴的边缘AI技术。
原文