标签

AI在YouTube上‘偷师’:视频学习如何破解具身智能数据瓶颈

发布时间:2026-05-02 20:22来源:微信阅读:7

无需他人一步步指导你的肌肉运动,也不必计算刀具与砧板间的摩擦系数。你只需在一旁观察,或是在手机上观看几段烹饪视频,大脑便能将他人的动作自动‘转译’为自己的肌肉指令。

这种极为自然的能力,对当前的人工智能而言却是一座难以跨越的高峰。

在很长一段时间里,由于文本大语言模型无法理解物理常识,具身智能陷入了严重的‘数据匮乏’困境。为了让机器人掌握一个简单的抓取动作,AI研究人员不得不回归最原始的手工作坊模式。

今天,我们将剖析具身智能领域正在经历的一场数据变革:放弃昂贵的人工采集,AI正直接从海量网络视频中提取物理世界的基本规律。

如果现有的机器人足够聪明,那是因为其背后站着一位极其疲惫的人类。

当前获取高质量机器人行为数据的主流方法是遥操作。研究人员需要佩戴沉重的VR头盔和动作捕捉手套,在闷热的实验室里,像操控提线木偶一样远程控制协作机械臂,一遍又一遍地重复抓取苹果、倒水、插拔线缆等动作。

这种‘人类示范-机器模仿’的模式,数据质量很高,但成本极其昂贵。一段几秒钟的优质轨迹数据,采集成本可能高达数美元。

当文本大模型动辄使用数十万亿Token进行训练时,顶尖的具身智能开源数据集所包含的真实动作轨迹也不过十万级别。

依赖人类戴着头盔手把手教学,永远无法培养出通用人工智能。要实现突破,具身智能必须找到属于自己的‘海量无标注数据’——即遍布互联网的视频。

YouTube、TikTok等平台每天产生数以千万计的家务、手工、维修视频。这些视频蕴含了人类与物理世界互动的最宝贵常识:物体受力后的形变方式、如何根据重力调整重心、如何进行空间避障规划。

但其中的技术鸿沟巨大:视频中只有二维的像素变化,没有机器人的关节角度、电机扭矩或深度信息。

如何让机器人理解视频?学术界目前探索出两条核心底层路径:

第一条路径:表征学习。研究人员不再强求从视频中直接提取关节动作,而是让AI学习‘任务的进度条’。例如Meta推出的R3M和VIP模型。它们通过观察大量视频,学会了判断如‘切洋葱’这类动作的起始状态与完成状态。随后,当机器人在仿真环境中尝试动作时,如果其行为使环境越来越接近视频中的‘完成状态’,算法就会给予‘奖励’。

第二条路径:运动学重定向。这是更为激进的方法。借助计算机视觉技术,AI首先精确捕捉视频中人类手部的3D骨骼关键点,然后通过复杂的逆运动学映射算法,强行将人类的手部姿态,转换成机械手的关节控制指令。

仅观看视频当然不够,机器人还需要‘手感’。

当前的前沿解决方案,是将视频学习与我们之前探讨的强化学习相结合。

机器人在云端观看数千小时的视频,在神经网络中建立起对物理世界的视觉常识和粗略的动作规划。随后,它被置入高精度仿真环境中,利用强化学习进行高频试错,将粗糙的‘模仿’打磨成毫米级精度的‘肌肉记忆’。最终,再通过仿真到现实技术部署到物理实体上。

这是一条无需人类实时干预,就能实现自我闭环演进的惊人路径。

过去十年,掌控文本语料库的公司主导了大语言模型时代。未来十年,掌握高质量人类行为视频数据与物理仿真引擎的团队,将获得具身智能的最终入场券。

当AI能够主动在互联网上观察人类的劳动,并在虚拟沙盒中进行数以万计的物理推演时,它们真正走出冰冷屏幕,接管工厂流水线和家庭劳动,只是时间问题。

这里是感知纪,致力于为你穿透AI与物理世界的迷雾。

如果你对AI如何通过强化学习算法在虚拟引擎中自我进化,或前沿的仿真到现实技术落地难点感兴趣,欢迎点击关注。我们将持续输出专业、深度的硬核研究报告。

参考论文/文献链接:

VIP: Towards Universal Visual Reward and Representation via Value-Implicit Pre-Training (Ma et al.)

R3M: A Universal Visual Representation for Robot Manipulation (Nair et al.)