标签

Sony Ace横扫乒坛:AI首胜职业高手

发布时间:2026-04-27 13:57来源:微信阅读:6

过去几年,我们已经见识过AI在国际象棋和围棋赛场上的强势碾压,也曾目睹人类顶尖棋手柯洁在AlphaGo面前的落败与无力。但棋盘上的较量,本质仍是一步接一步的静态推演。

如果把战场搬到乒乓球台上,会发生什么?

这是一处完全不给你思考时间的物理战场:0.5秒内的极速攻防、20 m/s的爆冲弧圈球、以及高达1000 rad/s的致命自旋。在这种对感知延迟、身体敏捷度和空气动力学预判都近乎苛刻的场景里,传统机器人往往只能依赖发球机,或者通过修改规则来绕开难题。

直到今天,Sony AI团队带着Ace系统登上了最新一期《Nature》的封面。这不只是一次普通的人机乒乓对抗,更是人工智能首次在不牺牲任何物理规则的动态交锋中,击败了人类专业级选手。

在标准ITTF规则下、且未对器材与场地做任何简化的真实对抗中,Sony AI的Ace机器人对五位精英级人类选手取得了3胜2负的成绩;而它的取胜逻辑与人类截然不同:人类依靠突然爆发的杀球拿分,Ace则凭借近乎无情绪波动的稳定击球赢下回合。

过去十余年里,人工智能系统已经在国际象棋、围棋以及Gran Turismo等复杂虚拟环境中展现出超越人类的决策能力。然而,把这些数字世界中的成果迁移到真实物理对抗场景,尤其是高频竞技体育,一直存在巨大的技术门槛。以乒乓球为例:球速可超过20 m/s、单次击球间隔不足0.5秒、球体自转可达1000 rad/s,这对系统的感知延迟、空气动力学预测,以及物理执行的灵活性与安全性提出了极高要求。现有研究通常会缩小运动空间、忽略旋转,或者用发球机替代真人对抗来简化问题。本报告解析Sony AI团队发表于《Nature》的研究,重点讨论其如何通过异步多模态感知、无模型强化学习与毫秒级控制的结合,在不改规则的前提下与人类专业选手正面对决。

图3a:Ace与人类选手比分表

7场对抗的完整比分记录。粗体表示Ace获胜局:对精英选手3胜2负、对两位T.League职业选手0胜2负。

发表机构与载体:该研究由Sony AI牵头,联合Sony Advanced Visual Sensing、Sony Global Manufacturing & Operations等多个技术部门完成,成果《Outplaying elite table tennis players with an autonomous robot》以Article形式发表于2026年4月23日的《Nature》第652卷。

核心战绩:在完全遵循ITTF规则、并采用奥运标准球台的条件下,Ace于2025年4月对阵五位拥有十年以上训练经历的精英选手时拿下3胜2负;面对两位T.League现役职业选手Minami Ando、Kakeru Sone时以0胜2负告负,但仍赢下了七局中的一局。论文经过同行评审后,系统还进一步迭代,更新视频已发布在官方网站。

旋转处理与数据表现:Ace在0–450 rad/s的旋转范围内回球成功率保持在75%以上,最高可形成16.4 m/s的回球速度、以及600 rad/s的最大反击自转,明显优于此前最佳系统的公开基线。

底层架构:系统融合了全局快门相机IMX273与事件视觉传感器IMX636组成的高频感知网络,再配合非对称Soft Actor-Critic (SAC) 强化学习算法,先在仿真中进行端到端训练,随后零样本迁移到真实硬件。

Ace系统的成功并不是单一算法的胜利,而是高频物理信息采集、高保真仿真建模与超低延迟硬件执行共同作用的系统工程结果。它突破了传统机器人控制中依赖经验接触点和显式轨迹预测的限制,提供了一种将强化学习与凸优化结合起来处理动态对抗的新路径。

在专业级对抗中,感知延迟必须被压缩到亚秒级。传统帧式视觉传感器在捕捉高速且高自转球体时,容易受到运动模糊和带宽瓶颈的影响。Ace的思路是把三维坐标追踪和角速度测算完全拆开,由两类不同特性的传感器分别承担。

图2:Ace系统硬件布局与GCS模块特写

9台APS相机环绕标准球场外围;3台凝视控制系统(GCS)由事件相机、振镜和长焦可调镜头组成。

高频空间三角定位:系统在场地外围部署了9台搭载Sony IMX273传感器的全局快门相机,相机布局通过CMA-ES协方差矩阵自适应进化策略离线优化,以兼顾覆盖范围和最小2D检测半径5像素。所有相机均以200 Hz触发信号与机械臂硬件时钟同步,每次采集1440 × 1080分辨率图像后,由内置FPGA直接完成图像分割与2D球体检测,仅把压缩掩码而不是原始图像流传送到中央服务器。这样的硬件加速架构让从拍摄到3D坐标输出的全链路平均延迟只有10.2 ms,空间误差控制在3.0 mm以内。

动态凝视控制系统(GCS):球体自转是乒乓球运动中最难应对的变量之一,它会显著改变飞行轨迹与碰撞反弹角度。Ace部署了3套独立的GCS,每套都由三个核心部分构成:

GCS接收APS网络输出的3D坐标,并利用马格努斯效应空气动力学模型预测未来轨迹,再驱动振镜和镜头持续锁定目标。事件帧中的球体轮廓由YOLOv6检测,随后通过两条并行链路异步处理角速度:低延迟估计由CNN处理15 ms时间窗口内的极性分离事件切片,输出带异方差不确定性的初步结果;高精度校准则由对比度最大化(CMax)算法在后端异步运行,虽然耗时更长,但精度更高。实战中策略模块优先采用CNN估计值,并在低不确定性的CMax数据可用时立即切换,输出400–700 Hz可变频率的角速度数据,平均测算误差压制在24.8 rad/s。

Ace的强化学习策略完全在仿真器中训练,因此Sim-to-Real迁移能力高度依赖物理引擎对真实力学特性的还原程度。团队在流体力学建模、接触模型和传感器噪声模拟三个方向做了细致校准。

流体力学与马格努斯效应建模:球体飞行加速度由空气阻力fd、马格努斯力fM和重力fg共同决定。传统乒乓球机器人为了简化计算,常把马格努斯系数当作常数处理,但研究团队发现,这种近似在专业级转速下会导致明显的落点偏差。仿真器采用动态方程:

其中空气密度ρair= 1.204 kg/m³,球体质量m= 2.7 × 10⁻³ kg,半径r= 0.02 m,阻力系数cd= 0.55。马格努斯系数被建模为与即时线速度和角速度相关的动态标量:cM= 0.1·||v||/(r·||ω||) - 0.001。

接触模型与神经网络残差修正:在桌面接触环节,模型会动态计算滑动速度与切向速度向量,区分滑动摩擦与纯滚动状态(动态摩擦系数μ= 0.25),并把碰撞恢复系数εtable拟合为垂直入射速度的衰减函数:εtable= 0.98 - 0.02vz。对球拍接触,团队在解析模型之外加入了一个小型多层感知机(MLP)作为残差校正网络,通过输入真实比赛数据来补偿线性模型在速度和角速度上的误差,使平均预测误差下降了4%。

系统噪声注入:仿真环境主动加入了更复杂的噪声——APS相机模拟均匀延迟、零均值高斯噪声和固定丢帧概率;GCS事件相机额外引入球拍撞击瞬间上升的跟踪丢失概率;每次桌面接触后还会给球体状态注入独立的高斯扰动。这些机制保证模型能在非理想观测条件下学会动态调整。

扩展图1:32 ms周期内的状态观测与动作计算时序

Ace不再依赖人工设定的启发式击球点搜索,而是采用端到端深度强化学习与优化控制相结合的混合框架。

非对称Soft Actor-Critic (SAC) 架构是整个控制系统的核心。Critic在训练阶段可以读取物理引擎提供的完美真值,用于精确计算价值函数;Actor只能看到带有噪声、延迟和丢帧的时序传感器数据。这种非对称设计让Actor学会在不完美感知下输出最优动作,训练目标中还加入了一个辅助重建损失,用来让隐层表征尽量还原真值。

输入状态st由三部分组成:球体位置与自转历史序列stball;机器人前一轨迹段终点处的前瞻运动学状态strobot;以及技能调节向量stskill,其中包含期望落点ydesired和奖励权重wreward。通过随机化这组权重,模型可以把落点意图与回球旋转属性融合起来。奖励函数分为三层:未触球会受到重罚Rmiss;触球但没有合法回击则给予中等惩罚Rhit;成功回击则按落点距离提供正向密集奖励。

训练阶段的数据增强包含三种机制:沿场地中轴线的对称增强;事件重放表(Event tables)利用启发式规则对差之毫厘的未命中、高速回球等关键节点进行分层采样;后见之明经验回放(Hindsight Experience Replay)则把失败回合的实际落点反向视作目标,生成正样本反馈,从而加速空间定位技能收敛。

安全约束与轨迹最优化:由于强化学习策略容易产出不可执行的奇异运动,Ace引入了映射算法与MPC结合的底层执行机制。策略输出的动作at只是抽象向量,映射算法会把它平滑转换到32 ms后的关节速度-位置控制空间,并严格限制在最大控制不变集内——也就是从该点出发,机器人始终都能找到避免碰撞的可行解。映射结果作为终端约束节点提交给DAQP二次规划求解器,以1 kHz频率实时计算满足动力学边界、且尽量减小加加速度Jerk的三次样条轨迹段。

并发重置与极限避障:在每一帧推演正常动作的同时,一个并行的近时间最优MPC运动规划器会同步计算重置轨迹,把机械臂从终止点带回高灵活度的预备姿态。一旦底层接口判断即将执行的轨迹会与球台或自身发生碰撞,系统就会立刻放弃强化学习指令,启用上一帧的安全重置轨迹。这种并行冗余确保机器人在复杂对抗中的物理安全。系统还会利用KD树搜索精英选手比赛数据集,根据当前球体轨迹和预测落点反推出最优重置姿态。

为了满足ITTF规则,Ace通过末端执行器的球杯完成规范的单臂发球(规则允许有生理障碍的球员单臂发球)。发球动作被拆分为两个离散阶段:

重定向抛球:采集人类选手的发球动作轨迹,并用逆向运动学重定向到机械臂关节约束中。当杯中球体的向下加速度达到重力加速度阈值时(tlift),这个时刻被定义为球体释放点。

遗传算法(GA)优化挥击:挥击动作在仿真器中通过GA离线搜索,目标是最大化出球速度、落点深度与自旋构成的综合适应度函数。仿真参数必须先在实体物理台上完成至少20次开环验证;失误率低于5%的发球进入固定发球库;略高于这条线的尝试则引入闭环MPC校正,确认合格后列入动态发球库。

比赛过程中,Ace预先载入了多套面向不同目标优化的策略网络。每一回合开始前,系统会依据监督学习训练出的胜率预测模型,或者根据对手球风制定的启发式规则,动态从策略库中抽取最合适的子策略。

定制硬件参数:团队设计了一套具备8个自由度的特种机械臂,其中2个棱柱关节负责底盘横纵移动,6个旋转关节负责手臂挥击与姿态调整。连杆通过拓扑优化去除冗余质量,并采用Scalmalloy高性能铝合金进行增材制造。底层执行器以1 ms间隔同步工作,在高速运动下的位置跟踪延迟被压缩到5 ms以下。球拍则采用VICTAS ZX-GEAR OUT底板搭配Butterfly Dignics 05(2.1 mm海绵)套胶,整体配置接近商业级职业标准。

图3 b/c/d/e/f/g:得分球落点分布、回球率、出球速度与自转分布

论文图3的数据显示了完整的性能画像:左图中人类更依赖强攻得分,形成红色密集区域;右图中Ace则依靠落点和旋转的多样性拿分;箱型图进一步表明,Ace的得分球与过渡回球分布几乎一致。

对抗设置:2025年4月,Ace与5位接受过10年以上训练、且周训练时长不少于20小时的精英选手进行五局三胜制比赛,并与两位T.League现役职业选手进行七局四胜制较量。所有比赛均由JTTA执牌裁判现场执法。

超宽域旋转抗性:Ace明显超过了此前最佳系统公开报告的基线。在0–450 rad/s的旋转区间内,覆盖上旋、下旋与侧旋,其回球成功率稳定在75%以上,最高可生成600 rad/s的反击自转。

极限速度控制:系统可以稳定回击14 m/s以下的来球,机器端最大出球速度达到16.4 m/s。人类选手的极限杀球速度可达19.6 m/s,但Ace的回球速度分布更均匀。

基于一致性的取胜方式,是这项研究里最值得关注的发现。缺口箱型图显示,人类选手的得分球速度与自转中位数明显高于其常规过渡回球,Welch's t检验P< 0.001,说明人类主要依靠突然爆发和质量提升来拿分。相反,Ace的得分球与过渡回球在速度和自转分布上没有统计学显著差异,P= 0.88。系统赢分并不是靠突破物理极限的强攻,而是依赖极高的一致性:它把平均回合长度从人类比赛中的3.9次拉长到5.0次,通过稳定防守和多变角度持续施压,逐步消耗对手。

边缘情境的敏捷性:论文图4展示了一个非常罕见、却极具说服力的场景——来球擦网后轨迹骤变,原先预测失效,但系统在短短49 ms内重新生成了完全不同的安全回击关节轨迹。这类无法在仿真中大量覆盖的长尾情况被成功化解,说明底层并发重置机制与高频重规划引擎在真实干扰下具有很高可靠性。在发球得分方面,Ace使用15种不同发球类型对精英选手拿下16个直接得分,而所有人类选手合计只有8个。

Ace带来的意义并不局限于受限规则下的一场实验室胜利。其解耦感知模块、压缩运算延迟以及Sim-to-Real训练管线的整体架构,在多个领域都具备迁移价值。

传统陪练机器人只能发出预设角度的固定球,缺少真正的动态博弈能力。Ace则可以导入特定对手的历史比赛数据特征,生成风格化策略权重,理论上可作为顶级俱乐部的影子对抗系统。比如配置一个偏好压制反手下旋的系统分身,用于高强度专项训练,从而缓解真人陪练资源稀缺、且容易疲劳的问题。

系统中的GCS,也就是IMX636凝视模块,是一项独立性较强的技术资产,未来可剥离后授权给体育转播机构。当前赛事转播通常只能提供较粗糙的球速数据,而该系统能以400–700 Hz输出带极低误差24.8 rad/s的微观旋转参数与3D落点深度,并实时转化为AR图层叠加到直播画面上,直观呈现专业选手的旋转战术意图。

乒乓球对抗,本质上就是一场针对不可预知性的极端实验。Sony AI在这里验证的无模型强化学习加底层防碰撞最优化轨迹执行MPC范式,对工业界的柔性智能制造同样有迁移价值。在此之前,传统工业机械臂只能在隔离笼中执行硬编码轨迹。若把Ace的技术迁移到高节拍物流分拣或动态人机协作HRC流水线,智能体就能在全速运行下实时捕捉意外闯入的肢体或异物,并像处理擦网变线球一样,在49 ms级时间窗内完成动态规避并继续任务,为高速人机协作的安全性提供新的技术思路。这也与Sony AI此前在Gran Turismo中验证的GT Sophy强化学习范式一脉相承,均指向跨场景泛化能力在处理非分布物理干扰中的核心作用。

长期以来,机器人领域的人机交互边界往往建立在物理隔离和速度降维之上。机器人一旦面对摩擦力、空气阻尼以及人类主动施加的对抗性干扰,传统解析方法就容易因算力膨胀而陷入规划停滞。

Ace的成功提供了一个具身智能Embodied AI的典型锚点。通过非对称训练环境、仿真端输入真值指导、现实端处理高不确定性噪声,以及系统级硬件兜底重置控制逻辑,研究证明智能系统能够在保持算力效率的同时,在物理世界的极限反应区安全运行并获得优势。这个成果超越了一场乒乓球人机大战,它的长期价值在于为未来能够在复杂人类社会中自主行动、快速预判并安全共存的通用机器人,提供了一套可参考的工程模板。

论文中引用了1992年奥运参赛选手中村钦次郎在看过Ace击球后的感想:……没人能做到这种击球。我以前不认为这是可能的。但既然它做到了……那就意味着人类也有可能做到。当机器开始重新定义人类技艺的边界时,最有趣的或许并不是AI是否会超越人类,而是它将把人类引向怎样的新可能。

原文地址:https://www.nature.com/articles/s41586-026-10338-5

欢迎体育人共建AI Agent生态