机器人进家保洁 具身智能冲刺家庭场景
近日,在北京市海淀区中关村大街一座大厦里的便利店中,机器人把取来的饮料递给顾客。 新华社记者 任超 摄
当58到家的保洁阿姨按下门铃时,她身边多了一位新“同事”:一台由具身智能企业自变量研发的机器人。随着房门开启,全球首个机器人保洁员正式“上岗”入户,与保洁阿姨配合完成家庭保洁。
记者了解到,目前机器人保洁员已在深圳、北京等地累计服务近百个家庭。这也意味着,机器人已经从实验室和工业场景走向更复杂的家庭环境,为突破具身智能应用“最后一公里”迈出了扎实一步。
“实习保洁员”的初步尝试
深圳市民陈果(化名)是首批预约机器人保洁员上门服务的体验者之一:她通过58同城App下单,体验国产机器人提供的智能保洁服务。“确实很新鲜,起初我还担心机器人会不会干不好家务。”
在3小时的服务里,陈果发现,机器人不仅能在客厅和厨房之间平稳穿行,还可以承担清理垃圾、整理桌面、收纳清洁等工作。“这台机器人干活挺稳,人机协作效率很高,比我原先预想的好得多。”
在家庭服务场景中,人机分工十分清晰:保洁阿姨主要负责与客户沟通、现场判断以及更复杂的深度保洁任务,机器人则作为得力帮手,重点承担客厅区域的收纳和基础清洁。
作为“实习保洁员”进家入户,对机器人来说已经是明显进展。因为家庭属于高度复杂、非标准化的开放环境,被视为检验通用机器人能力的“终极考场”。智元机器人合伙人、高级副总裁王闯认为,普通人可能希望机器人直接进家干活,但家庭场景的落地难度其实最高,需要解决安全、成本、复杂任务泛化、作业成功率以及避免损坏物品等一系列问题。
正因如此,要让机器人在家庭场景里更稳定地做好精细工作,就需要更好的预训练,这对机器人的“大脑”——模型能力提出了更高要求。一位参与技术研发的工程师打了个比方:工业机器人像循规蹈矩的实习生,每一步都照着手册来;而家庭机器人则要像一个有常识的成年人,即便遇到陌生情况也能灵活应对。
应用于家庭场景的机器人,一直是具身智能领域公认的“最后一公里”。36氪研究院发布的《2026年具身智能产业发展研究报告》指出,人形机器人产业突破的关键,在于机器人大脑的“演进”。宇树科技创始人王兴兴也多次公开表示,机器人当下和未来最核心的挑战在于大模型,这足以说明提升具身智能模型能力的紧迫性。如果说硬件决定了机器人能不能动,那么大模型决定了它能不能“聪明”地动——而这正是当前全球业界共同面对的瓶颈。
大脑进化的关键在于应对“未见场景”
用于家庭场景的机器人应该拥有什么样的大脑?
“真正的智能机器人,难点不在于单一动作的反复执行,而在于能否在随机环境中做出全新的、没有被训练过的动作。这就要求基础模型具备足够强的泛化性和准确性,能够处理更复杂的任务。”自变量机器人CEO王潜介绍,为此自变量研发了具身智能基础模型Wall-B。
放眼全球,大多数具身智能企业采用的都是VLA(视觉-语言-行动)架构,这是当前具身智能领域的主流方案,结构也很清晰:视觉模块负责“看”,语言模块负责“懂”,动作模块负责“做”。三个模块各司其职,数据按顺序传递。然而这种架构天生存在短板:数据在模块间每传递一次,都会产生一次信息损耗和延迟。视觉模块“看到”的大量空间信息,传到动作模块时,往往只剩下一个模糊摘要。更重要的是,VLA只能“模仿”训练数据里的轨迹,并不理解杯子为什么会掉,也不理解为什么盘子悬在桌边要推回去。
王潜说,Wall-B不是那种只会背标准答案的大脑。“它有三方面能力:第一,是用感知和理解取代死记硬背式的动作模仿。第二,是举一反三,不是每个动作或场景都必须依赖历史数据或‘老师’指导。第三,是实时调整,动作一旦做错就能立刻修正,以更高效率完成任务。”
具体来说,Wall-B把视觉、语言、动作、预测四类能力统一到同一架构中训练。这意味着模型不再是“看了再想、想了再做”的串联方式,而是能够同时处理多路信息流。因此,模型对物理世界中的重力、惯性、摩擦等规律会有更准确的认知和感受——比如它知道空纸杯比装满水的杯子更容易被碰倒,也知道光滑地面上刹车需要更长距离。这种对物理常识的内化,使模型处理数据更高效、更准确,也更能应对从未见过的场景。
例如,在一次真实家庭服务中,机器人第一次碰到一个底部带吸盘的杯垫。它没有接受过专门训练,但通过视觉识别和物理推理,判断需要稍微加力才能把杯子拿起。这种“现场推理”能力,正是Wall-B区别于传统VLA模型的关键。
今年以来,具身智能进入应用加速阶段。2026年政府工作报告将具身智能明确列为需要培育壮大的未来产业之一。同时,工业和信息化部正式发布的《人形机器人与具身智能标准体系(2026版)》,也为行业规范化、规模化发展提供了顶层设计。
记者注意到,不论工业机器人还是商用机器人,目前大多数仍然依赖遥操作,或者需要人在现场“指挥”。这说明机器人的功能还停留在被动执行,而不是主动行动。拿掉遥控器,机器人才能真正独立;离开人的干预,它才算拥有自己的“大脑”。
除了大脑不够聪明,数据也是非常关键的制约因素。再好的算法模型,如果没有海量、高质量、贴近真实场景的数据训练,也只会沦为“纸上谈兵”。
因此,让人形机器人进入实战场景以提升数据质量,已经成为业内共识。王兴兴在2026人形机器人与具身智能标准化年会上表示,通过模仿学习采集真人数据,机器人才有望掌握人类的各种动作。中国科学院自动化研究所研究员赵晓光则表示,实训场就像机器人上岗前的“实训课堂”,通过由简到繁的系统训练,让机器人具备解决实际问题的能力。
不过,目前行业里大多数训练模型的数据都来自实验室:固定光照、固定物体位置、没有干扰。但这类环境与真实世界差距很大,尤其和家庭中不断变化的自然光、随手摆放的物品、孩子和宠物的随机动作完全不同。在实验室里表现优秀的模型,一旦面对真实家庭的“混乱”,准确率可能会从90%迅速降到60%以下。
机器人保洁员每次完成任务后,都会把脱敏后的感知数据和操作数据回传到训练平台。这些来自真实场景的“一手经验”,成了模型迭代最宝贵的养料。“训练数据分为两部分,我们用实验室数据帮助它建立基础能力,用真实场景数据让模型学会真正的生存。”王潜说。
接下来,搭载Wall-B的新一代具身智能机器人将更大规模进入多个城市的家庭场景,并加快训练、持续增强能力,让机器人尽快成为人类的家庭成员和好帮手。可以预见,不久之后,当门铃响起、打开房门迎接一位机器人保洁员上门服务时,或许会像今天看到扫地机器人一样再正常不过。(记者 吴蔚 张漫子)
