机器人进家保洁具身智能冲刺家庭场景

发布时间：2026-04-27 09:20阅读：27

近日，在北京市海淀区中关村大街一座大厦里的便利店中，机器人把取来的饮料递给顾客。新华社记者任超摄

当58到家的保洁阿姨按下门铃时，她身边多了一位新“同事”：一台由具身智能企业自变量研发的机器人。随着房门开启，全球首个机器人保洁员正式“上岗”入户，与保洁阿姨配合完成家庭保洁。

记者了解到，目前机器人保洁员已在深圳、北京等地累计服务近百个家庭。这也意味着，机器人已经从实验室和工业场景走向更复杂的家庭环境，为突破具身智能应用“最后一公里”迈出了扎实一步。

“实习保洁员”的初步尝试

深圳市民陈果（化名）是首批预约机器人保洁员上门服务的体验者之一：她通过58同城App下单，体验国产机器人提供的智能保洁服务。“确实很新鲜，起初我还担心机器人会不会干不好家务。”

在3小时的服务里，陈果发现，机器人不仅能在客厅和厨房之间平稳穿行，还可以承担清理垃圾、整理桌面、收纳清洁等工作。“这台机器人干活挺稳，人机协作效率很高，比我原先预想的好得多。”

在家庭服务场景中，人机分工十分清晰：保洁阿姨主要负责与客户沟通、现场判断以及更复杂的深度保洁任务，机器人则作为得力帮手，重点承担客厅区域的收纳和基础清洁。

作为“实习保洁员”进家入户，对机器人来说已经是明显进展。因为家庭属于高度复杂、非标准化的开放环境，被视为检验通用机器人能力的“终极考场”。智元机器人合伙人、高级副总裁王闯认为，普通人可能希望机器人直接进家干活，但家庭场景的落地难度其实最高，需要解决安全、成本、复杂任务泛化、作业成功率以及避免损坏物品等一系列问题。

正因如此，要让机器人在家庭场景里更稳定地做好精细工作，就需要更好的预训练，这对机器人的“大脑”——模型能力提出了更高要求。一位参与技术研发的工程师打了个比方：工业机器人像循规蹈矩的实习生，每一步都照着手册来；而家庭机器人则要像一个有常识的成年人，即便遇到陌生情况也能灵活应对。

应用于家庭场景的机器人，一直是具身智能领域公认的“最后一公里”。36氪研究院发布的《2026年具身智能产业发展研究报告》指出，人形机器人产业突破的关键，在于机器人大脑的“演进”。宇树科技创始人王兴兴也多次公开表示，机器人当下和未来最核心的挑战在于大模型，这足以说明提升具身智能模型能力的紧迫性。如果说硬件决定了机器人能不能动，那么大模型决定了它能不能“聪明”地动——而这正是当前全球业界共同面对的瓶颈。

大脑进化的关键在于应对“未见场景”

用于家庭场景的机器人应该拥有什么样的大脑？

“真正的智能机器人，难点不在于单一动作的反复执行，而在于能否在随机环境中做出全新的、没有被训练过的动作。这就要求基础模型具备足够强的泛化性和准确性，能够处理更复杂的任务。”自变量机器人CEO王潜介绍，为此自变量研发了具身智能基础模型Wall-B。

放眼全球，大多数具身智能企业采用的都是VLA（视觉-语言-行动）架构，这是当前具身智能领域的主流方案，结构也很清晰：视觉模块负责“看”，语言模块负责“懂”，动作模块负责“做”。三个模块各司其职，数据按顺序传递。然而这种架构天生存在短板：数据在模块间每传递一次，都会产生一次信息损耗和延迟。视觉模块“看到”的大量空间信息，传到动作模块时，往往只剩下一个模糊摘要。更重要的是，VLA只能“模仿”训练数据里的轨迹，并不理解杯子为什么会掉，也不理解为什么盘子悬在桌边要推回去。

王潜说，Wall-B不是那种只会背标准答案的大脑。“它有三方面能力：第一，是用感知和理解取代死记硬背式的动作模仿。第二，是举一反三，不是每个动作或场景都必须依赖历史数据或‘老师’指导。第三，是实时调整，动作一旦做错就能立刻修正，以更高效率完成任务。”

具体来说，Wall-B把视觉、语言、动作、预测四类能力统一到同一架构中训练。这意味着模型不再是“看了再想、想了再做”的串联方式，而是能够同时处理多路信息流。因此，模型对物理世界中的重力、惯性、摩擦等规律会有更准确的认知和感受——比如它知道空纸杯比装满水的杯子更容易被碰倒，也知道光滑地面上刹车需要更长距离。这种对物理常识的内化，使模型处理数据更高效、更准确，也更能应对从未见过的场景。

例如，在一次真实家庭服务中，机器人第一次碰到一个底部带吸盘的杯垫。它没有接受过专门训练，但通过视觉识别和物理推理，判断需要稍微加力才能把杯子拿起。这种“现场推理”能力，正是Wall-B区别于传统VLA模型的关键。

今年以来，具身智能进入应用加速阶段。2026年政府工作报告将具身智能明确列为需要培育壮大的未来产业之一。同时，工业和信息化部正式发布的《人形机器人与具身智能标准体系（2026版）》，也为行业规范化、规模化发展提供了顶层设计。

记者注意到，不论工业机器人还是商用机器人，目前大多数仍然依赖遥操作，或者需要人在现场“指挥”。这说明机器人的功能还停留在被动执行，而不是主动行动。拿掉遥控器，机器人才能真正独立；离开人的干预，它才算拥有自己的“大脑”。

除了大脑不够聪明，数据也是非常关键的制约因素。再好的算法模型，如果没有海量、高质量、贴近真实场景的数据训练，也只会沦为“纸上谈兵”。

因此，让人形机器人进入实战场景以提升数据质量，已经成为业内共识。王兴兴在2026人形机器人与具身智能标准化年会上表示，通过模仿学习采集真人数据，机器人才有望掌握人类的各种动作。中国科学院自动化研究所研究员赵晓光则表示，实训场就像机器人上岗前的“实训课堂”，通过由简到繁的系统训练，让机器人具备解决实际问题的能力。

不过，目前行业里大多数训练模型的数据都来自实验室：固定光照、固定物体位置、没有干扰。但这类环境与真实世界差距很大，尤其和家庭中不断变化的自然光、随手摆放的物品、孩子和宠物的随机动作完全不同。在实验室里表现优秀的模型，一旦面对真实家庭的“混乱”，准确率可能会从90%迅速降到60%以下。

机器人保洁员每次完成任务后，都会把脱敏后的感知数据和操作数据回传到训练平台。这些来自真实场景的“一手经验”，成了模型迭代最宝贵的养料。“训练数据分为两部分，我们用实验室数据帮助它建立基础能力，用真实场景数据让模型学会真正的生存。”王潜说。

接下来，搭载Wall-B的新一代具身智能机器人将更大规模进入多个城市的家庭场景，并加快训练、持续增强能力，让机器人尽快成为人类的家庭成员和好帮手。可以预见，不久之后，当门铃响起、打开房门迎接一位机器人保洁员上门服务时，或许会像今天看到扫地机器人一样再正常不过。（记者吴蔚张漫子)

← 上一篇：未来产业攻关提速，超前布局再加码下一篇：科交会尽展科技之美 →

机器人进家保洁 具身智能冲刺家庭场景

机器人进家保洁具身智能冲刺家庭场景