空间智能与世界模型:通向AGI的关键跃迁
2022年末,ChatGPT惊艳问世;两年后,DeepSeek与春晚亮相的人形机器人引发全球热议。
2026年3月,OpenClaw席卷科技与产业界,标志着AI正式迈过‘辅助人类’阶段,进入‘自主作业’新纪元——它不再仅是工具,而是具备理解、规划与执行能力的数字劳动者。这场跃迁引爆全网对‘AI是否会替代人类岗位’的激烈讨论。当AI真正获得‘物理操作力’,我们亟需追问:驱动其持续进化的底层技术支柱究竟是什么?
十年前,2016年3月13日,韩国首尔,李世石执白中盘逆转AlphaGo——这是人类在围棋这一智力圣殿中,最后一次击败AI。
更早之前,1997年5月11日,“深蓝”战胜国际象棋世界冠军卡斯帕罗夫。尽管震撼一时,但彼时人们仍用一句诗形容现实:“遥远的事物将被震碎,眼前的人们尚不知情”——大家笃信,围棋所蕴含的庞大状态空间是机器无法攻克的壁垒;学棋数月的孩童便能轻松胜过电脑,人类大脑的“直觉智慧”仿佛牢不可破。
AlphaGo的诞生,彻底瓦解了这一认知。它依托深度学习,将海量人类对局转化为训练养料,使AI不仅学会模仿人类思维,更实现超越:2017年,AlphaGo-Zero完全摒弃人类棋谱,仅靠规则自我博弈、从零进化,短短三天便复现千年棋道演进,人类自此在围棋领域再无还手之力。
(图源网络)
围棋棋盘边界清晰、规则确定,AI可高效开展自训练。但我们所期待的强通用AI(例如能整理房间、协同办公的服务型机器人),必须在真实世界这个‘动态复杂棋盘’中感知、决策与行动。
若直接让机器人在现实环境中试错?风险极高:轻则损坏器物,重则危及安全。因此,必须先构建高保真虚拟环境供AI预训练,再迁移至真实场景。
然而,打造适配AI训练的虚拟世界,远比复刻一个围棋棋盘困难得多。人工建模成本巨大——尤其在工业领域,工厂产线、精密装备、多变工况的数字化映射,所需覆盖的场景规模近乎无限。
由此,“世界模型”应运而生:它是基于真实物理规律构建的可交互虚拟空间,是通往通用人工智能(AGI)不可或缺的底层基座。该模型须支持真实尺度交互——茶杯可拾取、衣物可折叠、阀门可旋转、产线设备可调试;建模过程需为每个物体赋予精确几何边界与语义标签,方能支撑AI有效学习。此要求在工业场景中尤为严苛——毕竟关键设备的操作容错率趋近于零。
当前构建世界模型主要有两类技术路径:视频生成与三维重建。前者受限于物理一致性难保障、行为可验证性弱;后者因更高可信度,成为当前主流选择。
要实现高质量三维重建,核心在于赋予AI‘空间智能’——即从处理一维文本、二维图像,跃升至深度解析三维物理空间的能力。目前主流方案分为两条技术路线,本质差异在于数据来源与表征方式