星海图高继扬：具身智能的GPT时刻或将悄然而至

发布时间：2026-06-22 19:31阅读：2

统筹|靖程

撰文|高雅

具身智能领域的“GPT时刻”究竟何时降临？是3年、5年亦或更久？

近期，在星海图全球开发者大会上，星海图CEO高继扬提出了一个新颖的看法。他指出，这一时刻或许不会如大语言模型那般具有强烈的冲击感。“大语言模型是大家在手机端就能直观体验的技术，而具身智能或许已在某处扎根，大众却毫无察觉。”高继扬表示，具身智能的商用落地是伴随能力提升而逐个场景突破的。“或许过些年，我们蓦然回首，发觉机器人早已遍布四周，却难以记清是从哪一年起始的。”

具身智能的长远护城河源于打造物理世界的数据闭环，为建立此闭环，星海图坚持全机+智能的路线。6月16日，星海图推出全新VLA基座模型G0.5并宣布开源，发布了世界模型Fast-WAM与全身控制基座模型，同时自研的双足人形机器人Kengo（行客）也登台亮相。

怎样权衡整机与模型间的研发精力？怎样看待业内各种热点现象，财经网科技等媒体与高继扬进行了深度交流。以下为访谈实录（在保持原意前提下稍作删改）：

“VLA与世界模型的数据获取方式并非互斥”

Q：星海图收集了针对VLA和世界模型的数据，这两类模型数据能否互通？

A：这个问题极佳且关键，今年上半年有种论调将WIM（世界模型）和VLA置于对立面，实际上我们始终不觉得这两条路线互斥，它们同根同源，且未来必将走向深度交融。

缘何如此？无论是训练VLA或WIM，其核心逻辑何在？即把多模态信息转化为Token，再经由多层Transformer处理，差异仅在于末端的监督与训练手法不同，网络架构或许微调。依此视角，全部数据皆可混合使用，当前谈及的human centric data与robot centric data，前者涵盖UMI、Ego等数据，后者即遥操作数据，皆可融合。

Q：收集数据时会考量哪些要素？

A：我们采集数据的根本目的是覆盖四个维度：动作维度、对象维度、场景维度以及本体维度，说到底，就是为了尽可能网罗各类异构数据。

不论UMI还是Ego数据，采集初衷是什么？人类高矮胖瘦各异，这就要求配备不同形态的本体，以便更迅速地攻克难题。当然，模型终将搭载于机器人本体之上，因此本体形态数据亦不可或缺，大致就是此理。

Q：预训练期仅用少量仿真数据，大量依赖真机数据，这种做法是否会带来成本压力？

A：坦诚讲，当下的预训练清一色采用真实数据，仿真数据基本未被启用，此乃行业现状，原因在于真实数据能更迅捷地帮我们填满前述的四维空间，在达到100万小时数据量前，对本公司而言，引入仿真数据毫无必要。

再谈成本，我过往反复强调一观点：莫只盯数据单边开销，应聚焦智能综合成本，采数据旨在实现智能，须回归初衷。而攻坚智能的综合成本涵盖三块——数据开销、算力开销及研发团队薪资，暂且抛开第三项，单论数据与算力成本，我们的实操比例至少达1：10，即耗1元数据费需配10元算力费方能训出成果。倘若数据质量欠佳，产出的模型定然好不到哪去。

另一层逻辑，单看数据成本，究竟几何？我们实操发现，Human centric data约50-100元/小时，随地域不同有浮动下调空间。robot centric data遥操作数据，加计人工与设备折旧约250元/小时。目前市面上同类遥操作数据报价300-350元/小时，存在10%-20%毛利，取决于其运营水准。当下训练大语言模型，每年算力耗费达数亿美元规模，对比这数亿开销，这数亿数据费非花不可，且性价比极高。

Q：当下常见机器人叠衣、分拣物品，可比人类慢许多，对此类数据采集有无规划，这类基础操作能力将演进至何种地步？

A：您抓住了关键，即速率问题，若再细察，会发现叠衣速度快于分拣，多数时候快慢并非绝对，需看迭代情况。三个月前叠衣与分拣同样迟缓，历经三月迭代，经调参与模型训练优化，速度大幅提升。故而看成长曲线，我们认为当前具身基模进化速率已超婴孩学步，因此我们绝不认为进展缓慢。

但从技术视角剖析，数据量攀升并不直接拉升模型执行速率，执行快慢极大程度上受制于后训练，所采数据化解的是预训练痛点，预训练何用？解决泛化难题，面临新环境、新任务，能否无需新数据即可胜任，哪怕动作迟缓但仍可完成，即代表理解了任务，此乃预训练之功效。

“有限博弈与无限博弈”

Q：Kengo作为星海图首款双足人形机器人，其关节模组有何亮点与独特之处？您对其有何期许？

A：关节模组设计有两大特征，其一为整机通信全采用EC通信，业内常见Can或485通信，EC通信优势在于极佳的同步性，属所有方案中通信最优者，唯研发门槛偏高。就整体性能而言，我自认我司模组稳居业内第一梯队领先水准。

整体而言，我始终以为，整机与供应链属有限博弈，智能及应用方为无限博弈。其中精妙在于，若无法在有限博弈中胜出，便无缘参与后续无限博弈，我们倾注大量心血打造自有整机与供应链，终极目标仍是发力智能与应用，此乃根本动因。

Q：G0.5模型大致何时能部署于Kengo双足机器人？

A：明白，若严守技术探讨，G0.5架构实则为双臂智能或轮式双臂品类量身打造，故将广泛搭载于R1 Lite、R1 Pro及新款单臂R1Z。而基于Kengo主推的模型，乃是本能智能模型。

再深挖一环，无论VLA抑或世界模型，皆以模仿学习为重、强化学习为辅，过往数年业内已显此态势，先模仿后强化。两条路线——本能智能与作业智能终将交汇，至融合期方是G0.5系列能力赋能Kengo双足产品之际，故此乃渐进过程。

Q：针对整机与数据，星海图在资源调配上作何规划？

A：战略即为整机+智能，终局在于释放生产力，物理世界生产力单靠模型难以为继，整机亦须卓越、可靠性极强、一致性极高且负载能力过硬。欲实现规模化营收与优厚毛利，整机与智能不可偏废，二者对商业成功同等关键，难分伯仲。

三句话可凝练我司特质：首当其冲我们是智能大脑企业，其次我们极度看重硬件，末了是我们的整机实力卓越强悍，此乃辩证关联。

观研发投入，显然整机投入远逊于智能投入，我认为两者存有量级之差。

“不谋求整机售卖期的绝对榜首”

Q：星海图未来核心锚定市场是否为工业域？在您看来工业域市场空间几何？

A：首当其冲，我司绝不局限于细分市场，生产力需求无远弗届，我方产品亦将无处不在。

落地乃循序渐进之程，首期，我方精度达厘米级，此精度适用何处？工业域上料、搬运，物流域分拣、共包、分包等环节。随操作精度跃升，制造业更多场景如装配、线束、插拔、检测等皆将解锁，迈入毫米级精度。

放眼长远，制造业仅是序章，农业、建筑业皆属具身智能可颠覆之领域，远景潜力在于赋能百业，绝非囿于单纯展演，或代工制造业某环节，此绝非其真容。

Q：星海图当下会否谋求某领域榜首？譬如整机销量。

A：首阶段我方不逐绝对榜首，盖因此阶段夺魁毫无意义，行业底层由AI驱动，整机销量期争个一二名价值微弱，固然需扩大销售体量，今年我司营收较去年亦将翻数倍，但我们追求依自身节奏稳健成长，拒斥恶性倾轧，在整机售卖期强冲绝对规模，多数情形下是负债而非资产。

Q：何时方求绝对榜首或大举扩张？

A：第二阶段，即智能驱动商业化启航之时。

Q：当前部分企业营收已破十亿，是否意味市场已有身位差？

A：现阶段，成熟市场仅两类，一为开发者或科教研，二为展演娱乐，您提及十亿级营收企业在展演市占鳌头，此乃事实。

然至第二阶段，商业模式应转为面向生产力场景的方案订阅。于生产力场景，现无任何企业可真正高效作业，故身位差并不存在，真正的星辰大海尚未铺展。

Q：当下具身智能赛道融资火热，众常议及泡沫，您作何观？

A：凡行业发展皆伴泡沫，或曰新事物即泡沫，源于大众对新事物演进难作精准预判，故常给出过高阶段性期许，当期许远超实际即成众口之泡沫。

胜者常于泡沫膨胀与破灭期皆可获益。对我司而言，现处泡沫膨胀期或近顶峰期，我方借此吸纳优质资源，外界瞩目与资金注入皆属良源，冀望携手各方整合此等优源，共襄盛举。

同时，我们亦时刻警觉资本市场何时将验真成效。对星海图而言，我司秉持“务实创新”价值观，创新前缘何加务实？唯解题之创新方为真创新，天马行空于企业无益，确保所有资源环绕智能主线（本能、作业、进化智能）倾注，余下旁支算法不予投入，留予学界。整机端聚焦数类机体，且与伙伴自研、共研，此即我方研发主干。

此外，商业化亦笃守此律，逾越阶段的过度商业化往往是负债而非资产。万事皆然，绝无捷径，亦无奇招，我们明晰所知与未知，知行合一，正面攻坚，稳扎稳打前行。

AI具身智能访谈新栏目招募

深耕机器人、自动驾驶、智能硬件、空间计算等具身智能创业者看过来！诚邀做客「AI 具身智能会客厅」，可扫描下方二维码，备注：方式 + 项目简介，我们即刻对接！

微信号丨nini-papa