星海图高继扬:具身智能的GPT时刻或将悄然而至
统筹|靖程
撰文|高雅
具身智能领域的“GPT时刻”究竟何时降临?是3年、5年亦或更久?
近期,在星海图全球开发者大会上,星海图CEO高继扬提出了一个新颖的看法。他指出,这一时刻或许不会如大语言模型那般具有强烈的冲击感。“大语言模型是大家在手机端就能直观体验的技术,而具身智能或许已在某处扎根,大众却毫无察觉。”高继扬表示,具身智能的商用落地是伴随能力提升而逐个场景突破的。“或许过些年,我们蓦然回首,发觉机器人早已遍布四周,却难以记清是从哪一年起始的。”
具身智能的长远护城河源于打造物理世界的数据闭环,为建立此闭环,星海图坚持全机+智能的路线。6月16日,星海图推出全新VLA基座模型G0.5并宣布开源,发布了世界模型Fast-WAM与全身控制基座模型,同时自研的双足人形机器人Kengo(行客)也登台亮相。
怎样权衡整机与模型间的研发精力?怎样看待业内各种热点现象,财经网科技等媒体与高继扬进行了深度交流。以下为访谈实录(在保持原意前提下稍作删改):
“VLA与世界模型的数据获取方式并非互斥”
Q:星海图收集了针对VLA和世界模型的数据,这两类模型数据能否互通?
A:这个问题极佳且关键,今年上半年有种论调将WIM(世界模型)和VLA置于对立面,实际上我们始终不觉得这两条路线互斥,它们同根同源,且未来必将走向深度交融。
缘何如此?无论是训练VLA或WIM,其核心逻辑何在?即把多模态信息转化为Token,再经由多层Transformer处理,差异仅在于末端的监督与训练手法不同,网络架构或许微调。依此视角,全部数据皆可混合使用,当前谈及的human centric data与robot centric data,前者涵盖UMI、Ego等数据,后者即遥操作数据,皆可融合。
Q:收集数据时会考量哪些要素?
A:我们采集数据的根本目的是覆盖四个维度:动作维度、对象维度、场景维度以及本体维度,说到底,就是为了尽可能网罗各类异构数据。
不论UMI还是Ego数据,采集初衷是什么?人类高矮胖瘦各异,这就要求配备不同形态的本体,以便更迅速地攻克难题。当然,模型终将搭载于机器人本体之上,因此本体形态数据亦不可或缺,大致就是此理。
Q:预训练期仅用少量仿真数据,大量依赖真机数据,这种做法是否会带来成本压力?
A:坦诚讲,当下的预训练清一色采用真实数据,仿真数据基本未被启用,此乃行业现状,原因在于真实数据能更迅捷地帮我们填满前述的四维空间,在达到100万小时数据量前,对本公司而言,引入仿真数据毫无必要。
再谈成本,我过往反复强调一观点:莫只盯数据单边开销,应聚焦智能综合成本,采数据旨在实现智能,须回归初衷。而攻坚智能的综合成本涵盖三块——数据开销、算力开销及研发团队薪资,暂且抛开第三项,单论数据与算力成本,我们的实操比例至少达1:10,即耗1元数据费需配10元算力费方能训出成果。倘若数据质量欠佳,产出的模型定然好不到哪去。
另一层逻辑,单看数据成本,究竟几何?我们实操发现,Human centric data约50-100元/小时,随地域不同有浮动下调空间。robot centric data遥操作数据,加计人工与设备折旧约250元/小时。目前市面上同类遥操作数据报价300-350元/小时,存在10%-20%毛利,取决于其运营水准。当下训练大语言模型,每年算力耗费达数亿美元规模,对比这数亿开销,这数亿数据费非花不可,且性价比极高。
Q:当下常见机器人叠衣、分拣物品,可比人类慢许多,对此类数据采集有无规划,这类基础操作能力将演进至何种地步?
A:您抓住了关键,即速率问题,若再细察,会发现叠衣速度快于分拣,多数时候快慢并非绝对,需看迭代情况。三个月前叠衣与分拣同样迟缓,历经三月迭代,经调参与模型训练优化,速度大幅提升。故而看成长曲线,我们认为当前具身基模进化速率已超婴孩学步,因此我们绝不认为进展缓慢。
但从技术视角剖析,数据量攀升并不直接拉升模型执行速率,执行快慢极大程度上受制于后训练,所采数据化解的是预训练痛点,预训练何用?解决泛化难题,面临新环境、新任务,能否无需新数据即可胜任,哪怕动作迟缓但仍可完成,即代表理解了任务,此乃预训练之功效。
“有限博弈与无限博弈”
Q:Kengo作为星海图首款双足人形机器人,其关节模组有何亮点与独特之处?您对其有何期许?
A:关节模组设计有两大特征,其一为整机通信全采用EC通信,业内常见Can或485通信,EC通信优势在于极佳的同步性,属所有方案中通信最优者,唯研发门槛偏高。就整体性能而言,我自认我司模组稳居业内第一梯队领先水准。
整体而言,我始终以为,整机与供应链属有限博弈,智能及应用方为无限博弈。其中精妙在于,若无法在有限博弈中胜出,便无缘参与后续无限博弈,我们倾注大量心血打造自有整机与供应链,终极目标仍是发力智能与应用,此乃根本动因。
Q:G0.5模型大致何时能部署于Kengo双足机器人?
A:明白,若严守技术探讨,G0.5架构实则为双臂智能或轮式双臂品类量身打造,故将广泛搭载于R1 Lite、R1 Pro及新款单臂R1Z。而基于Kengo主推的模型,乃是本能智能模型。
再深挖一环,无论VLA抑或世界模型,皆以模仿学习为重、强化学习为辅,过往数年业内已显此态势,先模仿后强化。两条路线——本能智能与作业智能终将交汇,至融合期方是G0.5系列能力赋能Kengo双足产品之际,故此乃渐进过程。
Q:针对整机与数据,星海图在资源调配上作何规划?
A:战略即为整机+智能,终局在于释放生产力,物理世界生产力单靠模型难以为继,整机亦须卓越、可靠性极强、一致性极高且负载能力过硬。欲实现规模化营收与优厚毛利,整机与智能不可偏废,二者对商业成功同等关键,难分伯仲。
三句话可凝练我司特质:首当其冲我们是智能大脑企业,其次我们极度看重硬件,末了是我们的整机实力卓越强悍,此乃辩证关联。
观研发投入,显然整机投入远逊于智能投入,我认为两者存有量级之差。
“不谋求整机售卖期的绝对榜首”
Q:星海图未来核心锚定市场是否为工业域?在您看来工业域市场空间几何?
A:首当其冲,我司绝不局限于细分市场,生产力需求无远弗届,我方产品亦将无处不在。
落地乃循序渐进之程,首期,我方精度达厘米级,此精度适用何处?工业域上料、搬运,物流域分拣、共包、分包等环节。随操作精度跃升,制造业更多场景如装配、线束、插拔、检测等皆将解锁,迈入毫米级精度。
放眼长远,制造业仅是序章,农业、建筑业皆属具身智能可颠覆之领域,远景潜力在于赋能百业,绝非囿于单纯展演,或代工制造业某环节,此绝非其真容。
Q:星海图当下会否谋求某领域榜首?譬如整机销量。
A:首阶段我方不逐绝对榜首,盖因此阶段夺魁毫无意义,行业底层由AI驱动,整机销量期争个一二名价值微弱,固然需扩大销售体量,今年我司营收较去年亦将翻数倍,但我们追求依自身节奏稳健成长,拒斥恶性倾轧,在整机售卖期强冲绝对规模,多数情形下是负债而非资产。
Q:何时方求绝对榜首或大举扩张?
A:第二阶段,即智能驱动商业化启航之时。
Q:当前部分企业营收已破十亿,是否意味市场已有身位差?
A:现阶段,成熟市场仅两类,一为开发者或科教研,二为展演娱乐,您提及十亿级营收企业在展演市占鳌头,此乃事实。
然至第二阶段,商业模式应转为面向生产力场景的方案订阅。于生产力场景,现无任何企业可真正高效作业,故身位差并不存在,真正的星辰大海尚未铺展。
Q:当下具身智能赛道融资火热,众常议及泡沫,您作何观?
A:凡行业发展皆伴泡沫,或曰新事物即泡沫,源于大众对新事物演进难作精准预判,故常给出过高阶段性期许,当期许远超实际即成众口之泡沫。
胜者常于泡沫膨胀与破灭期皆可获益。对我司而言,现处泡沫膨胀期或近顶峰期,我方借此吸纳优质资源,外界瞩目与资金注入皆属良源,冀望携手各方整合此等优源,共襄盛举。
同时,我们亦时刻警觉资本市场何时将验真成效。对星海图而言,我司秉持“务实创新”价值观,创新前缘何加务实?唯解题之创新方为真创新,天马行空于企业无益,确保所有资源环绕智能主线(本能、作业、进化智能)倾注,余下旁支算法不予投入,留予学界。整机端聚焦数类机体,且与伙伴自研、共研,此即我方研发主干。
此外,商业化亦笃守此律,逾越阶段的过度商业化往往是负债而非资产。万事皆然,绝无捷径,亦无奇招,我们明晰所知与未知,知行合一,正面攻坚,稳扎稳打前行。
AI具身智能访谈新栏目招募
深耕机器人、自动驾驶、智能硬件、空间计算等具身智能创业者看过来! 诚邀做客「AI 具身智能会客厅」,可扫描下方二维码,备注:方式 + 项目简介,我们即刻对接!
微信号丨nini-papa
推荐阅读
END
微信号|Taigeeker
新浪微博|财经网科技
财经网科技