AI竞速窗口或仅剩一年?京东押注产业落地,能否在“龙虾”混战中突围
每经记者|王郁彪每经编辑|毕陆名
“龙虾”强势破圈、机器人(15.020, -0.05, -0.33%)舞蹈、打拳频频刷屏、数字人(16.310, -0.54, -3.20%)直播带货也几可乱真,伴随AI技术持续快速演进,行业正走到寻找场景化落地的重要节点。怎样兼顾成本、效率与性能,又如何打通产业落地“最后一公里”,都在等待更多可借鉴的答案。
3月24日,京东披露了部分AI研发及应用的阶段性成果,包括开源大模型JoyAI-LLM Flash、发布自有“龙虾”产品矩阵,以及率先推出“自由态数字人”等。
围绕“龙虾”这一热点,京东集团相关技术负责人在接受《每日经济新闻》记者(以下简称“每经记者”)采访时表示,“龙虾”作为放大器的效应在今年仍会延续,预计到今年底或明年同期,有机会见到L4级模型出现;届时,很多当下难以想象的应用形态都可能集中涌现。
在数字人技术研发方面,京东JoyStreamer推出了“自由态数字人”,相比传统数字人具备更自然、更灵活的交互表现。每经记者在现场观看数字人“吃播”案例时,能够明显感受到其动作、姿态都更加顺畅自然,即便出现面部遮挡,也依然保持较高的真实感。
随着字节和阿里密集加码AI竞赛,国内科技大厂之间的比拼几乎全面转向技术落地深度与生态协同广度的综合较量。京东此次给出的“AI方案”则另辟路径,全面瞄准产业端,它能否实现后来居上?
“龙虾”智能体以及其背后的“Token(词元)经济”,近期已成为科技圈热议的焦点。
相比直接推出自家的“龙虾”产品,京东云选择依托JoyAI大模型,并基于开源OpenClaw架构推出轻量云主机一键部署、一体机等多种产品形态。
该技术负责人向记者表示,很多人关注的是“龙虾”,而我们真正关注的其实是模型本身。
两年前,OpenAI曾将大模型划分为5个Level(等级),第一级是Conversation(对话),第二级是Reasoning(推理),第三级是Agentic AI,即AI已成长为一个完整系统,能够在系统内自主采取行动并解决问题。第四级是Innovation(创新),意味着系统不再依赖人工干预,并具备自主创新能力。最后一级是Organization(组织),也就是达到或超越人类水平,能够进一步提升工作效率。
在被问到如今的“龙虾”与去年的Manus(全球首款通用AI智能体)有何区别时,该技术负责人指出,关键仍在于基础模型能力。去年的基础模型能力才刚突破第二级,即使是去年大热的DeepSeek,也仍停留在Reasoning(推理)层级,在模型层面并不具备Agentic(自主代理)特征。
该技术负责人进一步表示:“但要做Agent,其实需要大量工程、策略和流程,最后把这些能力整体‘包’起来。去年底到今年初的ClawCode模型,在模型层面已经突破L3级,真正迈入了Agentic阶段。”
在技术路径层面,该技术负责人认为,大模型很可能很快会进入下一个Innovation层级,也就是模型自身具备创造能力。“这里的创造,不只是写一段文字或作一首歌,而是真正能在一些高难度、需要人类充分调动智慧的领域里,由AI去实现替代。当然现在还没有发生,但可能一年内就会出现,不过这条技术路线已经比较明确。”他进一步解释道。
他还判断,AGI在软件模型层面,可能也就是这一两年的事情,快的话今年年底就可能看到结果。对于一家公司来说,能否赶上这一轮Agentic模型,再衔接上Innovation模型,窗口期也许只有一年左右。
“不过,‘龙虾’作为放大器的作用在今年依旧会持续。等到L4级模型出现时,又会涌现出大量现在还难以想象的应用方式。”该技术负责人表示。
在了解京东数字人JoyStreamer的技术进展时,每经记者注意到,当前数字人行业面临的三大技术痛点正被逐步攻克,包括音视频不同步、多模态控制不协调,以及长视频场景下身份失真等问题。
除常规披露技术路线之外,京东数字人JoyStreamer还率先发布了“自由态数字人”。其支持人物自然行走和灵活摆姿,具备镜头跟随以及顺畅出画、入画的能力,同时在面部遮挡场景中也能维持高保真的画面质感。
数字人技术能力的提升,是否意味着行业距离数字人规模化应用又近了一步?京东数字人相关负责人向记者表示,规模化应用面临的最大挑战在于,尽量减少商家端的实际操作,不要让生成过程依赖过多前置条件。比如,原本需要30分钟拍摄素材,后来压缩到3分钟,再进一步缩减到只需单张图片。
“去年我们推出的复刻模式是,商家历史直播过的素材,都可以直接用于生成数字人直播。”他表示。
每经记者了解到,在破解数字人规模化应用难题上,Agent(智能体)技术产品的出现也带来了一些积极变化。该负责人举例称,目前会借助Agent打通平台内已经录入的大量信息,包括商品本身、优惠活动等内容。一方面能够更准确、高质量地回答用户问题,另一方面也能降低对商家的依赖,这让该方案更适合数字人大规模推广。
数字人在实际应用中的效果究竟如何?每经记者从京东方面获悉,直播间转化无疑是最终的业务指标。同时也会关注过程指标,例如用户在直播间的停留时长、互动轮次,以及这些数据如何体现用户对商品的潜在需求等。
具身智能自去年爆火以来,到今年热度依旧不减。3月以来,具身智能赛道已有多笔大额融资完成。此外,3月20日,上交所受理宇树科技科创板IPO申请,预计募资规模为42.02亿元,其有望成为A股“人形机器人第一股”。
京东去年在具身智能领域少见地完成了“六连投”,近几年也多次发布机器人产业计划。前几日举行的中国发展高层论坛2026年年会上,京东集团CEO许冉透露,京东正在打造全球规模最大、场景最丰富的具身智能数据中心。
当前具身智能领域的一大痛点,在于真实场景数据不足,导致模型训练不充分,继而影响产业落地。“未来两年内,我们将积累超过1000万小时的真实场景数据,覆盖物流、家庭、城市等五大场景。”许冉表示。
针对该项目进展,京东相关负责人在此次采访中透露,在数据采集过程中,京东将调动内部超过10万名不同岗位员工,以及外部最多50万名各行业人员参与,其中仅宿迁就将发动超过10万名市民,开展“人类规模最大的数据采集行动”。
每经记者了解到,该项目的具体落地执行周期为:未来一年内积累500万小时人类真实场景视频数据,两年内超过1000万小时,并同步采集100万小时机器人本体数据。
京东具身智能业务相关负责人告诉记者,起初大家更多关注机器人的硬件控制,以及VLA双臂或灵巧手操作,让机器人看起来像人、能听懂人话并按照人的意图作出反馈,这叫“言行一致”。当前市场上多数做机器人和机器狗的公司,其实都已经涉及这一方向,但这只是其中的一部分(功能/阶段)。
“除此之外,我们京东探索研究院的老师们还在推进VLN无阻导航(视觉语言导航)这一方向,并把它集成到我们的JoyInside中,结合不同类型的机器人和机器狗,开展更多人机交互方面的工作。”该负责人补充说。