京东开源智能AI“眼睛”:能自主观察视频并主动反馈
你是否经历过这样的场景——锅里水沸腾了,双手忙不过来;直播中精彩瞬间转瞬即逝,还没来得及喊"回放";孩子在客厅蹦蹦跳跳,你的视线才离开几秒钟……
此时你大概会想:要是 AI 能够自己盯着画面、自己拿捏时机、主动开口提醒,那该多省心。
问题在于,目前几乎所有 AI 都停留在"被动响应"的阶段。即便开启了视频通话功能,也是你问它才答,你不开口它就沉默不语。豆包如此,Gemini 也如此。
然而京东最近开源的一款 AI 模型,彻底颠覆了这一固有逻辑。
先抓住核心信息:6 月 20 日前后,京东 Joy Future Academy 团队将在 GitHub 全面开源该项目。
项目名称偏长,咱们逐词拆解——
组合起来就是:一种能够"观察"视频、自主判断发言时机的 AI 模型。
更具吸引力的是,它仅有 80 亿参数(8B),算力要求不高,常规服务器即可流畅运行。
先剖析一下当前主流 AI 存在的"痛点"。
当你启动豆包或 Gemini 的视频通话助手,你会感觉它在"注视着你"。事实并非如此。其底层机制依然是问答式:
这好比一个必须听到门铃响才肯开门的人。门铃不响,他就在屋里干坐着,对门外动静一无所知。
这种模式被称作回合制(turn-based)。用于聊天场景尚可,但当你要它实时"监测"画面变化——例如直播中的球赛、安防监控画面、或者灶台上的水壶——它就完全力不从心了。
京东这款模型的核心思路非常直白:让它像真人一样"在场"。
它不等待用户提问。它——就这样持续盯着视频流。每秒钟,它自主判断三件事:
假如你让它帮你盯一场足球直播:
再假如你让它盯着厨房:
这才是"实时交互"的真正内涵——不是"响应迅速",而是"主动决策"。
讲三个便于你理解的核心技术要点:
其一,400 万段"何时该开口"的训练素材。
京东团队人工标注了逾 400 万个视频片段,每一段都精准定位到"这一秒该不该发声、该说什么"。模型并非凭直觉瞎猜,而是真正学会了"何时发声得体"。
其二,巧妙的视频压缩方案。
实时处理视频最消耗算力的是"逐帧解析"。但大量帧之间差异极小(例如一个人静坐不动)。
JoyAI 采用了一项名为 AdaCodec 的技术:画面变化小时,仅投入少量算力;画面出现显著变动时(例如有人闯入、足球破门),才调用大量算力深入分析。如此一来,它能持续盯梢直播数小时,不至于被 tokens 拖垮。
其三,拿不准的问题丢给"后台大脑"。
8B 模型不可能面面俱到。碰到棘手的推理任务(例如"帮我对比这两款产品的价格"),它将任务转交给后台更强大的大模型或 API,自己则继续盯着画面,待结果返回后再告知你。
京东团队开展了 58 个真实场景的对照测试,邀请真人评委进行盲测打分:
场景一:监控预警(例如提示"有人跌倒""出示黄牌")
场景二:实时计数(例如统计飞镖命中次数)
场景三:实时字幕翻译
综合所有场景,真人评委对 JoyAI 的偏好比例高达 77%-88%。
请注意:豆包和 Gemini 背后的模型规模达千亿级别。京东凭借 80 亿参数的模型,在"恰当时机发声"这一维度上,击败了百亿千亿级的大模型。这并非算力的碾压,而是设计思路的胜利。
京东这次并非仅仅丢出一个模型。
他们开源的是一整套方案:
6 月 20 日前后,所有内容均上线 GitHub。
这意味着全球任意一位开发者,只要拥有一个代码仓库、一部摄像头,就能搭建起一个"持续盯着你、该开口就开口"的 AI 助手。
这并非京东首次在 AI 开源领域布局。
今年 3 月,京东首次开源大模型,Token 消耗仅为同行的四分之一至五分之一。
6 月初,他们刚开源了 JoyAI-Echo——一款可生成 5 分钟长视频的 AI 框架。
再加之此前的 JoyAgent(智能体框架)和 OxyGent(多智能体系统),京东在开源 AI 上的投入正逐步构建起一套完整的技术体系——从语言到视觉,从视频生成到实时交互,从单一 agent 到多 agent 协同。
第一,"交互模型"这条赛道方向正确。将"何时发声"的判断内嵌于模型能力之中,而非依赖外部逻辑层去判定——这是从"伪实时"迈向"真实时"的必经之路。
第二,80 亿参数是明智之选。实时交互场景对延迟极为苛刻,模型过大跑不动,过小则效果欠佳。8B 恰好落在普通服务器可承载、效果又有保障的平衡区间。
第三,开源的价值在于放大效应。京东将训练配方和数据全部公开,全球开发者可在其基础上快速迭代。这意味着该方向将以更快的速度演进。
当然,它也存在短板。在单一场景的理解深度上,豆包和 Gemini 有时仍更胜一筹——毕竟它们的模型体量大得多。此外,语音识别与语音合成的质量也直接影响使用体验,这部分京东设计为"可插拔"架构,效果取决于你所接入的模块。
但瑕不掩瑜。去年业界还在热议"AI 能否看懂图片",今年已有开源模型能盯着水壶提醒你水开了。
这样的进步速度,一年前恐怕难以预见。
你怎么看?你认为"会主动开口的 AI"会改变你的使用习惯吗?欢迎在评论区交流。
— END —