京东开源智能AI“眼睛”：能自主观察视频并主动反馈

发布时间：2026-06-17 11:25阅读：12

你是否经历过这样的场景——锅里水沸腾了，双手忙不过来；直播中精彩瞬间转瞬即逝，还没来得及喊"回放"；孩子在客厅蹦蹦跳跳，你的视线才离开几秒钟……

此时你大概会想：要是 AI 能够自己盯着画面、自己拿捏时机、主动开口提醒，那该多省心。

问题在于，目前几乎所有 AI 都停留在"被动响应"的阶段。即便开启了视频通话功能，也是你问它才答，你不开口它就沉默不语。豆包如此，Gemini 也如此。

然而京东最近开源的一款 AI 模型，彻底颠覆了这一固有逻辑。

先抓住核心信息：6 月 20 日前后，京东 Joy Future Academy 团队将在 GitHub 全面开源该项目。

项目名称偏长，咱们逐词拆解——

组合起来就是：一种能够"观察"视频、自主判断发言时机的 AI 模型。

更具吸引力的是，它仅有 80 亿参数（8B），算力要求不高，常规服务器即可流畅运行。

先剖析一下当前主流 AI 存在的"痛点"。

当你启动豆包或 Gemini 的视频通话助手，你会感觉它在"注视着你"。事实并非如此。其底层机制依然是问答式：

这好比一个必须听到门铃响才肯开门的人。门铃不响，他就在屋里干坐着，对门外动静一无所知。

这种模式被称作回合制（turn-based）。用于聊天场景尚可，但当你要它实时"监测"画面变化——例如直播中的球赛、安防监控画面、或者灶台上的水壶——它就完全力不从心了。

京东这款模型的核心思路非常直白：让它像真人一样"在场"。

它不等待用户提问。它——就这样持续盯着视频流。每秒钟，它自主判断三件事：

假如你让它帮你盯一场足球直播：

再假如你让它盯着厨房：

这才是"实时交互"的真正内涵——不是"响应迅速"，而是"主动决策"。

讲三个便于你理解的核心技术要点：

其一，400 万段"何时该开口"的训练素材。

京东团队人工标注了逾 400 万个视频片段，每一段都精准定位到"这一秒该不该发声、该说什么"。模型并非凭直觉瞎猜，而是真正学会了"何时发声得体"。

其二，巧妙的视频压缩方案。

实时处理视频最消耗算力的是"逐帧解析"。但大量帧之间差异极小（例如一个人静坐不动）。

JoyAI 采用了一项名为 AdaCodec 的技术：画面变化小时，仅投入少量算力；画面出现显著变动时（例如有人闯入、足球破门），才调用大量算力深入分析。如此一来，它能持续盯梢直播数小时，不至于被 tokens 拖垮。

其三，拿不准的问题丢给"后台大脑"。

8B 模型不可能面面俱到。碰到棘手的推理任务（例如"帮我对比这两款产品的价格"），它将任务转交给后台更强大的大模型或 API，自己则继续盯着画面，待结果返回后再告知你。

京东团队开展了 58 个真实场景的对照测试，邀请真人评委进行盲测打分：

场景一：监控预警（例如提示"有人跌倒""出示黄牌"）

场景二：实时计数（例如统计飞镖命中次数）

场景三：实时字幕翻译

综合所有场景，真人评委对 JoyAI 的偏好比例高达 77%-88%。

请注意：豆包和 Gemini 背后的模型规模达千亿级别。京东凭借 80 亿参数的模型，在"恰当时机发声"这一维度上，击败了百亿千亿级的大模型。这并非算力的碾压，而是设计思路的胜利。

京东这次并非仅仅丢出一个模型。

他们开源的是一整套方案：

6 月 20 日前后，所有内容均上线 GitHub。

这意味着全球任意一位开发者，只要拥有一个代码仓库、一部摄像头，就能搭建起一个"持续盯着你、该开口就开口"的 AI 助手。

这并非京东首次在 AI 开源领域布局。

今年 3 月，京东首次开源大模型，Token 消耗仅为同行的四分之一至五分之一。

6 月初，他们刚开源了 JoyAI-Echo——一款可生成 5 分钟长视频的 AI 框架。

再加之此前的 JoyAgent（智能体框架）和 OxyGent（多智能体系统），京东在开源 AI 上的投入正逐步构建起一套完整的技术体系——从语言到视觉，从视频生成到实时交互，从单一 agent 到多 agent 协同。

第一，"交互模型"这条赛道方向正确。将"何时发声"的判断内嵌于模型能力之中，而非依赖外部逻辑层去判定——这是从"伪实时"迈向"真实时"的必经之路。

第二，80 亿参数是明智之选。实时交互场景对延迟极为苛刻，模型过大跑不动，过小则效果欠佳。8B 恰好落在普通服务器可承载、效果又有保障的平衡区间。

第三，开源的价值在于放大效应。京东将训练配方和数据全部公开，全球开发者可在其基础上快速迭代。这意味着该方向将以更快的速度演进。

当然，它也存在短板。在单一场景的理解深度上，豆包和 Gemini 有时仍更胜一筹——毕竟它们的模型体量大得多。此外，语音识别与语音合成的质量也直接影响使用体验，这部分京东设计为"可插拔"架构，效果取决于你所接入的模块。

但瑕不掩瑜。去年业界还在热议"AI 能否看懂图片"，今年已有开源模型能盯着水壶提醒你水开了。

这样的进步速度，一年前恐怕难以预见。

你怎么看？你认为"会主动开口的 AI"会改变你的使用习惯吗？欢迎在评论区交流。

— END —

← 上一篇：品牌标识不一致，AI搜索排名会怎样？下一篇：第三届AI与纠纷化解暨执行现代化研讨会召开 →