标签

DeepSeek多模态论文连夜撤回,核心技术究竟是什么?

发布时间:2026-05-01 19:37来源:新浪新闻阅读:7

点击下载新浪财经APP,获取全球实时汇率行情

选择在假期前夕推出重磅技术论文,‘DeepSeek风格依旧’。

DeepSeek如今实现了‘视觉感知’。此前,他们悄然启动了多模态功能的灰度测试。部分用户在首页看到新增的‘识图模式’。上传图片后,模型能像人类一样解读视觉内容。

4月29日,多模态团队负责人陈小康发文表示:‘现在,我们能看到你了。’这是DeepSeek聊天产品首次集成多模态功能。

紧接着在4月30日,他们发布了题为《Thinking with Visaul Primitives》(《用视觉原语思考》)的技术报告,详细阐述了新功能背后的技术原理。

在假期前一天发布重磅论文,‘DeepSeek风格依旧’。然而,很快发现官方连夜删除了多模态代码库和原始论文;5月1日访问Github显示‘404’。

官方未解释删除原因,但推测并非内容问题,而是透露过多信息。

论文讲了什么?行业反馈显示,它符合DeepSeek务实且扎实的风格。他们通过工程能力降低成本并采用新范式,表明DeepSeek正开始在视觉模型领域发力。

具体而言,论文指出当前多模态模型在复杂任务中崩溃,并非因为‘看不见’(感知鸿沟),而是因为‘指不准’(引用鸿沟)。

自然语言本质上具有模糊性。当要求模型处理复杂空间布局时,仅靠文字描述容易产生歧义。就像数散落的硬币,如果不逐个确认,人类也容易数错或重复计数。

DeepSeek的解决方案是给模型配备‘手指’。通过引入‘视觉原语’框架,他们将点、边界框等空间标记提升为最小的思维单元。这意味着在推理过程中,模型可以一边‘思考’一边‘指向’,将抽象的语言逻辑映射到具体的空间坐标上。

这一概念借鉴了人类认知。论文提到,人类在走迷宫或数密集物体时,使用手指等指示性动作来降低认知负荷并保持逻辑一致性。通过将视觉原语融入思考过程,模型可以模拟这种‘指向-推理’的协同。

该模型基于DeepSeek-V4-Flash(总参数2840亿)构建。大量实验表明,该方法在推理精度上实现了显著突破,在空间推理和视觉问答等挑战性任务上,性能可与GPT、Claude、Gemini的最新版本相媲美。

DeepSeek的研究证明:多模态智能的未来不仅仅在于‘看见更多像素’,而在于构建语言与视觉之间精准、无歧义的指代桥梁。

值得一提的是,4月24日发布的V4系列旗舰模型并未涉及传闻已久的多模态功能。官方当时将V4定义为:支持百万字超长上下文,在Agent(智能体)能力、世界知识和推理性能方面均处于国内和开源领域的领先地位。

多模态已成为当前大模型更新的关键方向,而DeepSeek在这方面进展缓慢,被视为其能力的一大短板。传言称,DeepSeek推迟多模态生成训练策略主要受算力和资金限制;融资后,这一领域的训练可能会更加顺利。

编辑:郭建

新浪财经声明:本文转载自合作媒体,旨在传递更多信息;内容仅供参考,不构成投资建议。

郑重声明:1.根据《证券法》,禁止编造、传播虚假或误导性信息以扰乱市场;2.用户在本社区发表的内容仅代表个人观点,与网站立场无关,不构成投资建议。用户应基于独立判断自行决定投资并承担风险。