DeepSeek多模态论文连夜撤回，核心技术究竟是什么？

发布时间：2026-05-01 19:37阅读：22

点击下载新浪财经APP，获取全球实时汇率行情

选择在假期前夕推出重磅技术论文，‘DeepSeek风格依旧’。

DeepSeek如今实现了‘视觉感知’。此前，他们悄然启动了多模态功能的灰度测试。部分用户在首页看到新增的‘识图模式’。上传图片后，模型能像人类一样解读视觉内容。

4月29日，多模态团队负责人陈小康发文表示：‘现在，我们能看到你了。’这是DeepSeek聊天产品首次集成多模态功能。

紧接着在4月30日，他们发布了题为《Thinking with Visaul Primitives》（《用视觉原语思考》）的技术报告，详细阐述了新功能背后的技术原理。

在假期前一天发布重磅论文，‘DeepSeek风格依旧’。然而，很快发现官方连夜删除了多模态代码库和原始论文；5月1日访问Github显示‘404’。

官方未解释删除原因，但推测并非内容问题，而是透露过多信息。

论文讲了什么？行业反馈显示，它符合DeepSeek务实且扎实的风格。他们通过工程能力降低成本并采用新范式，表明DeepSeek正开始在视觉模型领域发力。

具体而言，论文指出当前多模态模型在复杂任务中崩溃，并非因为‘看不见’（感知鸿沟），而是因为‘指不准’（引用鸿沟）。

自然语言本质上具有模糊性。当要求模型处理复杂空间布局时，仅靠文字描述容易产生歧义。就像数散落的硬币，如果不逐个确认，人类也容易数错或重复计数。

DeepSeek的解决方案是给模型配备‘手指’。通过引入‘视觉原语’框架，他们将点、边界框等空间标记提升为最小的思维单元。这意味着在推理过程中，模型可以一边‘思考’一边‘指向’，将抽象的语言逻辑映射到具体的空间坐标上。

这一概念借鉴了人类认知。论文提到，人类在走迷宫或数密集物体时，使用手指等指示性动作来降低认知负荷并保持逻辑一致性。通过将视觉原语融入思考过程，模型可以模拟这种‘指向-推理’的协同。

该模型基于DeepSeek-V4-Flash（总参数2840亿）构建。大量实验表明，该方法在推理精度上实现了显著突破，在空间推理和视觉问答等挑战性任务上，性能可与GPT、Claude、Gemini的最新版本相媲美。

DeepSeek的研究证明：多模态智能的未来不仅仅在于‘看见更多像素’，而在于构建语言与视觉之间精准、无歧义的指代桥梁。

值得一提的是，4月24日发布的V4系列旗舰模型并未涉及传闻已久的多模态功能。官方当时将V4定义为：支持百万字超长上下文，在Agent（智能体）能力、世界知识和推理性能方面均处于国内和开源领域的领先地位。

多模态已成为当前大模型更新的关键方向，而DeepSeek在这方面进展缓慢，被视为其能力的一大短板。传言称，DeepSeek推迟多模态生成训练策略主要受算力和资金限制；融资后，这一领域的训练可能会更加顺利。

编辑：郭建

新浪财经声明：本文转载自合作媒体，旨在传递更多信息；内容仅供参考，不构成投资建议。

郑重声明：1.根据《证券法》，禁止编造、传播虚假或误导性信息以扰乱市场；2.用户在本社区发表的内容仅代表个人观点，与网站立场无关，不构成投资建议。用户应基于独立判断自行决定投资并承担风险。