DeepSeek 赋予 AI 指尖能力，告别看图瞎猜

发布时间：2026-05-09 16:15阅读：19

或许你会觉得现在的 AI 识图能力已经相当出色。它不仅能读取图中的文字，描绘画面里的物体，还能把一张照片描述得绘声绘色。然而，当你问它“第三个红球在什么位置”时，它或许就会陷入混乱。让它去数复杂图像中的物体，它可能会遗漏几个。让它判断两个目标的空间关系，它可能回答得信心满满，结果却是错的。

症结并不在于 AI 看不见。核心在于，它不清楚自己究竟该聚焦何处。它能看见整张图，却难以稳定地指向图中的特定对象。DeepSeek 在技术报告中将此问题定义为 Reference Gap，即参照鸿沟：自然语言过于含糊，无法精准定位复杂图像中的空间位置。换言之，AI 的视觉能力虽强，却唯独缺了一根能指点对象的“手指”。

以往大多数多模态模型，习惯先将图像切割成众多小方块。接着这些方块会被转化为视觉 Token，再交由语言模型处理。这听起来合乎逻辑，但问题恰恰出在这里。图像中的位置是精确的，而语言描述的位置往往模棱两可。诸如“左边那个”“中间偏上的那个”“靠近右下角的小物体”，这些表述对人类而言未必清晰，对模型来说则更容易产生偏差。

一旦模型在第一步指认了错误对象，后续的推理便会一错到底。它本意是分析红球，却误将旁边的橙色圆点当作目标。它本该判断 A 和 B 的距离，却在思考中把 B 替换成了 C。最终，它呈现的答案看似完整，逻辑也通顺，但基础对象早已出错。许多 AI 幻觉并非产生于最后一句，而是源于最初“指错”的那一瞬间。

DeepSeek 的方案颇为巧妙。它不单致力于让 AI 看得更清晰，更教会 AI “边看边指”。所谓的视觉原语，即点与边界框这类视觉标记。点能指向具体位置，框能圈定特定对象。DeepSeek 将这些点和框融入模型的推理流程，使其成为 AI 思考时的基本单元。

这恰似人类数数时，会下意识地用手指点数。仅凭眼睛扫视，极易遗漏。但若用手指逐个点过，目标便被锁定。DeepSeek 所做的，正是为 AI 装上这样一根“赛博手指”。它不再仅仅是陈述“我看到了什么”，而是能在视觉空间中直接指认、比对、判断与推理。

此事最令人惊叹之处，不仅在于推理更稳健，更在于成本更低廉。传统视觉模型处理一张图通常需要海量视觉 Token。Token 越多，意味着模型需占用更多缓存、算力及成本。DeepSeek 的路径则是：利用更精准的视觉原语，削减无效信息的搬运。它不靠疯狂堆砌 Token 来换取效果，而是凭借更智能的视觉表示来提升效率。

这背后传递的信号至关重要。以往许多 AI 公司解决问题的思路，是将模型做得更大，上下文拉得更长，算力堆得更高。DeepSeek 此次给出的答案却截然不同：并非所有问题都需要更大的模型，有些问题需要更优的思考方式。视觉原语让模型在图像空间内直接建立锚点，相当于减少了从视觉到语言、再从语言回归视觉的反复转换。真正的降本增效，不在于少做，而在于少走弯路。

DeepSeek 识图功能广泛开放后，许多用户的第一反应是：它终于能识图了。但真正值得留意的，并非“能上传图片”这一功能，而是它开始从看图说话迈向看图推理。它既能识别文物，也能解答空间推理题，还能理解表情包和复杂截图。它处理的不仅是图像内容，更是图像背后的结构、关系与意图。换言之，它不只是“看见了图”，而是开始尝试“看懂图”。

这与普通识图工具完全不在一个层级。普通识图工具告知你，图中有何物。稍强一点的模型告知你，图中发生了何事。而 DeepSeek 这一路径的真正意图是：告知你图中对象之间是何种关系，以及为何应作此判断。它不单是将图片翻译成文字，而是在图像空间中构建推理链条。

诚然，DeepSeek 的识图模式并不意味着视觉理解已被彻底攻克。复杂图像、反直觉图形、密集计数及新知识识别，仍可能导致模型出错。它虽有了“手指”，但这并不代表每次都能指得精准。它虽能在视觉空间中建立锚点，但若图像本身过于复杂，或知识库未能跟上，它仍可能误判。强大的识图能力，并不等同于真正的通用视觉智能。

这一点反而令这项技术更显真实。它并非魔法，也未让 AI 瞬间变成万能视觉大脑。它只是启示我们，视觉推理有一条更明智的路径：莫要总是将图像转化为语言，再让语言模型去硬猜。真正有效的方式，或许是在视觉空间中直接定位、标记与推理。DeepSeek 的突破不在于“完美”，而在于它指明了方向。

DeepSeek 的“以视觉原语思考”，本质上是在回应一个问题：AI 究竟该如何理解视觉世界？过往的答案是，将图片转为文字，再让模型用文字推理。DeepSeek 的答案是，何不直接在图像中思考？人类看图时，也非先将画面写成一篇作文，再开始判断。我们会先锁定目标，再比较位置，最后得出结论。

因此，此次识图模式真正有趣之处，并非 DeepSeek 又增添了一项功能。它真正改变的是 AI 看图的方式。过去，AI 是看见图片后说话。如今，它开始指着图片思考。未来最强的视觉 AI，或许不是看得最多的那个，而是指得最准、想得最稳的那个。

DeepSeek 技术报告与 GitHub 项目：Thinking with Visual Primitives。

← 上一篇：AI写作幕后实录下一篇：AI破解200万价值难题：20万成本的案例思路 →