标签

DeepSeek 赋予 AI 指尖能力,告别看图瞎猜

发布时间:2026-05-09 16:15来源:微信阅读:6

或许你会觉得现在的 AI 识图能力已经相当出色。它不仅能读取图中的文字,描绘画面里的物体,还能把一张照片描述得绘声绘色。然而,当你问它“第三个红球在什么位置”时,它或许就会陷入混乱。让它去数复杂图像中的物体,它可能会遗漏几个。让它判断两个目标的空间关系,它可能回答得信心满满,结果却是错的。

症结并不在于 AI 看不见。核心在于,它不清楚自己究竟该聚焦何处。它能看见整张图,却难以稳定地指向图中的特定对象。DeepSeek 在技术报告中将此问题定义为 Reference Gap,即参照鸿沟:自然语言过于含糊,无法精准定位复杂图像中的空间位置。换言之,AI 的视觉能力虽强,却唯独缺了一根能指点对象的“手指”。

以往大多数多模态模型,习惯先将图像切割成众多小方块。接着这些方块会被转化为视觉 Token,再交由语言模型处理。这听起来合乎逻辑,但问题恰恰出在这里。图像中的位置是精确的,而语言描述的位置往往模棱两可。诸如“左边那个”“中间偏上的那个”“靠近右下角的小物体”,这些表述对人类而言未必清晰,对模型来说则更容易产生偏差。

一旦模型在第一步指认了错误对象,后续的推理便会一错到底。它本意是分析红球,却误将旁边的橙色圆点当作目标。它本该判断 A 和 B 的距离,却在思考中把 B 替换成了 C。最终,它呈现的答案看似完整,逻辑也通顺,但基础对象早已出错。许多 AI 幻觉并非产生于最后一句,而是源于最初“指错”的那一瞬间。

DeepSeek 的方案颇为巧妙。它不单致力于让 AI 看得更清晰,更教会 AI “边看边指”。所谓的视觉原语,即点与边界框这类视觉标记。点能指向具体位置,框能圈定特定对象。DeepSeek 将这些点和框融入模型的推理流程,使其成为 AI 思考时的基本单元。

这恰似人类数数时,会下意识地用手指点数。仅凭眼睛扫视,极易遗漏。但若用手指逐个点过,目标便被锁定。DeepSeek 所做的,正是为 AI 装上这样一根“赛博手指”。它不再仅仅是陈述“我看到了什么”,而是能在视觉空间中直接指认、比对、判断与推理。

此事最令人惊叹之处,不仅在于推理更稳健,更在于成本更低廉。传统视觉模型处理一张图通常需要海量视觉 Token。Token 越多,意味着模型需占用更多缓存、算力及成本。DeepSeek 的路径则是:利用更精准的视觉原语,削减无效信息的搬运。它不靠疯狂堆砌 Token 来换取效果,而是凭借更智能的视觉表示来提升效率。

这背后传递的信号至关重要。以往许多 AI 公司解决问题的思路,是将模型做得更大,上下文拉得更长,算力堆得更高。DeepSeek 此次给出的答案却截然不同:并非所有问题都需要更大的模型,有些问题需要更优的思考方式。视觉原语让模型在图像空间内直接建立锚点,相当于减少了从视觉到语言、再从语言回归视觉的反复转换。真正的降本增效,不在于少做,而在于少走弯路。

DeepSeek 识图功能广泛开放后,许多用户的第一反应是:它终于能识图了。但真正值得留意的,并非“能上传图片”这一功能,而是它开始从看图说话迈向看图推理。它既能识别文物,也能解答空间推理题,还能理解表情包和复杂截图。它处理的不仅是图像内容,更是图像背后的结构、关系与意图。换言之,它不只是“看见了图”,而是开始尝试“看懂图”。

这与普通识图工具完全不在一个层级。普通识图工具告知你,图中有何物。稍强一点的模型告知你,图中发生了何事。而 DeepSeek 这一路径的真正意图是:告知你图中对象之间是何种关系,以及为何应作此判断。它不单是将图片翻译成文字,而是在图像空间中构建推理链条。

诚然,DeepSeek 的识图模式并不意味着视觉理解已被彻底攻克。复杂图像、反直觉图形、密集计数及新知识识别,仍可能导致模型出错。它虽有了“手指”,但这并不代表每次都能指得精准。它虽能在视觉空间中建立锚点,但若图像本身过于复杂,或知识库未能跟上,它仍可能误判。强大的识图能力,并不等同于真正的通用视觉智能。

这一点反而令这项技术更显真实。它并非魔法,也未让 AI 瞬间变成万能视觉大脑。它只是启示我们,视觉推理有一条更明智的路径:莫要总是将图像转化为语言,再让语言模型去硬猜。真正有效的方式,或许是在视觉空间中直接定位、标记与推理。DeepSeek 的突破不在于“完美”,而在于它指明了方向。

DeepSeek 的“以视觉原语思考”,本质上是在回应一个问题:AI 究竟该如何理解视觉世界?过往的答案是,将图片转为文字,再让模型用文字推理。DeepSeek 的答案是,何不直接在图像中思考?人类看图时,也非先将画面写成一篇作文,再开始判断。我们会先锁定目标,再比较位置,最后得出结论。

因此,此次识图模式真正有趣之处,并非 DeepSeek 又增添了一项功能。它真正改变的是 AI 看图的方式。过去,AI 是看见图片后说话。如今,它开始指着图片思考。未来最强的视觉 AI,或许不是看得最多的那个,而是指得最准、想得最稳的那个。

DeepSeek 技术报告与 GitHub 项目:Thinking with Visual Primitives。