标签

DeepSeek 赋予 AI 指尖能力,告别看图瞎猜

或许你会觉得现在的 AI 识图能力已经相当出色。它不仅能读取图中的文字,描绘画面里的物体,还能把一张照片描述得绘声绘色。然而,当你问它“第三个红球在什么位置”时,它或许就会陷入混乱。让它去数复杂图像中的物体,它可能会遗漏几个。让它判断两个目标的空间关系,它可能回答得信心满满,结果却是错的。症结并不在于 AI 看不见。核心在于,它不清楚自己究竟该聚焦何处。它能看见整张图,却难以稳定地指向图中的特定对象。DeepSeek 在技术报告中将此问题定义为 Reference Gap,即参照鸿沟:自然语言过于含糊,无

2026-05-09 16:15:00  |  5 阅读
DeepSeek多模态论文连夜撤回,核心技术究竟是什么?

DeepSeek多模态论文连夜撤回,核心技术究竟是什么?

点击下载新浪财经APP,获取全球实时汇率行情 选择在假期前夕推出重磅技术论文,‘DeepSeek风格依旧’。 DeepSeek如今实现了‘视觉感知’。此前,他们悄然启动了多模态功能的灰度测试。部分用户在首页看到新增的‘识图模式’。上传图片后,模型能像人类一样解读视觉内容。 4月29日,多模态团队负责人陈小康发文表示:‘现在,我们能看到你了。’这是DeepSeek聊天产品首次集成多模态功能。 紧接着在4月30日,他们发布了题为《Thinking with Visaul Primitives》(《用视觉原语思

2026-05-01 19:37:43  |  6 阅读