最新研究曝光AI致命缺陷
简而言之,即便不接收任何图像信息,目前领先的多模态大模型(例如GPT-5、Gemini 3 Pro等)仍可'无中生有'地输出详尽的图像描述与看似合理的推理链条。研究团队经由多轮对比测试证实,这类模型在处理视觉相关问题时,主要依靠问题文本中的提示、训练数据内嵌的潜在模式及统计相关性,而非真正'理解'了图像内容。
更具威胁性的是,在医学应用领域中,这种虚构的诊断结果往往倾向于重度病理特征(如凭空判定心肌梗死或黑色素瘤),为医疗AI系统的实际落地埋下了严重安全风险。
研究者为此设计了'幻象评分'(Mirage Score)度量标准,用于衡量模型在'无图像输入'状态下的准确率相对于'有图像输入'基准的保留比例。测试结果显示,顶尖模型在不接触图像时仍能维持其整体性能的70%至80%。
图1:幻象效应的概念界定与量化评估。
图2:Gemini-3-Pro针对虚构的脑部MRI、胸部X光、心电图、病理切片及用户自拍皮肤影像等诊断请求所生成的响应分布。