AI能看病:欢迎还是要警惕?
To use, or not to use,
that is the question
最近,《Nature》的一则报道让不少本来就积极拥抱AI的医疗从业者有些坐立不安:多套用于训练医疗AI的数据集被指存在造假问题,且已有部分模型被投放到医院实际使用。
AI进入诊疗场景,究竟是福还是隐患?
必须承认,AI确实在不断变成医生的得力助手:
影像识别:AI能够在短时间内解读CT图像,捕捉细微的肺结节与早期肿瘤信号,敏感度甚至可与人类肉眼相较并更为突出。对基层医院而言,影像科经验相对不足,AI在此提供了“外援”。
电子病历管理:它能自动梳理患者信息,并对潜在的药物相互作用、过敏史等给出提醒,从而降低医嘱失误的概率。
新药研发:AI可显著压缩药物筛选的周期。在新冠疫情期间,AI曾协助更快解析病毒蛋白结构,进而推动疫苗与药物研发进程。
远程监护:智能手表可实现全天候监测心率、血氧等指标。一旦出现房颤、低血氧等异常情况,就能提前预警,某种程度上像是患者的“随身护士”。
AI之所以受关注,关键在于“不疲劳”、反应快以及“记得更全”。在医疗资源分布不均的现实里,AI辅助诊断正帮助更多偏远地区人群获得更及时的筛查机会。
这,就是AI带来的“生”机。
在数智技术加速迭代的当下,各类新方案正以更快速度渗透到生产与生活的各个角落:从云端算力的高效调度,到终端设备的智能互联;从数据要素的深度挖掘,到生态体系的协同建设,技术演进的脉络愈发清晰。
不过,最近《Nature》的一篇报道揭示了一件令人不寒而栗的事:
如果一个医学生读到的是假的教材,他很难成为真正出色的医生。AI同样遵循这个逻辑。
1. 训练数据被“注水”
研究人员发现,部分用于训练AI学习模型、可公开获取的健康数据集中,出现了多处在真实人群中不应出现的异常现象,造假迹象十分明显:
比如,一个“糖尿病预测数据集”收录了10万人的信息,包含BMI、吸烟史与血糖水平等。但研究团队指出,所有受试者的血糖数值只由18个离散值构成。由于人群之间差异巨大,这种分布极不符合常理。团队还补充称,他们还看到数千个看似重复的数值。
另一个“中风预测数据集”在描述中被称为“用于预测中风事件的11项临床特征”。该数据集包含5110人的健康信息,涵盖心脏病史、婚姻状况、平均血糖水平以及身体质量指数(BMI)等风险相关变量。研究者同样发现其中存在一些异常:例如数据点缺失的情况极少,而真实数据通常会出现缺口,因为部分参与者可能错过随访、退出研究或在研究期间去世。现实世界里,任何数据集都不可能做到完全无缺。研究推测,这些数据很可能是由算法批量生成的“假病人”,而并非真实的临床记录。
2. AI“医生”已经开始上岗
更让人担忧的是,至少有两个基于上述可疑数据训练出来的AI模型,已在印度尼西亚与西班牙的医院中被实际采用。其中一款产品甚至向医疗器械相关专利提出了申请。
这意味着,真实患者的资料正在接受这些“带病上岗”的AI分析,进而可能干扰诊断与治疗决策。至于这些系统给出的建议到底是救人还是害人,目前并无人能确定。
3. 学术圈对AI的“漏洞测试”
研究人员曾刻意编造出一种虚假的疾病“蓝光狂躁症”——这一命名在医学层面本身就显得十分牵强(眼科疾病很少以“狂躁症”收尾)。她的目的在于检验:如果凭空制造一种数据库里原本不存在的病症,AI是否会被其“捕获”,并将其当作可靠内容输出。
结果令人震惊:不仅GPT-4、Gemini等主流AI把它当作真实疾病给出医疗建议,甚至还有真实医学论文引用了这一虚构疾病并完成正式发表(后来在《Nature》介入后撤稿)
AI正在把虚假信息当作“学到的知识”,并进一步将其当成事实传播出去。
4. 商业黑箱:越光鲜的数字未必越可信
不少商业公司出于竞争考量,通常不会公开AI训练的关键数据。例如,某知名智能手表宣称能借助心率信号以很高精度推算年龄,但独立研究者却无法复现实验结论。由此可见,部分看起来“惊艳”的突破,也许只是营销层面的表述,并不一定代表真正的医学进展。
这,便是AI可能埋下的“灭顶”隐患。
它并不只是“坏人把坏事做坏”,而是整套生态系统共同带来的问题:
学术界:部分期刊对数据