标签

兽医AI阅片工具临床应用受限

发布时间:2026-06-12 16:44阅读:2

默多克大学Stephen Joslyn博士团队对目前流行的AI兽医阅片软件进行了精准度测试,结果发现这些工具存在明显的误判风险,其中一起案例尤为典型。

某只犬因吞食河石导致小肠梗阻。Joslyn教授与澳大利亚默多克大学兽医学院的同事将该犬的腹部X光片分发给六个AI平台检测,包括四个美国平台、一个法国平台和一个韩国平台。

尽管两张片子均清晰显示肠道内有椭圆形异物,但两个平台却误判为“正常”,要么漏诊,要么未识别异常。第三个平台虽判定为“异常”,却未发现肠梗阻,反而错误诊断出脾肿大和胃部异物等五种不存在的病症。

虽然另三个平台正确识别了结石,但基于53例分析,整体表现仅“低到中等”。论文总结称:“即便表现最好的算法也有局限,目前尚无平台适合临床使用。”

Joslyn在采访中强调,这种不适用性不仅指独立使用,即使是辅助也不建议,特别是对经验不足的兽医。

Joslyn指出:“这会让人产生多巴胺刺激,让他们误以为有帮助,却不知病情严重。目前就像盲人领着盲人。”

本文要点:

*根据澳大利亚默多克大学兽医学院研究人员的一项研究,六种利用人工智能解读X光片的工具的总体表现“低到中等”。

*研究团队得出结论,这些工具似乎都不适合临床使用。

*该研究结果与其他几项研究的结果相悖,后者对该技术的能力给出了更为积极的评价。

*运营人工智能放射学平台的公司代表承认他们的产品存在局限性,但否认其不适合临床使用,并强调这些平台应该帮助兽医做出决策,而不是取代他们。

这项发表在美国兽医协会期刊上的研究,加深了从业者的担忧,即尽管制造商宣称准确率高,且其他论文证实了这一点,但仍应谨慎看待AI读数。

VIN新闻联系到这些工具背后的公司代表时,他们都承认局限但否认不适合临床,强调作为辅助工具应结合病史和临床症状。

自约8年前美国公司SignalPET和Vetology推出首批产品以来,该技术迅速增长。

全球最大的动物医院所有者玛氏公司(旗下拥有美国VCA、Banfield和BluePearl等品牌,欧洲大陆Anicura品牌以及英国Linnaeus品牌)于2024年通过其兽医诊断部门Anteck推出了自主研发的放射学AI产品RapidRead。全球第二大动物医院所有者、英国IVC Evidensia集团于2022年开始在其遍布欧洲和加拿大的数千家动物医院推广SignalPET平台。默多克大学研究中测试的其他三个平台分别由美国的Radimal公司、法国的FAS公司和韩国的SK Telecom公司开发。

兽医们在VIN论坛上评价不一。一些兽医称赞这些平台能识别自己无法发现的疾病,另一些则认为结果模棱两可或误诊。

默多克大学的研究人员从澳大利亚的综合医院中选取了53个病例,所有病例均经过手术和组织病理学等确诊方法确认。这些病例于2024年9月至12月提交至各个人工智能平台。各平台的平均准确率在70%至90%之间。然而,“平衡准确率”则在60%至69%之间。

研究人员还使用了马修斯相关系数(MCC)评估性能,发现53个病例的MCC值差异很大,最差的平台甚至低于随机猜测水平。

Joslyn告诉VIN新闻:“我们试图通过其他指标表明,即使结果看似准确,也可能极具误导性。一个经典例子是,如果你对所有情况都说‘不’,你的准确率可能达到100%。”

与之前支持AI的研究形成对比,包括去年发表在《兽医学前沿》上的一篇论文。该论文发现,SignalPET的产品表现与11位人类放射学专家一样出色,有时甚至更好。作者指出,AI在确认正常病例方面优于检测异常结果。

去年,Joslyn和他在默多克大学的几位同事向同一期刊提交了一篇评论文章,批评了该研究的方法。他们指出,AI的解读并非通过“金标准”手段验证,而是通过放射科医生的共识和AI自身的判断,这被认为是循环论证。

默多克大学团队提到,2022年和2023年发表的三篇关于Vetology人工智能工具的论文表明其在分诊和筛查方面有前景,但认为该研究无法评估其在广泛病例中的表现。

近期论文发现,Antech的产品在识别犬猫心力衰竭方面与人类放射科医生一样出色。Joslyn指出该研究也是基于教学医院的数据。

他认为所有六个平台的性能都受到X光片质量差异巨大的限制。他指出,人类医学AI优于兽医学领域,因为人类有训练有素的技师确保高质量X光,而兽医X光多由全科兽医拍摄,往往伴随牙科检查且人手不足。

此外,他还指出,兽医患者的个体差异比人类更大,体型千差万别。他说:“这些工具无法推广到真实案例中。AI公司声称基于训练数据表现良好,但当评估小型诊所的病例时,表现却不尽如人意。”

公司回应:

Antech首席医疗官Dr. James Barr对默多克团队的研究表示欢迎,认为提出了重要问题。他补充说,兽医应使用RapidRead辅助判断,而不是取代判断。

他说:“临床医学运作方式与AI类似,你现在要处理正在处理的事情。”

Barr驳斥了帮助不大的说法。他表示产品已过超过1600万张来自真实场景的X光片训练,并由专科放射科医生审核。他说:“他们与开发人员密切合作,在发布前对质量非常严格。”

Barr表示产品会不断改进,并指出JAVMA论文的研究大约是在18个月前进行的。

Radimal创始人兼首席执行官Alan Weissman表示赞同:“AI发展速度极快,变化巨大。”

Weissman也欢迎探索精神,承认AI有改进空间。

他说:“我们非常重视将其作为分诊工具、教育工具以及在患者前往专科医生诊疗途中快速收集信息的方式。同时,它也有助于提高宠物主人的依从性。”

Vetology首席执行官兼创始人Dr. Seth Wallack表示公司仍在分析研究。他首先指出53个病例数量相对较少。Wallack说:“只需要几个结果就能真正影响灵敏度和特异性,AI需要成百上千个病例进行训练和测试。”

Wallack坚持认为,Vetology通过公开性能数据提供了最透明的信息。这些数据基于30多万张X光片。Joslyn对数据发布表示欢迎。

更多研究正在进行中:

默多克大学的研究人员在论文中承认样本量小是局限性。Joslyn是一位兽医放射科医生,也是一家科技公司的创始人。他表示找到符合要求的X光片具有挑战性。

他说:“随着时间推移,我们希望建立更完善的流程来获取这些病例,从而获得更可靠的指标。”

该团队正在评估可重复性:如果同一张X光片两次提交,结果是否会相同?他们还在研究将低质量X光片提交给AI系统的影响。他们希望成为外部验证实验室,不仅评估AI放射学系统,还将评估其他AI诊断测试。

本文