兽医AI阅片工具临床应用受限

发布时间：2026-06-12 16:44阅读：19

默多克大学Stephen Joslyn博士团队对目前流行的AI兽医阅片软件进行了精准度测试，结果发现这些工具存在明显的误判风险，其中一起案例尤为典型。

某只犬因吞食河石导致小肠梗阻。Joslyn教授与澳大利亚默多克大学兽医学院的同事将该犬的腹部X光片分发给六个AI平台检测，包括四个美国平台、一个法国平台和一个韩国平台。

尽管两张片子均清晰显示肠道内有椭圆形异物，但两个平台却误判为“正常”，要么漏诊，要么未识别异常。第三个平台虽判定为“异常”，却未发现肠梗阻，反而错误诊断出脾肿大和胃部异物等五种不存在的病症。

虽然另三个平台正确识别了结石，但基于53例分析，整体表现仅“低到中等”。论文总结称：“即便表现最好的算法也有局限，目前尚无平台适合临床使用。”

Joslyn在采访中强调，这种不适用性不仅指独立使用，即使是辅助也不建议，特别是对经验不足的兽医。

Joslyn指出：“这会让人产生多巴胺刺激，让他们误以为有帮助，却不知病情严重。目前就像盲人领着盲人。”

本文要点：

*根据澳大利亚默多克大学兽医学院研究人员的一项研究，六种利用人工智能解读X光片的工具的总体表现“低到中等”。

*研究团队得出结论，这些工具似乎都不适合临床使用。

*该研究结果与其他几项研究的结果相悖，后者对该技术的能力给出了更为积极的评价。

*运营人工智能放射学平台的公司代表承认他们的产品存在局限性，但否认其不适合临床使用，并强调这些平台应该帮助兽医做出决策，而不是取代他们。

这项发表在美国兽医协会期刊上的研究，加深了从业者的担忧，即尽管制造商宣称准确率高，且其他论文证实了这一点，但仍应谨慎看待AI读数。

VIN新闻联系到这些工具背后的公司代表时，他们都承认局限但否认不适合临床，强调作为辅助工具应结合病史和临床症状。

自约8年前美国公司SignalPET和Vetology推出首批产品以来，该技术迅速增长。

全球最大的动物医院所有者玛氏公司（旗下拥有美国VCA、Banfield和BluePearl等品牌，欧洲大陆Anicura品牌以及英国Linnaeus品牌）于2024年通过其兽医诊断部门Anteck推出了自主研发的放射学AI产品RapidRead。全球第二大动物医院所有者、英国IVC Evidensia集团于2022年开始在其遍布欧洲和加拿大的数千家动物医院推广SignalPET平台。默多克大学研究中测试的其他三个平台分别由美国的Radimal公司、法国的FAS公司和韩国的SK Telecom公司开发。

兽医们在VIN论坛上评价不一。一些兽医称赞这些平台能识别自己无法发现的疾病，另一些则认为结果模棱两可或误诊。

默多克大学的研究人员从澳大利亚的综合医院中选取了53个病例，所有病例均经过手术和组织病理学等确诊方法确认。这些病例于2024年9月至12月提交至各个人工智能平台。各平台的平均准确率在70%至90%之间。然而，“平衡准确率”则在60%至69%之间。

研究人员还使用了马修斯相关系数（MCC）评估性能，发现53个病例的MCC值差异很大，最差的平台甚至低于随机猜测水平。

Joslyn告诉VIN新闻：“我们试图通过其他指标表明，即使结果看似准确，也可能极具误导性。一个经典例子是，如果你对所有情况都说‘不’，你的准确率可能达到100%。”

与之前支持AI的研究形成对比，包括去年发表在《兽医学前沿》上的一篇论文。该论文发现，SignalPET的产品表现与11位人类放射学专家一样出色，有时甚至更好。作者指出，AI在确认正常病例方面优于检测异常结果。

去年，Joslyn和他在默多克大学的几位同事向同一期刊提交了一篇评论文章，批评了该研究的方法。他们指出，AI的解读并非通过“金标准”手段验证，而是通过放射科医生的共识和AI自身的判断，这被认为是循环论证。

默多克大学团队提到，2022年和2023年发表的三篇关于Vetology人工智能工具的论文表明其在分诊和筛查方面有前景，但认为该研究无法评估其在广泛病例中的表现。

近期论文发现，Antech的产品在识别犬猫心力衰竭方面与人类放射科医生一样出色。Joslyn指出该研究也是基于教学医院的数据。

他认为所有六个平台的性能都受到X光片质量差异巨大的限制。他指出，人类医学AI优于兽医学领域，因为人类有训练有素的技师确保高质量X光，而兽医X光多由全科兽医拍摄，往往伴随牙科检查且人手不足。

此外，他还指出，兽医患者的个体差异比人类更大，体型千差万别。他说：“这些工具无法推广到真实案例中。AI公司声称基于训练数据表现良好，但当评估小型诊所的病例时，表现却不尽如人意。”

公司回应：

Antech首席医疗官Dr. James Barr对默多克团队的研究表示欢迎，认为提出了重要问题。他补充说，兽医应使用RapidRead辅助判断，而不是取代判断。

他说：“临床医学运作方式与AI类似，你现在要处理正在处理的事情。”

Barr驳斥了帮助不大的说法。他表示产品已过超过1600万张来自真实场景的X光片训练，并由专科放射科医生审核。他说：“他们与开发人员密切合作，在发布前对质量非常严格。”

Barr表示产品会不断改进，并指出JAVMA论文的研究大约是在18个月前进行的。

Radimal创始人兼首席执行官Alan Weissman表示赞同：“AI发展速度极快，变化巨大。”

Weissman也欢迎探索精神，承认AI有改进空间。

他说：“我们非常重视将其作为分诊工具、教育工具以及在患者前往专科医生诊疗途中快速收集信息的方式。同时，它也有助于提高宠物主人的依从性。”

Vetology首席执行官兼创始人Dr. Seth Wallack表示公司仍在分析研究。他首先指出53个病例数量相对较少。Wallack说：“只需要几个结果就能真正影响灵敏度和特异性，AI需要成百上千个病例进行训练和测试。”

Wallack坚持认为，Vetology通过公开性能数据提供了最透明的信息。这些数据基于30多万张X光片。Joslyn对数据发布表示欢迎。

更多研究正在进行中：

默多克大学的研究人员在论文中承认样本量小是局限性。Joslyn是一位兽医放射科医生，也是一家科技公司的创始人。他表示找到符合要求的X光片具有挑战性。

他说：“随着时间推移，我们希望建立更完善的流程来获取这些病例，从而获得更可靠的指标。”

该团队正在评估可重复性：如果同一张X光片两次提交，结果是否会相同？他们还在研究将低质量X光片提交给AI系统的影响。他们希望成为外部验证实验室，不仅评估AI放射学系统，还将评估其他AI诊断测试。

本文

← 上一篇：东南大学人工智能赋能教育创新成果正式发布下一篇：人工智能助力安全生产！湖北建始项目"安全积分超市"移动端全新上线 →