AI辅助卒中诊断:多中心回顾性研究揭示临床潜力
研究背景与目的
研究方法
本研究为一项多中心回顾性队列诊断准确性研究,纳入年龄>18岁、因急性神经系统症状疑似卒中并接受MRI检查的患者,排除近期头部外伤、颅内占位或颅脑手术史者。
研究团队设计标准化提示词,在三种输入模式下测试ChatGPT-5.2:
仅临床资料(症状表现)
仅MRI资料(影像特征)
临床+MRI联合资料
以神经科医师最终诊断为金标准,采用ROC分析评估ChatGPT诊断效能,计算敏感性、特异性、阳性预测值(PPV)、阴性预测值(NPV)及总体准确率。分析使用Jamovi软件,P<0.05视为统计显著,一致性分析采用Cohen's κ系数。
研究结果
共纳入224例患者,平均年龄59.9±17.5岁,男性占60.7%(n=136)。参考诊断显示,103例(46.0%)为卒中,121例(54.0%)为非卒中。
ChatGPT-5.2在卒中诊断中的敏感性为75.7%(95% CI: 66.0-83.5),特异性为47.9%(95% CI: 38.7-57.2),PPV为55.3%(95% CI: 45.6-64.6),NPV为69.9%(95% CI: 60.7–77.9),总体准确率为60.7%(95% CI: 54.0–67.0),Cohen's κ系数为0.23。
图1. ChatGPT-5.2在卒中诊断中的诊断准确性
混淆矩阵显示,ChatGPT预测卒中141例,其中真阳性78例、假阳性63例;预测非卒中83例,其中假阴性25例、真阴性58例。
图2. ChatGPT与参考诊断的混淆矩阵
研究结论
ChatGPT在卒中诊断中表现中等,敏感性较优但特异性偏低。尽管存在局限,AI技术的快速演进预示其有望成为紧急或资源匮乏场景下的辅助决策工具,但临床落地前仍需进一步验证与优化。