手机咳嗽声可辨7种肺病!瑞金医院AI模型准确率达96%
咳嗽,几乎是每个人都经历过的症状。感冒会咳,过敏会咳,慢阻肺、哮喘、支气管炎也会咳。但同样是咳嗽,不同疾病发出的“声音”其实存在微妙差异。过去,医生通过听诊器判断肺部问题,靠的是多年临床经验。如今,人工智能正在尝试“听懂”咳嗽背后的疾病信号。
2026年2月,上海交通大学医学院附属瑞金医院瞿介明教授、周敏教授团队在国际知名学术期刊《npj Digital Medicine》(影响因子15.1,JCR Q1区)在线发表了一项重要研究成果“A device-invariant multi-modal learning framework for respiratory disease classification”。他们开发了一种基于多模态学习框架的咳嗽音分析模型,仅需采集咳嗽声音,结合基本的个人信息和症状描述,就能实现对多种常见呼吸道疾病的精准识别,其中对慢阻肺的识别准确率(AUROC)接近97%。
核心结果
研究团队构建了一个覆盖超过10000例真实世界数据的多中心数据集,涵盖慢阻肺(COPD)、下呼吸道感染(LRTI)、肺部阴影(PS)、哮喘、支气管扩张等7种主要呼吸道疾病。
在该模型中:
识别慢阻肺的AUROC达到0.9698
识别下呼吸道感染的AUROC为0.8483
识别肺部阴影的AUROC为0.8720
在7种疾病的多标签分类任务中,总体AUROC达到0.8907
这些数据意味着,该模型在区分“有病”和“无病”的能力上,已经展现出较高的临床潜力。
研究目的:为什么需要咳嗽识病?
传统的呼吸道疾病筛查主要依赖胸部影像、肺功能检查或医生听诊。这些方法虽然可靠,但存在明显局限:设备昂贵、需要专业人员操作、难以在社区或家庭环境中大规模推广。
近年来,智能手机的普及让基于咳嗽声音的疾病筛查成为可能。但研究者发现,一个关键问题阻碍了这项技术的实际应用——设备差异。不同品牌、不同型号的手机,其麦克风性能、录音处理方式各不相同,导致同一段咳嗽在不同设备上录制后,AI模型可能给出不同判断。此外,人群多样性、多模态数据(声音、文字信息)的整合也是挑战。
因此,本研究的目标是:开发一种不受设备影响的、能够融合咳嗽声、人口学信息和症状描述的多模态AI框架,实现对成人呼吸道疾病的稳定识别。
研究方法:如何让AI“听懂”咳嗽?
数据