AI慢病教练首战:糖尿病预防试验不劣于真人
阅读时长约7分钟|依据JAMA论文《An AI-Powered Lifestyle Intervention vs Human Coaching in the Diabetes Prevention Program》整理。
糖尿病前期并不是可以轻忽的小事。论文背景指出,美国约有38%的成年人处于prediabetes阶段;经典DPP生活方式干预能在3年内把糖尿病风险降58%,但现实中的最大难点并非“方法无效”,而是“难以真正触达更多人”。在被转诊之后,真正参加DPP的人大约只有35%。
这篇JAMA做的事情很务实:它没有把AI做成一个健康app,再拿历史数据比一比,而是把一个完全自动化的AI-led DPP直接放进随机临床试验,正面挑战CDC认可的人类教练DPP,看12个月后谁更能把体重、HbA1c和运动量推进到有临床意义的门槛。
结果并不夸张,却很有分量:AI组主要复合终点31.7%,真人组31.9%,达到预设不劣效;更重要的是,AI组启动率93.4%对82.7%,完成率63.9%对50.3%。说到底,这篇文章不是要证明“AI比人更会带教”,而是在说明:全自动系统有机会把原本难以规模化的慢病预防干预真正落地。
注:本文配图均依据论文结果重新整理绘制,并非原文插图。
一句话核心结论:这篇JAMA最值得记住的,不是AI是否压过真人,而是它第一次在随机对照框架下证明:全自动、可扩展的DPP生活方式干预,在关键结局上可以不劣于真人教练,而且更容易被真正启动和坚持。
论文题目
An AI-Powered Lifestyle Intervention vs Human Coaching in the Diabetes Prevention Program
期刊与时间
JAMA 2025;334(23):2079-2089;2025-10-27 online
研究设计
III期、平行分组、务实性、不劣效随机临床试验;2个美国中心,12个月随访
研究对象
368名糖尿病前期且超重/肥胖成人;中位年龄58岁,71%为女性,中位BMI 32.3
AI方案
手机App+蓝牙体重秤构成的全自动DPP;系统结合体重、饮食、定位与活动信号做个体化推送,核心方法是强化学习,而不是大语言模型
最值得看之处
主要复合终点不劣于真人教练,同时AI组的启动率和完成率更高,说明这类AI的现实价值更可能来自可及性和规模化
01这篇研究真正想解决什么
这项试验的背景很直接:DPP明明有效,却一直难以铺开。论文引言里的数据很刺眼——美国约38%的成年人处于糖尿病前期,但全国只有1549个CDC认可的DPP项目,约等于每6.3万名糖尿病前期成年人只有1个项目。更现实的是,被转诊后真正去参加的人也只有大约35%。
所以这篇文章真正要回答的,不是“AI能不能发健康提醒”,也不是“AI聊天像不像真人教练”,而是一个更系统的问题:如果把一个完全自动化的AI干预嵌入标准糖尿病预防项目,它能不能把证据级生活方式干预做成更低摩擦、可规模复制的服务?
02这套AI到底是什么:不是聊天机器人,而是强化学习驱动的低接触干预
AI组被转介到Sweetch Health的数字化DPP:核心是手机App加蓝牙体重秤。系统会结合主动上报的数据,比如体重和饮食记录,以及被动采集的数据,比如定位、加速度和可穿戴设备活动信号,不断学习什么提示、在什么时间、以什么内容出现,更容易把用户拉回干预轨道。论文写得很明确:这不是LLM,而是reinforcement learning算法。
对照组则进入4个CDC full-plus recognition的人类教练DPP,采用远程小组视频课程,前期16次周课,之后进入维护阶段。更关键的是,这是一项pragmatic referral trial:研究团队本身不提供干预,只负责随机转介和结局测量。运动量也不是只靠自报,而是使用腕式actigraphy按月客观记录。
图1|这项试验的价值,不在于“AI会不会聊天”,而在于它把一个有效却难普及的预防项目,变成了可随机、可比较、可部署的真实干预。
03结果到底如何:AI没有大胜,但把最该回答的问题回答清楚了
这项试验的主要终点其实设得很严格:参与者必须在整个研究期间都保持HbA1c < 6.5%,然后再满足以下三条中的至少一条:≥5%体重下降;≥4%体重下降且每周≥150分钟中高强度活动;HbA1c绝对下降≥0.2个百分点。作者预设的不劣效界值是-15个百分点。
最终结果是:AI组58/183(31.7%)达到主要终点,人类教练组59/185(31.9%);风险差-0.2个百分点,单侧95%置信区间下界-8.2%。这说明AI组没有触及那条-15%的红线,因此达到了预设不劣效。换句话说,把干预完全自动化以后,疗效并没有明显走样。
把复合终点拆开来看,方向也没有变:≥5%体重下降为16.9%对20.0%;≥4%体重下降加≥150分钟运动/周为12.6%对12.4%;在基线可评估者中,HbA1c下降≥0.2的比例为26.9%对26.9%。研究期间HbA1c≥6.5%的比例为4.4%对3.8%,差异也不显著。
图2|这不是一场“AI能否战胜人类教练”的比赛,而是在检验“把人类教练拿掉后,效果还能不能守住”。答案是:可以。
04真正更有现实意义的结果:AI更容易被真正用起来
如果只看31.7%和31.9%,你可能会觉得这篇论文并不惊艳。但慢病管理真正值钱的,往往不是单次终点,而是有多少人真的开始了、又有多少人没在半路掉队。在这点上,AI组明显更有优势:启动率93.4%对82.7%,完成率63.9%对50.3%。
论文还给出一个很有意思的分层观察:在完成项目的人里,主要终点达成率其实差不多——AI组37%,人类组35%。但在AI组所有达成主要终点的人里,74%来自完成者;在人类组,这个比例是56%。这提示一个很现实的解释:AI的优势未必是“同样强度下更有效”,更像是“减少了进入和坚持的阻力”。
这对慢病预防尤其关键。论文讨论部分提到,即使在指南推荐下,美国实际参与DPP的糖尿病前期成年人也只有大约3%。在这种背景里,把干预做成一个可低接触、可异步、可持续触达的产品,本身就可能比“让每个完成者再多提升一点效果”更有公共卫生价值。
图3|这项试验最打动人的地方,不是AI在终点上多赢了几分,而是它明显减少了“还没开始就放弃”和“开始后很快掉队”的人数。
05为什么这篇JAMA比很多数字医疗论文更可信
第一,它是随机对照,而且用了主动对照。很多数字健康研究喜欢拿历史对照、usual care,甚至只做单臂前后比较;这篇不是。它直接拿一个fully automated AI-led DPP去对标CDC认可的人类教练项目,让“AI到底行不行”变成了更硬的临床问题。
第二,它不是只看几周体重变化,而是看12个月,而且运动量用actigraphy客观测量。
第三,人类教练组并不是敷衍的对照——四个项目都有full-plus recognition。第四,这是一项务实性referral trial:研究团队本身不带项目,更接近未来真实部署的样子。再加上整项研究85.1%的随访保留率,这篇文章的底子比很多“app试用报告”硬得多。
图4|这篇文章的价值在于问题提得很实、设计也足够硬;但它同样没有把“AI已经可以全面替代人类教练”这件事说死。
06但别吹过头:这篇文章真正的边界在哪里
边界至少有四层。第一,只有2个美国中心,而且受试者是相对积极的志愿者,教育水平也偏高,外推到更多元、数字素养更低的人群时要谨慎。第二,主要终点是12个月复合替代结局,不是最终糖尿病发病率;所以这篇文章并没有直接证明AI方案能长期减少糖尿病发生。第三,人类教练组因为COVID采用了远程课程,这不等于传统面对面DPP。第四,研究是开放标签,而且App在研究期间有一些界面或功能更新;数字素养、使用习惯和平台细节都可能影响结果。再往前补一句实话:不劣效界值设为-15%不算特别小,虽然最终观察值远好于这条线,但它仍然不是“完全一样”。
这篇论文现在能说的
这篇论文现在还不能说的
1. 全自动AI版DPP在12个月关键复合终点上不劣于CDC认可的人类教练项目。 2. AI方案在启动率和完成率上更好,说明它更适合做低摩擦、可扩展的干预。 3. 这类AI的价值未必来自“更聪明”,也可能来自“更容易进入临床流程”。
1. AI已经能够普遍替代所有生活方式教练。 2. 这套方案一定能长期减少糖尿病发病。 3. 在更低数字素养、更多元人群或其他医疗系统里,效果一定能原样复制。
07我的判断:AI在慢病预防里最现实的价值,是把有效干预做成标准产品
我对这篇文章的看法很明确:它的意义不在“AI终于赢过人类教练”,而在“证据级干预终于有机会被产品化、规模化”。过去很多临床AI论文都在讨论模型分数、预测准确率和单点替代;这篇文章更像是在回答一个更难也更现实的问题:怎样把一个已知有效、但长期难推广的干预,真正塞进医疗系统。
对生物医学AI来说,这可能比很多花哨模型更值得关注。因为慢病管理的瓶颈,往往不在“理论上有没有办法”,而在“现实里谁来做、怎么做、能做多大”。如果AI能把这类行为干预做成低摩擦、低人力依赖、可在流程中持续运转的服务,它未必要在每一项指标上都压过人类,依然会很有价值。
下一步更该看的,是长期糖尿病发病率、成本效果、不同数字素养人群的表现,以及这类系统在更大范围医疗网络里的部署质量。这篇JAMA不是终点,但它把“AI做慢病管理教练”这件事,从概念验证推进到了可以认真讨论的临床实施问题。
一句话核心结论:这篇JAMA最值钱的地方,不是AI比人类更强,而是它证明了:全自动、可规模化的慢病预防干预,可以在关键结局上不劣于真人教练,并且在真正启动和完成这件事上更有现实优势。
引用信息
Mathioudakis N,Lalani B,Abusamaan MS, et al. An AI-Powered Lifestyle Intervention vs Human Coaching in the Diabetes Prevention Program:A Randomized Clinical Trial.JAMA.2025;334(23):2079–2089. doi:10.1001/jama.2025.19563