AI慢病教练首战：糖尿病预防试验不劣于真人

发布时间：2026-04-27 08:08阅读：12

阅读时长约7分钟｜依据JAMA论文《An AI-Powered Lifestyle Intervention vs Human Coaching in the Diabetes Prevention Program》整理。

糖尿病前期并不是可以轻忽的小事。论文背景指出，美国约有38%的成年人处于prediabetes阶段；经典DPP生活方式干预能在3年内把糖尿病风险降58%，但现实中的最大难点并非“方法无效”，而是“难以真正触达更多人”。在被转诊之后，真正参加DPP的人大约只有35%。

这篇JAMA做的事情很务实：它没有把AI做成一个健康app，再拿历史数据比一比，而是把一个完全自动化的AI-led DPP直接放进随机临床试验，正面挑战CDC认可的人类教练DPP，看12个月后谁更能把体重、HbA1c和运动量推进到有临床意义的门槛。

结果并不夸张，却很有分量：AI组主要复合终点31.7%，真人组31.9%，达到预设不劣效；更重要的是，AI组启动率93.4%对82.7%，完成率63.9%对50.3%。说到底，这篇文章不是要证明“AI比人更会带教”，而是在说明：全自动系统有机会把原本难以规模化的慢病预防干预真正落地。

注：本文配图均依据论文结果重新整理绘制，并非原文插图。

一句话核心结论：这篇JAMA最值得记住的，不是AI是否压过真人，而是它第一次在随机对照框架下证明：全自动、可扩展的DPP生活方式干预，在关键结局上可以不劣于真人教练，而且更容易被真正启动和坚持。

论文题目

An AI-Powered Lifestyle Intervention vs Human Coaching in the Diabetes Prevention Program

期刊与时间

JAMA 2025;334(23):2079-2089；2025-10-27 online

研究设计

III期、平行分组、务实性、不劣效随机临床试验；2个美国中心，12个月随访

研究对象

368名糖尿病前期且超重/肥胖成人；中位年龄58岁，71%为女性，中位BMI 32.3

AI方案

手机App+蓝牙体重秤构成的全自动DPP；系统结合体重、饮食、定位与活动信号做个体化推送，核心方法是强化学习，而不是大语言模型

最值得看之处

主要复合终点不劣于真人教练，同时AI组的启动率和完成率更高，说明这类AI的现实价值更可能来自可及性和规模化

01这篇研究真正想解决什么

这项试验的背景很直接：DPP明明有效，却一直难以铺开。论文引言里的数据很刺眼——美国约38%的成年人处于糖尿病前期，但全国只有1549个CDC认可的DPP项目，约等于每6.3万名糖尿病前期成年人只有1个项目。更现实的是，被转诊后真正去参加的人也只有大约35%。

所以这篇文章真正要回答的，不是“AI能不能发健康提醒”，也不是“AI聊天像不像真人教练”，而是一个更系统的问题：如果把一个完全自动化的AI干预嵌入标准糖尿病预防项目，它能不能把证据级生活方式干预做成更低摩擦、可规模复制的服务？

02这套AI到底是什么：不是聊天机器人，而是强化学习驱动的低接触干预

AI组被转介到Sweetch Health的数字化DPP：核心是手机App加蓝牙体重秤。系统会结合主动上报的数据，比如体重和饮食记录，以及被动采集的数据，比如定位、加速度和可穿戴设备活动信号，不断学习什么提示、在什么时间、以什么内容出现，更容易把用户拉回干预轨道。论文写得很明确：这不是LLM，而是reinforcement learning算法。

对照组则进入4个CDC full-plus recognition的人类教练DPP，采用远程小组视频课程，前期16次周课，之后进入维护阶段。更关键的是，这是一项pragmatic referral trial：研究团队本身不提供干预，只负责随机转介和结局测量。运动量也不是只靠自报，而是使用腕式actigraphy按月客观记录。

图1｜这项试验的价值，不在于“AI会不会聊天”，而在于它把一个有效却难普及的预防项目，变成了可随机、可比较、可部署的真实干预。

03结果到底如何：AI没有大胜，但把最该回答的问题回答清楚了

这项试验的主要终点其实设得很严格：参与者必须在整个研究期间都保持HbA1c < 6.5%，然后再满足以下三条中的至少一条：≥5%体重下降；≥4%体重下降且每周≥150分钟中高强度活动；HbA1c绝对下降≥0.2个百分点。作者预设的不劣效界值是-15个百分点。

最终结果是：AI组58/183（31.7%）达到主要终点，人类教练组59/185（31.9%）；风险差-0.2个百分点，单侧95%置信区间下界-8.2%。这说明AI组没有触及那条-15%的红线，因此达到了预设不劣效。换句话说，把干预完全自动化以后，疗效并没有明显走样。

把复合终点拆开来看，方向也没有变：≥5%体重下降为16.9%对20.0%；≥4%体重下降加≥150分钟运动/周为12.6%对12.4%；在基线可评估者中，HbA1c下降≥0.2的比例为26.9%对26.9%。研究期间HbA1c≥6.5%的比例为4.4%对3.8%，差异也不显著。

图2｜这不是一场“AI能否战胜人类教练”的比赛，而是在检验“把人类教练拿掉后，效果还能不能守住”。答案是：可以。

04真正更有现实意义的结果：AI更容易被真正用起来

如果只看31.7%和31.9%，你可能会觉得这篇论文并不惊艳。但慢病管理真正值钱的，往往不是单次终点，而是有多少人真的开始了、又有多少人没在半路掉队。在这点上，AI组明显更有优势：启动率93.4%对82.7%，完成率63.9%对50.3%。

论文还给出一个很有意思的分层观察：在完成项目的人里，主要终点达成率其实差不多——AI组37%，人类组35%。但在AI组所有达成主要终点的人里，74%来自完成者；在人类组，这个比例是56%。这提示一个很现实的解释：AI的优势未必是“同样强度下更有效”，更像是“减少了进入和坚持的阻力”。

这对慢病预防尤其关键。论文讨论部分提到，即使在指南推荐下，美国实际参与DPP的糖尿病前期成年人也只有大约3%。在这种背景里，把干预做成一个可低接触、可异步、可持续触达的产品，本身就可能比“让每个完成者再多提升一点效果”更有公共卫生价值。

图3｜这项试验最打动人的地方，不是AI在终点上多赢了几分，而是它明显减少了“还没开始就放弃”和“开始后很快掉队”的人数。

05为什么这篇JAMA比很多数字医疗论文更可信

第一，它是随机对照，而且用了主动对照。很多数字健康研究喜欢拿历史对照、usual care，甚至只做单臂前后比较；这篇不是。它直接拿一个fully automated AI-led DPP去对标CDC认可的人类教练项目，让“AI到底行不行”变成了更硬的临床问题。

第二，它不是只看几周体重变化，而是看12个月，而且运动量用actigraphy客观测量。

第三，人类教练组并不是敷衍的对照——四个项目都有full-plus recognition。第四，这是一项务实性referral trial：研究团队本身不带项目，更接近未来真实部署的样子。再加上整项研究85.1%的随访保留率，这篇文章的底子比很多“app试用报告”硬得多。

图4｜这篇文章的价值在于问题提得很实、设计也足够硬；但它同样没有把“AI已经可以全面替代人类教练”这件事说死。

06但别吹过头：这篇文章真正的边界在哪里

边界至少有四层。第一，只有2个美国中心，而且受试者是相对积极的志愿者，教育水平也偏高，外推到更多元、数字素养更低的人群时要谨慎。第二，主要终点是12个月复合替代结局，不是最终糖尿病发病率；所以这篇文章并没有直接证明AI方案能长期减少糖尿病发生。第三，人类教练组因为COVID采用了远程课程，这不等于传统面对面DPP。第四，研究是开放标签，而且App在研究期间有一些界面或功能更新；数字素养、使用习惯和平台细节都可能影响结果。再往前补一句实话：不劣效界值设为-15%不算特别小，虽然最终观察值远好于这条线，但它仍然不是“完全一样”。

这篇论文现在能说的

这篇论文现在还不能说的

1. 全自动AI版DPP在12个月关键复合终点上不劣于CDC认可的人类教练项目。 2. AI方案在启动率和完成率上更好，说明它更适合做低摩擦、可扩展的干预。 3. 这类AI的价值未必来自“更聪明”，也可能来自“更容易进入临床流程”。

1. AI已经能够普遍替代所有生活方式教练。 2. 这套方案一定能长期减少糖尿病发病。 3. 在更低数字素养、更多元人群或其他医疗系统里，效果一定能原样复制。

07我的判断：AI在慢病预防里最现实的价值，是把有效干预做成标准产品

我对这篇文章的看法很明确：它的意义不在“AI终于赢过人类教练”，而在“证据级干预终于有机会被产品化、规模化”。过去很多临床AI论文都在讨论模型分数、预测准确率和单点替代；这篇文章更像是在回答一个更难也更现实的问题：怎样把一个已知有效、但长期难推广的干预，真正塞进医疗系统。

对生物医学AI来说，这可能比很多花哨模型更值得关注。因为慢病管理的瓶颈，往往不在“理论上有没有办法”，而在“现实里谁来做、怎么做、能做多大”。如果AI能把这类行为干预做成低摩擦、低人力依赖、可在流程中持续运转的服务，它未必要在每一项指标上都压过人类，依然会很有价值。

下一步更该看的，是长期糖尿病发病率、成本效果、不同数字素养人群的表现，以及这类系统在更大范围医疗网络里的部署质量。这篇JAMA不是终点，但它把“AI做慢病管理教练”这件事，从概念验证推进到了可以认真讨论的临床实施问题。

一句话核心结论：这篇JAMA最值钱的地方，不是AI比人类更强，而是它证明了：全自动、可规模化的慢病预防干预，可以在关键结局上不劣于真人教练，并且在真正启动和完成这件事上更有现实优势。

引用信息

Mathioudakis N,Lalani B,Abusamaan MS, et al. An AI-Powered Lifestyle Intervention vs Human Coaching in the Diabetes Prevention Program:A Randomized Clinical Trial.JAMA.2025;334(23):2079–2089. doi:10.1001/jama.2025.19563

← 上一篇：AI头条24小时热榜下一篇：EEWorld AI开发版块上线 →