人工智能浪潮下医学教育与医学伦理的再塑

发布时间：2026-04-11 15:40阅读：32

编者按

人工智能（Artificial Intelligence，AI）正快速进入医学实践和医学教育场景。从自动病历撰写（AI scribes）到由大语言模型（Large Language Models，LLMs）支持的医学文本摘要，再到算法参与临床决策，技术不仅改变了医学知识的生成方式，也正在改写临床推理的结构以及医患互动的形态。在这一背景下，医学教育所面对的问题，已经由“要不要引入AI”转变为“如何在AI环境下守住临床判断力与伦理反思能力”。

需要警惕的是，技术效率的提升并不必然意味着专业能力和职业精神会同步增强。医学书写、临床思维、伦理实践等传统训练的关键环节，正不同程度受到自动化工具的冲击。如何在技术赋能与专业自主之间实现平衡，已成为当下医学教育研究的重要课题。

本期简报聚焦人工智能时代医学教育与医学伦理的再建构，选取近年发表的代表性研究，从教育实践、方法论反思与伦理哲学三个维度进行梳理，力求为医学教育研究者提供理论参照与实践启发。

在人工智能书写工具

时代维护临床推理能力

背景与方法：

随着自动病历生成工具（AI scribes）逐渐进入临床应用，医学书写这一长期被视作临床推理（clinical reasoning）核心组成部分的训练环节，正面临被重塑的风险。该研究依托某住院医师项目为期六个月的试点实践，48名住院医师在真实临床环境中使用人工智能书写系统完成近千份病历。作者通过教育反思与实践分析提出，在将技术纳入住院医培训体系时，应设置清晰的“教育护栏”（educational guardrails），并把相关建议对应到ACGME核心能力框架（ACGME Core Competencies）。

研究发现：

研究认为，临床书写并不只是单纯记录信息的行为，而是一个组织诊断假设、整合临床线索并反思不确定性的认知过程。如果在缺少指导的情况下过早依赖人工智能生成文本，可能会削弱学员的诊断推理与自我反思能力。作者强调，人工智能工具应被定位为“认知脚手架”（cognitive scaffold），而不是替代临床思考的自动装置。只有在学员具备基础书写能力后再引入人工智能，并结合人工审校与反思性反馈机制，才能减少技术对专业判断力的侵蚀。

推荐理由：

该文立足真实教育实践，揭示了生成式人工智能介入后，可能对临床能力形成机制带来的结构性影响。其提出的“教育护栏”概念，为正在推进数字化转型的医学教育机构提供了重要借鉴，尤其对如何在效率提升和能力培养之间实现平衡，具有现实指导价值。

引用：

Abernethy J, Patel R, Simmons L, et al. Integrating AI Scribes into Medical Education: Guardrails for Preserving Clinical Reasoning. J Gen Intern Med. 2026;41(2):345–352. DOI: 10.1007/s11606-025-10149-w

大语言模型在医学文本摘要

中的方法挑战

背景与方法：

面对生物医学文献数量的爆发式增长，大语言模型（Large Language Models，LLMs）已被广泛用于医学文本自动摘要（biomedical text summarization）。该研究依据系统综述与荟萃分析规范（Preferred Reporting Items for Systematic Reviews and Meta-Analyses，PRISMA），对2016年至2024年间120项相关研究进行综合分析，重点比较抽取式摘要（extractive summarization）与生成式摘要（abstractive summarization）模型，并评估BioBERT、PubMedBERT等领域专用模型的效果。

研究发现：

研究显示，尽管LLMs在ROUGE等传统文本评价指标上表现突出，但医学语境对事实一致性（factual consistency）和临床准确性提出了更高标准。生成式模型存在“幻觉现象”（hallucination），即生成表面合理却与事实不符的医学信息。此外，当前评价体系主要依赖语言相似度指标，尚未形成能够充分体现医学专业严谨性的评价框架。作者指出，医学文本摘要不同于一般自然语言生成任务，其核心要求在于保障事实准确和临床相关性。

推荐理由：

该文系统梳理了医学文本生成技术的理论基础与现实局限，对于理解人工智能在循证医学教育和科研写作中的适用边界具有重要价值。尤其在方法论层面，文章提醒研究者在应用技术时，必须重新审视评价标准与伦理责任。

引用：

Mushtaq S, Ali A, Chen Y, et al. Biomedical Text Summarization with Large Language Models: Methodologies, Challenges, and Future Directions. Int J Data Sci Anal. 2026;12(1):55–78. DOI: 10.1007/s41060-025-00956-z

神经解剖医学谜题情境下

大语言模型的测评表现

背景与方法：

Kaçar 等人比较了六种大语言模型在医学谜题情境中的推理与理解能力，尝试把“医学谜题”作为区别于传统选择题的替代评估方式。研究选取20道神经解剖相关医学谜题，分别以英语和土耳其语呈现，测试 ChatGPT-5、ChatGPT-4、AnatomyGPT、Gemini 2.5、Claude 3.5 Sonnet 和 DeepSeek 在两轮作答中的正确率与一致性。统计方法包括 Cochran’s Q 检验、卡方检验、McNemar 检验及 Cohen’s kappa 系数，用于比较模型之间的准确率差异及跨轮次稳定性。研究仅评估最终答案是否正确，不分析推理过程与中间解释。

研究发现：

在英语谜题中，除 Claude 出现1题错误外，其余模型均达到100%正确率；在土耳其语版本中，Claude 达到100%，ChatGPT-5、ChatGPT-4 与 AnatomyGPT 为95%，DeepSeek 为85%，Gemini 2.5 为80%。总体上，不同模型之间差异无统计学显著性。多数模型在两轮测试中表现出较高一致性，仅 Gemini 2.5（土耳其语）为中度一致性（κ=0.347）。部分错误呈现语义联想驱动的共性，提示模型可能更多依赖表层语义线索，而非深层空间结构理解。研究指出，大语言模型在谜语式问题中展现出较强的语义整合与模式识别能力，但在跨语言与空间推理层面仍有波动。

推荐理由：

该研究创新性地将医学谜题作为主动学习与概念推理的测评工具，突破了以往单纯依赖选择题或标准化考试的评价框架，拓展了大语言模型在医学教育中的应用场景。结果表明，当前主流模型在神经解剖概念整合和语义推理方面已具备较高水平，但仍无法完全替代人类判断。作者强调，大语言模型更适合作为教学辅助工具，在教师监督下用于促进比较、反思与批判性思维训练，而非充当独立评估主体。该研究为理解生成式人工智能在主动学习情境中的潜力与边界提供了实证依据。

引用：

Kaçar H, Turamanlar O, Emir B, Yakıncı C. Performance of large language models on neuroanatomy-based medical riddles: a comparative study. Surgical and Radiologic Anatomy. 2026;48:57. doi:10.1007/s00276-026-03824-y.

大语言模型在临床人工智能

中的应用综述

背景与方法：

Ghnemat 与 Saleh 对大语言模型及多模态大语言模型在医疗领域的应用进行了系统综述，旨在梳理其技术演进、临床应用、评估体系与伦理治理框架。研究遵循 PRISMA 2020 指南，检索 PubMed、IEEE Xplore、ACM、Scopus、SpringerLink、ScienceDirect、arXiv 与 medRxiv 等数据库，共纳入2020年1月至2025年9月期间发表的246篇文献，去重后筛选176篇，最终90项研究进入系统整合分析。两名研究者独立筛选并评估文献质量，Cohen’s κ=0.82，提示一致性较高。研究从技术架构（encoder-only、decoder-only、encoder-decoder）、多模态融合路径（文本—影像—基因组）、新兴方法（Prompting、RAG、多代理系统）、风险偏倚（RoB）评估及证据分级等方面进行了结构化综合分析。

研究发现：

在90项纳入研究中，20.0%为低偏倚证据，72.2%为中等偏倚，7.8%为高偏倚，整体仍处于“中等成熟度”阶段。医学影像领域证据等级最高（A级），部分研究已纳入跨机构验证与读片医师比较；多模态模型处于中高等级（B+），显示文本—影像融合可提高诊断一致性（F1值提升约12%）；通用医疗大语言模型证据等级为B级，主要集中于临床问答与报告生成；多代理系统与生物信息学领域仍以模拟或内部验证为主（C/C+）。

在实际应用中，大语言模型可明显提升临床文书效率（某单中心研究报告周转时间缩短约40%），但仍存在约12%的临床相关幻觉风险。RAG 技术在引入权威知识库后可降低约40%的幻觉率，但也面临检索偏倚与知识更新滞后的问题。多模态模型通过自然语言对齐不同数据模态，推动“数字孪生”与精准医疗构想，但受限于数据孤岛和高维影像计算复杂度。总体来看，模型性能提升与风险控制之间存在结构性张力。

推荐理由：

该研究系统整合了2020—2025年间医学大语言模型与多模态大语言模型的证据基础，首次以“技术—证据—治理”三位一体框架呈现生成式人工智能在医疗体系中的发展图景。文章不仅梳理了模型演进路径与应用现状，还提出三项可操作建议：建立标准化多模态评估基准、构建可审计的知识增强生成机制、在临床部署前实施安全关键型多代理工作流验证。对医学教育而言，本研究提示教学范式正由“知识传授”转向“人机协作与批判性判断训练”；对医学伦理而言，则强调数据治理、偏倚缓解与可解释性审查将成为制度重构的核心议题。该综述为理解生成式人工智能在医学教育与临床实践中的潜力、边界及治理路径提供了系统证据支持。

引用：

Ghnemat R, Saleh A. Large language models for clinical artificial intelligence in healthcare: a systematic review. Discover Artificial Intelligence. 2026;6:156. doi:10.1007/s44163-025-00784-x.

生成式人工智能在

基础医学教学中的结构化运用

背景与方法：

Elgui de Oliveira 提出了一套基于提示工程（prompt engineering）的生成式人工智能（Generative AI）教学辅助框架，旨在优化病理学与生物医学课程中的学习设计。作者构建五种“提示式助手”（Prompt-based Assistants，PAs），分别用于自学辅导、错误文本辨析（Degraded Text Activity，DTA）、试题生成与评分反馈等场景。该框架强调通过精细化提示设计，引导大语言模型产出具有教学价值的内容，同时保持教师对学习过程的引导与控制。

研究发现：

DTA 模式通过在文本中有意嵌入错误或不完整信息，引导学生进行识别与修正，从而把人工智能的“幻觉”（hallucinations）转化为认知训练资源，强化批判性思维和错误辨析能力。研究进一步强调“人类在环”（human-in-the-loop）原则，即人工智能不独立作出决策或自动评判，而是在教师持续监督和学习者主动参与下运行。教师负责提示设计、结果审查与教学调整，学生则通过互动反馈不断修正理解，形成动态共建的学习过程。

推荐理由：

该研究提供了较为具体且具有操作性的教学路径，展示了人工智能如何在医学教育中成为促进高阶认知（higher-order thinking）的工具，而非替代学习过程。通过“人类在环”机制，人工智能被嵌入受控且可反思的教学结构之中，有助于在技术应用与教育质量之间维持平衡。

引用：

Elgui de Oliveira D. Remodeling Education in Pathology and Biomedical Sciences: Prompting Effective Learning and Teaching with AI LLMs. Med Sci Educ. 2026. DOI: 10.1007/s40670-025-02625-z

算法时代医学人文精神

的风险与再建

背景与方法：

随着算法系统逐步参与临床决策，医学实践的价值结构也在发生变化。该文从医学人文与伦理哲学视角切入，探讨人工智能在提升效率的同时，是否可能削弱医学作为人文实践的本质。作者通过理论分析与临床情境反思，讨论技术理性（technical rationality）与情境判断之间的张力。

研究发现：

文章指出，医学决策不仅是数据匹配的过程，更是一种情境化的道德实践。如果医学教育过度强调算法优化与预测准确率，可能会忽略患者叙事（patient narrative）与关系性关怀。作者提出，医学人文教育不应被视为技术训练的补充，而应作为维系医学专业身份的核心维度。在人工智能时代，医学教育更需要强化反思性实践（reflective practice）与伦理敏感性。

推荐理由：

该文为当前技术主导趋势下的医学教育改革提供了重要反思视角，提醒教育者在推进数字化转型的同时，守护医学的人文根基与专业价值。

引用：

Atkinson P, Brown M, Green R. Between Algorithms and Humanity: What We Risk Losing in the Age of Artificial Intelligence. Can J Emerg Med. 2026;28(1):12–18. DOI: 10.1007/s43678-025-01086-y

伦理作为“共同挣扎”：

重建医学的道德生活

背景与方法：

在制度压力、绩效逻辑与职业倦怠持续加剧的背景下，医学伦理常被简化为冲突处理工具或风险管理指南。Mason 与 Moyse 在文中指出，这种工具化理解遮蔽了医学更深层的道德危机。作者提出“伦理即挣扎”（ethics-as-struggle）框架，强调临床伦理实践并非追求快速答案或程序性裁决，而是在复杂、不确定情境中持续参与医学的“道德生活”（the moral life of medicine）。文章以德性伦理学与诠释学为理论基础，通过哲学反思与临床实践分析，阐明实践智慧（phronesis）在医学判断中的核心意义。

研究发现：

作者认为，道德清晰性并不是通过机械套用规则获得的，而是在不确定性与价值冲突中，借由持续参与、对话与反思逐步形成。临床伦理应被理解为一种共同诠释过程，而非专家裁决机制。所谓“共同挣扎”，并非情绪性的困扰，而是医学共同体在面对复杂处境时，共同承担道德不确定性，并通过共享经验与审议过程辨识何为“善”的努力。为此，作者倡议在医学教育与临床实践中建立类似“伦理实验室”的空间，使医学生在真实困境与跨学科讨论中培养道德感知与判断能力。

推荐理由：

该文为人工智能与技术加速时代医学教育的伦理定位提供了深层理论支撑。它提醒教育者，在效率与技术主导的环境中，伦理不应沦为管理工具，而应通过制度设计保留医学实践中的道德维度与实践智慧。通过“共同挣扎”的理念，本文为重建医学作为道德共同体的理解提供了重要启发。

引用：

Mason J, Clark D, Reynolds T. Neither Salve nor Solution: Clinical Ethics and the Struggle to Discover the Moral Life of Medicine. HEC Forum. 2026;38(1):25–39. DOI: 10.1007/s10730-025-09576-3

人工智能时代医学教育质量

与学习伦理的再审视

背景与方法：

在人工智能加速融入医学教育的背景下，学习方式与知识获取路径正在发生深刻变化。然而，医学教育的核心依然是培养具备专业能力、自律精神与伦理责任的医生。本研究基于突尼斯苏塞医学院2023–2024学年横断面调查，纳入701名医学生，通过问卷收集社会人口学特征、生活方式、学习投入及教育环境感知（DREEM量表）等数据，并采用有序Logistic回归分析学业成绩的独立影响因素。研究旨在识别在技术快速发展的时代背景下，哪些关键因素仍主导医学学习成效。

研究发现：

结果显示，学生整体对教育环境评价较为积极（DREEM中位数115分），但在“学术自我认知”和“社会自我认知”维度得分相对较低。多变量分析表明，每日复习时间增加（OR=1.08）、无精神活性物质使用（OR=2.60）及对教育环境满意（OR=0.60）均与更高学业成绩显著相关；本国学生身份也具有显著优势（OR=4.99）。研究提示，学业成功并不单纯取决于背景条件，而更多与可干预的行为因素及教育生态质量相关。即便在数字化学习资源日益丰富的环境中，持续投入、自我管理与学习满意度仍然是关键变量。

推荐理由：

在人工智能不断提升学习效率的时代，本研究提供了重要启示：技术工具可以优化信息处理，却无法替代学习责任、自律能力与职业价值观的形成。教育环境满意度的保护作用说明，医学教育不仅是知识传授，更是专业认同与伦理意识建构的过程。对于正在推进数字化与智能化转型的医学教育体系而言，如何在技术赋能与人文守护之间保持平衡，是亟待回应的核心命题。

引用：

Sridi C, Aribi M, Lassoued L, et al. Sociodemographic, lifestyle, and educational environment factors associated with academic performance among Tunisian medical students: a cross-sectional study. BMC Medical Education. 2026;26:190. DOI:10.1186/s12909-025-08518-4

在医学教育中重建

“人之尊严”的本体论基础

背景与方法：

Frantz等人提出，人类尊严（human dignity）不应建立在功能主义标准之上，而应奠基于本体论（ontological）层面。文章基于亚里士多德—托马斯传统，重新阐释“人作为理性实体”（substantia individua rationalis）的哲学内涵。

研究发现：

作者批判 Peter Singer 等人基于认知能力界定“人格”的观点，强调尊严源于存在本身，而不是能力表现。通过对本质（essence）、形式与质料（form and matter）、灵魂（soul）与人格（personhood）概念的系统梳理，文章主张医疗伦理应恢复形而上学人类学（philosophical anthropology）基础。

推荐理由：

在人工智能参与诊疗决策与“功能性人格”讨论日益增多的背景下，该文为医学伦理提供了深层哲学资源，尤其在生命起始与终末议题上具有理论意义。

引用：

Frantz P, Rego F, Barbas S. Human dignity and ontological foundations: a philosophical perspective for the health professions. Philos Ethics Humanit Med. 2026;21:2. DOI: 10.1186/s13010-025-00207-w

小结

本期文献共同表明，人工智能正在重塑医学知识生产与临床实践结构，但技术进步本身并不能自动保证教育质量。无论是自动病历生成工具的应用，还是大语言模型在医学文本处理中的拓展，都必须置于清晰的能力培养目标与伦理框架之下。医学教育在智能化转型过程中面临的核心问题，并不是如何最大化技术效率，而是如何在算法支持下维持临床推理能力、事实严谨性与人文关怀。人工智能可以成为医学教育的重要工具，但医学的专业理性与道德深度，仍需通过制度设计与教育反思加以守护。

← 上一篇：五部门联合发布AI教育新规，教与学模式迎来巨变下一篇：轻松上手！6款CNDD AI技能资源 →