万名AI虚拟患者上线:硅碳对决,全科诊疗挑战赛启动
考试满分的AI,能否应对现实中错综复杂的病患?此次,我们让“硅基智能”与“碳基医学生”同场竞技——评判标准回归医疗本源
大模型正推动医疗AI从“医学百科”迈向“临床决策中枢”。
然而,一个核心问题始终悬而未决:那些在MedQA、USMLE等考试中斩获高分的AI,真能走进诊室,应对那些“隐瞒病情、言语矛盾、身患多种基础病”的真实患者吗?
传统评测将鲜活的临床难题压缩为选择题,掩盖了医患沟通的博弈、复杂共病的陷阱,更缺乏对“问诊—检查—诊断治疗”全链条能力的系统考核。
这一次,我们拒绝单选题。
由魔搭社区、浙江大学、浙江工商大学联合主办,南京大学智能科学与技术学院等单位协办,阿里云百炼提供支持,基于OpenHospital底座,我们构建了一座高度仿真的全科诊疗竞技场:
摒弃标准选择题,直面12,000名鲜活的智能体患者
涵盖上千种复杂疾病网络,覆盖常见病、罕见病及复杂共病
完整复现医生诊疗全链条:多轮问诊、开具检查、提供诊断与治疗方案
在此,分数不靠死记硬背,而取决于真正的临床思维:问诊更精准、检查更细致、治疗更优化。
了解OpenHospital:
https://www.bilibili.com/video/BV1LJwZzkEeg/
面向全国高校具备智能体构建能力的在校学生,每队1至3人。
你的任务是,将基础医生智能体调教为会问诊、懂检查、能决策的“临床大脑”。
考核重点:智能体构建、技能模块开发、记忆机制管理
资源包:训练服务端、标准检查项目清单、标准疾病名称库、初始医生智能体基线
交付成果:在魔搭创空间部署的医生智能体
面向医学相关专业专科、本科、硕士、博士在校生,以个人名义参赛。
这是将课堂知识与临床判断置于真实诊疗流程中检验的绝佳机会。
考核重点:临床实践能力、知识储备、经验判断
资源包:可视化交互平台、标准检查项目清单、标准疾病名称库
交付成果:在可视化交互平台上的在线作答记录
两大赛道独立排名,分别在各自赛道内生成榜单。
对医学生而言:
这绝非又一场刷题考试。你将在仿真诊室中完成从问诊到治疗的全流程,将临床思维转化为肌肉记忆——这正是规培、轮转及未来执业所需的真本事。
对开发者而言:
医疗是智能体落地最严峻的试金石。从技能设计到记忆管理,从多轮对话到决策对齐,每一次调优都是在攻克AI智能体迈向产业化的关键能力。
对整个行业而言:
当“硅基”与“碳基”首次在同一标准下同台竞技,我们衡量的不再是分数,而是安全、有效及个性化问诊效率。这场双轨对决,将推动医疗AI评测范式的革新。
注:提交评测后立即生成榜单成绩,双赛道独立排名
可调优基线:在创空间中可复制、可改进,开发者无需从零开始
可视化交互平台:诊疗交互界面、实时排行榜、历史提交回放
Token支持:训练阶段建议申领阿里云“云工开物”高校学生扶持计划补贴(符合条件者可申领最高300元/人,具体以阿里云官方说明为准);评测阶段算力由赛事平台统一提供,选手无需自备
培训与答疑:赛题解读直播、用户手册、官方讨论区及微信答疑群,全程陪伴
(以下单位排序不分先后)
主办单位:魔搭社区、浙江大学、浙江工商大学
合办单位:浙江大学软件学院、浙江大学医学院、浙江工商大学共同富裕统计监测与智能治理实验室、南京大学智能科学与技术学院
协办单位:阿里云百炼
如果你是医学生,来证明临床判断的价值!
如果你是开发者,来打磨真正能“接诊”的智能体!
6月3日开放报名,了解更多赛题详情/立即报名,点击阅读原文直达
赛事交流答疑群