
本文来自微信公众号: 生物世界 ,编辑:王多鱼,作者:生物世界,原文标题:《Nature重磅:AI智能体医生——MIRA,首次在完整诊疗流程中超越人类医生》
大语言模型(LLM)在临床决策方面展现出巨大潜力,但目前大多数应用仍局限于特定任务的窄范围聊天工具,而非真正融入临床工作流程的系统。然而,要构建医生辅助系统,需要能够在电子健康记录(EHR)环境中运行的AI模型,具备受控访问患者数据的能力,并能在明确的安全约束下执行允许的EHR操作。但目前尚不清楚此类AI系统是否能以与医生相当的水平管理患者病例。
2026年6月17日,海德堡大学医院的研究人员在国际顶尖学术期刊Nature上发表了题为:Towards autonomous medical artificial intelligence agents的研究论文。
该研究开发了一种自主医疗AI智能体系统——MIRA(MedicalIntelligence forReasoning andAction),并在超过500个真实患者病例的模拟测试中,让这个AI医生与真正的人类医生进行了一场“同台竞技”,结果显示,这个AI医生不仅能问诊、开检查单、做诊断,还能制定治疗方案、安排手术,更重要的是,其在完整诊疗流程中超越了人类医生。

MIRA的工作流程
近几年,ChatGPT等大语言模型能够回答问题、写文章,甚至通过一些医学考试。但MIRA和它们有本质区别——MIRA不是只会聊天的工具,而是一个能直接在电子健康档案(EHR)系统中执行操作的AI智能体。以前的AI医生就像一位只能给你口头建议的“纸上谈兵”的顾问;而MIRA则像一位真正拥有处方权、能开检查单、能下医嘱的医生。
具体来说,MIRA可以——
与患者对话:通过聊天获取病史(由另一个“患者智能体”模拟真实患者,严格按照病历中的主诉回答);
开具检查:包括血液化验、尿液分析、微生物培养、影像学检查;
解读结果:综合所有信息形成诊断假设;
制定治疗方案:开药、安排手术、决定是否需要住院;
遵循标准:所有操作都符合FHIR(快速医疗互操作性资源)国际标准,使用ICD、LOINC、ATC等六种医疗编码系统。
更厉害的是,MIRA可调用的工具选项超过85000个——几乎覆盖了急诊科医生面临的所有临床选择。

MIRA的工作流程
一场公平的“人机对决”
为了检验MIRA的真实水平,研究团队设计了一场极其严谨的实验。
数据来源:真实患者病历,研究团队从著名的MIMIC-IV数据库中选取了574个真实患者的急诊病例,涵盖8种常见急症——
腹部疾病:阑尾炎、胆囊炎、憩室炎、胰腺炎;
内科急症:肺炎、尿路感染、肺栓塞;
肿瘤急症:胰腺癌。
每个病例都包含了完整的病史、体格检查结果、实验室检查、影像报告、微生物学结果以及最终的治疗方案——这些都是真实的临床数据。
对照组:两批人类医生,为了全面评估MIRA的表现,研究团队招募了两组医生作为对照:
委员会认证的专科医生组(4名):均有7-11年临床经验;
混合资历医生组(6名):包括2名专科医生和4名住院医师(代表德国急诊科的典型人员配置)。
两组医生和MIRA面对完全相同的病例,使用相同的工具界面(人类医生有图形界面,MIRA有API接口),在相同的信息条件下独立完成诊疗。
评价维度:不止看诊断,研究从多个维度对MIRA进行了评估:
诊断准确性:是否给出了正确的最终诊断;
检查合理性:是否做了必要的检查、有没有过度检查;
治疗合规性:用药是否符合临床指南;
操作安全性:药物剂量是否正确、有无药物相互作用、过敏风险等;
入院决策:能否正确判断患者是否需要住院;
稳健性:面对不同性别、焦虑程度、语言障碍等干扰因素时,诊断是否稳定。
MIRA超越人类医生,而且是全面胜出
诊断准确率:AI完胜人类医生,在所有8种疾病的整体诊断准确率上,MIRA达到了87.8%,而委员会认证医生组的平均准确率为78.1%,混合资历医生组则更低。
分病种来看,差距更加明显:
胰腺炎:MIRA准确率95.2%vs专科医生78.6%;
胰腺癌:MIRA准确率显著高于两组医生;
阑尾炎:MIRA准确率达到98.6%;
肺炎和尿路感染:虽然相对较低(约72-78%),但仍与医生持平。
唯一没有显著差异的是胆囊炎和肺栓塞,两者表现接近。
工作流程:AI像医生一样思考,研究团队分析了MIRA的“行动轨迹”,发现它的诊疗步骤和人类医生惊人地一致:从询问病史→制定初步计划→请求体格检查→开化验单→做影像学检查→开始用药→确定手术方案→调整围术期用药→安排入院……
整个过程逻辑清晰,循序渐进,而且比人类医生更规范——例如,MIRA在97.1%的病例中请求了体格检查,而人类医生只有87.8%。
检查选择:既不过度也不遗漏,很多人担心AI会让患者做一堆不必要的检查。但数据显示:MIRA并没有“什么都查”——
血液检查:MIRA请求了MIMIC-IV记录中约51.1%的化验项目,高于人类医生的28.3%,但仍然低于真实临床实践中实际做的数量(说明它没有过度检查);
影像学检查:MIRA与医生相当,甚至略少;
微生物学检查:MIRA与医生相当无显著差异。
也就是说,MIRA在“多查一点”和“少查一点”之间找到了更好的平衡点。
治疗决策:更严格遵循指南,在用药方面,MIRA的表现同样亮眼——
静脉输液:对于胰腺炎患者,MIRA比医生更频繁地按指南要求给予静脉补液;
镇痛治疗:MIRA在多数疾病中更符合指南推荐的镇痛方案;
抗生素使用:虽然未能做到100%完美,但总体合规率显著高于医生。
平均而言,MIRA的指南依从性比专科医生高出35个百分点,比混合资历组高出36个百分点。
手术推荐:精准匹配,在需要手术的病例中,MIRA能准确识别并推荐正确的手术方式——
阑尾炎:100%准确推荐腹腔镜阑尾切除术;
胆囊炎:90.6%准确推荐腹腔镜胆囊切除术;
整体手术推荐召回率:MIRA为53.5%,而专科医生仅为38.3%。
用药安全:近乎零差错,研究团队对MIRA开出的468条用药医嘱进行了逐条审查——
99.8%的用药指令包含正确且有临床意义的给药说明;
97.6%的药物剂量正确;
98.3%的用药单位正确;
99.6%的治疗周期正确;
给药途径准确率稍低(97%),这是主要的错误来源。
在药物相互作用、肾剂量调整、过敏匹配、QT间期延长风险、阿片类药物安全等6个安全维度的专项评估中,MIRA表现优异,未发现严重安全问题。
入院决策:谨慎但不冒进,MIRA在决定患者是否需要住院这件事上,表现得像一个“谨慎的医生”——
对于确实需要住院的患者,召回率达到100%——没有一个该收治的被漏掉;
对于不需要住院的患者,特异性约为70%-86%;
唯一的不足是:在肺栓塞病例中,MIRA倾向于“过度收治”(把一些本可门诊处理的患者也收了进来),但这种“宁可错收、不可放过”的态度,在临床上是可以被接受的。
抗干扰能力:不受偏见影响,研究团队还测试了MIRA在面对各种“干扰”时的稳定性,包括——
改变患者性别;
患者坚称自己没病,或坚称自己得了癌症;
患者极度焦虑;
患者只说德语或法语(非英语)。
结果显示,MIRA的诊断准确率几乎没有变化,表现出极强的稳健性。
从“聊天”到“干活”的跨越
过去几年,我们已经看到很多AI在医学考试、问答任务上取得高分。但那些都是“纸上谈兵”——AI只需要输出一段文字,而不需要在真实的医疗信息系统里执行任何操作。
MIRA的不同之处在于:它能直接操作电子健康档案系统,完成从问诊到入院的全流程。这意味着它有可能真正嵌入到医院的日常工作流中,成为医生的“助手”。
论文作者指出,未来最可能的落地场景不是让AI完全替代医生,而是让它承担那些重复性高、耗时多的任务,例如核对患者入院前的用药清单、自动组合化验套餐、草拟跨科室会诊申请、提出符合指南的医嘱建议等。这样,医生就能把更多时间留给直接面对患者——毕竟,医患沟通的温度,是AI暂时无法替代的。
总的来说,这项研究无疑是医疗AI发展史上的一个重要里程碑,它第一次证明:一个自主AI智能体可以在完整的急诊诊疗流程中,达到甚至超越人类专家的水平。当然,这也只是第一步,接下来,我们还需要更多的真实世界试验来验证它的安全性、泛化能力和治疗机制。
论文链接:
https://www.nature.com/articles/s41586-026-10675-5
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。