2026-06-22 12:38

Nature重磅：AI智能体医生：MIRA，首次在完整诊疗流程中超越人类医生

本文来自微信公众号：生物世界，编辑：王多鱼，作者：生物世界，原文标题：《Nature重磅：AI智能体医生——MIRA，首次在完整诊疗流程中超越人类医生》

大语言模型（LLM）在临床决策方面展现出巨大潜力，但目前大多数应用仍局限于特定任务的窄范围聊天工具，而非真正融入临床工作流程的系统。然而，要构建医生辅助系统，需要能够在电子健康记录（EHR）环境中运行的AI模型，具备受控访问患者数据的能力，并能在明确的安全约束下执行允许的EHR操作。但目前尚不清楚此类AI系统是否能以与医生相当的水平管理患者病例。

2026年6月17日，海德堡大学医院的研究人员在国际顶尖学术期刊Nature上发表了题为：Towards autonomous medical artificial intelligence agents的研究论文。

该研究开发了一种自主医疗AI智能体系统——MIRA（MedicalIntelligence forReasoning andAction），并在超过500个真实患者病例的模拟测试中，让这个AI医生与真正的人类医生进行了一场“同台竞技”，结果显示，这个AI医生不仅能问诊、开检查单、做诊断，还能制定治疗方案、安排手术，更重要的是，其在完整诊疗流程中超越了人类医生。

MIRA的工作流程

近几年，ChatGPT等大语言模型能够回答问题、写文章，甚至通过一些医学考试。但MIRA和它们有本质区别——MIRA不是只会聊天的工具，而是一个能直接在电子健康档案（EHR）系统中执行操作的AI智能体。以前的AI医生就像一位只能给你口头建议的“纸上谈兵”的顾问；而MIRA则像一位真正拥有处方权、能开检查单、能下医嘱的医生。

具体来说，MIRA可以——

与患者对话：通过聊天获取病史（由另一个“患者智能体”模拟真实患者，严格按照病历中的主诉回答）；
开具检查：包括血液化验、尿液分析、微生物培养、影像学检查；
解读结果：综合所有信息形成诊断假设；
制定治疗方案：开药、安排手术、决定是否需要住院；
遵循标准：所有操作都符合FHIR（快速医疗互操作性资源）国际标准，使用ICD、LOINC、ATC等六种医疗编码系统。

更厉害的是，MIRA可调用的工具选项超过85000个——几乎覆盖了急诊科医生面临的所有临床选择。

MIRA的工作流程

一场公平的“人机对决”

为了检验MIRA的真实水平，研究团队设计了一场极其严谨的实验。

数据来源：真实患者病历，研究团队从著名的MIMIC-IV数据库中选取了574个真实患者的急诊病例，涵盖8种常见急症——

腹部疾病：阑尾炎、胆囊炎、憩室炎、胰腺炎；
内科急症：肺炎、尿路感染、肺栓塞；
肿瘤急症：胰腺癌。

每个病例都包含了完整的病史、体格检查结果、实验室检查、影像报告、微生物学结果以及最终的治疗方案——这些都是真实的临床数据。

对照组：两批人类医生，为了全面评估MIRA的表现，研究团队招募了两组医生作为对照：

委员会认证的专科医生组（4名）：均有7-11年临床经验；
混合资历医生组（6名）：包括2名专科医生和4名住院医师（代表德国急诊科的典型人员配置）。

两组医生和MIRA面对完全相同的病例，使用相同的工具界面（人类医生有图形界面，MIRA有API接口），在相同的信息条件下独立完成诊疗。

评价维度：不止看诊断，研究从多个维度对MIRA进行了评估：

诊断准确性：是否给出了正确的最终诊断；

检查合理性：是否做了必要的检查、有没有过度检查；
治疗合规性：用药是否符合临床指南；
操作安全性：药物剂量是否正确、有无药物相互作用、过敏风险等；
入院决策：能否正确判断患者是否需要住院；
稳健性：面对不同性别、焦虑程度、语言障碍等干扰因素时，诊断是否稳定。

MIRA超越人类医生，而且是全面胜出

诊断准确率：AI完胜人类医生，在所有8种疾病的整体诊断准确率上，MIRA达到了87.8%，而委员会认证医生组的平均准确率为78.1%，混合资历医生组则更低。

分病种来看，差距更加明显：

胰腺炎：MIRA准确率95.2%vs专科医生78.6%；
胰腺癌：MIRA准确率显著高于两组医生；
阑尾炎：MIRA准确率达到98.6%；
肺炎和尿路感染：虽然相对较低（约72-78%），但仍与医生持平。

唯一没有显著差异的是胆囊炎和肺栓塞，两者表现接近。

工作流程：AI像医生一样思考，研究团队分析了MIRA的“行动轨迹”，发现它的诊疗步骤和人类医生惊人地一致：从询问病史→制定初步计划→请求体格检查→开化验单→做影像学检查→开始用药→确定手术方案→调整围术期用药→安排入院……

整个过程逻辑清晰，循序渐进，而且比人类医生更规范——例如，MIRA在97.1%的病例中请求了体格检查，而人类医生只有87.8%。

检查选择：既不过度也不遗漏，很多人担心AI会让患者做一堆不必要的检查。但数据显示：MIRA并没有“什么都查”——

血液检查：MIRA请求了MIMIC-IV记录中约51.1%的化验项目，高于人类医生的28.3%，但仍然低于真实临床实践中实际做的数量（说明它没有过度检查）；
影像学检查：MIRA与医生相当，甚至略少；
微生物学检查：MIRA与医生相当无显著差异。

也就是说，MIRA在“多查一点”和“少查一点”之间找到了更好的平衡点。

治疗决策：更严格遵循指南，在用药方面，MIRA的表现同样亮眼——

静脉输液：对于胰腺炎患者，MIRA比医生更频繁地按指南要求给予静脉补液；
镇痛治疗：MIRA在多数疾病中更符合指南推荐的镇痛方案；
抗生素使用：虽然未能做到100%完美，但总体合规率显著高于医生。

平均而言，MIRA的指南依从性比专科医生高出35个百分点，比混合资历组高出36个百分点。

手术推荐：精准匹配，在需要手术的病例中，MIRA能准确识别并推荐正确的手术方式——

阑尾炎：100%准确推荐腹腔镜阑尾切除术；
胆囊炎：90.6%准确推荐腹腔镜胆囊切除术；
整体手术推荐召回率：MIRA为53.5%，而专科医生仅为38.3%。

用药安全：近乎零差错，研究团队对MIRA开出的468条用药医嘱进行了逐条审查——

99.8%的用药指令包含正确且有临床意义的给药说明；
97.6%的药物剂量正确；
98.3%的用药单位正确；
99.6%的治疗周期正确；
给药途径准确率稍低（97%），这是主要的错误来源。

在药物相互作用、肾剂量调整、过敏匹配、QT间期延长风险、阿片类药物安全等6个安全维度的专项评估中，MIRA表现优异，未发现严重安全问题。

入院决策：谨慎但不冒进，MIRA在决定患者是否需要住院这件事上，表现得像一个“谨慎的医生”——

对于确实需要住院的患者，召回率达到100%——没有一个该收治的被漏掉；
对于不需要住院的患者，特异性约为70%-86%；
唯一的不足是：在肺栓塞病例中，MIRA倾向于“过度收治”（把一些本可门诊处理的患者也收了进来），但这种“宁可错收、不可放过”的态度，在临床上是可以被接受的。

抗干扰能力：不受偏见影响，研究团队还测试了MIRA在面对各种“干扰”时的稳定性，包括——

改变患者性别；
患者坚称自己没病，或坚称自己得了癌症；
患者极度焦虑；
患者只说德语或法语（非英语）。

结果显示，MIRA的诊断准确率几乎没有变化，表现出极强的稳健性。

从“聊天”到“干活”的跨越

过去几年，我们已经看到很多AI在医学考试、问答任务上取得高分。但那些都是“纸上谈兵”——AI只需要输出一段文字，而不需要在真实的医疗信息系统里执行任何操作。

MIRA的不同之处在于：它能直接操作电子健康档案系统，完成从问诊到入院的全流程。这意味着它有可能真正嵌入到医院的日常工作流中，成为医生的“助手”。

论文作者指出，未来最可能的落地场景不是让AI完全替代医生，而是让它承担那些重复性高、耗时多的任务，例如核对患者入院前的用药清单、自动组合化验套餐、草拟跨科室会诊申请、提出符合指南的医嘱建议等。这样，医生就能把更多时间留给直接面对患者——毕竟，医患沟通的温度，是AI暂时无法替代的。

总的来说，这项研究无疑是医疗AI发展史上的一个重要里程碑，它第一次证明：一个自主AI智能体可以在完整的急诊诊疗流程中，达到甚至超越人类专家的水平。当然，这也只是第一步，接下来，我们还需要更多的真实世界试验来验证它的安全性、泛化能力和治疗机制。

论文链接：

https://www.nature.com/articles/s41586-026-10675-5

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

AI创投日报

频道：前沿科技