扫码打开虎嗅APP
出品 | 虎嗅医疗组
作者 | 陈广晶
编辑 | 廖影
头图 |视觉中国
AI(人工智能)能不能替代医生?
“AI替代医生是迟早的事。” 张强医生集团创始人、首席医生张强告诉虎嗅,如果在半年前,他还会给出完全不同的答案,但GPT为代表的生成式AI改变了他的想法。
南方科技大学恒普生命科学研究中心首席医学专家李定纲进一步预言,基于大模型的AI进入医疗,将生产大批中低级“医生”,他们有相当于名牌医科大学毕业生的水平,可以更好地完成日常基础工作;也可以推动精准医学应用,填补地域间医疗水平的巨大差异。
几乎每一次AI技术有突破,医疗都是该技术最跃跃欲试的领域。在过去10多年的时间里,IBM、谷歌等科技巨头都在这一领域持续推进。新一波由微软掀起的GPT浪潮中,医疗也同样是热门赛道。
“医疗不是第一批,是第零批。”鹰瞳科技(Airdoc)创始人张大磊,在《超越想象的GPT医疗》的分享活动中回应医疗会不会是GPT第一批落地的产业时这样说。
就在此前不久,谷歌、Meta等全球科技巨头,百度、阿里巴巴、华为、讯飞等国内科技大厂,互联网医疗公司医联等,都相继公布了其AI在医疗上的新进展。
这次,AI又将给医学界带来哪些改变?
医生对AI的态度变了
科技界大佬们对改变医疗的执着,从有了AI诞生就有了。几乎是1956年达特茅斯会议之后,就已经有人尝试用计算机程序来“扮演”医生的角色了。在中国,上世纪70年代末也有了一款早期看病相关的“AI”——“关幼波肝病诊疗程序”,主要辅助医生看诊。
2011年,IBM沃森(Watson)在电视游戏节目《危险边缘》中完败最优秀的人类玩家,由此在全球掀起AI热潮以后,IBM就与多家肿瘤权威机构合作开发出了“沃森医生”。
只可惜,这一系列被寄予厚望的AI产品,用起来却不太灵光。
“沃森做的诊断非常的保守。可以说,只是做了最简单层级的医疗处置,没有考虑到患者的个体化资料和病情变化,或者潜在的情况,沃森还需要继续学习。”辽油宝石花医院肿瘤一病区副主任、九三学社盘锦油田支社主任委员申龙海,向虎嗅分享体验“沃森肿瘤”的感受时说。
由于接受训练的数据不是真实患者数据,沃森在辅助医生设计癌症治疗方案时,还曾经给出过“不合适且危险”的方案——给伴有严重出血症状的患者开容易导致出血的药物。沃森也因此逐渐成为IBM的“弃子”。
再之后的AI产品放弃了宏大的目标,更加专注于具体辅助工作上,落地项目逐渐集中到了医学影像、病理分析、智能导诊等领域。给人的印象,主要还是帮助人类完成大量简单重复性的工作,或者查询方面的工作,充当着初级助手的角色。
“再复杂一些的,需要个性化分析的工作,AI目前还是做不到。”申龙海向虎嗅表示。
来自视觉中国
这一切在chatGPT出现后发生了急剧的转变,基于大模型的AI,在诊疗中,也表现出了令医生“震惊”的潜力。
张强医生曾经在临床诊疗中“用”到了“AI助手”。他的一名患者在经过静脉曲张手术后,腿上出现了红色的硬结,去过很多家医院看诊,结果都是静脉炎。经过与AI助手对话,最终确定这名患者腿上的硬结是恶性淋巴肿瘤。病理结果也证实了这一诊断结果。
“这个案例对我的启发和震动都很大。”张强医生事后向虎嗅这样说。这实际上超过了很多三甲医院专家的水平。
类似的震撼也出现在大洋彼岸。2022年秋天,GPT-4(当时代号:达芬奇-3)还在研究中,哈佛大学医学院生物医学信息学系首席主任伊萨克·科恩,受邀对这个新的大模型进行了试验性访问。作为医学博士和计算机科学博士,他第一次将GPT-4用于临床就感到了震撼。
在这次访问中,AI助手经过两轮问答,就诊断出了一例每10万名婴儿中仅有不到1名患者的非常罕见的疾病。
科恩在撰文中写道:“它比我所观察到的许多医生表现得还要优秀。”
这也改变了张强、申龙海等临床专家对AI的看法。AI尽管目前仍然存在各种问题,但是其惊人的学习能力,还是让医生们感受到其“深不可测”的潜力。
大模型做对了什么?
除了在临床诊断中表现出来的潜力,更令人惊奇的是,GPT等大模型还有人文关怀的一面,令很多人自叹不如。在给出诊断结果和治疗方案时,总还不忘要安慰一下患者,充分诠释了“医学之父”希波克拉底“总是去安慰”的理念。
自然语言沟通能力提升,以及新增的对复杂问题系统整合处理能力,被认为是第二代医疗AI,也就是基于transformer形成的大模型构建的医疗AI的优势所在。这种语言能力和交流中表现出来的逻辑性,让AI更加容易获得人类的信任。
“AI更像人了。”张强告诉虎嗅。
在集中和大模型互动了7天以后,张强终于掌握了与新一代AI交流的“法门”。他决定“雇佣”一个虚拟的AI助手,取名Emily。Emily有数字形象,除了是张强的助理,还在“张强医生集团”正在推进的出海项目中,扮演“形象代言人”的角色,还为每一个员工出谋划策。
“AI对做我决策的帮助很大。”张强告诉虎嗅,自从全院引入AI,每一个问题都在当天得到了妥善解决。“AI把所有的问题都变成了选择题。”
对于AI有没有理性的问题,尽管计算机领域专家还没有明确的答案,但是很多用户坚信他有理性了。
电影《奇异博士》剧照
大模型能做到这一步,并不只靠“花言巧语”。GPT等大模型已经不再局限于单模态的发展模式,对更多工作内容的整合能力,让AI不再像从前一样拘谨、保守。
“他像一个指挥官。”《超越想象的GPT医疗》一书的译者、新浪微博事业部前副总经理芦义告诉虎嗅,这一次语言大模型带来的变革之所以深刻,是因为大模型可以通过语言来认识世界、沉淀经验。
比如在诊疗中,AI将诊断知识、当前主流医疗AI的读影技术等,全部统筹起来,以其独特的“思考”方式得出最优解,再以人类能够理解的方式输出,以助手的角色,帮助人类全面提高医疗效率。
在8月初,谷歌和旗下DeepMind团队公布的一份报告中,其医疗大模型Med-PaLM M已经可以承担14种不同的生物医学任务,包括问题问答、视觉问题回答、医学图像分类、放射学报告生成和总结,以及基因组变体调用等。
此外,大模型让医疗AI有更强的泛化能力。仍以Med-PaLM M为例。这种AI已经可以将知识泛化到从未接触过的领域,比如在X光片中正确识别从未“见”过的结核病变。
从未受过医学训练的GPT,也在早期试验性使用中表现出了这种能力。科恩以担忧的形式提到这个问题,就是GPT根本没有医学方面的知识——它所做的只是在对话中的一连串单词中“计算”下一个词,但是却可以参与到诊断中,并击败大多数医生。这是令人惊奇的,也是非常有用的。
近期医疗反腐重新把医疗难题摆到了公众的面前。实际上,绝大多数中国人对“看病难、看病贵”都有切身体会,在这些切肤之痛背后,是全人类都共同面对的医疗成本不断攀升、优质医生资源紧缺、老龄化趋势加重、全球性流行病随时到来等问题。
作为助手,“AI和机器人,可以把医生、护士解放出来。”李定纲向虎嗅指出,目前老龄化趋势下,劳动力缺乏,这些新技术可以取代人类医生去做中低端工作,无疑对提高效率有很大帮助的。还可以推广开来,“所有技术含量高、培养周期长、对人体有伤害,有毒、有放射性,都可以让AI和机器人替代人去做”。
AI终于可以代替医生了吗?
熟悉医疗的专业人士表现得更加克制、冷静。在AI过去几轮冲击医疗未果后,专业人士已经认识到,医疗的问题并不是单靠技术能解决的,更何况技术本身也还有其待完善之处。
中国科学院复杂系统管理与控制国家重点实验室研究者王飞跃,就在前不久发表的一篇文章中提到,6年前,图灵奖获得者Hinton教授曾经预言,深度学习将会比放射科医生做得更好。
而今天,尽管深度学习已经取得了很大的成功,但是医学界还是不能“停止培养放射科医生”。相反,为了应对AI带来的变化,还必须培养更多的新型放射科医生。
回到GPT等大模型基础上诞生的AI医生身上,最明显的问题就是“幻觉”,即说出一些看似合理实则虚构的内容。对于没有医学常识的大众来说,如果将AI医生认定为权威,其结果很可能是灾难性的。
必须说明的是,目前受到法律法规的限制,AI医生还不能拿到行医资格,也不能面向患者进行诊疗。在张强医生与AI合作诊疗的案例中,AI也只是作为张强医生的助手、顾问,给出提示。在医联,MedGPT也只是用于内部参考。
而在与AI的互动中,人类的医疗水平、给出提示的能力,也决定了AI表现的“天花板”在哪里。比如在张强提供的案例中,医生本身已经有了基本的判断,AI的作用主要是提供证据支持。
“根据经验,我怀疑这是恶性肿瘤,但是吃不准,就找他商量。”张强医生告诉虎嗅。
而在第一遍回答时,AI给出的答案并不可靠,他给出的是动脉血栓等明显不可能的猜测。于是,张强医生又从另一个方面引导:“一个淋巴瘤化疗的病人,有没有可能出现体表的多发性结节肿块?”
受此启发,AI才给出新的推断,认为肿块是转移的恶性肿瘤,因为恶性肿瘤有转移到皮肤上的可能,并列出了可能转移的部位。有了这些信息,张强又进一步核实,才得出了准确的诊断。
“这是张医生在问,如果是‘小张医生’可能就是另一个故事了。”张强在总结经验时调侃说。
来自:视觉中国
北京大学新闻与传播学院教授胡泳直言:万事万物搞不定的时候,我们总希望靠技术来解决,但是结果往往带来更大的代价。
他指出,医疗是与千万人福祉关系密切的产业之一,但同时也是利益关系盘根错节的领域,既得利益体非常难以攻破。在这种情况下,我们过度把希望寄托于技术的单兵突进,是不能解决问题的。
AI医生如果通过考试,能不能拿到执业资格证?AI出错后如何追责?每一个问题的解决都是牵涉甚广的。
新一代AI的学习能力已经得到了医生的认可。芦义也认为,未来AI医生要独当一面,最大的障碍将是法律、法规、伦理等方面的限制,而非技术。
有趣的是,新一代AI也更加谦逊、有“自知之明”。张强曾经问AI助手,能不能接任董事长的位置。Emily出现了罕见的长时间停顿,最后拒绝了这个提议,并承认自己无法替代任何人。
历史趋势不可阻挡
无论如何,AI在医疗领域广泛应用已经是大势所趋了。
动脉网数据显示,预计2020年到2025年,中国医疗AI、AI辅助新药研发加上AI助力肿瘤诊断等赛道的年复合增长率将达到39.4%,到2025年市场总规模将突破300亿元。
微软在chatGPT大火以后,除了GPT-4,也有很多生物医学领域的大模型诞生。从公开数据看,仅中国就有至少18个医疗大模型亮相。而GPT还不是AI跨界医疗走得最快的大模型。
中国医疗大模型 | 企业 | 发布时间 | 应用场景 |
---|---|---|---|
Deepwise MetAI | 深睿医疗 | 2023年4月 | 医疗智慧影像&数据通用平台 |
火星认知 | 科大讯飞 | 2023年5月 | 诊后康复管理 |
ClouD GPT | 智云健康 | 2023年5月 | 辅助诊断、药械研发 |
Uni-talk | 上海联通 | 2023年5月17日 | 专业医学文献检索,辅助诊断等 |
山海 | 云知声 | 2023年5月24日 | 少数病历撰写、门诊病历生成系统、商保智能理赔系统 |
MedGPT | 医联 | 2023年5月 | 全流程智能化诊疗 |
基于华为云 | 润达医疗 | 2023年6月 | 检验报告智能解读、互联网检验以及居民全周期健康管理 |
华佗GPT | 深圳市大数据研究院 | 2023年6月 | 问诊对话 |
添翼 | 东软 | 2023年6月 | 辅助医生问诊、患者健康服务、医院管理 |
中国医疗大模型(续表) | 企 业 | 发布 时间 | 应用 场景 |
---|---|---|---|
HealthGPT | 叮当健康 | 2023年6月 | 用户健康助手 |
左医医疗大语言模型 | 左手医生 | 2023年6月 | 拟人AI医生问诊和问答、智能导诊、病历书写、结构化抽取、只能诊断、随访 |
OpenMEDLab浦医 | 上海人工智能实验室 | 2023年6月29日 | 医疗多模态基础模型群 |
京医千询 | 京东健康 | 2023年7月 | 提供导诊、健康咨询、辅助决策 |
灵医Bot | 百度灵医智惠 | 2023年7月14日 | 文档理解、病历理解、医疗问答 |
岐黄问道·大模型 | 南京大经中医药 | 2023年7月28日 | 基于已确诊疾病的临床诊疗 |
CareGPT | 微脉 | 2023年8月17日 | 全病程管理:预防、咨询、预约、康复等 |
WiNEX Copilot | 卫宁健康 | 2023年10月(预计) | 医疗知识问答、互联网问诊、医疗报告小结 |
升级版SenseCare智慧医院 | 商汤 | 2023年7月13日 | 就医、诊疗、随访 |
数据来自公开信息,虎嗅制图
从某些方面看,AI医生已经跟人类医生做得差不多好,有些方面甚至有赶超的趋势了。但是,这不意味着,AI医生可以取代人类医生。技术要想改变医疗也还有很长的路要走。
今年5月,我国率先发布的医联的“AI医生”MedGPT,在与10位国内顶级大三甲医院的医生,经历了长达3小时的比拼中,他们取得了7.2分的综合成绩,仅比人类三甲医院医生低了0.3分。
整场比拼共涉及六个环节——问询、诊断、给出治疗建议、开具辅助检查方案、分析检查结果、提供可信解释,有91名受试患者参与,覆盖了消化科、心内科、老年呼吸科、骨科、泌尿外科、肾内科等领域,由来自阜外医院、中日友好医院、北大人民医院等医院的7位主任专家评分。
这实际上是全球首次AI医生与人类医生同时面对真实人类患者时进行的“双盲试验”。在一定程度上,说明了AI医生的实力超过了大多数医生的水平。
当然,这些数据和成果最多说明AI具有了医学毕业生的水平,距离行医还很远。
竞争并不只在技术上。在技术之外,微软全球资深副总裁、微软研究院负责人彼得·李曾撰文提到三点关于GPT医疗的认识:一是GPT-4有望改善医学和医疗保障领域;二是由于它同时具有风险,有必要尽快在尽可能广泛的范围内进行测试,并让公众了解其局限性;三是务必立即开始努力,确保尽可能多的人能够运用这一技术。
这像极了放下身段、卑微地帮孩子找工作的老父亲。
与其把AI封神,不如给新技术更多的包容和容错空间。而随着通用大模型大举进入各个领域,融入人类的工作、生活,社会、法律、伦理,乃至教育和临床上的学科划分等,都面临重塑。医疗也许并不是其中最棘手的那一个。