扫码打开虎嗅APP
本文来自微信公众号: APPSO ,作者:发现明日产品的,原文标题:《2.3 亿人在用 ChatGPT「看病」,张文宏为什么反对年轻医生用 AI》
2023年,当GPT-4在美国执业医师资格考试(USMLE)中取得了惊人的高分时,不只是OpenAI,硅谷都为此喝彩,AI在医疗上的前景仿佛一片光明。
三年之后的今天,却有顶尖专家明确表示:反对AI接入医院病历系统。
有人反对AI,有人反对反对AI
提出反对声音的,是复旦大学附属华山医院感染科主任张文宏。近期在出席论坛中,作为在临床一线摸爬滚打多年的专家,他的担忧直指核心:年轻医生需要专业的训练,才能判断AI的对错。
他并不是反对使用AI,事实上,他提到自己也用,短期内处理大量病历时他也会让AI过一遍。但是他可以做到「一眼看出」哪里有问题。而年轻医生跳过训练和积累,依靠AI就得出和资深专家一致的诊断,并不能真正理解到AI结果中的对和错。
这话有人不爱听了。正在医疗赛道上蓄势待发的百川智能,其创始人王小川就「反对张文宏的反对」。
在他看来,AI碰到的是医生的「蛋糕」,和医生的利益是相悖的。医生出于升职称的考虑,把教学和研究放在前面。相比之下,AI才是服务于患者。
话里话外,隐隐约约在暗示:医生都是要赚你的钱,才不考虑病人的死活。但在医疗系统里,医生的效率和患者的利益往往是高度统编的。如果AI能够显著提高效率、减少误诊,那这不就是对患者利益最大的服务吗?
他额外强调医生们太忙了,没有时间用AI,且AI不能帮到他们写论文评职称,得出的结论却是:AI应该去服务患者——从LLM落地应用的第一天来,优化流程、辅助决策就是任务,这根本得不出AI应该服务患者的结论,更得不出「当AI足够强了,不要医生也挺好」的结论。
说张文宏屁股决定脑袋,作为AI公司的CEO,王小川推崇AI直接服务个人,不也还是屁股决定脑袋。
AI医疗是一块肥肉
AIx医疗的的确确是一块肥肉,不止王小川一个人盯着,国外的巨头也反复试探。
上周OpenAI发布了ChatGPT Health,通过整合Apple健康数据,个人医疗记录和其它健康app提供的数据,再让AI来提供分析和建议。(链接)
全球有超过2.3亿人用ChatGPT获得健康建议,这个数字反应了用户需求之所在。不过,OpenAI很谨慎,不仅强调这不应该代替专业的诊疗建议,从产品规划来看,也是以提供日常保健的建议为主。
Claude所属母公司Anthropic也宣布要拓展Claude在医疗方面的能力,从发出的Opus 4.5的表现来看,模型层面Claude的表现不错。
即便如此,Claude的规划也不是直接面向患者的。推出Claude For Healthcare,是一个连接器工作,可以帮助医生和医疗工作人员快速便捷地从行业标准系统和数据库中提取信息。对于个人用户而言,Claude的作用在于总结用户的病史、解释检查结果和各项指标,并且为就诊准备问题,以此来提高患者于医生沟通的效率。
这两家AI巨头都下场了医疗赛道,但都没有冲着取代医生去。只有一家是这样做的:Grok。
Grok的老板毕竟是马斯克,恨不得把人类都发射上天。他在许多采访中都表示,一个人类医生只能阅读有限的医学文献,只能记住有限的病例。而AI可以在几秒钟内阅读人类历史上所有的医学论文,掌握所有的最新治疗方案。在纯粹的诊断准确率上,人类无法与AI竞争。
他还把自己的X光片、验血报告扔给了Grok,让它来识别问题,还说Grok的一些判断比医生更快更准确。
那不就回到了张文宏说的,对AI越依赖越上瘾。
判断力是需要训练的
早在大语言模型促发这阵子AI热潮之前,放射科引入CAD系统,就出现过类似的问题。
CAD系统全称为计算机辅助检测,现在已经是医学影像里必不可少的工具。但曾经,CAD的引入所带来的「自动化偏差」,就完全是张文宏所担心的情况。2004年,在英国的一项研究中发现,当CAD系统未能标记出病灶,比如漏标、错标时,放射科医生的检测敏感度(Sensitivity)显著下降,尤其是采用CAD辅助的医生,敏感度比对照组更低。
一项相对更近的研究是2020年,一项针对皮肤癌检测的研究发现,当AI给出正确诊断的时候,所有医生的准确率都提高了。可一旦给出的诊断是错误时,越是经验不足的医生准确率下降得越厉害。综合来看,AI和医生共同诊断,准确率的表现是最好的。

经验丰富的老专家如张文宏,之所以能一眼看出AI在胡说八道,是因为他们脑中有积累了数十年的病例库。而年轻医生如果从实习期就开始用AI写病历、下诊断,他们脑中的「数据库」始终是空的。
因此,想要让AI做任何一件「一步到位」的事,背后都一定有巨大的风险。一步到位取代医生是这样,一步到位直接服务患者,更是这样。
以前我们有「百度看病,癌症起步」的笑话,目前的生成式AI最大的问题在于它极度自信,一本正经地误诊。即使是错误的医学建议,它也能用极具说服力、引经据典(甚至是伪造的文献)的语气说出来。
如果是受过多年专业训练的年轻医生,尚且容易在AI的自信面前放下戒备,产生自动化偏差;那么对于没有任何医学背景的普通用户来说,这种「完美幻觉」更加是值得警惕,本质上和盲目相信「专家」头衔差别不大。
AI对于普通人的健康有没有用?肯定是有,不然也不会有2.3亿的用户记录。不过需要分清两个点:首先,治病和保健是两码事。保健包括日常饮食作息、补充剂摄入、运动计划等等,这些都是对生命没有重大风险的。
治病显然就复杂太多了。目前AI应用最多的还是症状的分析,检查报告上的指标解读,一些简单的用药指导。
更简单粗暴的说:在AI的指导下,可以争取到一些时间,请到假,去医院。考虑到现在国内的医院挂号不容易,个别检查也需要预约,但不是每个人都有条件在出现症状的时候,就立刻飞奔去医院——哪怕是社区医院,也可能要排队呢?
所以在AI的帮助下,可以缓和症状,争取到一些时间,配合使用一些基础药,病程不至于恶化,人也不会太难受。
作为自己健康的「第一责任人」,我们不应该跳过对自己判断力的培养和训练,那才是真正的交出主导权和决策权。