扫码打开虎嗅APP
本文来自微信公众号:学术头条 (ID:SciTouTiao),作者:马雪薇,原文标题:《AI又一突破,10种痴呆症类型同时诊断,将人类医生准确率提高26%》,头图来自:视觉中国
痴呆症目前是全球人口第七大死因,也是造成全球老年人能力丧失和依赖他人的主要原因之一。准确诊断痴呆症有利于老年人晚年的身体健康,并减轻他们的家庭负担。
如今,由波士顿大学研究团队及其合作者开发的一个人工智能(AI)工具,有望帮助我们(同时)诊断10种不同类型的痴呆症,将神经科医生的准确率提高了26%以上。
相关研究论文以“AI-based differential diagnosis of dementia etiologies on multimodal data”为题,已在线发表在科学期刊Nature Medicine上。
“我们的生成式AI工具能够利用常规收集的临床数据进行痴呆症的鉴别诊断,展示了其作为阿尔茨海默病及相关痴呆症可扩展诊断工具的潜力,”该论文的通讯作者、波士顿大学Chobanian&Avedisian医学院医学副教授Vijaya B.Kolachalama博士说道。
“全球范围内神经学专家不足,而需要他们帮助的患者数量正在迅速增长。这种不匹配给医疗系统带来了巨大压力。研究团队认为AI可以通过早期识别这些疾病并协助医生更有效地管理患者,防止疾病恶化来提供帮助。”
研究团队希望,随着未来20年痴呆症病例数量预计将翻倍,这个AI工具可以提供准确的鉴别诊断,并支持对痴呆症增加的针对性治疗需求。
临床医生诊断准确率提高26%
根据世界卫生组织(WHO)所给的数据,目前全世界有超过5500万人患痴呆症,且每年全世界会新增一千万痴呆症病例,但不同形式的痴呆和症状的重叠可能会使诊断变得复杂,从而不能提供有效治疗。
因此,准确诊断痴呆症对于制定针对性强、个性化的管理策略至关重要。然而,现有的诊断工具的获取受限,而神经学家、神经心理学家的短缺问题进一步加剧了这一挑战。
鉴于此,研究团队开发了一个多模态机器学习(ML)框架,该框架使用常规收集的临床数据(比如人口信息、患者和家庭级别的病史、用药情况、神经和神经心理学检查评分以及MRI扫描等神经影像数据)准确识别导致痴呆症的具体病理。
图|病因分类术语表
利用从各种队列获取的多模态数据,研究团队的模型采用严格的方法进行鉴别诊断痴呆症。它将个体分配到十三个诊断类别之一或多个,这些类别是通过神经病学家团队的共识定义的。这种实用的分类方法旨在考虑临床管理路径,从而反映现实世界的场景。
例如,研究团队将路易体痴呆和帕金森病痴呆归类为LBD综合类别。这种分类基于理解这些疾病的护理通常遵循类似的路径,通常由多学科的运动障碍专家团队监督。
图|九个独立的数据集
本研究使用了九个独立的数据集,包括ADNI、NACC、NIFD、PPMI、OASIS、LBDSU、4RTNI和FHS。NACC、NIFD、PPMI、OASIS、LBDSU和4RTNI的数据用于模型训练。ADNI、FHS以及NACC中的一个保留集的数据用于模型测试。在这项研究中,多模态ML框架使用来自九个不同全球数据集的五万多人的数据进行训练。
图|数据、模型架构和建模策略。
a,痴呆症鉴别诊断模型使用了多种数据模态开发,包括个体级别的人口统计、健康史、神经测试、身体/神经检查和多序列MRI扫描。这些数据源在可用时从九个独立数据集中汇总。对于模型训练,研究团队合并了NACC、AIBL、PPMI、NIFD、LBDSU、OASIS和4RTNI的数据。研究团队使用NACC数据集的一个子集进行内部测试。对于外部验证,研究团队利用了ADNI和FHS队列。
b,Transformer作为模型的架构。每个特征通过模态特定的嵌入(emb.)策略处理成固定长度的向量,并作为输入提供给transformer。线性层用于将transformer与输出预测层连接。
c,随机选择NACC测试数据集的一个子集进行比较分析,比较神经科医生在AI模型辅助下的表现与未使用AI辅助时的表现。同样,研究团队对神经放射科医生进行比较评估,他们获得了NACC测试队列中随机选择的确诊痴呆症病例样本,以评估AI增强对其诊断表现的影响。
在这些评估中,模型和临床医生可以访问相同的多模态数据。最后,研究团队通过比较NACC、ADNI和FHS队列中可用的生物标志物档案和病理等级来评估模型的预测结果。
图|区分认知状态的模型性能
模型能够有效地区分正常认知、轻度认知障碍和痴呆,实现了微平均AUROC为0.94,表明其预测能力非常强。模型对不同年龄、性别和种族的个体都具有一致性,说明其泛化能力良好。模型在处理缺失数据方面表现出色,即使数据不完整,也能保持可靠的预测结果。
图|区分痴呆病因的模型性能
模型能够区分10种不同的痴呆病因,包括阿尔茨海默病、血管性痴呆、路易体痴呆等,实现了微平均AUROC为0.96,表明其在病因诊断方面的准确性很高。模型在处理混合型痴呆(即多种病因并存)方面表现出色,平均AUROC为0.78,说明其能够识别复杂的病因组合。模型与生物标志物检测结果一致,并通过尸检结果验证了其与不同蛋白质病的关系,进一步证实了模型的可靠性和准确性。
图|提高临床医生诊断效率的模型性能
在随机选择的100例案例中,使用AI模型辅助神经科医生评估的AUROC比单独使用神经科医生评估的AUROC高出26.25%,表明模型能够提高临床医生诊断痴呆症的准确性。模型预测结果与神经科医生和神经放射科医生的评估结果具有高度一致性,表明模型能够提供可靠的辅助诊断信息。
不足与展望
研究数据主要来自白人人群,缺乏对其他种族和族裔的代表性。这可能导致模型在处理不同人群时出现偏差。数据集中包含了大量的AD病例,这可能使模型偏向于识别AD亚型,而忽略了其他痴呆亚型的特征。
虽然模型可以识别不同的痴呆亚型,但它并没有充分考虑AD病理的异质性。未来研究需要更深入地分析不同AD亚型的特征,并评估模型在这些亚型上的表现。
模型将轻度、中度和重度痴呆合并为一个类别,这可能无法完全反映特定医疗环境中对疾病阶段的细致评估。未来研究可以考虑将疾病阶段作为一个额外的维度,以提高模型的精确度。
模型训练数据可能反映了不同临床医生之间诊断决策的主观性和差异性,这可能会影响模型的准确性。未来研究需要收集更一致和标准化的诊断数据,以进一步提高模型的可靠性。
未来,研究团队表示,可以尝试收集更多来自不同种族和族裔、不同临床环境的患者数据,以提高模型的泛化能力;通过改进模型架构,开发能够更好地处理AD病理异质性的模型,例如结合更复杂的神经网络结构或更精细的特征提取方法;将AI模型与其他技术,如脑电图、基因检测等相结合,以获得更全面的患者信息,进一步提高诊断的准确性;此外,还可以进行长期随访研究,跟踪患者的疾病进展和治疗效果,评估模型的预测能力,并验证其在临床实践中的价值。
论文链接:
https://www.eurekalert.org/news-releases/1050605
https://www.nature.com/articles/s41591-024-03118-z
https://www.who.int/zh/news-room/fact-sheets/detail/dementia