谷歌推出“咳嗽模型”：一声咳嗽，告知你身体是否健康-虎嗅网

本文来自微信公众号：学术头条，作者：马雪薇，原文标题：《AI又一突破！谷歌推出“咳嗽模型”HeAR，一声咳嗽，告知你的身体健康》，题图来自：AI生成

文章摘要

谷歌推出HeAR模型，通过咳嗽声分析健康状况。

• 🛠️ HeAR模型通过自我监督学习识别健康声学事件

• 🌍 HeAR在33项健康任务中表现优于其他模型

• 💡 AI在肺结核筛查和多种疾病诊断中展现巨大潜力

根据世界卫生组织（WHO） 2021 年公布的数据，世界前 10 大死因共计造成 3900 万人死亡，占全球死亡总人数（6800 万）的 57%，其主要与两大类疾病有关，即心血管疾病（如缺血性心脏病、中风等）和呼吸系统疾病（如肺结核、慢性阻塞性肺病、下呼吸道感染等）。

其中，呼吸系统疾病所导致的咳嗽或呼吸，包含很多关于我们健康状况的信息。例如，临床医生使用类似“喘息”的咳嗽声来诊断百日咳，以及使用临终呼吸来检测急性心血管事件。

那么，在人工智能（AI）时代，我们是否可以利用这一技术从这些声音数据中提取健康信息，进而更好地监测我们的身体状况呢？

来自谷歌、赞比亚传染病研究中心结核病科的研究团队在这一方向迈出了重要一步，他们合作推出了生物声学基础模型 HeAR（Health Acoustic Representations），旨在帮助他们监听人类声音并标记疾病早期迹象。相关研究论文以“HeAR - Health Acoustic Representations”为题，已发表在预印本网站 arXiv 上。

据介绍，他们从多样化且去识别化的数据集中精心挑选的 3 亿个音频数据上训练了 HeAR，还特别使用了大约 1 亿个咳嗽声音来训练这一“咳嗽模型”。

HeAR 能够辨别与健康相关声音中的模式，在广泛任务上的平均排名高于其他模型，且能够跨麦克风泛化。使用 HeAR 训练的模型也以较少的训练数据实现了高性能，这在常常缺乏数据的医疗研究领域是一个关键因素。HeAR 现在可供研究人员使用，从而帮助加速开发具有较少数据、设置和计算要求的定制生物声学模型。

StopTB Partnership 数字健康专家 Zhi Zhen Qin 表示：“像 HeAR 这样的解决方案将使 AI 驱动的声学分析在肺结核筛查和检测方面大有用处，将为最需要的人提供一种可能影响较小、易于获取的工具。”

未来，研究团队希望通过这项研究，推进在肺结核、胸部、肺和其他疾病领域的诊断工具和监测解决方案的开发，并帮助改善全球社区的健康结果。

如今，印度的呼吸健康公司 Salcit Technologies 基于此开发了一款名为 Swaasa 的产品，使用 AI 分析咳嗽声音并评估肺部健康。该公司正在探索 HeAR 如何帮助扩展其生物声学 AI 模型的功能。

一声咳嗽，即可检测疾病

HeAR 系统由三个主要部分组成。通过自我监督学习，HeAR 系统利用大量未标记的音频数据学习通用的音频表示，并能够迁移到各种健康声学任务中。

图｜HeAR 系统概况

在数据采集步骤，研究团队使用了一个健康声学事件检测器。这是一个多标签分类卷积神经网络（CNN），用于识别 2 秒音频片段中是否存在 6 种非语音健康声学事件：咳嗽、婴儿咳嗽、呼吸、清嗓子、笑声和说话。该检测器使用 FSD50K 和 FluSense 数据集进行训练，并通过音频片段中的标签（例如“咳嗽”、“打喷嚏”和“呼吸”）进行标注。

论文使用了两个数据集，一部分是从 30 亿个公共非版权 YouTube 视频中提取的 2 秒音频片段，总共有 3.133 亿个片段或约 174000 小时的音频。这些片段使用健康声学事件检测器进行筛选。另一部分由赞比亚传染病研究中心收集，包含来自 599 名疑似肺结核患者的咳嗽音频录音和胸部 X 光片。

研究团队使用掩码自编码器在包含 3.13 亿个两秒钟长音频片段的大型数据集上进行训练。通过线性探测，在跨越 6 个数据集的 33 个健康声学任务基准上，HeAR 在所有健康音频嵌入模型中的表现达到了 SOTA。

图｜HeAR 在 33 个健康音频任务中取得了最高的平均排名（MRR = 0.708），超越了所有其他基线模型。

HeAR 在 FSD50K 和 FluSense 数据集上的表现优于其他模型，特别是在使用 FSD50K 训练的模型中排名第二。

图｜健康声学事件检测任务在 FSD50K 和 FluSense 数据集上的性能比较。

HeAR 在 10/14 个咳嗽推理任务中表现优于基线模型，包括人口统计、生活方式。在 TB 和 CXR 任务中，其表现与最佳模型相当。

图｜咳嗽推理任务的性能比较。

HeAR 在 SpiroSmart 数据集上的 4/5 个肺功能测试任务和性别分类任务中表现优于基线模型。

图｜肺功能测试任务的性能比较。

HeAR 在 CIDRZ 数据集上的表现不受不同录音设备的影响，对不同设备具有鲁棒性。此外，HeAR 在训练数据较少的情况下也能取得良好的性能，在标注数据稀缺的医疗研究中更具优势。

然而，HeAR 也具有一定的局限性。例如，线性探针无法完全发挥模型的性能潜力，部分数据集规模较小且存在类不平衡问题，且 HeAR 等模型较大，难以在手机等设备上运行。

研究团队表示，未来可以考虑微调模型或加入更多特征来提升性能，以及收集更多数据并改进数据预处理方法，还可以考虑研究模型压缩和量化技术，使其能够在本地设备上运行。

AI 辅助诊断疾病，大有可为

从辅助医生到独立诊断疾病，AI 在医疗领域的应用越来越广泛，且展现了巨大的潜力。

今年 6 月，来自伦敦帝国理工学院和剑桥大学的研究团队训练了 AI 模型 EMethylNET，通过观察 DNA 甲基化模式，从非癌组织中识别出 13 种不同类型的癌症（包括乳腺癌、肝癌、肺癌和前列腺癌等），准确率高达 98.2%。

7 月，由波士顿大学研究团队及其合作者开发的 AI 工具，有望帮助我们（同时）诊断 10 种不同类型的痴呆症，将神经科医生的准确率提高了 26% 以上。

近日，针对儿童的“隐形杀手”自闭症，AI 也有了突破。由卡罗林斯卡学院研究团队开发的一种多模态数据分析 AI 模型，不仅可以在自闭症患儿 12 个月左右时发现患病的早期迹象，而且对两岁以下儿童识别的准确率达到了 80.5%，更重要的是，整个过程只需要相对有限的信息。

可以预见，AI 将在不久的将来帮助人类诊断更多疾病，为医疗健康领域带来更多可能性。

本文来自微信公众号：学术头条

本内容为作者独立观点，不代表虎嗅立场。未经允许不得转载，授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉，请联系tougao@huxiu.com

谷歌推出“咳嗽模型”：一声咳嗽，告知你身体是否健康

大 家 都 在 看

大 家 都 在 搜

大家都在看

大家都在搜