在检测新冠病毒方面，深度学习有多靠谱？-虎嗅网

本文来自微信公众号：AI科技大本营（ID：rgznai100），作者：Ophir Gozes, Maayan Frid-Adar等，译者：刘畅

背景：新冠病毒的传播非常迅速，并对数十亿人的生活产生了重大影响。由于非对称胸部CT已被证明是检测、量化和追踪该疾病的有效工具，因此可以开发深度学习算法，来帮助分析大量的胸部CT图像。

目标：开发基于AI的自动CT图像分析工具，并证明它们可以将冠状病毒患者与未患该疾病的人区分开。

数据和方法：包括来自中国疾病感染地区的多个国际数据集。本文提出了一种利用2D和3D深度学习模型，修改和调整现有AI模型并将其与临床理解相结合的系统。

本文进行了多次回顾性实验，以分析系统在检测可疑COVID-19胸部CT特征中的性能，并使用3D视图来检查评估每位患者随时间推移的疾病进展，并产生“冠状评分”。该研究包括了157名国际患者（中国和美国）的测试集。

结果：胸部CT冠状病毒与非冠状病毒的分类结果为0.996 AUC（95％CI：0.989-1.00），这是在中国对照组患者和感染患者的数据集上的结果。实际使用的结果：灵敏度为98.2％，特异性为92.2％。

对于冠状病毒患者，系统可对较小的不透明物（体积，直径）进行定量测量，并在基于切片的“热图”或3D体积显示中可视化较大的不透明物。本文提出的“冠状（Corona）评分”可以衡量疾病随时间的进展。

总结：这项最初的研究目前正在扩展到更大的人群，证明基于AI的图像分析可以在检测冠状病毒以及量化和跟踪疾病方面取得高精度的结果。

引言

冠状病毒感染的迅速传播，对数十亿人生命产生了巨大的影响，根据目前已有数据分析，死亡率在3.4%左右。

人们对当前诊断标准在疾病最初表现时的敏感性提出了质疑。Fang等热将非对称胸部CT的敏感性与检测病毒核酸的逆转录聚合酶链反应（RT-PCR）进行了比较，它是目前检测COVID-19的参考标准。他们的研究调查了51名在流行地区有旅行或居住史，发烧或未知原因的急性呼吸道症状的患者。患者接受了最初的和重复的RT-PCR测试。他们的标准是通过串行RT-PCR测试最终确认的COVID-19感染诊断。

非对称胸部CT检测COVID-19感染的敏感性为98％，该论文中显示了病例的CT特征是显示出弥漫性或焦玻璃混浊。Xie等人和Bernheim等人的研究都表明，胸部CT毛玻璃浑浊形态是该疾病的特征，尤其是双侧和周围的合并性肺混浊。研究人员指出，随着症状发作时间的延长，疾病的严重程度也随之增加，并且描述了后来的疾病征兆，包括更大的肺部受损，线性混浊等等。有28％的早期患者，76％的中度患者和88％疾病晚期患者有双侧肺部受损现象。

这些最新研究表明，一旦做出使用胸部CT即可对患者进行诊断或筛查的决定，则需要迅速判断非常大量的影像学图像。人工智能技术，尤其是深度学习图像分析工具，则可以被开发来帮助放射科医生进行数据的分类，量化和趋势分析。AI解决方案有可能并行分析多个病例，以检测胸部CT是否显示出肺部任何异常。如果该软件表明明显增加了疾病的可能性，则可以将该病例标记出来，以供放射科医生或临床医生进行进一步检查，以进行可能的治疗/隔离。

开发深度学习算法通常需要下面几个阶段：一、数据收集阶段，其中包括需要从预定义的类别中收集大量数据样本；需要专家对数据进行注释；二、训练阶段，其中收集的数据用于训练网络模型。每个类别都必须有足够的代表性。在此训练阶段，将自动生成大量的网络参数（通常为数百万个）。三，测试阶段，其中将未在训练中使用的另一组数据提供给网络，并对网络的输出进行统计测试，以确定其是否分类成功。

由于新病毒的样本数据非常有限，因此，本文的假设是，可以利用修改和调整现有AI模型并将其与临床理解相结合的来快速开发基于AI的工具。我们的目标是开发基于深度学习的自动CT图像分析工具，并证明它们可以使冠状病毒患者与未患疾病的患者区分开，从而为疾病的检测、量化和跟踪提供支持。

方法

本文提出的系统具有输入胸部CT图像并标记怀疑具有COVID-19病例的功能。此外，对于分类为阳性的病例，系统会输出肺部异常定位图和测量值。图1显示了开发系统的框图。

该系统由几个组件组成，并在两个不同的级别上分析CT病例：子系统A：使用现有的SOTA算法对结核和焦浊情况的病例体积进行3D分析，而子系统B：对每个切片，用最新开发的2D分析来检测和定位更大范围的弥漫性混浊，包括临床上已描述为冠状病毒表现的毛玻璃态。对于子系统A，本文使用商用软件来检测3D肺部容积内的结节和小混浊。该软件是作为肺部病理学检测解决方案而开发的，可提供定量测量（包括体积测量，轴向测量RECIST，HU值，钙化检测以及固体，亚固体和GG的质构表征）。由于毛玻璃混浊（GGO）在最近的研究中已经成为COVID-19的关键特征之一，因此作者假设现有软件可以检测出病例中较小尺寸的病灶。

在图2（A）中可以看到一个例子：显示了两个冠状病毒病例，其中混浊现象相对较弱。除了检测异常外，还提供了测量和定位结果。在每种情况下，该软件都会检测单个不透明的焦点，并显示检测到的不透明度的图像及其分割结果。最后，会自动生成并提供病变特征列表。

由于当前的肺病理学检测解决方案是专门针对结节检测任务而构建的，因此不能依靠它们来检测更多弥散性的混浊结节。因此作者在每个切片的基础上提出了一种数据驱动的解决方案，如图1子系统B所示。

在本文的解决方案（B）中，第一步是肺划分阶段：本文使用肺分割模块提取感兴趣的肺区域（ROI），分割步骤使得能够去除与肺内疾病的检测无关的图像部分。在接下来的步骤中，作者专注于检测冠状病毒相关的异常：本文使用Resnet-50-2D深度卷积神经网络，与医学成像领域一样，本文进一步微调网络参数以解决当前的问题，每个切片将病例注释为正常（n = 1036）与异常（n = 829）。为了克服数量有限的情况，本文采用了数据增强技术（图像旋转，水平翻转和裁剪）。在后续异常检测步骤中，给定一个新切片，将其分类为阳性，本文提取了“网络激活图”，该图对应于最有助于网络决策的区域。

图2（B）显示了四个分类为异常的COVID-19切片示例结果。顶部是CT图像。底部是相应的彩色地图。红色表示网络权重最大，而蓝色表示最弱。我们注意到，这有力地表明该网络学习到了与COVID-19表现形式相关的重要特征。

为了提供完整的案例回顾，我们结合了子系统A-3D分析和子系统B-2D切片级别的输出。在图3中，我们看到了一个冠状病毒病例，并且所提出的系统的合并输出结果图也是如此。我们可以看到绿色的结节性和局灶弥漫性不透明度的检测，红色的则是较大的不透明度检测。这两个子系统相互补充，并且在某些位置相互增强。

除了可视化之外，系统还会自动提取多个感兴趣的输出，包括每个切片的不透明度（2D）定位以及整个肺部不透明度的3D体积表示。

本文还提出了Corona评分，该评分是对不透明部分的体积度量。它是通过网络激活图的体积总和来计算的，该分数对切片厚度和像素间距也具有鲁棒性。对于患者疾病的进展监测，作者建议使用相对Corona评分，其中利用第一个时间点计算的评分将Corona评分归一化。

结果

作者做了一系列实验来阐明该自动分析工具的性能。

1、分类

作者使用了10%的中国数据集作为测试集，主要测试了对冠状病毒的检测和辨别能力。当阈值1.1％（检测到的阳性切片与肺切片的阳性百分比），可取得98.2％的病例水平敏感性和92.2％的特异性。而阈值为1.9％时，则会有96.4％的灵敏度和98％的特异性。

2、经过一段时间的评估

在作者最后的实验中，评估了在病毒初次发作（发烧、咳嗽）后1-4天进行了第一次CT扫描的时间点成像的患者。

图5跟踪了冠状病毒患者中特定混浊度随着时间推移的结果（红色框）。

图6显示了另一例冠状病毒患者的完整过程，该患者在整个疾病过程中均进行了三次CT扫描。

关于具体的实验参数，可以详见论文。

本文来自微信公众号：AI科技大本营（ID：rgznai100），作者：Ophir Gozes, Maayan Frid-Adar等，译者：刘畅

本内容为作者独立观点，不代表虎嗅立场。未经允许不得转载，授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉，请联系tougao@huxiu.com

在检测新冠病毒方面，深度学习有多靠谱？

最新评论

大 家 都 在 看

大 家 都 在 搜

大家都在看

大家都在搜