CVPR最新医学影像AI论文：利用学习图像变换进行数据增强-苏宁头条

雷锋网按：近日，由麻省理工学院（MIT）电子工程与计算机科学（ECCS）实验室多位博士所著的医学影像AI论文被CVPR 2019收录。

该团队为了解决医学图像标注数据缺乏的问题，提出了通过学习图像的变换（transforms）进行数据增强的半监督分割方法。以下为论文详细内容，由雷锋网AI掘金志学术组小烟与卡卡编译。关注“AI掘金志”公众号，在对话框回复关键词“CVPR”，即可获取原文PDF。后续我们也将持续推送2019 CVPR最新医学影像AI文章。

生物医学图像分割是许多医学应用中的重要任务。基于卷积神经网络的分割方法虽然精确度达到了state-of-the-art，但是通常需要依赖于带有大型标注数据集的监督训练。医学图像的标注需要大量的专业知识和时间，并且在大规模上是不可行的。为了解决缺乏标注数据的问题，研究人员通常使用人工预处理、手动调整架构和数据增强等技术。然而，这些技术涉及复杂的工程工作，并且通常针对特定的数据集。因此MIT的团队提出了用于医学图像的自动数据增强方法。

在one-shot磁共振成像（MRI）脑部分割这一实际挑战中，MIT团队提出的半监督方法只需要单个有人工标注的数据以及其他没有标注的数据。首先从图像中学习变换模型，通过该模型及已标注样例再来合成额外的标注样例进行训练。每个变换由空间变形场（spatial deformation field）和强度（intensity）变化组成，能够合成复杂的效果，例如解剖学和图像采集程序的变化。通过这些新样例增强有监督分割模型的训练，相较于one-shot生物医学图像分割的state-of-the-art方法有了显著的改进。

图像语义分割对于许多生物医学成像应用至关重要，例如进行人口分析，疾病诊断和治疗规划等。当有足够的标注数据时，有监督的基于深度学习的分割方法可以产生最精确的结果。然而，在医学图像数据集方面具有很大挑战。

1、人类大脑存在大量的解剖变异

2、手动分割标签需要相当多的专业知识和时间，大多数临床图像数据集手动标注的图像非常少

3、不同机构和机器的图像采集差异，导致数据分辨率，图像噪声和组织外观等方面产生很大的差异

图1：生物医学图像在解剖结构，对比度和纹理方面经常变化很大（顶行）。与其它one-shot分割方法（底行）相比，我们的方法能够更准确地分割解剖结构。

为了克服这些挑战，许多有监督的生物医学分割方法专注于人工设计预处理步骤和架构。使用手动调整的数据增强来增加训练样本的数量也很常见，诸如随机图像旋转或随机非线性变形之类的数据增强功能，并且已被证明在某些例子中有效地提高了分割准确度。然而，这些功能模拟多样化和现实的例子的能力有限，并且可能对参数的选择高度敏感。

因此，MIT团队建议通过学习合成多样且真实的标注样例来解决标注数据数量有限的挑战。总的流程如图2所示。为了执行数据增强，我们将变换τ(k)应用于标记的图谱（atlas） x。我们首先学习单独的空间和外观变换模型，以捕获标记的图谱和每个未标记的体积之间的解剖和外观差异的分布。使用两个学习模型，我们通过将空间变换(spatial transform)和外观变换(appearance transform)应用于图谱集，并通过使用空间变换扭曲图谱标签map来合成标注体积。

与 single-atlas分割受到空间变换模型中的不确定性或误差的影响相比，我们使用相同的空间变换来合成体积和标签图，确保新合成的体积被正确标记。这些合成样例形成标记数据集，其表征未标记数据集中的解剖学和外观变化。与atalas一起，这个新的训练集能够训练有监督的分割网络。

图2：所提方法的概述。我们学习独立的空间和外观变换模型来捕捉图像数据集中的变化。然后，我们使用这些模型来合成标记示例的数据集。该合成数据集用于训练监督的分割网络。

MR图像强度因为特定对象的噪声，扫描仪协议和质量以及其他成像参数的变化而变化，因此许多现有的分割方法依赖于数据预处理来减轻这些与强度相关的挑战。预处理方法的运行成本很高，而开发真实数据集的技术是目前较热门的研究领域。我们的增强方法从另一个角度处理这些与强度相关的挑战：它不是去除强度变化，而是使分割方法对MRI扫描的自然变化具有鲁棒性。

大量经典分割方法使用基于图谱的或图谱引导的分割，其中使用变形模型将标记的参考体积或图谱与目标体积对齐，并且使用相同的变形来传播标记。当有多个地图集可用时，它们每个都与目标体积对齐，并且与扭曲的图谱标签融合。在基于图谱的方法中，通过变形模型捕获对象之间的解剖学变化，并且使用预处理或强度鲁棒性算法（例如归一化互相关）来减轻强度变化的挑战。然而，组织外观的模糊性（例如，模糊的组织边界，图像噪声）仍然可能导致不准确的配准和分割。我们的目标是通过在不同的现实样例上训练分割模型来解决这一局限性，使分割模型对这种模糊性更加鲁棒。我们专注于单一图谱，并证明我们的方法优于基于图谱的分割。如果有多个分割样例可用，我们的方法可以利用它们。

为了减轻大型标记训练数据集的需求，很多方法通常结合手工设计的预处理和架构增强数据。半监督和无监督的方法也被提出来应对小训练数据集的挑战。这些方法不需要成对的图像和分割数据。相反，他们利用分割数据的集合来构建解剖先验，训练对抗网络，或训练新颖的语义约束。实际上，图像集合比分割数据更容易获得，我们的方法不是依赖于分割标注，而是利用一组无标签的图像。

形状和外观的模型已经用于各种图像分析。在医学图像配准中，空间变形模型用于建立图像之间的语义对应关系。这个成熟的领域涵盖了基于优化的方法，以及最近基于学习的方法。

我们利用Voxel Morph（一种最近的无监督学习方法）来学习空间变换。许多配准方法都侧重于强度归一化图像或与强度无关的目标函数，并没有明确说明图像强度的变化。

对于非标准化图像，空间和外观变换模型一起用于记录纹理或外观以及形状不同的对象。许多作品建立在Morphable Models或Active Appearance Models（AAMs）的框架之上，其中构建了形状和纹理的统计模型。在医学领域，AAM已被用于定位解剖标志并执行分割。我们通过使用卷积神经网络来学习无约束空间和强度变换场的模型，从而构建这些概念。我们不是以配准或分割为最终目标学习变换模型，而是从这些模型中进行抽样，以合成新的训练样例。正如我们在实验中所示，以这种方式增加训练集进行分割可以产生比直接使用变换模型执行分割更鲁棒。

我们的目标是捕获图谱和未标记体积之间的变换分布，每个变换模型通过一个卷积神经网络来学习（如图3所示）。借鉴Morphable模型和AAM，我们独立优化空间和外观模型。

对于我们的空间模型，我们利用Voxel Morph，这是最近一种无监督的基于学习的方法，具有开源实现。Voxel Morph学习输出平滑位移矢量场（smooth displacement vector field），通过联合优化图像相似性损失和位移场平滑项来将一个图像记录到另一个图像。我们使用具有归一化互相关的Voxel Morph变体作为图像相似性损失，使得能够用非标准化的输入体积估计一个参数函数。我们使用类似的方法来学习外观模型。

在我们的实验中，我们发现计算主体空间框架中的图像相似性损失是有帮助的。

图3：我们使用基于U-Net架构的卷积神经网络来学习每个变换模型。变换应用于空间模型的空间扭曲，以及外观模型的体素添加。每个卷积使用3×3×3个内核，然后是Leaky Re LU激活层。编码器使用最大池化层来降低空间分辨率，而解码器使用上采样层。

在基于图像的监督学习任务中，通常使用诸如旋转和缩放的简单参数化变换来执行数据增强。在医学成像领域中，随机平滑流场（random smooth flow fields）通常用于模拟解剖学变化。这些参数化变换可以减少过度拟合并提高测试性能。然而，这些变换所带来的性能增益随着变换函数和参数集的选择而变化。

最近的工作提出了从数据学习数据扩充转换。 Hauberg et al. 专注于数据增加，用于分类MNIST数字。他们学习数字特定的空间变换，并对训练图像和变换进行抽样，以创建旨在提高分类性能的新示例。除了空间模型之外，我们还学习了一个外观模型，并且我们专注于MRI分割的问题。

Ratner et al. 提出了一种半自动化的方法来学习数据增强的空间和颜色转换。它们依赖于用户输入来创建简单参数化变换函数的组合（例如，旋转和对比度增强）。他们学习使用生成对抗网络生成转换函数的新组合。相比之下，我们的方法是完全自动化的。

我们使用基于A. G. Roy et al. 提出的最先进的网络架构来证明这一点。为了考虑GPU内存限制，网络被设计为一次分割一个切片。我们使用增强训练集的随机切片训练网络，并使用早停在验证集上选择训练迭代的数量。我们强调精确的分割网络架构不是这项工作的重点，因为我们的方法可以与任何监督的分割网络结合使用。

在实验数据上，文章使用了来自8个公开数据库的T1加权MRI脑部扫描数据，选取其中101个图像作为训练集，50个为验证集，100个测试集，每个图像都有30类标签。在进行对照实验时，作者将文章方法与单图集分割（SAS）、单图集分割数据增强（SAS-aug）（使用训练过单个图像的模型分割训练集产生的数据进行训练）、手动调整数据增强（rand-aug）、全监督分割这些方法进行对比。同时，作者提出了基于文章数据增强方法的三个变种，即独立采样（ours-indep）、耦合采样（ours-coupled）、独立采样+手动调整数据增强（ours-indep + rand-aug）。

在评测分割结果时，文章采用了医学分割常用的骰子分数(Dice)，计算测试集上100个测试样本的30类标签的平均值。表格1展示了各个方法的平均Dice以及相对于单图集分割方法（SAS）的提升，可以看出文章方法结果显著优于之前方法，其中的Ours-indep + rand-aug方法比起SAS，Dice有了5.6个百分点的提高。图4为各方法Dice提升的箱体图，我们可以明显看到文章的方法相较于rand-aug分割结果一致性更好。图5为100个测试集图像分割结果相较于SAS的提高，可以看出ours-indep + rand-aug在每个图像上的结果始终保持最优。图6表明rand-aug降低区域较小的结构的分割结果。图7展示了海马体的分割结果。

表1：根据Dice分数评估分割性能，在100例脑MRI测试集上评估。我们报告了所有30个解剖标签和所有100个测试对象的平均Dice评分（以及括号中的标准偏差）。我们还报告了SAS基线上每种方法的平均成对改进。

图4：在所有测试例子中与SAS基线相比的平均Dice分数（在所有30个解剖标记上计算的平均值）的成对改善。

图5：对于每个测试样本与SAS基线相比的平均Dice得分（在所有30个解剖标记上计算的平均值）的成对改善。样本按我们方法的Dice改进来排序（ours - indep + rand-aug）。

图6：各种大脑结构中每种方法的分割准确性。括号中显示了图谱中每个标签占据的大脑百分比。标签按图谱中每个结构的体积排序，并且组合由左到右结构（例如海马）组成的标签。我们缩写标签：白质（WM），皮质（CX），心室（vent）和脑脊液（CSF）。

图7：两个测试对象（行）的海马分割预测。我们的方法（第2列）比基线（第3列和第4列）分割更准确。

作者尝试分析方法有效性的原因，ours-coupled与SAS-aug两种方法都产生了100个新的训练集，而前者效果要优于SAS-aug，作者在检查了产生的测试及后考虑到了两个因素。一方面ours-coupled方法以与标签相同的来扭曲图像，确保扭曲的标签与变换的图像匹配。另一方面SAS-aug将不完美的扭曲标签与不正确的图像纹理配对。如图9所示，文章方法合成的海马体图像与真实的海马体图像的纹理更加一致。

总结来说，文章提出了一种基于学习的数据增强方法，并在one-shot医学分割上进行了测试。文章使用基于学习的方法，来模拟标记和未标记示例之间的空间和外观变换，并使用它来合成新数据和标签。在测试集中的每个示例上的效果都超出现有的单次分割方法，接近完全监督模型的性能。该框架适用于许多场景，例如在临床上，由于时间限制仅允许手动注释少量扫描的场合。这项工作表明了从未标记的图像中学习独立的空间和外观变换模型，可以合成各种逼真的标记示例；这些合成示例可用于训练分割模型，该模型在one-shot分割中优于现有方法。雷锋网