先理解Mask R-CNN的工作原理,然后构建颜色填充器应用
xo4773
7年前
<ul> <li> <p>代码(包括作者构建的数据集和已训练的模型):https://github.com/matterport/Mask_RCNN/tree/master/samples/balloon</p> </li> </ul> <h2>什么是实例分割?</h2> <p>实例分割是一种在像素层面识别目标轮廓的任务,相比其他相关任务,实例分割是较难解决的计算机视觉任务之一:</p> <p><img src="https://simg.open-open.com/show/5ddbd5c3a68e9e7236c43a351043c560.png"></p> <ul> <li> <p>分类:这张图像中有一个气球。</p> </li> <li> <p>语义分割:这些全是气球像素。</p> </li> <li> <p>目标检测:这张图像中的这些位置上有 7 个气球。</p> </li> <li> <p>实例分割:这些位置上有 7 个气球,并且这些像素分别属于每个气球。</p> </li> </ul> <h2>Mask R-CNN</h2> <p>Mask R-CNN 是一个两阶段的框架,第一个阶段扫描图像并生成提议(proposals,即有可能包含一个目标的区域),第二阶段分类提议并生成边界框和掩码。Mask R-CNN 扩展自 Faster R-CNN,由同一作者在去年提出。Faster R-CNN 是一个流行的目标检测框架,Mask R-CNN 将其扩展为实例分割框架。</p> <p><img src="https://simg.open-open.com/show/daeb9a41250350e86c4c52351835c033.png"></p> <p>Mask R-CNN 的主要构建模块:</p> <h3>1. 主干架构</h3> <p><img src="https://simg.open-open.com/show/3888fec373c7943170689bfe9b8044e0.png"></p> <p>主干网络的简化图示</p> <p>这是一个标准的卷积神经网络(通常来说是 ResNet50 和 ResNet101),作为特征提取器。底层检测的是低级特征(边缘和角等),较高层检测的是更高级的特征(汽车、人、天空等)。</p> <p>经过主干网络的前向传播,图像从 1024x1024x3(RGB)的张量被转换成形状为 32x32x2048 的特征图。该特征图将作为下一个阶段的输入。</p> <ul> <li> <p>代码提示:主干网络在 resnet_graph() 函数中。代码支持 ResNet50 和 ResNet101。</p> </li> </ul> <p>特征金字塔网络(FPN)</p> <p><img src="https://simg.open-open.com/show/2eb76505ecf0cb01d6e4b87d7f0a4289.png"></p> <p>来源:Feature Pyramid Networks for Object Detection</p> <p>上述的主干网络还可以进一步提升。由 Mask R-CNN 的同一作者引入的特征金字塔网络(FPN)是对该主干网络的扩展,可以在多个尺度上更好地表征目标。</p> <p>FPN 通过添加第二个金字塔提升了标准特征提取金字塔的性能,第二个金字塔可以从第一个金字塔选择高级特征并传递到底层上。通过这个过程,它允许每一级的特征都可以和高级、低级特征互相结合。</p> <p>在我们的 Mask R-CNN 实现中使用的是 ResNet101+FPN 主干网络。</p> <ul> <li> <p>代码提示:FPN 在 MaskRCNN.build() 中创建,位于构建 ResNet 的部分之后。FPN 引入了额外的复杂度:在 FPN 中第二个金字塔拥有一个包含每一级特征的特征图,而不是标准主干中的单个主干特征图(即第一个金字塔中的最高层)。选用哪一级的特征是由目标的尺寸动态地确定的。</p> </li> </ul> <h3>2. 区域建议网络(RPN)</h3> <p><img src="https://simg.open-open.com/show/27d7eda40d0c901501efd73d95a7ca9a.png"> 展示 49 个 anchor box 的简化图示</p> <p>RPN 是一个轻量的神经网络,它用滑动窗口来扫描图像,并寻找存在目标的区域。</p> <p>RPN 扫描的区域被称为 anchor,这是在图像区域上分布的矩形,如上图所示。这只是一个简化图。实际上,在不同的尺寸和长宽比下,图像上会有将近 20 万个 anchor,并且它们互相重叠以尽可能地覆盖图像。</p> <p>RPN 扫描这些 anchor 的速度有多快呢?非常快。滑动窗口是由 RPN 的卷积过程实现的,可以使用 GPU 并行地扫描所有区域。此外,RPN 并不会直接扫描图像,而是扫描主干特征图。这使得 RPN 可以有效地复用提取的特征,并避免重复计算。通过这些优化手段,RPN 可以在 10ms 内完成扫描(根据引入 RPN 的 Faster R-CNN 论文中所述)。在 Mask R-CNN 中,我们通常使用的是更高分辨率的图像以及更多的 anchor,因此扫描过程可能会更久。</p> <ul> <li> <p>代码提示:RPN 在 rpn_graph() 中创建。anchor 的尺度和长宽比由 config.py 中的 RPN_ANCHOR_SCALES 和 RPN_ANCHOR_RATIOS 控制。</p> </li> </ul> <p>RPN 为每个 anchor 生成两个输出:</p> <p><img src="https://simg.open-open.com/show/8749f02ec854fa70bd70a11634dd45da.png"></p> <ol> <li> <p>anchor 类别:前景或背景(FG/BG)。前景类别意味着可能存在一个目标在 anchor box 中。</p> </li> <li> <p>边框精调:前景 anchor(或称正 anchor)可能并没有完美地位于目标的中心。因此,RPN 评估了 delta 输出(x、y、宽、高的变化百分数)以精调 anchor box 来更好地拟合目标。</p> </li> </ol> <p>使用 RPN 的预测,我们可以选出最好地包含了目标的 anchor,并对其位置和尺寸进行精调。如果有多个 anchor 互相重叠,我们将保留拥有最高前景分数的 anchor,并舍弃余下的(非极大值抑制)。然后我们就得到了最终的区域建议,并将其传递到下一个阶段。</p> <ul> <li> <p>代码提示:ProposalLayer 是一个自定义的 Keras 层,可以读取 RPN 的输出,选取最好的 anchor,并应用边框精调。</p> </li> </ul> <h3>3. ROI 分类器和边界框回归器</h3> <p>这个阶段是在由 RPN 提出的 ROI 上运行的。正如 RPN 一样,它为每个 ROI 生成了两个输出:</p> <p><img src="https://simg.open-open.com/show/13fc5a741ccbd21eb23383f02a6c3017.png"></p> <p>阶段 2 的图示。来源:Fast R-CNN</p> <ol> <li> <p>类别:ROI 中的目标的类别。和 RPN 不同(两个类别,前景或背景),这个网络更深并且可以将区域分类为具体的类别(人、车、椅子等)。它还可以生成一个背景类别,然后就可以弃用 ROI 了。</p> </li> <li> <p>边框精调:和 RPN 的原理类似,它的目标是进一步精调边框的位置和尺寸以将目标封装。</p> </li> </ol> <ul> <li> <p>代码提示:分类器和边框回归器已在 fpn_classifier_graph() 中创建。</p> </li> </ul> <h2>ROI 池化</h2> <p>在我们继续之前,需要先解决一些问题。分类器并不能很好地处理多种输入尺寸。它们通常只能处理固定的输入尺寸。但是,由于 RPN 中的边框精调步骤,ROI 框可以有不同的尺寸。因此,我们需要用 ROI 池化来解决这个问题。</p> <p><img src="https://simg.open-open.com/show/4a984be06729c9dc9a162373420ed340.png"></p> <p>图中展示的特征图来自较底层。</p> <p>ROI 池化是指裁剪出特征图的一部分,然后将其重新调整为固定的尺寸。这个过程实际上和裁剪图片并将其缩放是相似的(在实现细节上有所不同)。</p> <p>Mask R-CNN 的作者提出了一种方法 ROIAlign,在特征图的不同点采样,并应用双线性插值。在我们的实现中,为简单起见,我们使用 TensorFlow 的 crop_and_resize 函数来实现这个过程。</p> <ul> <li> <p>代码提示:ROI 池化在类 PyramidROIAlign 中实现。</p> </li> </ul> <p>4. 分割掩码</p> <p>到第 3 节为止,我们得到的正是一个用于目标检测的 Faster R-CNN。而分割掩码网络正是 Mask R-CNN 的论文引入的附加网络。</p> <p><img src="https://simg.open-open.com/show/af3cb7b09b7a867226c7ec5c3ee0d21c.png"></p> <p>掩码分支是一个卷积网络,取 ROI 分类器选择的正区域为输入,并生成它们的掩码。其生成的掩码是低分辨率的:28x28 像素。但它们是由浮点数表示的软掩码,相对于二进制掩码有更多的细节。掩码的小尺寸属性有助于保持掩码分支网络的轻量性。在训练过程中,我们将真实的掩码缩小为 28x28 来计算损失函数,在推断过程中,我们将预测的掩码放大为 ROI 边框的尺寸以给出最终的掩码结果,每个目标有一个掩码。</p> <ul> <li> <p>代码提示:掩码分支网络在 build_fpn_mask_graph() 中。</p> </li> </ul> <p>建立一个颜色填充过滤器</p> <p><img src="https://simg.open-open.com/show/fdbe6525b055eb5769405fa2d8dd3d9e.png"></p> <p>和大多数图像编辑 app 中包含的过滤器不同,我们的过滤器更加智能一些:它能自动找到目标。当你希望把它应用到视频上而不是图像上时,这种技术更加有用。</p> <h2>训练数据集</h2> <p>通常我会从寻找包含所需目标的公开数据集开始。但在这个案例中,我想向你展示这个项目的构建循环过程,因此我将介绍如何从零开始构建一个数据集。</p> <p>我在 flickr 上搜索气球图片,并选取了 75 张图片,将它们分成了训练集和验证集。找到图片很容易,但标注阶段才是困难的部分。</p> <p><img src="https://simg.open-open.com/show/5f5b7d824d81ed38de980813179180f2.png"></p> <p>等等,我们不是需要数百万张图片来训练深度学习模型吗?实际上,有时候需要,有时候则不需要。我是考虑到以下两点而显著地减小了训练集的规模:</p> <p>首先,迁移学习。简单来说,与其从零开始训练一个新模型,我从已在 COCO 数据集(在 repo 中已提供下载)上训练好的权重文件开始。虽然 COCO 数剧集不包含气球类别,但它包含了大量其它图像(约 12 万张),因此训练好的图像已经包含了自然图像中的大量常见特征,这些特征很有用。其次,由于这里展示的应用案例很简单,我并不需要令这个模型达到很高的准确率,很小的数据集就已足够。</p> <p>有很多工具可以用来标注图像。由于其简单性,我最终使用了 VIA(VGG 图像标注器)。这是一个 HTML 文件,你可以下载并在浏览器中打开。标注最初几张图像时比较慢,不过一旦熟悉了用户界面,就能达到一分钟一个目标的速度。</p> <p><img src="https://simg.open-open.com/show/8b346989439df378997df91c96abaf9d.png"></p> <p>VGG 图像标注器工具的用户界面</p> <p>如果你不喜欢 VIA 工具,可以试试下列工具,我都测试过了:</p> <ul> <li> <p>LabelMe:最著名的标注工具之一,虽然其用户界面有点慢,特别是缩放高清图像时。</p> </li> <li> <p>RectLabel:简单易用,只在 Mac 可用。</p> </li> <li> <p>LabelBox:对于大型标记项目很合适,提供不同类型标记任务的选项。</p> </li> <li> <p>COCO UI:用于标注 COCO 数据集的工具。</p> </li> </ul> <h2>加载数据集</h2> <p>分割掩码的保存格式并没有统一的标准。有些数据集中以 PNG 图像保存,其它以多边形点保存等。为了处理这些案例,在我们的实现中提供了一个 Dataset 类,你可以通过重写几个函数来读取任意格式的图像。</p> <p>VIA 工具将标注保存为 JSON 文件,每个掩码都是一系列多边形点。</p> <ul> <li> <p>代码提示:通过复制 coco.py 并按你的需要修改是应用新数据集的简单方法,我将新的文件保存为 ballons.py。</p> </li> </ul> <p>我的 BalloonDataset 类是这样定义的:</p> <p><img src="https://simg.open-open.com/show/a7b1d09de848a429f6cc89db18060209.png"></p> <p>load_balloons 读取 JSON 文件,提取标注,然后迭代地调用内部的 add_class 和 add_image 函数来构建数据集。</p> <p>load_mask 通过画出多边形为图像中的每个目标生成位图掩码。</p> <p>image_reference 返回鉴别图像的字符串结果,以进行调试。这里返回的是图像文件的路径。</p> <p>你可能已经注意到我的类不包含加载图像或返回边框的函数。基础的 Dataset 类中默认的 load_image 函数可以用于加载图像,边框是通过掩码动态地生成的。</p> <p>验证该数据集</p> <p>为了验证我的新代码可以正确地实现,我添加了这个 Jupyter notebook:inspect_balloon_data.ipynb。它加载了数据集,并可视化了掩码、边框,还可视化了 anchor 来验证 anchor 的大小是否拟合了目标大小。以下是一个 good example。</p> <p><img src="https://simg.open-open.com/show/baef0462cf50356071baf58833b08ff7.png"></p> <p>来自 inspect_balloon_data notebook 的样本</p> <ul> <li> <p>代码提示:为了创建这个 notebook 我复制了 inspect_data.ipynb(这是为 COCO 数据集写的),然后修改了代码的初始部分来加载 Balloons 数据集。</p> </li> </ul> <p>配置</p> <p>这个项目的配置和训练 COCO 数据集的基础配置很相似,因此我只需要修改 3 个值。正如我对 Dataset 类所设置的,我复制了基础的 Config 类,然后添加了我的覆写:</p> <p><img src="https://simg.open-open.com/show/cb7758c4c871f162fa5893ec335b6bbc.png"></p> <p>基础的配置使用的是 1024x1024 px 的输入图像尺寸以获得最高的准确率。我保持了相同的配置,虽然图像相对较小,但模型可以自动地将它们重新缩放。</p> <ul> <li> <p>代码提示:基础的 Config 类在 config.py 中,BalloonConfig 在 balloons.py 中。</p> </li> </ul> <p>训练</p> <p>Mask R-CNN 是一个规模很大的模型。尤其是在我们的实现中使用了 ResNet101 和 FPN,因此你需要一个 12GB 显存的 GPU 才能训练这个模型。我使用的是 Amazon P2 实例来训练这个模型,在小规模的数据集上,训练时间不到 1 个小时。</p> <p>用以下命令开始训练,以从 balloon 的目录开始运行。这里,我们需要指出训练过程应该从预训练的 COCO 权重开始。代码将从我们的 repo 中自动下载权重。</p> <p><img src="https://simg.open-open.com/show/17bbc0c41dfa7629fdd5423bd3a33784.png"></p> <p>如果训练停止了,用以下命令让训练继续</p> <ul> <li> <p>代码提示:除了 balloon.py 以外,该 repo 还有两个例子:train_shapes.ipynb,它训练了一个小规模模型来检测几何形状;coco.py,它是在 COCO 数据集上训练的。</p> </li> </ul> <p>检查结果</p> <p>inspect_balloon_model notebook 展示了由训练好的模型生成的结果。查看该 notebook 可以获得更多的可视化选项,并一步一步检查检测流程。</p> <ul> <li> <p>代码提示:这个 notebook 是 inspect_model.ipynb 的简化版本,包含可视化选项和对 COCO 数据集代码的调试。</p> </li> </ul> <p>颜色填充</p> <p>现在我们已经得到了目标掩码,让我们将它们应用于颜色填充效果。方法很简单:创建一个图像的灰度版本,然后在目标掩码区域,将原始图像的颜色像素复制上去。以下是一个 good example:</p> <p><img src="https://simg.open-open.com/show/ccbd8d2576245c209528661dbe2deada.png"></p> <ul> <li> <p>代码提示:应用填充效果的代码在 color_splash() 函数中。detect_and_color_splash() 可以实现加载图像、运行实例分割和应用颜色填充过滤器的完整流程。</p> </li> </ul> <h2>FAQ 环节</h2> <p>Q:我希望了解更多该实现的细节,有什么可读的?</p> <p>A:按这个顺序阅读论文:RCNN、Fast RCNN、Faster RCNN、FPN、Mask RCNN。</p> <p>Q:我能在哪里提更多的问题?</p> <p>A:我们的 repo 的 Issue 页面:https://github.com/matterport/Mask_RCNN/issues</p> <p><img src="https://simg.open-open.com/show/6590610b00cf8141a23b5841e39f3bca.png"></p> <p> </p> <p>来自:https://www.jiqizhixin.com/articles/Mask_RCNN-tree-master-samples-balloon</p> <p> </p>