You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

74 lines
10 KiB
Markdown

2 years ago
# 007 | 精读2017年ICCV最佳研究论文
ICCVInternational Conference on Computer Vision国际计算机视觉大会是每两年举办一次的计算机视觉顶级会议。从1987年开始举办已经有30年的历史。2017年的ICCV大会于10月22日至29日在意大利的水城威尼斯举行。
在每届ICCV大会上都会从众多学术论文中挑选出两篇最有新意和价值的论文作为最佳研究论文和最佳学生论文。ICCV的最佳论文奖又叫作“马尔奖项”Marr Prize是为了纪念英国的心理学家和神经科学家大卫·马尔David Marr而设计的奖项。马尔将心理学、人工智能和神经生理学的研究成果结合起来提出了全新的关于视觉处理的理论他被认为是计算神经科学的创始人。
今天我就来带你认真剖析一下ICCV 2017年的最佳研究论文“[Mask R-CNN](https://research.fb.com/wp-content/uploads/2017/08/maskrcnn.pdf)”。这篇论文是一个集大成的工作,介绍了一个新的方法可以用于同时解决图像的“**物体识别**”Object Detection、“**语义分割**”Semantic Segmentation和“**数据点分割**”Instance Segmentation的工作。
什么意思呢?通俗地讲,那就是给定一个输入的图像,利用这篇论文提出的模型可以分析这个图像里究竟有哪些物体,比如是一只猫,还是一条狗;同时能够定位这些物体在整个图像中的位置;并且还能针对图像中的每一个像素,知道其属于哪一个物体,也就是我们经常所说的,把物体从图像中“抠”出来。
## 作者群信息介绍
这篇论文的作者全部来自Facebook的人工智能研究院Facebook AI Research
第一作者就是近几年在计算机视觉领域升起的学术之星何恺明博士Kaiming He。他于2016年加入Facebook人工智能研究院之前在微软亚洲研究院进行计算机视觉的研究工作他还是CVPR 2016年和CVPR 2009年的最佳论文得主。目前何恺明在计算机视觉领域有三项重大贡献。
第一他与其他合作者发明的ResNet从2016年以来成为了计算机视觉深度学习架构中的重要力量被应用到了计算机视觉以外的一些领域比如机器翻译和AlphaGo等相关论文引用数超过5千次。
第二他与其他合作者开发的Faster R-CNN技术发表于NIPS 2015上是图像物体识别和语义分析的重要技术手段也是今天我们要讨论的这篇论文的基础论文引用数超过2千次。
第三他与其他合作者在ICCV 2015年发表论文《深入研究整流器在ImageNet分类上超越人类水平》[Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification](https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/He_Delving_Deep_into_ICCV_2015_paper.pdf)研究了一种改进的ReLURectified Linear Unit线性整流函数又称修正线性单元结构从而达到了更好的效果论文引用数近2千次。
第二作者乔治亚⋅吉克里奥夏里Georgia Gkioxari目前是Facebook人工智能研究院的博士后研究员。乔治亚可以说是师出名门在Facebook工作之前才从加州大学伯克利毕业师从计算机视觉泰斗吉腾德拉⋅马利克Jitendra Malik。乔治亚之前还分别在谷歌大脑和谷歌研究院实习过。在过去几年中乔治亚在计算机视觉界已经发表了多篇高质量论文。
第三作者皮奥特⋅多拉Piotr Dollár是Facebook人工智能研究院的一名经理。2007年从加州大学圣地亚哥分校获得博士学位2014年加入Facebook这之前在微软研究院工作。皮奥特长期从事计算机视觉的研究工作。
最后一个作者罗斯⋅吉尔什克Ross Girshick是Facebook人工智能研究院的一名科学家。他于2012年毕业于芝加哥大学获得计算机博士。罗斯之前也在微软研究院工作也曾在计算机视觉泰斗吉腾德拉的实验室里担任博士后的研究工作。
## 论文的主要贡献
我们首先来看一下这篇文章的主要贡献。还是要先去理解,这篇文章主要解决的是一个什么场景下的问题。
刚才我们已经简单地谈到了这篇文章要解决的问题就是对输入图像的物体识别、语义分割以及数据点分割是这三个任务的一个集成。在之前的一个工作中“Faster R-CNN”\[1\]已经解决了前两个任务。那么这篇论文其实就是Faster R-CNN在逻辑上的一个扩展。然而这个扩展也并不是那么显而易见的。**为了解决数据点分割的任务Mask R-CNN提出了深度学习网络结构上的一个创新这是本篇论文的一个重要贡献**。
本文提出的模型不仅在数据点分割的标准数据集COCO上表现强劲击败所有之前提出的模型以外还能够很容易地扩展到其他的任务中比如“人体形态估计”Human Pose Estimation从而**奠定了Mask R-CNN作为一个普适性框架的地位**。
## 论文的核心方法
要想理解Mask R-CNN的核心思想我们就必须先简要理解Faster R-CNN的一些基本原理。刚才说到了Mask R-CNN就是在其之上的一种改进和延伸。
**Faster R-CNN对于每一个输入图像中的每一个候选物体都会有两个输出**,一个是候选物体的**标签**(比如,猫、狗、马等),还有一个就是一个**矩形框**Bounding Box用于表达这个物体在图像中的位置。第一个**标签输出是一个分类问题**Classification而第二个**位置预测则是一个回归问题**Regression
Faster R-CNN分为两个阶段Stage。第一个阶段叫作“**区域提交网络**”Region Proposal Network目的是从图像中提出可能存在的候选矩形框。第二个阶段从这些候选框中使用一个叫“**RoIPool**”的技术来提取特征从而进行标签分类和矩形框位置定位这两个任务。这两个阶段的一些特性可以共享。
区域提交网络的大体流程是这样的。最原始的输入图像经过经典的卷积层变换之后形成了一个图像特征层。在这个新的图像特征层上模型使用了一个移动的小窗口Sliding Window来对区域进行建模。这个移动小窗口有这么三个任务需要考虑。
首先移动小窗口所覆盖的特征经过一个变换达到一个中间层然后经过这个中间层直接串联到两个任务也就是物体的分类和位置的定位。其次移动的小窗口用于提出一个候选区域有时候也叫ROI也就是矩形框。而这个矩形框也参与刚才所说的定位信息的预测。
当区域提交网络“框”出了物体的大致区域和类别之后模型再使用一个“物体检测”Object Detection的网络来对物体进行最终的检测。在这里物体检测实际是使用了Fast R-CNN\[2\]的架构。所以也就是为什么Faster R-CNN的名字里用“Faster”来做区分。Faster R-CNN的贡献在于区域提交网络和Fast R-CNN的部分也就是物体检测的部分达到了共享参数或者叫共享网络架构这样也就起到了加速的作用。
**Mask R-CNN在第一部分完全使用Faster R-CNN所提出的区域提交网络在此基础上对第二部分进行了更改**。也就是说不仅仅在第二部分输出区域的类别和框的相对位置同时还输出具体的像素分割。然而和很多类似工作的区别是像素分割、类别判断、位置预测是三个独立的任务并没有互相的依赖这是作者们认为Mask R-CNN能够成功的一个重要的关键。对比之前的一些工作像素分割成了类别判断的依赖从而导致这几个任务之间互相干扰。
Mask R-CNN在进行像素分割的时候因为要在原始的图像上进行分割因此需要在整个流程中保留原始图像的位置关系。这个需求是类别判断和位置预测所不具备的。而在Faster R-CNN中因为不需要这个需求因此类别判断和位置预测所依赖的信息是一个压缩过后的中间层。那么很明显Mask R-CNN依靠这个压缩层就不够了。在这篇文章中作者们**提出了一个叫RoIAlign的技术来保证中间提取的特征能够反映在最原始的像素中**。如果对这部分内容感兴趣,建议你去细读文章。
## 方法的实验效果
作者们使用Mask R-CNN在目前流行的图像物体检测任务数据集COCO 2015和COCO 2016上做了检测相对于之前的这两个竞赛的冠军实验结果表明Mask R-CNN的精度都大幅度增加。在一个“平均精度”Average Precision的度量上Mask R-CNN比COCO 2015的最佳结果好了近13%而比COCO 2016的最佳结果好了4%可以说效果非常明显。在实验结果中作者们非常细致地测试了整个Mask R-CNN中每一个部件的效果。其中把三个任务分开、以及RoIAlign方法都有非常显著的作用证明了这些模型组件是优秀结果的必要步骤。
## 小结
今天我为你讲了ICCV 2017年的最佳研究论文这篇文章介绍了目前在图像物体识别中的最新算法Mask R-CNN的大概内容。
一起来回顾下要点:第一,我们简要介绍了这篇文章的作者群信息。第二,我们详细介绍了这篇文章要解决的问题以及贡献 。第三,我们简要地介绍了文章提出方法的核心内容 。
最后给你留一个思考题你觉得为什么Mask R-CNN包括之前的一些工作要把物体检测的工作分为两步第一步先分析一个大的矩形框第二步进行物体检测这两步都是必要的吗
欢迎你给我留言,和我一起讨论。
**参考文献**
1. Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. [Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks](https://arxiv.org/pdf/1506.01497.pdf). IEEE Trans. Pattern Anal. Mach. Intell. 39, 6 (June 2017), 1137-1149, 2017.
2. Ross Girshick. [Fast R-CNN](https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Girshick_Fast_R-CNN_ICCV_2015_paper.pdf). Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV) (ICCV '15). IEEE Computer Society, Washington, DC, USA, 1440-1448, 2015.