Notes for Object Detection: One Stage Methods

In this post, we focus on two mainstreams of one-stage object detection methods: YOLO family and SSD family. Compared to two-stage methods (like R-CNN series), those models skip the region proposal stage and directly extract detection results from feature maps. For that reason, one-stage models are faster but at the cost of reduced accuracy.

Model	Resource
YOLO	[paper] [code (darknet)]
YOLOv2 (YOLO 9000)	[paper] [code (darknet)] [code (PyTorch)]
YOLOv3	[paper] [code (darknet)] [code (PyTorch)]
SSD	[paper] [code (Caffe)] [code (PyTorch)]
SSD w/ MobileNet	[code (Caffe)] [code (TensorFlow)] [code (PyTorch)]
RetinaNet	[paper] [code (PyTorch)]

R-CNN系列的目标检测方法都是基于region的，也就是说，其检测流程需要分为两个阶段：

使用Selective Search或者RPN来生成一定数量的稀疏的RoI
使用classifier来对于生成的region proposal进行分类

而one-stage的目标检测方法则不显式地生成region proposal，而是直接从目标可能出现的位置上进行密集采样，然后进行位置回归与类别判断。这么做能够节省生成region proposal的时间，因此相较于two-stage的方法更为简单愉快速，不过这么一来性能可能也会有所下降。

YOLO

YOLO (You Look Only Once)是当时第一个能够实时的目标检测方法，开创了one-stage方法的先河。YOLO这么快是因为它只预测有限个bounding box而不经过生成region proposal的步骤。

Workflow

在大型数据集（例如ImageNet）上用图像分类任务预训练一个CNN网络。
对于一张输入图像，将其分为$S\times S$个cell。当某个物体的预测中心落在了一个cell中时，该cell对检测该物体是否真的在cell内负责。每个cell需要预测：
- $B$个bounding boxes。一个bounding box的信息包含了中心点坐标$(x,y)$和长宽$(w,h)$。其中$(x.y)$的坐标是相对于cell位置的，而且$(x,y,w,h)$都根据输入图像的大小进行归一化，也就是说其值域为$[0,1]$。
- 一个cell内是否存在物体的置信度，其真值为$Pr(Object)\times IoU^{truth}_{pred}$。
- 当物体落在cell内时，物体的类别概率$Pr(Class_i | Object)$。值得注意的是，虽然每个cell有$B$个bounding box，但是每个cell只预测一组类别概率。

总而言之，一张输入图像总共有$S \times S \times B$个bounding box，每个bounding box包含4个定位预测和1个置信度，另外每个cell还要预测$K$个类别概率。所以对于一张输入图像，总计需要预测$S\times S \times (5B+K)$个预测值。这也是网络最后一层的输出数量。

把预训练好的CNN网络的最后一层输出数量修改为$S\times S \times (5B+K)$，然后进行训练。

Details

Network Architecture

YOLO的网络结构与GoogLeNet相似，只不过GoogLeNet中的Inception模块被换成了简单的$3\times 3$与$1\times 1$卷积层，最后的FC层的输出维度被修改为$S\times S \times (5B+K)$。

YOLO v1 网络结构 (Source: Lilian Weng's blog post)

Loss Function

YOLO的损失函数氛围定位损失与分类损失两个部分。定位损失主要是bounding box预测位置与真值之间的offset，分类损失则是条件类别概率上的损失。这两者均为SSE (sum of squared error)，并且由两个缩放因子$\lambda_\text{coord}$与$\lambda_\text{noobj}$来进行权衡。 $\lambda_\text{coord}$ 用来表示错判定位造成损失的重要程度， $\lambda_\text{coord}$ 则用来表示错判是否有物体的置信度造成的损失的重要程度。相比较而言， $\lambda_\text{coord}$ 会更加低一些，因为bounding box之内只存在背景的情况比有物体的更为常见。在原文中， $\lambda_\text{coord}=5$ ，同时 $\lambda_\text{noobj}=0.5$ 。

$$ \begin{aligned} \mathcal{L}_\text{loc} &= \lambda_\text{coord} \sum_{i=0}^{S^2} \sum_{j=0}^B \mathbb{1}_{ij}^\text{obj} [(x_i - \hat{x}_i)^2 + (y_i - \hat{y}_i)^2 + (\sqrt{w_i} - \sqrt{\hat{w}_i})^2 + (\sqrt{h_i} - \sqrt{\hat{h}_i})^2 ] \\ \mathcal{L}_\text{cls} &= \sum_{i=0}^{S^2} \sum_{j=0}^B \big( \mathbb{1}_{ij}^\text{obj} + \lambda_\text{noobj} (1 - \mathbb{1}_{ij}^\text{obj})\big) (C_{ij} - \hat{C}_{ij})^2 + \sum_{i=0}^{S^2} \sum_{c \in \mathcal{C}} \mathbb{1}_i^\text{obj} (p_i(c) - \hat{p}_i(c))^2\\ \mathcal{L} &= \mathcal{L}_\text{loc} + \mathcal{L}_\text{cls} \end{aligned} $$

其中，

$\mathbb{1}_{ij}^\text{obj}$表示第$i$个cell中的第$j$个bounding box是否是对该cell内的物体预测负责，即其与ground truth的IoU在相邻的bounding boxes里面是否是最大的
$\mathbb{1}_{i}^\text{obj}$表示第$i$个cell内是否包含物体
$C_{ij}$表示第$i$个cell的物体置信度的真值$Pr(Object)\times IoU^{truth}_{pred}$
$\hat{C}_{ij}$表示第$i$个cell的物体置信度的预测值
$C$表示所有类别的集合
$p_i( c )$表示第$i$个cell包含类别$c\in C$的条件概率真值
$p_i( c )$表示第$i$个cell所预测的包含类别$c\in C$的条件概率

YOLO v1中bounding box对cell内的物体负责 (Source: Lilian Weng's blog post)

可以看出，YOLO所设计的损失函数，只有当物体出现在某个cell中时（即 $\mathbb{1}_{i}^\text{obj}=1$ ），才惩罚其分类错误；同时，只有当某个bounding box对其所在的cell内的物体预测负责时（即 $\mathbb{1}_{ij}^\text{obj}=1$ ），才惩罚其定位错误

Tricks

Drawbacks

YOLO v1开one-stage目标检测方法之先河，速度快。但是由于其只能预测有限个bounding box，对于具有不规则形状的目标或者数量较多的小目标时，其性能就不行了。

SSD

继YOLO之后，SSD时第一个使用CNN的金字塔特征层级（pyramidal feature hierarchy）来实现对于多尺度目标检测的one-stage方法。

具体地说，SSD使用在ImageNet上预训练的VGG-16来提取特征，然后增加了一系列的卷积层来逐步进行降采样，减小feature map的空间尺寸。SSD所增加的这一部分可以得到一个金字塔式的不同尺度的特征表示。从直觉上来说，前面的feature map空间尺寸大、粒度细，比较适合检测小目标；靠后的feature map空间尺寸小、粒度粗，比较适合检测大目标。通过在不同尺寸的feature maps上分别做检测，SSD能够检测不同尺度的物体。

SSD的网络结构 (Source: Lilian Weng's blog post)