.. _sec_ssd: 单发多框检测（SSD） =================== 在 :numref:`sec_bbox`— :numref:`sec_object-detection-dataset`\ 中，我们分别介绍了边界框、锚框、多尺度目标检测和用于目标检测的数据集。现在我们已经准备好使用这样的背景知识来设计一个目标检测模型：单发多框检测（SSD） :cite:`Liu.Anguelov.Erhan.ea.2016`\ 。该模型简单、快速且被广泛使用。尽管这只是其中一种目标检测模型，但本节中的一些设计原则和实现细节也适用于其他模型。模型 ---- :numref:`fig_ssd`\ 描述了单发多框检测模型的设计。此模型主要由基础网络组成，其后是几个多尺度特征块。基本网络用于从输入图像中提取特征，因此它可以使用深度卷积神经网络。单发多框检测论文中选用了在分类层之前截断的VGG :cite:`Liu.Anguelov.Erhan.ea.2016`\ ，现在也常用ResNet替代。我们可以设计基础网络，使它输出的高和宽较大。这样一来，基于该特征图生成的锚框数量较多，可以用来检测尺寸较小的目标。接下来的每个多尺度特征块将上一层提供的特征图的高和宽缩小（如减半），并使特征图中每个单元在输入图像上的感受野变得更广阔。回想一下在 :numref:`sec_multiscale-object-detection`\ 中，通过深度神经网络分层表示图像的多尺度目标检测的设计。由于接近 :numref:`fig_ssd`\ 顶部的多尺度特征图较小，但具有较大的感受野，它们适合检测较少但较大的物体。简而言之，通过多尺度特征块，单发多框检测生成不同大小的锚框，并通过预测边界框的类别和偏移量来检测大小不同的目标，因此这是一个多尺度目标检测模型。 .. _fig_ssd: .. figure:: ../img/ssd.svg 单发多框检测模型主要由一个基础网络块和若干多尺度特征块串联而成。在下面，我们将介绍 :numref:`fig_ssd`\ 中不同块的实施细节。首先，我们将讨论如何实施类别和边界框预测。类别预测层 ~~~~~~~~~~ 设目标类别的数量为\ :math:`q`\ 。这样一来，锚框有\ :math:`q+1`\ 个类别，其中0类是背景。在某个尺度下，设特征图的高和宽分别为\ :math:`h`\ 和\ :math:`w`\ 。如果以其中每个单元为中心生成\ :math:`a`\ 个锚框，那么我们需要对\ :math:`hwa`\ 个锚框进行分类。如果使用全连接层作为输出，很容易导致模型参数过多。回忆 :numref:`sec_nin`\ 一节介绍的使用卷积层的通道来输出类别预测的方法，单发多框检测采用同样的方法来降低模型复杂度。具体来说，类别预测层使用一个保持输入高和宽的卷积层。这样一来，输出和输入在特征图宽和高上的空间坐标一一对应。考虑输出和输入同一空间坐标（\ :math:`x`\ 、\ :math:`y`\ ）：输出特征图上（\ :math:`x`\ 、\ :math:`y`\ ）坐标的通道里包含了以输入特征图（\ :math:`x`\ 、\ :math:`y`\ ）坐标为中心生成的所有锚框的类别预测。因此输出通道数为\ :math:`a(q+1)`\ ，其中索引为\ :math:`i(q+1) + j`\ （\ :math:`0 \leq j \leq q`\ ）的通道代表了索引为\ :math:`i`\ 的锚框有关类别索引为\ :math:`j`\ 的预测。在下面，我们定义了这样一个类别预测层，通过参数\ ``num_anchors``\ 和\ ``num_classes``\ 分别指定了\ :math:`a`\ 和\ :math:`q`\ 。该图层使用填充为1的\ :math:`3\times3`\ 的卷积层。此卷积层的输入和输出的宽度和高度保持不变。 .. raw:: html

.. raw:: html

.. raw:: latex \diilbookstyleinputcell .. code:: python %matplotlib inline from mxnet import autograd, gluon, image, init, np, npx from mxnet.gluon import nn from d2l import mxnet as d2l npx.set_np() def cls_predictor(num_anchors, num_classes): return nn.Conv2D(num_anchors * (num_classes + 1), kernel_size=3, padding=1) .. raw:: html

.. raw:: html

.. raw:: latex \diilbookstyleinputcell .. code:: python %matplotlib inline import torch import torchvision from torch import nn from torch.nn import functional as F from d2l import torch as d2l def cls_predictor(num_inputs, num_anchors, num_classes): return nn.Conv2d(num_inputs, num_anchors * (num_classes + 1), kernel_size=3, padding=1) .. raw:: html

.. raw:: html

.. raw:: latex \diilbookstyleinputcell .. code:: python %matplotlib inline import warnings from d2l import paddle as d2l warnings.filterwarnings("ignore") import paddle import paddle.vision as paddlevision from paddle import nn from paddle.nn import functional as F def cls_predictor(num_inputs, num_anchors, num_classes): return nn.Conv2D(num_inputs, num_anchors * (num_classes + 1), kernel_size=3, padding=1) .. raw:: html

.. raw:: html

边界框预测层 ~~~~~~~~~~~~ 边界框预测层的设计与类别预测层的设计类似。唯一不同的是，这里需要为每个锚框预测4个偏移量，而不是\ :math:`q+1`\ 个类别。 .. raw:: html