ResNet详解

pytorch图像分类篇：6. ResNet网络结构详解与迁移学习简介

0 resnet提出

原论文地址：Deep Residual Learning for Image Recognition（作者是CV大佬何凯明团队2015）

中文翻译-csdn、中文翻译2、[中文翻译-本地](./resnet详解.assets/[translate]-Deep Residual Learning for Image Recognition.md)

ResNet 网络是在 2015年由微软实验室提出，斩获当年ImageNet竞赛中分类任务第一名，目标检测第一名。获得COCO数据集中目标检测第一名，图像分割第一名。

在ResNet网络的创新点：

提出 Residual 结构（残差结构），并搭建超深的网络结构（可突破1000层）
使用 Batch Normalization 加速训练（丢弃dropout）

1 针对问题

1.1 问题1：退化

原文摘录：

最近的研究揭示了网络深度是至关重要的。在深度的重要性推动下，出现了一个问题：学习更好的网络是否像堆叠更多层一样容易？回答这个问题的一个障碍是臭名昭著的梯度消失/爆炸问题，它从一开始就阻碍了收敛（准确率）。然而，这个问题在很大程度上已经通过归一化的初始化和中间归一化层来解决，这使得具有数十层的网络能够开始收敛于具有反向传播的随机梯度下降(SGD)。

当更深的网络能够开始收敛时，退化问题就暴露了出来：随着网络深度的增加，准确度达到饱和(这可能并不令人惊讶)，然后迅速退化。出乎意料的是，这种退化并不是由过拟合引起的，而且在适当深度的模型中增加更多的层会导致更高的训练误差。训练准确度的退化表明，并不是所有的系统都同样容易优化。

56-layer（红线）的误差，相比于20-layer（黄线）明显退化。

总结来说，网络深度必要重要。但是随着深度增加就会产生梯度爆炸和梯度消失问题。这个问题可以通过随机梯度下降（SGD）等方法来解决。但是使用该方法可以使更深的网络收敛，但是会产生退化的问题（当网络堆叠到一定深度时，反而会出现深层网络比浅层网络效果差的情况）。

在这里插入图片描述

解决方法：在本文中，我们通过引入深度残差学习框架来解决退化问题。

梯度消失/梯度爆炸：

关于梯度消失和梯度爆炸，其实看名字理解最好：
若每一层的误差梯度小于1，反向传播时，网络越深，梯度越趋近于0
反之，若每一层的误差梯度大于1，反向传播时，网路越深，梯度越来越大

梯度消失与梯度爆炸产生原因及解决方法

深度学习知识点——梯度消失和梯度爆炸

1.2 问题2：梯度爆炸

原文摘录：

我们在每一个卷积层之后，激活层之前均使用batch normalization（BN）。我们并没有使用Dropout。

对于梯度消失或梯度爆炸问题

解决方法：使用 Batch Normalization 加速训练（丢弃dropout）。

网络中BN层的作用

2 resnet结构

2.1 short cut结构

为了解决深层网络中的退化问题，可以人为地让神经网络某些层跳过下一层神经元的连接，隔层相连，弱化每层之间的强联系。这种神经网络被称为残差网络 (ResNets)。

残差网络由许多隔层相连的神经元子模块组成，我们称之为 残差块 Residual block。单个残差块的结构如下图所示：

在这里插入图片描述

上图中红色部分称为 short cut 或者 skip connection（也称捷径分支），直接建立$$a^{[l]}$$与 $$a^{[l+2]}$$之间的隔层联系。其前向传播的计算步骤为：
$$
\begin{align}
z^{[l+1]} &=W^{[l+1]}a^{[l]}+b^{[l+1]}\
a^ {[l+1]} &=g(z^{ [l+1]} )\
z^{[l+2]} &=W ^{[l+2]} a^{[l+1]}+b^{ [l+2]} \
a^{ [l+2] } &=g(z ^{[l+2]} +a^{ [l]} )\
\end{align}
$$
$$a ^{[l]}$$直接隔层与下一层的线性输出相连，与 $$z^{[l+2]}$$共同通过**激活函数（ReLU）**输出 $$a^{[l+2]}$$。

由多个残差块组成的神经网络就是残差网络。其结构如下图所示：

在这里插入图片描述

实验表明，这种模型结构对于训练非常深的神经网络,效果很好。另外，为了便于区分，我们把 非残差网络称为 Plain Network。

2.2 resnet中的残差结构

实际应用中，残差结构的 short cut 不一定是隔一层连接，也可以中间隔多层，ResNet所提出的残差网络中就是隔多层。跟VggNet类似，ResNet也有多个不同层的版本，而残差结构也有两种对应浅层和深层网络：

	ResNet	残差结构
浅层网络	ResNet18/34	BasicBlock
深层网络	ResNet50/101/152	Bottleneck

下图中左侧残差结构称为 BasicBlock，右侧残差结构称为 Bottleneck 。

让特征矩阵隔层相加，注意F(X)和X形状要相同，所谓相加是特征矩阵相同位置上的数字进行相加。

在这里插入图片描述

对于深层的 Bottleneck：

（1）其中第一层的1× 1的卷积核的作用是对特征矩阵进行降维操作（特征矩阵深度），将特征矩阵的深度由256降为64;第三层的1× 1的卷积核是对特征矩阵进行升维操作，将特征矩阵的深度由64升成256。降低特征矩阵的深度主要是为了减少参数的个数。
如果采用BasicBlock,参数的个数应该是：256×256×3×3×2=1179648
采用Bottleneck，参数的个数是：1×1×256×64+3×3×64×64+1×1×256×64=69632
（2）先降后升为了主分支上输出的特征矩阵和捷径分支上输出的特征矩阵形状相同，以便进行加法操作。

注：CNN参数个数 = 卷积核尺寸×卷积核深度 × 卷积核组数 = 卷积核尺寸 × 输入特征矩阵深度 × 输出特征矩阵深度
注意：搭建深层次网络时，采用三层的残差结构。

2.3 降维时的shortcut

观察下图的 ResNet18层网络，可以发现有些残差块的 short cut 是实线的，而有些则是虚线的。虚线上是有一个1*1卷积的。

这些虚线的 short cut 上通过1×1的卷积核进行了维度处理（特征矩阵在长宽方向降采样，深度方向调整成下一层残差结构所需要的channel，==是卷积核个数决定的==）。

1*1卷积核

在这里插入图片描述

下图是原论文给出的不同深度的ResNet网络结构配置，注意表中的残差结构给出了主分支上卷积核的大小与卷积核个数，表中残差块×N 表示将该残差结构重复N次。
在这里插入图片描述原文的表注中已说明，conv3_x, conv4_x, conv5_x所对应的一系列残差结构的第一层残差结构都是虚线残差结构。因为这一系列残差结构的第一层都有调整输入特征矩阵shape的使命（将特征矩阵的高和宽缩减为原来的一半，将深度channel调整成下一层残差结构所需要的channel）

需要注意的是，对于ResNet50/101/152，其实conv2_x所对应的一系列残差结构的第一层也是虚线残差结构，因为它需要调整输入特征矩阵的channel。根据表格可知通过3x3的max pool之后输出的特征矩阵shape应该是[56, 56, 64]，但conv2_x所对应的一系列残差结构中的实线残差结构它们期望的输入特征矩阵shape是[56, 56, 256]（因为这样才能保证输入输出特征矩阵shape相同，才能将捷径分支的输出与主分支的输出进行相加）。所以第一层残差结构需要将shape从[56, 56, 64] –> [56, 56, 256]。注意，这里只调整channel维度，高和宽不变（而conv3_x, conv4_x, conv5_x所对应的一系列残差结构的第一层虚线残差结构不仅要调整channel还要将高和宽缩减为原来的一半）。

下面是 ResNet 18/34 和 ResNet 50/101/152 具体的实线/虚线残差结构图：

ResNet 18/34
ResNet 50/101/152s

2.4 BN

Batch Normalization是指批标准化处理，将一批数据的feature map满足均值为0，方差为1的分布规律。

我们在图像预处理过程中通常会对图像进行标准化处理，这样能够加速网络的收敛，如下图所示，对于Conv1来说输入的就是满足某一分布的特征矩阵，但对于Conv2而言输入的feature map就不一定满足某一分布规律了（注意这里所说满足某一分布规律并不是指某一个feature map的数据要满足分布规律，理论上是指整个训练样本集所对应feature map的数据要满足分布规律）。而我们Batch Normalization的目的就是使我们的feature map满足均值为0，方差为1的分布规律。

在这里插入图片描述

论文中的一段话：“对于一个拥有d维的输入x，我们将对它的每一个维度进行标准化处理。” 假设我们输入的x是RGB三通道的彩色图像，那么这里的d就是输入图像的channels即d=3，x=(x^{(1)}, x^{(2)}, x{(3)})，其中x{(1)}就代表我们的R通道所对应的特征矩阵，依此类推。标准化处理也就是分别对我们的R通道，G通道，B通道进行处理。
原文中的计算公式：

在这里插入图片描述

计算一个Batch数据的feature map然后在进行标准化（batch越大越接近整个数据集的分布，效果越好）。我们根据上图的公式可以知道代表着我们计算的feature map每个维度（channel）的均值。在这里插入图片描述

上图展示了一个batch size为2（两张图片）的Batch Normalization的计算过程，假设feature1、feature2分别是由image1、image2经过一系列卷积池化后得到的特征矩阵，feature的channel为2，那么代表该batch的所有feature的channel1的数据，同理代表该batch的所有feature的channel2的数据。然后分别计算和的均值与方差，得到我们的和两个向量。然后在根据标准差计算公式分别计算每个channel的值（公式中的是一个很小的常量，防止分母为零的情况）。在我们训练网络的过程中，我们是通过一个batch一个batch的数据进行训练的，但是我们在预测过程中通常都是输入一张图片进行预测，此时batch size为1，如果在通过上述方法计算均值和方差就没有意义了。所以我们在训练过程中要去不断的计算每个batch的均值和方差，并使用移动平均(moving average)的方法记录统计的均值和方差，在训练完后我们可以近似认为所统计的均值和方差就等于整个训练集的均值和方差。然后在我们验证以及预测过程中，就使用统计得到的均值和方差进行标准化处理。

细心的同学会发现，在原论文公式中不是还有两个参数吗？是的γ，β是用来调整数值分布的方差大小，是用来调节数值均值的位置。这两个参数是在反向传播过程中学习得到的，γ的默认值是1，β的默认值是0。

BN层所在位置如下图所示，每一个卷积层之后，激活层之前均使用batch normalization（BN）

3 分析

为什么残差有效？

为什么BN可以加速？

https://www.cnblogs.com/shine-lee/p/12363488.html

4 resnet剪枝

参考博士论文，分析的十分透彻了。

4.1 难点

跨残差结构维度一致性问题。

无题

ResNet详解

0 resnet提出

1 针对问题

1.1 问题1：退化

1.2 问题2：梯度爆炸

2 resnet结构

2.1 short cut结构

2.2 resnet中的残差结构

2.3 降维时的shortcut

2.4 BN

3 分析

4 resnet剪枝

4.1 难点

4.2 研究现状&研究方向