一、语义分割

计算机视觉研究的分类问题，由简单到复杂经过以下几个阶段：

最初的，Image Classification，图像分类；比如，将一组（注意是一组，不是一个）图片分类，图片主体明显，将人物图像、风景图像等分为人物、风景、猫、狗等；
然后发展，Object Detection，目标检测；比如，在图像里找出某个对象并提取出来，将图片里的猫、狗用个框圈出来；
再后来发展到，Instance Segmentation，实例分割；实例分割与目标检测的区别是：目标检测只能用框框圈出猫、狗，框框也圈出了背景的像素，而实例分割可以把猫、狗的像素点全部标记出来而不标记背景像素；
目前，图片的分割已经到达了Semantic Segmentation，语义分割；语义分割就是将分类问题细化到像素级别，比如，图片里面每个像素都被标记为猫、草地、树木、天空等类别。所有像素都分类了，那么图片分类就达到了很精细的程度。

语义分割是一种稠密估计（Dense Predicttion）。以往的分类问题，最终的估值都是比输入小的，比如输入一张1024×768的图片，输出的或者是框框的坐标(x,y)，或者是实例的像素点，都比输入1024×768。而稠密估计，输出和输入是一样大的，输入是1024×768的图片，输入的也是1024×768的图片，输入的每个像素点都被标记一个label。

二、VGG模型

VGG本身不是语义分割用的，但是VGG模型的设计思想被沿用至今，我们可以认为VGG的做法都是以后人们在用的做法。VGG模型分成两个部分，一个是特征提取，一个是图像分类。

2.1 VGG特征提取部分

特征提取都是经过多层的“卷积→激活函数、再池化”来提取出特征值。

VGG大量使用3×3的卷积，3×3卷积有什么好处呢？

减少参数，防止过拟合的发生。从感受野（Receptive Field）来看，两个3×3的卷积相当于一个5×5的卷积，三个3×3的卷积相当于一个7×7的卷积，以此类推。但是，参数减少了，2×3×3小于5×5，3×3×3小于7×7……
两个3×3的卷积相当于一个5×5的卷积，那么两个3×3的卷积就有两个非线性的激活函数；三个3×3的卷积相当于一个7×7的卷积，那么三个3×3的卷积就有三个非线性的激活函数……这就有了更多的表现能力。

VGG每经过一次池化（spatial方向H×W都减半），通道数就会加倍（channel方向增大一倍）。

2.2 VGG图像分类部分

特征提取结束后，接全连接层。接全连接层，先用flatten将H×W的矩阵拉成一个一维向量。

三、ResNet模型

ResNet模型的出现使网络的深度大大增加。

3.1 为什么是ResNet

一般认为，当网络越来也深，其表现能力越强。但是，实际上网络的能力并不会随着深度增加一直增大，会出现网络的退化现象，也就是深度增加其能力反而不如浅层网络（其在测试集和训练集上的准确率都下降），这个不是过拟合（训练集上准确率提高，测试集上准确率下降）。

即使只增加恒等映射层，实验结果也是网络出现退化，随着深度的加深连学习一个恒等映射都变困难。所以，何恺明提出残差网络Residual Net。来解决这个问题。

如果我们要学习一个估值 $H(x)$ 有困难，那么我们就定义残差 $F(x)=H(x)-x$ ，学习残差 $F(x)$ 相对容易，然后我们用 $H(x)=F(x)+x$ 来学习到原来的估值 $H(x)$ 。

为什么残差可以解决退化的问题呢？我个人的理解就是，经过深度网络的卷积、池化层操作，输入的信息损失太多。那么把这个损失的信息补回来就解决了退化问题。所以，每2个卷积就对结果加一次x，这样就不会造成输入信息的损失，网络层数可以一直加下去。

3.2 1×1卷积调整channel维度大小

因为卷积、池化操作，导致channel发生了变化，所以需要对输入x做channel方向调整，才能做加法。注意 $H(x)=F(x)+x$ 里面的加号是张量的加法，不是直接加。

举例，输入的是RGB图像，也就是3×H×W的输入。经过卷积、池化等，就变成了64×H×W的维度，要相加，那么输入x也要变成channel=64。那么，1×1卷积就解决了这个问题。1×1卷积不改变spatial的大小，只改变channel的大小。

3.3 ResNet里的BottleNeck

随着深度的增加，每一层的参数个数会变的非常大（主要是channel变大，channel每层增大一倍，50层以上channel很大）。上面提到ResNet就是在计算得到的输出上加输入。

第一种卷积计算就是直接计算输出，加上输入就可以了，被称为BasicBlock。比如左图中，输入是channel=64，卷积计算和输出都是channel=64。
第二种channel很大的情况，解决办法是用1×1卷积调整维度，将channel降下来，算好了以后再用1×1卷积将channel升上去，被称为BottleNeck。比如右图中，输入channel=256，先1×1卷积将channel降到64，计算输出是channel=64，再用1×1卷积将channel升到256，在做加法。

256——64——256就像瓶颈一样——BottleNeck。