v1 1、采用不同大小的卷积核意味着不同大小的感受野,最后拼接意味着不同尺度特征的融合; 2、将CNN中常用的卷积(1x1,3x3,5x5)、池化操作(3x3)堆叠在一起(卷积、池化后的尺寸相同,将通道相加),一方面增加了网络的宽度,另一方面也增加了网络对尺度的适应性; 3、为了减少计算量,增加了1x1卷积。 所有的卷积核都在上一层的所有输出上来做,而那个5x5的卷积核所需的计算量就太大了,约需要1.2亿次的计算量,造成了特征图的厚度很大,在3x3前、5x5前、max pooling后分别加上了1x1的卷积核,以起到了降低特征图厚度的作用,这也就形成了Inception v1的网络结构 上图为Inception v1 块 用稀疏的inception模块来有力地表达多维度信息 v2 卷积分解,将单个的5x5卷积层用2个连续的3x3卷积层组成的小网络来代替,在保持感受野范围的同时又减少了参数量,也加深了网络。 提出了著名的Batch Normalization (BN) 方法。BN会对每一个mini-batch数据的内部进行标准化(normalization),使输出规范到N(0,1)的正态分布,加快了网络的训练速度,还可以增大学习率。 BN某种意义上起到了正则化的作用,所以可以减少或者取消dropout,简化网络结构。V2在训练达到V1准确率时快了14倍,最后收敛的准确率也比V1高。 inception使用大卷积核替换成多个小的卷积核
考虑了nx1卷积核,将一个较大的二维卷积拆成两个较小的一维卷积(7x7拆成了7x1和1x7,3x3拆成了1x3和3x1),一方面节约了大量参数,加速运算并减轻了过拟合),同时网络深度进一步增加,增加了网络的非线性。 优化了Inception Module的结构。 将对称的conv计算分解为非对称的conv计算 约(1x3 + 3x1) / (3x3) = 67%的计算开销
更高效的下采样方案 利用残差连接(Residual Connection)来改进V3结构。