损失函数 交叉熵损失函数 均方误差 过拟合要怎么解决 Dropout(随机失活)、Weight Decay(权重衰减)、减少模型参数、Early Stop、Regularization(正则化,包括L1,L2正则化等)、Augmentation(数据增强)、合成数据、Batch Normalization(批次标准化)、Bagging 和 Boosting(模型融合) 全连接层的作用 分布式特征representation映射到样本标记空间,即特征representation整合到一起,输出为一个值,优点大大减少特征位置对分类带来的影响,缺点全连接层破换了空间结构 有两层或以上fully connected layer就可以很好地解决非线性问题了 L1、L2范数,L1趋向于0,但L2不会,为什么? L1正则化话让参数变得更加稀疏,而L2正则化不会。变得更加稀疏指会有更多的参数变为0,达到类似特征选取的功能。L2正则化不会让参数变得稀疏的原因是当参数很小时,如0.001,这个参数的平方基本上就可以忽略了,模型不会进一步将这个参数调整为0 偏差 方差 偏差(bias):偏差衡量了模型的预测值与实际值之间的偏离关系。通常在深度学习中,我们每一次训练迭代出来的新模型,都会拿训练数据进行预测,偏差就反应在预测值与实际值匹配度上,比如通常在keras运行中看到的准确度为96%,则说明是低偏差;反之,如果准确度只有70%,则说明是高偏差。 方差(variance):方差描述的是训练数据在不同迭代阶段的训练模型中,预测值的变化波动情况(或称之为离散情况)。从数学角度看,可以理解为每个预测值与预测均值差的平方和的再求平均数。通常在深度学习训练中,初始阶段模型复杂度不高,为低方差;随着训练量加大,模型逐步拟合训练数据,复杂度开始变高,此时方差会逐渐变高。 inception v2、v3区别 inception v3中使用的Aug loss里面使用了BN进行regularization