损失函数

科技2024-03-18 91

损失函数交叉熵损失函数均方误差过拟合要怎么解决 Dropout（随机失活）、Weight Decay（权重衰减）、减少模型参数、Early Stop、Regularization（正则化，包括L1，L2正则化等）、Augmentation（数据增强）、合成数据、Batch Normalization（批次标准化）、Bagging 和 Boosting（模型融合）全连接层的作用分布式特征representation映射到样本标记空间，即特征representation整合到一起，输出为一个值，优点大大减少特征位置对分类带来的影响，缺点全连接层破换了空间结构有两层或以上fully connected layer就可以很好地解决非线性问题了 L1、L2范数，L1趋向于0，但L2不会，为什么？ L1正则化话让参数变得更加稀疏，而L2正则化不会。变得更加稀疏指会有更多的参数变为0，达到类似特征选取的功能。L2正则化不会让参数变得稀疏的原因是当参数很小时，如0.001，这个参数的平方基本上就可以忽略了，模型不会进一步将这个参数调整为0 偏差方差偏差（bias）：偏差衡量了模型的预测值与实际值之间的偏离关系。通常在深度学习中，我们每一次训练迭代出来的新模型，都会拿训练数据进行预测，偏差就反应在预测值与实际值匹配度上，比如通常在keras运行中看到的准确度为96%，则说明是低偏差；反之，如果准确度只有70%，则说明是高偏差。方差（variance）：方差描述的是训练数据在不同迭代阶段的训练模型中，预测值的变化波动情况（或称之为离散情况）。从数学角度看，可以理解为每个预测值与预测均值差的平方和的再求平均数。通常在深度学习训练中，初始阶段模型复杂度不高，为低方差；随着训练量加大，模型逐步拟合训练数据，复杂度开始变高，此时方差会逐渐变高。 inception v2、v3区别 inception v3中使用的Aug loss里面使用了BN进行regularization

Processed: 0.008, SQL: 8