参考: https://github.com/ufoym/imbalanced-dataset-sampler
最近在做行人属性相关工程,遇到个样本不均衡问题。 问题描述:行人属性中很多属性不平衡,例如,戴帽子和不戴帽子的人的比例很悬殊,我们的训练集就会出现数据不均衡现象。 针对这种现象,我们采用一种数据均衡采样器解决,思路是这样的,每个线程以1/2概率从戴帽子和不戴帽子的图像队列中取出数据。这样即可保证带帽和不戴帽的数据生成相对均衡。
类似的,假如是多任务多属性的话,可以通过设置不同任务以及不同属性的概率权重达到产生均衡数据的数据生成器的作用。
总结:分类样本不均衡就是利用re-sample 要么:1.over-sampling,复制样本数较少的类别的样本 2.under-sampling,删除样本数量较多的类别的样本