摘要
越来越大的神经网络和越来越大的数据集使得训练时间越来越长,阻碍了研究的进行。分布式的同步SGD通过将SGD的minibatches划分为一系列并行的worker,可能为上面的问题提供一个可能的解决方案。为了让这个方案尽量高效,每个worker的负载必须足够大,这使得SGD的minibatched变得很大。在这篇论文中,作者展示了当minibatched变得很大时,ImageNet数据集的训练过程会变得很困难,但是如果解决了这个问题,训练过的网络会展示出很好的泛化性能。特别的,作者在文章中展示了当minibatch的大小扩张到8192时,整个网络的准确率也没有下降。为了达到这个效果,文章采用了一种没有超参数的线性缩放规则,这个规则是一个关于minibatch的函数,通过这样的规则来调整学习率,同时开发出了一种新的warmup机制来克服早期的优化困难。