当前位置: 包装机器 >> 包装机器资源 >> 谷歌,DeepMind,微软和Uber大
大规模训练是在现实世界中构建深度学习解决方案最具挑战性的方面之一。从训练到优化,深度学习程序的生命周期需要健壮的基础设施构建块,以便能够并行化和扩展计算工作负载。尽管深度学习框架正在快速发展,但相应的基础架构模型仍处于初期阶段。在过去的几年中,技术巨头Google,Microsoft,Uber,DeepMind和其他公司定期发布了研究成果,以实现跨大型GPU基础架构的深度学习模型的并行化。
分布式和并行化计算的原理与深度学习程序生命周期的几乎所有阶段都息息相关。训练一个深度学习模型是一项非常昂贵的练习,它的执行也是如此。显而易见的答案是,可以利用大型GPU网络来分配深度学习程序的工作负载,但这绝非易事。众所周知,并发和并行编程是非常复杂的,在应用于大型神经网络时更是如此。今天,我想回顾一下在谷歌、DeepMind、Microsoft和Uber中用于并行化大规模深度学习模型训练的一些顶级架构。
谷歌的GPipe
GPipe专注于为深度学习项目扩展训练工作量。从基础架构的角度来看,训练过程的复杂性是深度学习模型中经常被忽视的一个方面。训练数据集越来越大,越来越复杂。例如,在卫生保健领域,遇到需要使用数百万高分辨率图像进行训练的模型并不罕见。结果,训练过程通常要花很长时间才能完成,由于内存和CPU消耗而导致的成本也非常高。
将深度学习模型的并行性分为数据并行性和模型并行性是研究深度学习模型并行性的有效方法。数据并行方法使用大量的机器集群来拆分输入数据。模型并行性尝试将模型移至具有专用硬件以加速模型训练的加速器,例如GPU或TPU。几乎所有的训练数据集都可以按照一定的逻辑并行化,但模型却不是这样。例如,一些深度学习模型是由可以独立训练的并行分支组成的。在这种情况下,典型的策略是将计算划分为分区,并将不同的分区分配给不同的分支。然而,这种策略在顺序堆叠层的深度学习模型中存在不足,这给高效地并行化计算带来了挑战。
GPipe利用一种称为管道的技术,将数据和模型并行性结合起来。从概念上讲,GPipe是一个分布式机器学习库,它使用同步随机梯度下降和管道并行性进行训练,适用于任何由多个连续层组成的DNN。GPipe将一个模型划分到不同的加速器上,并自动将一个小批量的训练实例分割成更小的微批量。该模型允许GPipe的加速器并行运行,以最大限度地提高训练过程的可伸缩性。
下图说明了神经网络的GPipe模型在四个加速器之间的划分。Fk是第k个划分的复合正向计算函数。Bk是对应的反向传播函数。Bk既依赖于上层的Bk+1,也依赖于Fk的中间激活。在模型上部中,我们可以看到网络的顺序特性是如何导致资源利用不足的。图片下部显示了GPipe方法,其中输入的mini-batch被分成更小的macro-batches,这些macro-batches可以由加速器同时处理。
UberHorovod
Horovod是在社区中变得极为流行的UberML堆栈之一,并已被DeepMind或OpenAI等AI巨头的研究团队采用。从概念上讲,Horovod是用于大规模运行分布式深度学习训练工作的框架。
Horovod利用诸如OpenMPI之类的消息传递接口栈来使训练作业能够在高度并行且分布式的基础架构上运行,而无需进行任何修改。通过以下四个简单的步骤即可在Horovod中运行分布式TensorFlow训练工作:
hvd.init()初始化Horovod。config.gpu_options.visible_device_list=str(hvd.local_rank())为每个TensorFlow进程分配一个GPU。opt=hvd.DistributedOptimizer(opt)使用Horovod优化器包装任何常规的TensorFlow优化器,该优化器使用ring-allreduce来平均梯度。hvd.BroadcastGlobalVariablesHook(0)将变量从第一个进程广播到所有其他进程,以确保一致的初始化。这是基本TensorFlow训练作业的模板:
DeepMind的TF-Replicator
TF-Replicator专注于与TensorFlow程序如何利用Tensor处理单元(TPU)相关的可伸缩性的不同方面。TPU被认为是最先进的AI芯片之一,可为机器学习工作负载提供本地可扩展性。但是,在TensorFlow程序中使用TPU需要专用的API,这会给不熟悉底层硬件模型的数据科学家带来可移植性问题和采用障碍。DeepMind的TF复制器通过提供一个更简单,友好的开发程序模型来利用TensorFlow程序中的TPU,从而解决了这一难题。
TF-Replicator
转载请注明:http://www.aideyishus.com/lkzp/4353.html