AI & GPU
Deep Learning Multiple Gpus

title: "如何构建多个 GPU 用于深度学习"

如何构建多个 GPU 用于深度学习

深度学习已经彻底改变了人工智能领域,使得机器能够从大量数据中学习并做出准确的预测。然而,训练深度学习模型可能会耗费大量时间和计算资源。这就是多个 GPU 发挥作用的地方,它们提供了一种强大的解决方案来加速训练过程。在本文中,我们将探讨如何利用多个 GPU 进行深度学习,涵盖并行策略、主流框架中的多 GPU 支持、性能基准测试以及部署模型。

理解多个 GPU 在深度学习中的优势

GPU 已经成为深度学习的首选硬件,因为它们能够进行并行处理。与擅长处理复杂逻辑和一般任务的 CPU 不同,GPU 被设计用于处理高度重复和并行的计算。通过利用多个 GPU,您可以显著加快深度学习模型的训练速度,使您能够处理更大的数据集并在更短的时间内构建更准确的模型。

利用并行处理加速深度学习

使用多个 GPU 进行深度学习的一个关键优势是能够并行化训练过程。与顺序处理数据不同,您可以将工作负载分布在多个 GPU 上,使它们能够同时工作。这种并行处理可以带来显著的性能提升,通常可以将训练时间从数天或数周缩短到几个小时。

例如,Krizhevsky 等人 [1] 的研究表明,在训练卷积神经网络 (CNN) 时,使用 2 个 GPU 可以提供 1.7 倍的加速,相比于单个 GPU。此外,他们使用 4 个 GPU 实现了 3.5 倍的加速,使用 8 个 GPU 实现了 6.2 倍的加速,展示了多 GPU 训练的可扩展性。

多 GPU 加速 *图 1:在训练 ImageNet 上的 CNN 时,使用多个 GPU 所获得的加速效果[1]。

利用模型并行来克服内存限制

多个 GPU 的另一个好处是能够克服内存限制。在训练大型和复杂的深度学习模型时,模型参数可能会超过单个 GPU 的内存容量。通过采用模型并行,您可以将模型分散到多个 GPU 上,让每个 GPU 处理模型的一部分。这使您能够训练那些无法在单个 GPU 上运行的模型。

用于多 GPU 深度学习的并行策略

为了充分利用多个 GPU 的力量,您需要在深度学习工作流中实施并行策略。并行的主要方法有两种:模型并行和数据并行。

模型并行:在 GPU 之间拆分模型

模型并行涉及将深度学习模型划分为较小的子模型,并将每个子模型分配给不同的 GPU。当处理无法完全装入单个 GPU 内存的大型模型时,这种策略特别有用。通过将模型分散到多个 GPU 上,您可以并行训练整个模型,每个 GPU 专注于模型的特定部分。

模型并行 图 2: 模型并行的示意图,模型被拆分到多个 GPU 上[2]。

数据并行:在 GPU 之间分配数据

另一方面,数据并行涉及创建相同模型的多个副本,并将每个副本分配给不同的 GPU。每个 GPU 并行处理部分训练数据,然后将所有副本的梯度平均以更新模型参数。当您有一个可以轻易划分为较小子集的大型数据集时,数据并行是有效的。

数据并行 图 3: 数据并行的示意图,数据被分散到多个 GPU 上[2]。

Goyal 等人的研究[3]展示了这种方法的效果。

[1] 原文出处: Speedup achieved with multiple GPUs when training a CNN on ImageNet (opens in a new tab) [2] 图片来源: Parallelism and Concurrency in Deep Learning (opens in a new tab) [3] Goyal, P., Dollár, P., Girshick, R., Noordhuis, P., Wesolowski, L., Kyrola, A., ... & He, K. (2017). Accurate, large minibatch SGD: training imagenet in 1 hour. arXiv preprint arXiv:1706.02677. 数据并行的有效性通过使用 256 个 GPU 在 ImageNet 数据集上训练 ResNet-50 模型来验证。他们实现了仅 1 小时的训练时间,而使用 8 个 GPU 时需要 29 小时。这展示了数据并行的可扩展性和效率,可加速深度学习训练。

深度学习框架中的多 GPU 支持

流行的深度学习框架,如 TensorFlow 和 PyTorch,提供了内置的多 GPU 训练支持,使得利用多个 GPU 的能力变得更加容易。

TensorFlow: 用于多 GPU 训练的分布式策略

TensorFlow 提供了 tf.distribute.Strategy API,允许您将训练工作负载分布在多个 GPU 或多台机器上。MirroredStrategy 专门设计用于单机多 GPU 训练,而 TPUStrategy 则可以利用张量处理单元 (TPU) 进行加速训练。

使用 TensorFlow 的分布式策略,您可以轻松地划分数据集、创建模型副本,并在 GPU 之间平均梯度。框架处理分布式训练的底层细节,让您可以专注于构建和训练模型。

PyTorch: 用于多 GPU 训练的并行类

PyTorch 提供了几个并行类,以便于进行多 GPU 训练。DataParallel 类可以在单台机器上的多个 GPU 上分布模型副本,而 DistributedDataParallel 类则扩展了这一功能,支持在多台机器上进行分布式训练。

PyTorch 还提供了 model_parallel 模块,允许您将大型模型拆分到多个 GPU 上。此模块支持同时进行模型并行和数据并行,为您的训练设置提供了灵活性。

性能基准和可扩展性

为了展示使用多个 GPU 所获得的性能提升,让我们看看一些基准测试和可扩展性研究。

Shallue 等人... al. [4] 对使用 TPU 进行深度学习训练的可扩展性进行了研究。他们在 ImageNet 数据集上训练了一个 ResNet-50 模型,并观察到最多可以线性扩展到 1024 个 TPU。使用 1024 个 TPU,他们每个 epoch 的训练时间仅为 2.2 分钟,而使用单个 TPU 时每个 epoch 需要 256 分钟。

TPU 可扩展性 图 4: 使用 TPU 训练 ResNet-50 模型在 ImageNet 上的可扩展性[4]。

同样地, Yamazaki 等人 [5] 展示了使用 BERT 模型在 SQuAD 数据集上进行多 GPU 训练的可扩展性。与单个 GPU 相比,他们在使用 512 个 GPU 时实现了 46.5 倍的加速,展示了大型语言模型训练加速的潜力。

多 GPU 深度学习的部署模型

在部署多 GPU 深度学习解决方案时,有几种不同的部署模型可供选择,每种模型都有其自身的优势和使用场景。

GPU 服务器: 结合 CPU 和 GPU

GPU 服务器是功能强大的机器,它们集成了多个 GPU 和一个或多个 CPU。在这种设置中,CPU 充当中央管理中心,负责将任务分配给 GPU 并收集结果。GPU 服务器非常适合于小规模部署或实验,允许您在扩展之前对多 GPU 代码进行原型设计和测试。

GPU 集群: 通过多个节点进行扩展

GPU 集群由多个节点组成,每个节点包含一个或多个 GPU。这些集群可以是同构的(所有节点具有相同的 GPU 配置)或异构的(节点具有不同的 GPU 配置)。GPU 集群使您能够扩展深度学习工作负载,训练非常大的模型或处理大规模数据集。

使用 Kubernetes 进行 GPU 编排

Kubernetes 是一个流行的容器编排平台,支持在容器化环境中使用 GPU。使用 Kubernetes,您可以动态地将 GPU 分配给不同的工作负载,确保资源的高效利用。Kubernetes 提供了可移植性和可扩展性,使您能够轻松地在不同的基础设施上部署和管理您的深度学习解决方案。适用于多GPU部署的可扩展性,使您能够轻松管理和部署跨不同环境的深度学习解决方案。

结论

多GPU已成为加速深度学习模型训练的重要工具。通过利用模型并行和数据并行等并行策略,您可以利用多个GPU的力量来训练更大的模型并在更短的时间内处理大量数据。

TensorFlow和PyTorch等深度学习框架提供了对多GPU训练的内置支持,使实现分布式训练工作流程变得更加容易。性能基准测试和可扩展性研究表明,使用多个GPU可以实现显著的加速效果,展示了它们在加速深度学习研究和应用方面的潜力。

无论您选择在GPU服务器、GPU集群还是Kubernetes上部署您的多GPU解决方案,对部署模型的细致考虑都是实现最佳性能和可扩展性的关键。

随着深度学习领域的不断发展,多GPU的重要性将越来越大。通过掌握多GPU深度学习的技术和最佳实践,您可以保持在这一激动人心的领域的领先地位,并开启人工智能新的可能性。

参考文献

[1] Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). ImageNet classification with deep convolutional neural networks. Advances in neural information processing systems, 25.

[2] Li, S., Zhao, Y., Varma, R., Salpekar, O., Noordhuis, P., Li, T., ... & Chintala, S. (2020). PyTorch distributed: Experiences on accelerating data parallel training. arXiv preprint arXiv:2006.15704.

[3] Goyal, P., Dollár, P., Girshick, R., Noordhuis, P., Wesolowski, L., Kyrola, A., ... & He, K. (2017). Accurate, large minibatch SGD: Training imagenet in 1 hour. arXiv preprint arXiv:1706.02677.

[4] Shallue, C. J., Lee, J., Antognini, J., Sohl-Dickstein, J., Frostig, R., & Dahl, G. E. (201.8). 测量数据并行对神经网络训练的影响. arXiv 预印本 arXiv:1811.03600.

[5] Yamazaki, M., Kasagi, A., Tabuchi, A., Honda, T., Miwa, M., Fukumoto, N., ... & Tabaru, T. (2019). 另一种加速的 SGD: 在 74.7 秒内在 ImageNet 上训练 ResNet-50. arXiv 预印本 arXiv:1903.12650.