PyTorch Training with Multiple GPUs: A Complete Guide

PyTorch стал одним из самых популярных фреймворков глубокого обучения, любимых исследователями и практиками за его динамические графики вычислений и простоту использования. По мере того, как модели глубокого обучения становятся все больше и сложнее, для их эффективного обучения требуется использование мощности нескольких GPU. В этой статье мы погрузимся в мир многоканального обучения с PyTorch, исследуя такие техники, как DataParallel и DistributedDataParallel, чтобы значительно ускорить ваши рабочие процессы обучения.

Необходимость в скорости: почему многоканальность важна

Обучение современных моделей глубокого обучения часто занимает дни или даже недели на одном GPU. Этот медленный темп итераций может препятствовать прогрессу исследований и задерживать внедрение моделей в производство. Распределяя обучение по нескольким GPU, мы можем значительно сократить время, необходимое для обучения этих больших моделей.

Существует два основных подхода к параллелизации обучения в PyTorch:

Параллелизм данных: Модель реплицируется на каждом GPU, и подмножество данных обрабатывается на каждой реплике. Градиенты накапливаются по GPU после каждого прохода.
Параллелизм модели: Различные части модели разделяются по GPU, при этом каждый GPU отвечает за часть прямого и обратного прохода. Это менее распространено и сложнее в реализации.

В этой статье мы сосредоточимся на параллелизме данных, так как это наиболее широко используемый подход и хорошо поддерживается встроенными модулями PyTorch.

Начало работы с DataParallel

Модуль DataParallel PyTorch предоставляет простой способ использовать несколько GPU с минимальными изменениями в коде. Он автоматически разделяет входные данные по доступным GPU и накапливает градиенты во время обратного прохода.

Вот простой пример использования DataParallel для обертывания модели:

import torch
import torch.nn as nn
 
# Определите вашу модель
model = nn.Sequential(
    nn.Li.Вот перевод на русский язык:
 
near(10, 20),
    nn.ReLU(),
    nn.Linear(20, 5)
)
 
# Перенесите модель на GPU
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model.to(device)
 
# Оберните модель с помощью DataParallel
parallel_model = nn.DataParallel(model)

Теперь, когда вы передаете ввод в parallel_model, он автоматически будет разделен между доступными GPU. Модуль обрабатывает сбор выходных данных и градиентов, делая это прозрачным для остальной части вашего кода обучения.

inputs = torch.randn(100, 10).to(device)
outputs = parallel_model(inputs)

Преимущества и ограничения

DataParallel легко использовать и может обеспечить хорошее ускорение, когда у вас есть несколько GPU на одном компьютере. Однако у него есть некоторые ограничения:

Он поддерживает только одно-процессное многоGPU-обучение, поэтому он плохо масштабируется на более крупные кластеры.
Модель должна полностью помещаться в памяти каждого GPU, что ограничивает максимальный размер модели.
Может быть значительное накладные расходы на копирование данных между GPU, особенно с множеством небольших операций.

Несмотря на эти ограничения, DataParallel является хорошим выбором для многих распространенных вариантов использования и является отличным способом начать работу с многоGPU-обучением в PyTorch.

Масштабирование с помощью DistributedDataParallel

Для более крупных моделей и кластеров модуль DistributedDataParallel (DDP) PyTorch предлагает более гибкий и эффективный подход к многоGPU-обучению. DDP использует несколько процессов, каждый со своим GPU, для параллельного обучения.

Ключевые особенности DDP включают:

Поддержка нескольких процессов: DDP может масштабироваться до сотен GPU на нескольких узлах, позволяя обучать очень большие модели.
Эффективная связь: Он использует NCCL-бэкенд для быстрой связи GPU-to-GPU, сводя к минимуму накладные расходы.
Синхронизация градиентов: DDP автоматически синхронизирует градиенты между процессами во время обратного прохода.

Вот пример настройки DDP в вашем скрипте обучения:

import torch
import torch.distributed as dist
import torch.multiprocessing as m.
```Вот перевод на русский язык:
 
def train(rank, world_size):
    # Инициализировать группу процессов
    dist.init_process_group(backend='nccl', rank=rank, world_size=world_size)
    
    # Определить вашу модель
    model = nn.Sequential(...)
    
    # Обернуть модель в DDP
    model = nn.parallel.DistributedDataParallel(model, device_ids=[rank])
    
    # Ваш цикл обучения находится здесь
    ...
 
def main():
    world_size = torch.cuda.device_count()
    mp.spawn(train, args=(world_size,), nprocs=world_size, join=True)
 
if __name__ == '__main__':
    main()

В этом примере мы используем torch.multiprocessing для создания процесса для каждого GPU. Каждый процесс инициализирует свою собственную группу процессов с помощью dist.init_process_group(), указывая свой ранг и общий размер мира.

Затем модель оборачивается в DDP, передавая список идентификаторов устройств для использования. Внутри цикла обучения модель может использоваться как обычно, при этом DDP будет обрабатывать распределение данных и градиентов между процессами.

Сравнение производительности

Чтобы проиллюстрировать преимущества многоГПУ-обучения, давайте сравним время обучения для простой модели на одном GPU, с DataParallel и с DDP:

Настройка	Время обучения (с)	Ускорение
Один GPU	100	1x
DataParallel	55	1.8x
DDP (4 GPU)	30	3.3x

Как мы видим, как DataParallel, так и DDP обеспечивают значительное ускорение по сравнению с обучением на одном GPU. DDP масштабируется лучше с большим количеством GPU и может достигать почти линейного масштабирования во многих случаях.

Лучшие практики для многоГПУ-обучения

Чтобы получить максимальную отдачу от многоГПУ-обучения в PyTorch, имейте в виду следующие лучшие практики:

Выбирайте правильную стратегию параллелизма: используйте DataParallel для простых случаев с несколькими GPU, а переходите на DDP для больших моделей и кластеров.
Настраивайте размеры пакетов: более крупные размеры пакетов могут улучшить использование GPU и уменьшить накладные расходы на связь. Экспериментируйте с разными размерами пакетов.Вот перевод на русский язык:

Найдите оптимальную точку для вашей модели и оборудования.

Используйте смешанную точность: Модуль torch.cuda.amp в PyTorch позволяет использовать обучение с смешанной точностью, что может значительно уменьшить использование памяти и улучшить производительность на современных GPU.
Обрабатывайте случайные состояния: Обязательно явно устанавливайте случайные семена для воспроизводимости и используйте torch.manual_seed(), чтобы обеспечить уникальное случайное состояние для каждого процесса.
Профилируйте и оптимизируйте: Используйте инструменты профилирования, такие как PyTorch Profiler или NVIDIA Nsight, чтобы выявить узкие места производительности и оптимизировать ваш код.

Примеры из реальной жизни

Обучение на нескольких GPU использовалось для достижения результатов, соответствующих современному уровню, в широком спектре областей, от компьютерного зрения до обработки естественного языка. Вот несколько примечательных примеров:

BigGAN: Исследователи из DeepMind использовали PyTorch DDP для обучения модели BigGAN на 128 GPU, генерируя высококачественные изображения с беспрецедентным уровнем детализации и разнообразия.
OpenAI GPT-3: Языковая модель GPT-3 с 175 миллиардами параметров была обучена на кластере из 10 000 GPU с использованием комбинации параллелизма модели и данных.
AlphaFold 2: Модель складывания белков AlphaFold 2 от DeepMind была обучена на 128 ядрах TPUv3, демонстрируя масштабируемость обучения на нескольких устройствах, выходящую за рамки только GPU.

Эти примеры демонстрируют силу обучения на нескольких GPU для расширения границ того, что возможно с глубоким обучением.

Заключение

В этой статье мы исследовали мир обучения на нескольких GPU с PyTorch, от основ DataParallel до продвинутых техник DistributedDataParallel. Используя мощность нескольких GPU, вы можете значительно ускорить ваши рабочие процессы обучения и решать более крупные и сложные модели.

Не забывайте выбирать правильную стратегию параллелизма для вашего случая использования, настраивать гиперпараметры и следовать передовым практикам для оптимальной производительности. При правильном подходе обучение на нескольких GPU может стать решающим фактором для ваших проектов глубокого обучения.

Чтобы узнать больше об обучении на нескольких GPU.Вот перевод на русский язык:

Для получения дополнительной информации о параллельном обучении в PyTorch, ознакомьтесь с этими дополнительными ресурсами:

Успешного обучения!

Llm Training TensorFlow GPU: Ускорение производительности глубокого обучения