آموزش PyTorch با چند GPU: راهنمای کامل

PyTorch به عنوان یکی از محبوب‌ترین چارچوب‌های یادگیری عمیق شناخته می‌شود که توسط محققان و متخصصان به دلیل گراف محاسباتی پویا و سهولت استفاده مورد علاقه قرار گرفته است. با رشد مدل‌های یادگیری عمیق و افزایش پیچیدگی آن‌ها، آموزش آن‌ها به طور کارآمد نیاز به استفاده از قدرت چند GPU دارد. در این مقاله، به دنیای آموزش چند GPU با PyTorch خواهیم پرداخت و تکنیک‌هایی مانند DataParallel و DistributedDataParallel را برای افزایش سرعت آموزش مورد بررسی قرار خواهیم داد.

نیاز به سرعت: چرا چند GPU مهم است

آموزش مدل‌های پیشرفته یادگیری عمیق اغلب روزها یا حتی هفته‌ها طول می‌کشد. این سرعت کم در فرآیند آموزش می‌تواند پیشرفت تحقیقات را محدود کرده و به تأخیر انداختن استفاده از مدل‌ها در تولید را به دنبال داشته باشد. با توزیع آموزش بر روی چند GPU، می‌توانیم زمان مورد نیاز برای آموزش این مدل‌های بزرگ را به طور قابل توجهی کاهش دهیم.

دو رویکرد اصلی برای موازی‌سازی آموزش در PyTorch وجود دارد:

موازی‌سازی داده: مدل در هر GPU تکرار می‌شود و بخشی از داده در هر تکرار پردازش می‌شود. گرادیان‌ها پس از هر بار پردازش در سراسر GPU‌ها تجمیع می‌شوند.
موازی‌سازی مدل: بخش‌های مختلف مدل در سراسر GPU‌ها تقسیم می‌شوند، به طوری که هر GPU مسئول بخشی از پاس رو به جلو و پس به عقب است. این رویکرد کمتر رایج است و پیاده‌سازی آن پیچیده‌تر است.

در این مقاله، بر روی موازی‌سازی داده تمرکز خواهیم کرد، زیرا این رویکرد رایج‌ترین است و توسط ماژول‌های داخلی PyTorch به خوبی پشتیبانی می‌شود.

شروع کار با DataParallel

ماژول DataParallel PyTorch راهی ساده برای استفاده از چند GPU با حداقل تغییر در کد ارائه می‌دهد. این ماژول به طور خودکار داده ورودی را در سراسر GPU‌های موجود تقسیم کرده و گرادیان‌ها را در طول پاس به عقب تجمیع می‌کند.

اینجا یک مثال ساده از استفاده از DataParallel برای پوشش دادن یک مدل آورده شده است:

import torch
import torch.nn as nn
 
# تعریف مدل خود
model = nn.Sequential(
    nn.Li.ترجمه فارسی:
 
near(10, 20),
    nn.ReLU(),
    nn.Linear(20, 5)
)
 
# مدل را به GPU منتقل کنید
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model.to(device)
 
# مدل را با DataParallel بپیچانید
parallel_model = nn.DataParallel(model)

حال، هنگامی که ورودی را به parallel_model ارسال می‌کنید، به طور خودکار در میان GPU‌های موجود تقسیم می‌شود. ماژول جمع‌آوری خروجی‌ها و گرادیان‌ها را مدیریت می‌کند، که این امر برای بقیه کد آموزش شما شفاف است.

inputs = torch.randn(100, 10).to(device)
outputs = parallel_model(inputs)

مزایا و محدودیت‌ها

DataParallel استفاده آسانی دارد و می‌تواند سرعت‌بخشی خوبی را ارائه دهد هنگامی که چند GPU در یک ماشین داشته باشید. با این حال، برخی محدودیت‌ها نیز دارد:

تنها از آموزش چند GPU در یک فرآیند پشتیبانی می‌کند، بنابراین برای خوشه‌های بزرگ‌تر مناسب نیست.
مدل باید به طور کامل در حافظه هر GPU جا بگیرد، که این محدودیتی برای حداکثر اندازه مدل است.
ممکن است هزینه قابل توجهی برای کپی داده بین GPU‌ها، به ویژه با عملیات‌های کوچک زیاد، وجود داشته باشد.

با وجود این محدودیت‌ها، DataParallel برای بسیاری از موارد استفاده رایج یک گزینه خوب است و راه عالی برای شروع آموزش چند GPU در PyTorch است.

گسترش با DistributedDataParallel

برای مدل‌های بزرگ‌تر و خوشه‌ها، ماژول DistributedDataParallel (DDP) PyTorch رویکرد انعطاف‌پذیرتر و کارآمدتری را برای آموزش چند GPU ارائه می‌دهد. DDP از چندین فرآیند، هر کدام با GPU خود، برای موازی‌سازی آموزش استفاده می‌کند.

ویژگی‌های کلیدی DDP شامل موارد زیر است:

پشتیبانی چند فرآیندی: DDP می‌تواند به صدها GPU در چندین گره مقیاس پیدا کند، که امکان آموزش مدل‌های بسیار بزرگ را فراهم می‌کند.
ارتباطات کارآمد: از پشتیبان NCCL برای ارتباطات سریع GPU-to-GPU استفاده می‌کند، که هزینه را به حداقل می‌رساند.
همگام‌سازی گرادیان: DDP به طور خودکار گرادیان‌ها را در طول عبور به عقب بین فرآیندها همگام می‌کند.

اینجا مثالی از نحوه راه‌اندازی DDP در اسکریپت آموزش شما آورده شده است:

import torch
import torch.distributed as dist
import torch.multiprocessing as m.
```اینجا ترجمه فارسی فایل مارک‌داون است:
 
def train(rank, world_size):
    # فرایند گروه را مقداردهی اولیه کنید
    dist.init_process_group(backend='nccl', rank=rank, world_size=world_size)
    
    # مدل خود را تعریف کنید
    model = nn.Sequential(...)
    
    # مدل را با DDP بپیچانید
    model = nn.parallel.DistributedDataParallel(model, device_ids=[rank])
    
    # حلقه آموزش شما اینجا قرار دارد
    ...
 
def main():
    world_size = torch.cuda.device_count()
    mp.spawn(train, args=(world_size,), nprocs=world_size, join=True)
 
if __name__ == '__main__':
    main()

در این مثال، ما از torch.multiprocessing برای ایجاد یک فرایند برای هر GPU استفاده می‌کنیم. هر فرایند گروه فرایند خود را با استفاده از dist.init_process_group() مقداردهی اولیه می‌کند، با مشخص کردن رتبه و اندازه کل جهان.

سپس مدل با DDP پیچانده می‌شود، با ارسال لیست شناسه‌های دستگاه برای استفاده. در داخل حلقه آموزش، مدل می‌تواند به طور معمول استفاده شود، با DDP که مدیریت توزیع داده و گرادیان‌ها در میان فرایندها را بر عهده دارد.

مقایسه عملکرد

برای نشان دادن مزایای عملکردی آموزش چند GPU، بیایید زمان آموزش برای یک مدل ساده در یک GPU، با DataParallel و با DDP را مقایسه کنیم:

تنظیم	زمان آموزش (ثانیه)	افزایش سرعت
یک GPU	100	1x
DataParallel	55	1.8x
DDP (4 GPU)	30	3.3x

همان‌طور که می‌بینید، هر دو DataParallel و DDP سرعت قابل توجهی نسبت به آموزش تک GPU ارائه می‌دهند. DDP با افزایش تعداد GPU بهتر مقیاس‌پذیر است و در بسیاری از موارد می‌تواند به مقیاس‌پذیری نزدیک به خطی دست یابد.

بهترین شیوه‌های آموزش چند GPU

برای به دست آوردن بیشترین بازده از آموزش چند GPU در PyTorch، به این بهترین شیوه‌ها توجه کنید:

استراتژی موازی‌سازی مناسب را انتخاب کنید: از DataParallel برای موارد ساده با چند GPU استفاده کنید و به DDP برای مدل‌های بزرگ‌تر و خوشه‌ها تغییر دهید.
اندازه دسته‌ها را تنظیم کنید: اندازه دسته‌های بزرگ‌تر می‌تواند بهره‌وری GPU را بهبود بخشد و باعث کاهش هزینه ارتباطات شود. با اندازه‌های مختلف دسته آزمایش کنید.اینجا ترجمه فارسی فایل مارک‌داون است:

بهینه‌سازی مدل و سخت‌افزار خود برای پیدا کردن نقطه‌ی بهینه.

استفاده از دقت مختلط: ماژول torch.cuda.amp در PyTorch امکان آموزش با دقت مختلط را فراهم می‌کند، که می‌تواند استفاده از حافظه را به طور قابل توجهی کاهش دهد و عملکرد را در GPU های مدرن بهبود بخشد.
مدیریت حالت های تصادفی: مطمئن شوید که برای قابل تکرار بودن، بذرهای تصادفی را به صراحت تنظیم کنید و از torch.manual_seed() استفاده کنید تا هر فرآیند حالت تصادفی منحصر به فرد داشته باشد.
پروفایل‌گیری و بهینه‌سازی: از ابزارهای پروفایل‌گیری مانند PyTorch Profiler یا NVIDIA Nsight استفاده کنید تا نقاط ضعف عملکرد را شناسایی و کد خود را بهینه کنید.

مثال‌های واقعی

آموزش چند GPU برای دستیابی به نتایج پیشرفته در طیف گسترده‌ای از حوزه‌ها، از بینایی کامپیوتری تا پردازش زبان طبیعی، مورد استفاده قرار گرفته است. اینجا چند مثال قابل توجه آورده شده است:

BigGAN: محققان در DeepMind از PyTorch DDP برای آموزش مدل BigGAN بر روی 128 GPU استفاده کردند، تصاویری با کیفیت بالا و سطح بی‌سابقه‌ای از جزئیات و تنوع تولید کردند.
OpenAI GPT-3: مدل زبانی GPT-3 با 175 میلیارد پارامتر، بر روی یک خوشه‌ی 10,000 GPU با ترکیبی از موازی‌سازی مدل و داده آموزش داده شد.
AlphaFold 2: مدل تا کردن پروتئین AlphaFold 2 در DeepMind بر روی 128 هسته TPUv3 آموزش داده شد، که قابلیت مقیاس‌پذیری آموزش چند دستگاهی را فراتر از GPU ها نشان می‌دهد.

این مثال‌ها قدرت آموزش چند GPU را برای گسترش مرزهای آنچه با یادگیری عمیق ممکن است، به نمایش می‌گذارند.

نتیجه‌گیری

در این مقاله، به بررسی دنیای آموزش چند GPU با PyTorch پرداختیم، از مبانی DataParallel تا تکنیک‌های پیشرفته‌تر DistributedDataParallel. با بهره‌گیری از قدرت چند GPU، می‌توانید جریان‌های آموزشی خود را به طور قابل توجهی سرعت بخشید و به مدل‌های بزرگ‌تر و پیچیده‌تر بپردازید.

به یاد داشته باشید که استراتژی موازی‌سازی مناسب برای مورد استفاده خود را انتخاب کنید، پارامترهای تنظیم را تنظیم کنید و از بهترین شیوه‌ها برای عملکرد بهینه پیروی کنید. با رویکرد درست، آموزش چند GPU می‌تواند تحول‌آفرین در پروژه‌های یادگیری عمیق شما باشد.

برای آموزش بیشتر در مورد آموزش چند GPU.اینجا ترجمه فارسی فایل مارک‌داون است:

برای یادگیری موازی‌سازی در PyTorch، به این منابع اضافی نگاه کنید:

موفق باشید!

TensorFlow GPU: شتاب دادن به عملکرد یادگیری عمیق پردازش موازی در پایتون: راهنمای مبتدیان