title: "TensorFlow GPU: Tăng tốc hiệu suất học sâu"

TensorFlow GPU: Tăng tốc hiệu suất học sâu

Giới thiệu

Học sâu đã cách mạng hóa lĩnh vực trí tuệ nhân tạo, cho phép đạt được những bước tiến đột phá trong thị giác máy tính, xử lý ngôn ngữ tự nhiên và nhiều lĩnh vực khác. Trái tim của cuộc cách mạng này là TensorFlow, một khuôn khổ học máy nguồn mở được phát triển bởi Google. Mặc dù TensorFlow có thể chạy trên CPU, việc khai thác sức mạnh của GPU là thiết yếu để đào tạo và suy luận hiệu quả các mạng nơ-ron phức tạp. Trong bài viết này, chúng tôi sẽ khám phá cách TensorFlow tận dụng GPU để tăng tốc các tải công việc học sâu và cung cấp một hướng dẫn toàn diện về cài đặt và tối ưu hóa hiệu suất TensorFlow GPU.

Các khái niệm chính

GPU so với CPU

GPU (Bộ xử lý đồ họa) là phần cứng chuyên dụng được thiết kế để xử lý song song lượng lớn dữ liệu. Chúng chứa hàng nghìn lõi được tối ưu hóa cho các phép tính số dấu phẩy động, khiến chúng trở nên lý tưởng cho các tính toán học sâu.
CPU (Bộ xử lý trung tâm) là bộ xử lý đa năng xuất sắc trong các tác vụ tuần tự và logic phức tạp. Mặc dù CPU có thể xử lý các tải công việc học sâu, chúng chậm hơn đáng kể so với GPU.

CUDA và cuDNN

CUDA (Compute Unified Device Architecture) là một nền tảng tính toán song song và mô hình lập trình được phát triển bởi NVIDIA. Nó cho phép các nhà phát triển khai thác sức mạnh của GPU NVIDIA cho các tính toán mục đích chung.
cuDNN (CUDA Deep Neural Network library) là một thư viện được gia tốc bởi GPU dành cho các nguyên nguyên cơ bản của mạng nơ-ron sâu. Nó cung cấp các triển khai được tối ưu hóa cao của các hoạt động học sâu phổ biến, chẳng hạn như tích chập, gộp và các hàm kích hoạt.

Hỗ trợ GPU của TensorFlow

TensorFlow cung cấp tích hợp trơn tru với GPU NVIDIA thông qua việc sử dụng CUDA và cuDNN. Nó tự động phát hiện các GPU có sẵn và phân phối tải công việc tính toán trên chúng. TensorFlow hỗ trợ một loạt kiến trúc GPU NVIDIA khác nhau.

Turing (RTX 20 series)
Volta (Tesla V100)
Pascal (GTX 10 series, Titan X)
Maxwell (GTX 900 series)
Kepler (GTX 600/700 series)

Thiết lập TensorFlow GPU

Yêu cầu về phần cứng

Để chạy TensorFlow với tăng tốc GPU, bạn cần một GPU NVIDIA với khả năng tính toán từ 3.5 trở lên. Một số lựa chọn phổ biến bao gồm:

NVIDIA GeForce RTX 2080 Ti
NVIDIA Tesla V100
NVIDIA Titan RTX

Đảm bảo rằng hệ thống của bạn có CPU, RAM và nguồn điện đủ để hỗ trợ GPU.

Yêu cầu về phần mềm

Trình điều khiển GPU NVIDIA (phiên bản 418.x trở lên)
CUDA Toolkit (phiên bản 10.1 trở lên)
cuDNN (phiên bản 7.6 trở lên)
Python (phiên bản 3.5-3.8)
Gói TensorFlow GPU

Các bước cài đặt

Cài đặt trình điều khiển GPU NVIDIA từ trang web chính thức của NVIDIA.
Tải xuống và cài đặt CUDA Toolkit từ trang web tải xuống NVIDIA CUDA.
Tải xuống cuDNN từ trang web NVIDIA cuDNN (yêu cầu tài khoản NVIDIA Developer).
Giải nén các tệp cuDNN và sao chép chúng vào thư mục CUDA Toolkit.
Tạo một môi trường ảo Python mới và kích hoạt nó.
Cài đặt gói TensorFlow GPU bằng cách sử dụng pip:

pip install tensorflow-gpu

Xác minh cài đặt bằng cách chạy mã Python sau:

import tensorflow as tf
print("Num GPUs Available: ", len(tf.config.list_physical_devices('GPU')))

Nếu đầu ra hiển thị một hoặc nhiều GPU, cài đặt đã thành công.

Các thao tác cơ bản của TensorFlow GPU

Kích hoạt hỗ trợ GPU

Theo mặc định, TensorFlow tự động sử dụng các GPU có sẵn cho các tính toán. Bạn có thể kích hoạt hoặc vô hiệu hóa hỗ trợ GPU bằng cách sử dụng mã sau:

import tensorflow as tf
 
# Kích hoạt GPU
tf.config.set_visible_devices(tf.config.list_physical_devices('GPU'), 'GPU')
 
# Vô hiệu hóa GPU
tf.config.set_visible_devices([], 'GPU')

Ghi nhật ký vị trí thiết bị

Để xem TensorFlow đang sử dụng thiết bị nào cho từng thao tác, bạn có thể kích hoạt ghi nhật ký vị trí thiết bị:

tf.debugging.set_log_device_placement(True)

Điều này sẽ in ra thiết bị (CPU hoặc GPU) mà mỗi hoạt động được thực hiện.

### Đặt Thiết Bị Thủ Công

Bạn có thể đặt các hoạt động cụ thể trên CPU hoặc GPU bằng cách sử dụng bối cảnh quản lý `tf.device`:

```python
with tf.device('/CPU:0'):
    # Các hoạt động được đặt trên CPU
    cpu_output = tf.math.reduce_sum(tf.random.normal([1000, 1000]))

with tf.device('/GPU:0'):
    # Các hoạt động được đặt trên GPU
    gpu_output = tf.math.reduce_sum(tf.random.normal([1000, 1000]))

Giới Hạn Tăng Trưởng Bộ Nhớ GPU

Theo mặc định, TensorFlow cấp phát tất cả bộ nhớ GPU có sẵn cho chính nó, điều này có thể dẫn đến lỗi hết bộ nhớ. Để ngăn chặn điều này, bạn có thể cấu hình TensorFlow để cấp phát bộ nhớ GPU một cách động:

gpus = tf.config.list_physical_devices('GPU')
if gpus:
    try:
        for gpu in gpus:
            tf.config.experimental.set_memory_growth(gpu, True)
    except RuntimeError as e:
        print(e)

Điều này cho phép TensorFlow dần dần cấp phát bộ nhớ GPU khi cần, giảm nguy cơ xảy ra lỗi hết bộ nhớ.

So Sánh Hiệu Suất: CPU vs GPU

Để minh họa lợi ích về hiệu suất khi sử dụng GPU với TensorFlow, hãy so sánh thời gian đào tạo của một mạng nơ-ron tích chập đơn giản trên tập dữ liệu MNIST bằng CPU và GPU.

Đào Tạo trên CPU

import tensorflow as tf
from tensorflow.keras.datasets import mnist
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense
 
(x_train, y_train), (x_test, y_test) = mnist.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0
x_train = x_train[..., tf.newaxis]
x_test = x_test[..., tf.newaxis]
 
model = Sequential([
    Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1)),
    MaxPooling2D((2, 2)),
    Conv2D(64, (3, 3), activation='relu'),
    MaxPooling2D((2, 2)),
    Conv2D(64, (3, 3), activation='relu'),
    Flatten(),
    Dense(64, activation='relu'),
    Dense(10)
])
 
model.compile(optimizer='adam',
   .

loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True), metrics=['accuracy'])

with tf.device('/CPU:0'):

Huấn luyện mô hình trên CPU

model.fit(x_train, y_train, epochs=5, batch_size=64, validation_data=(x_test, y_test))


Trên một CPU Intel Core i7-9700K, quá trình huấn luyện mất khoảng 100 giây mỗi epoch.

### Huấn luyện trên GPU

Để huấn luyện cùng mô hình này trên GPU, chỉ cần loại bỏ bối cảnh quản lý `tf.device`:

```python
# Huấn luyện mô hình trên GPU
model.fit(x_train, y_train, epochs=5, batch_size=64, validation_data=(x_test, y_test))

Trên một GPU NVIDIA GeForce RTX 2080 Ti, quá trình huấn luyện mất khoảng 10 giây mỗi epoch, tăng tốc khoảng 10 lần so với CPU.

Kết quả này cho thấy việc sử dụng GPU mang lại lợi ích đáng kể về hiệu suất cho các tác vụ học sâu. Tốc độ tăng lên càng rõ rệt với các mô hình và tập dữ liệu lớn hơn.

Huấn luyện đa GPU và phân tán

TensorFlow hỗ trợ huấn luyện đa GPU và phân tán, cho phép bạn mở rộng các mô hình của mình trên nhiều GPU và máy tính để đạt thời gian huấn luyện nhanh hơn.

Huấn luyện đa GPU

Để sử dụng nhiều GPU trên một máy duy nhất, bạn có thể sử dụng API tf.distribute.MirroredStrategy:

# Sử dụng chiến lược phân tán trên nhiều GPU
strategy = tf.distribute.MirroredStrategy()
 
with strategy.scope():
    # Xây dựng mô hình trong phạm vi chiến lược
    model = Sequential([
        Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1)),
        MaxPooling2D((2, 2)),
        Conv2D(64, (3, 3), activation='relu'),
        MaxPooling2D((2, 2)),
        Conv2D(64, (3, 3), activation='relu'),
        Flatten(),
        Dense(64, activation='relu'),
        Dense(10)
    ])
 
    model.compile(optimizer='adam',
                  loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
                  metrics=['accuracy'])
 
# Huấn luyện mô hình trên nhiều GPU
model.fit(x_train, y_train, epochs=5, batch_size=64, validation_data=(x_test, y_test))

MirroredStrategy tự động phân phối mô hình và dữ liệu trên các GPU có sẵn, giảm thời gian huấn luyện tương ứng với số lượng GPU.Đào tạo phân tán

Đối với việc đào tạo quy mô lớn trên nhiều máy, TensorFlow cung cấp API tf.distribute.experimental.MultiWorkerMirroredStrategy:

# Tạo một chiến lược đào tạo phân tán
strategy = tf.distribute.experimental.MultiWorkerMirroredStrategy()
 
with strategy.scope():
    # Xây dựng mô hình
    model = Sequential([
        Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1)),
        MaxPooling2D((2, 2)),
        Conv2D(64, (3, 3), activation='relu'),
        MaxPooling2D((2, 2)),
        Conv2D(64, (3, 3), activation='relu'),
        Flatten(),
        Dense(64, activation='relu'),
        Dense(10)
    ])
 
    # Biên dịch mô hình
    model.compile(optimizer='adam',
                  loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
                  metrics=['accuracy'])
 
# Huấn luyện mô hình
model.fit(x_train, y_train, epochs=5, batch_size=64, validation_data=(x_test, y_test))

MultiWorkerMirroredStrategy xử lý việc giao tiếp và đồng bộ hóa giữa các worker, cho phép bạn mở rộng việc đào tạo của mình lên nhiều máy với ít thay đổi mã nguồn.

Các trường hợp sử dụng và ứng dụng

Tăng tốc GPU của TensorFlow đã cho phép đạt được những bước tiến quan trọng trong nhiều lĩnh vực, bao gồm:

Thị giác máy tính
- Phân loại hình ảnh
- Phát hiện đối tượng
- Phân đoạn ngữ nghĩa
- Nhận dạng khuôn mặt
Xử lý ngôn ngữ tự nhiên
- Dịch ngôn ngữ
- Tạo văn bản
- Phân tích cảm xúc
- Nhận dạng thực thể có tên
Mô hình sinh
- Mạng đối kháng sinh (GANs)
- Bộ tự mã hóa biến phân (VAEs)
- Chuyển đổi phong cách
- Tăng cường độ phân giải ảnh
Tính toán khoa học và số học
- Mô phỏng vật lý
- Hóa học tính toán
- Sinh học tin học
- Mô hình tài chính
Điều chỉnh siêu tham số và tìm kiếm kiến trúc mạng nơ-ron
- Tối ưu hóa mô hình tự động
- Khám phá hiệu quả không gian siêu tham số
- Tìm ra các kiến trúc mạng nơ-ron mới

Đây chỉ là một số ví dụ về các ứng dụng rộng rãi của tăng tốc GPU TensorFlow. Khi lĩnh vực học sâu tiếp tục phát triển, chúng ta sẽ chứng kiến nhiều ứng dụng mới nổi.

Kết luận

Trong bài viết này, chúng tôi đã khám phá sức mạnh của gia tốc GPU TensorFlow cho các tải công việc học sâu. Chúng tôi đã bao gồm các khái niệm chính về tính toán GPU, các bước để thiết lập TensorFlow với hỗ trợ GPU và các thao tác cơ bản để tận dụng GPU trong mã TensorFlow của bạn. Chúng tôi cũng đã chứng minh những lợi ích về hiệu suất đáng kể đạt được bằng cách sử dụng GPU so với CPU và thảo luận về các chiến lược đào tạo đa GPU và phân tán để mở rộng các mô hình lên các tập dữ liệu lớn hơn và các kiến trúc phức tạp hơn.

Khi nhu cầu về học sâu nhanh hơn và hiệu quả hơn ngày càng tăng, GPU sẽ tiếp tục là một công cụ thiết yếu cho cả các nhà nghiên cứu và các nhà thực hành. Bằng cách khai thác sức mạnh của gia tốc GPU TensorFlow, bạn có thể mở khóa các khả năng mới trong trí tuệ nhân tạo và giải quyết những vấn đề khó khăn nhất trong lĩnh vực của bạn.

Vì vậy, cho dù bạn là người mới bắt đầu hành trình học sâu của mình hay là một nhà thực hành có kinh nghiệm đang tìm cách tối ưu hóa các mô hình của mình, việc ôm ấp gia tốc GPU TensorFlow là một bước quan trọng để đạt được kết quả tiên tiến nhất và đẩy mạnh những gì có thể với học máy.

Low Gpu Utilization Xử lý song song trong Python: Hướng dẫn dành cho người mới bắt đầu