Глава 12: Будущие тенденции и новые технологии в разработке GPU

Поскольку архитектура GPU продолжает развиваться, чтобы удовлетворить растущие потребности параллельных вычислительных нагрузок, несколько новых тенденций и технологий готовы сформировать будущее дизайна GPU. В этой главе мы исследуем некоторые из этих ключевых тенденций, включая гетерогенные вычисления и ускорители, 3D-стекирование и чипледный дизайн, предметно-ориентированные архитектуры для ИИ и машинного обучения, а также открытые исследовательские проблемы и возможности в архитектуре GPU.

Гетерогенные вычисления и ускорители

Гетерогенные вычисления, которые объединяют различные типы процессоров или ускорителей для достижения более высокой производительности и энергоэффективности, стали все более распространенными в последние годы. GPU находятся на переднем крае этой тенденции, часто сочетаясь с ЦПУ для ускорения параллельных рабочих нагрузок. Однако ландшафт ускорителей быстро расширяется, с разработкой новых типов специализированного оборудования для конкретных областей применения.

Одним из заметных примеров является подъем ускорителей AI, таких как Tensor Processing Units (TPU) от Google [Jouppi et al., 2017], которые специально предназначены для ускорения рабочих нагрузок машинного обучения. Эти ускорители часто используют арифметику пониженной точности, специализированную иерархию памяти и архитектуры потока данных для достижения высокой производительности и энергоэффективности для задач ИИ.

Еще один emerging класс акселераторов фокусируется на обработке графов и аналитике. Рабочие нагрузки по обработке графов, такие как анализ социальных сетей, рекомендательные системы и научные моделирования, демонстрируют нерегулярные модели доступа к памяти и тонкую синхронизацию, что может быть сложно для традиционных архитектур ЦПУ и GPU. Специализированные акселераторы обработки графов, такие как Graphicionado [Ham et al., 2016] и Intelligence Processing Unit (IPU) GraphCore [GraphCore, 2020], направлены на решение этих проблем за счет аппаратной поддержки эффективной обработки графов.Предоставьте русский перевод этого файла в формате markdown. Для кода не переводите код, переводите только комментарии.

Графовый трафик, синхронизация и балансировка нагрузки.

По мере увеличения разнообразия ускорителей задача интеграции их в единую систему становится все более сложной. Гетерогенные системные архитектуры, такие как Heterogeneous System Architecture (HSA) от AMD [AMD, 2015] и CUDA Unified Memory от NVIDIA [NVIDIA, 2020], стремятся предоставить единую модель программирования и общее адресное пространство для различных типов процессоров и ускорителей. Эти архитектуры позволяют бесшовное сотрудничество между CPU, GPU и другими ускорителями, что позволяет разработчикам сосредоточиться на дизайне алгоритмов, а не на тонкостях перемещения данных и синхронизации между различными устройствами.

Исследования в этой области исследуют такие темы, как эффективное разбиение задач и планирование на гетерогенных устройствах, единое управление памятью и высокопроизводительные межсоединения для гетерогенных систем. По мере развития ландшафта ускорителей дизайн GPU, вероятно, будет зависеть от необходимости бесшовной интеграции с другими типами специализированного оборудования.

3D установка и дизайн на основе кристаллов

3D-компоновка и дизайн на основе кристаллов являются новыми упаковочными технологиями, которые открывают новые возможности для инноваций в архитектуре GPU. Эти технологии позволяют интегрировать несколько кристаллов или слоев в одном корпусе, обеспечивая более высокую пропускную способность, меньшую задержку и более эффективную подачу питания по сравнению с традиционной 2D-упаковкой.

3D-компоновка, такая как сквозные кремниевые переходы (TSV) или технология гибридной памяти с кубической структурой (HMC) [Jeddeloh и Keeth, 2012], позволяет вертикально интегрировать несколько слоев логики или памяти. Эта технология используется в высокоскоростной памяти (HBM) [Lee и др., 2014], которая обеспечивает значительно более высокую пропускную способность памяти и более низкое энергопотребление по сравнению с традиционной памятью GDDR. GPU, такие как Radeon R9 Fury X от AMD и Tesla P100 от NVIDIA, уже внедрили HBM для устранения узких мест пропускной способности памяти в ресурсоемких рабочих нагрузках.Дизайны на основе чиплетов, с другой стороны, предполагают интеграцию множества более мелких кристаллов (чиплетов) в одном корпусе с использованием высокоплотных межсоединений, таких как кремниевые интерпозеры или встроенные многокристальные межсоединительные мосты (ЭМИБ) [Demir et al., 2018]. Такой подход позволяет смешивать и подбирать различные технологии производства, позволяя оптимизировать каждый чиплет для его конкретной функции. Например, чиплеты, ориентированные на вычисления, могут быть изготовлены с использованием передовых технологических узлов, в то время как чиплеты, ориентированные на память, могут использовать более старые, более экономичные технологические узлы.

Модульная природа дизайнов на основе чиплетов также позволяет создавать более гибкие и масштабируемые архитектуры GPU. Например, количество вычислительных чиплетов может варьироваться для создания GPU с различными характеристиками производительности и энергопотребления без необходимости полной переработки GPU. Этот подход также может облегчить интеграцию специализированных ускорителей или технологий памяти вместе с вычислительными чиплетами GPU.

Исследования в этой области изучают такие темы, как 3D-стекированные архитектуры GPU, дизайны GPU на основе чиплетов и новые технологии межсоединений для интеграции многокристальных систем. По мере того, как масштабирование технологических процессов становится более сложным и дорогостоящим, 3D-сборка и дизайны на основе чиплетов предлагают многообещающий путь для дальнейшего повышения производительности и энергоэффективности архитектур GPU.

Доменно-ориентированные архитектуры для AI/ML

Быстрый рост приложений искусственного интеллекта (AI) и машинного обучения (ML) привел к разработке доменно-ориентированных архитектур, оптимизированных для этих рабочих нагрузок. В то время как GPU были основной платформой для ускорения AI/ML в последние годы, наблюдается растущая тенденция к использованию более специализированного оборудования, которое может обеспечить более высокую производительность и энергоэффективность для конкретных задач AI/ML.

Одним из примеров такого специализированного оборудования является нейронный процессорный блок (NPU), который специально разработан для ускорения глубоких нейронных сетей (Вывод и обучение DNN. Часто NPU используют арифметику сниженной точности, специализированные иерархии памяти и архитектуры вычислительных потоков, которые адаптированы к уникальным характеристикам рабочих нагрузок DNN. Примеры NPU включают Tensor Processing Units (TPU) от Google [Jouppi et al., 2017], Nervana Neural Network Processors (NNP) от Intel [Rao, 2019] и Ascend AI processors от Huawei [Huawei, 2020].

Еще одна развивающаяся тенденция в архитектурах, специфичных для конкретного домена для AI/ML, - это использование вычислений в памяти и аналоговых вычислительных методик. Архитектуры вычислений в памяти нацелены на снижение энергопотребления и задержки, связанных с передачей данных, путем выполнения вычислений непосредственно в памяти. Аналоговые вычислительные методики, такие как используемые в ускорителях на основе мемристоров [Shafiee et al., 2016], используют физические свойства устройств для выполнения вычислений более энергоэффективным образом по сравнению с цифровыми схемами.

Поскольку рабочие нагрузки AI/ML продолжают развиваться и становиться более разнообразными, растет потребность в гибких и программируемых архитектурах, специфичных для конкретного домена, которые могут адаптироваться к меняющимся требованиям. Один из подходов к достижению этой гибкости - использование архитектур с крупнозернистой реконфигурацией (CGRA) [Prabhakar et al., 2017], которые предоставляют массив программируемых вычислительных элементов, которые можно реконфигурировать для поддержки различных моделей вычислительных потоков и алгоритмов.

Исследования в этой области изучают такие темы, как новые архитектуры ускорителей AI/ML, методики вычислений в памяти и аналоговых вычислений, а также программируемые и реконфигурируемые архитектуры для AI/ML. Поскольку GPU продолжают играть важную роль в ускорении AI/ML, дизайн будущих архитектур GPU, вероятно, будет влиять на необходимость интегрировать больше специализированного оборудования и адаптироваться к уникальным требованиям этих рабочих нагрузок.

Открытые исследовательские задачи и возможности

Несмотря на значительный прогресс в архитектуре GPU и параллельных вычислениях в последние годы, остается много нерешенных исследовательских проблемВот перевод на русский, где комментарии переведены, а код оставлен без перевода:

Энергоэффективность: Поскольку производительность и сложность GPU продолжают расти, повышение энергоэффективности становится все более важным. Возможности исследований в этой области включают новые схемные и архитектурные методы для снижения энергопотребления, такие как вычисления близко к порогу, отключение питания и динамическое изменение напряжения и частоты.

Масштабируемость: Обеспечение возможности масштабирования GPU до еще большего числа ядер и потоков при сохранении высокой производительности и программируемости является значительной проблемой. Исследования в этой области могут изучать такие темы, как иерархические и распределенные архитектуры GPU, масштабируемые системы памяти и модели программирования, которые могут эффективно использовать параллелизм будущих GPU.

Надежность и устойчивость: Поскольку GPU все чаще используются в критически важных и критически важных для безопасности приложениях, обеспечение их надежности и устойчивости становится первостепенной задачей. Возможности исследований в этой области включают новые методы обеспечения отказоустойчивости и коррекции ошибок, такие как отказоустойчивость, основанная на алгоритме, механизмы контрольных точек и восстановления, а также устойчивые архитектурные решения.

Виртуализация и многопользовательский режим: Обеспечение эффективного совместного использования ресурсов GPU между несколькими приложениями и пользователями имеет решающее значение для облачных вычислений и центров обработки данных. Исследования в этой области могут изучать такие темы, как методы виртуализации GPU, управление качеством обслуживания (QoS) и алгоритмы распределения и планирования ресурсов для многопользовательских систем GPU.

Модели программирования и инструменты: Разработка моделей программирования и инструментов, которые могут эффективно использовать производительность будущих архитектур GPU, сохраняя при этом производительность программиста, является постоянной проблемой. Возможные направления исследований в этой области включают предметно-ориентированные языки и компиляторы для GPU, системы авто-настройки и оптимизации, а также инструменты отладки и профилирования для параллельных вычислений.Здесь представлен перевод на русский язык текста, за исключением кода, в котором переводу подлежат только комментарии.

По мере того, как архитектура GPU продолжает развиваться, а новые области применения появляются, исследователям и инженерам придется решать эти и другие проблемы, чтобы раскрыть весь потенциал параллельных вычислений. Исследовательское сообщество, изучая новые архитектурные решения, модели программирования и инструменты программного обеспечения, может помочь определить будущее вычислений на GPU и открыть новые прорывы в таких областях, как научные вычисления, искусственный интеллект и анализ данных.

Дополнительное чтение

Для тех, кто хочет глубже погрузиться в темы, освещенные в этой главе, мы рекомендуем следующие ресурсы:

Жупи, Н. П., Янг, К., Патил, Н., Паттерсон, Д., Агравал, Г., Баджва, Р., ... и Юн, Д. (2017). Анализ производительности тензорного процессорного блока в центре обработки данных. В Материалах 44-го ежегодного международного симпозиума по компьютерной архитектуре (стр. 1-12). https://dl.acm.org/doi/abs/10.1145/3079856.3080246 (opens in a new tab)
Хэм, Т. Дж., Ву, Л., Сундарам, Н., Сатиш, Н. и Мартонези, М. (2016). Графиционадо: высокопроизводительный и энергоэффективный ускоритель для графической аналитики. В Материалах 49-го ежегодного международного симпозиума IEEE/ACM по микроархитектуре (MICRO) (стр. 1-13). IEEE. https://ieeexplore.ieee.org/abstract/document/7783759 (opens in a new tab)
AMD. (2015). Гетерогенная система архитектуры AMD (HSA). https://www.amd.com/en/technologies/hsa (opens in a new tab)
NVIDIA. (2020). Объединенная память CUDA. https://developer.nvidia.com/blog/unified-memory-cuda-beginners/ (opens in a new tab)
Джедделох, Дж. и Кит, Б. (2012). Гибридный кубический модуль памяти: новая архитектура DRAM повышает плотность и производительность. В Материалах симпозиума 2012 года по технологиям VLSI (VLSIT) (стр. 87-88). IEEE. https://ieeexplore.ieee.org/abstract/document/6243767 (opens in a new tab)
Ли, Д. Х., Лим, Д., Чон, Х.,# Русский перевод

Ким, Х., Сонг, Т., Ли, Дж., ... и Ким, Г. (2014). 1,2 В 8 Гб 8-канальная память высокой пропускной способности (HBM) с использованием 29 нм процесса и сквозных вертикальных соединений (TSV). В сборнике трудов 2014 Международной конференции IEEE по схемотехнике твердотельных приборов (ISSCC) (стр. 432-433). IEEE. https://ieeexplore.ieee.org/abstract/document/6757501 (opens in a new tab)

Демир, Й., Пан, Й., Сонг, С., Хардавеллас, Н., Ким, Дж. и Мемик, Г. (2018). Galaxy: высокопроизводительная энергоэффективная многокристальная архитектура с использованием фотонных межсоединений. В Материалах 28-й Международной конференции ACM по суперкомпьютерам (стр. 303-312). https://dl.acm.org/doi/abs/10.1145/2597652.2597664 (opens in a new tab)
Рао, Т. (2019). Процессоры нейронных сетей Intel Nervana (NNP) переопределяют кремниевую базу для искусственного интеллекта. [https://www.intel.com/content/www/us/en/artificial-intelligence (opens in a new tab)

Chapter 11 Gpu Research Directions on Scalarization and Affine Execution Как легко понять графические карты AI для начинающих