Hoofdstuk 12: Toekomstige trends en opkomende technologieën in GPU-ontwerp

Naarmate GPU-architecturen blijven evolueren om te voldoen aan de toenemende eisen van parallelle rekenworkloads, staan verschillende opkomende trends en technologieën klaar om de toekomst van GPU-ontwerp te vormen. In dit hoofdstuk onderzoeken we enkele van deze belangrijke trends, waaronder heterogene computing en versnellers, 3D-stapeling en chiplet-gebaseerde ontwerpen, domeinspecifieke architecturen voor AI en machinaal leren, en open onderzoeksproblemen en kansen in GPU-architectuur.

Heterogene computing en versnellers

Heterogene computing, waarbij verschillende soorten processors of versnellers worden gecombineerd om hogere prestaties en energie-efficiëntie te bereiken, is de afgelopen jaren steeds gangbaarder geworden. GPU's hebben zich aan de voorhoede van deze trend gevestigd, waarbij ze vaak gekoppeld worden aan CPU's om parallelle workloads te versnellen. Het landschap van versnellers breidt echter snel uit, met de ontwikkeling van nieuwe soorten gespecialiseerde hardware voor specifieke toepassingsdomeinen.

Een opmerkelijk voorbeeld is de opkomst van AI-versnellers, zoals de Tensor Processing Units (TPU's) van Google [Jouppi et al., 2017], die specifiek zijn ontworpen om machinale leerworkloads te versnellen. Deze versnellers maken vaak gebruik van rekenen met gereduceerde precisie, gespecialiseerde geheugiehiërarchieën en dataflow-architecturen om hoge prestaties en energie-efficiëntie te bereiken voor AI-taken.

Een andere opkomende klasse van versnellers richt zich op grafverwerkingsen analytics. Grafverwerkingsworkloads, zoals die te vinden zijn in sociale netwerkanalyse, aanbevelingssystemen en wetenschappelijke simulaties, vertonen ongeregelmatige geheugentoeganspatronen en fijngranulaire synchronisatie, wat een uitdaging kan zijn voor traditionele CPU- en GPU-architecturen. Gespecialiseerde grafverwerkingsversnellers, zoals Graphicionado [Ham et al., 2016] en de GraphCore Intelligence Processing Unit (IPU) [GraphCore, 2020], hebben tot doel deze uitdagingen aan te pakken door hardwareondersteuning te bieden voor effectieHier is de Nederlandse vertaling van het Markdown-bestand:

Efficiënte graaftracering, synchronisatie en lastbalancering.

Naarmate de diversiteit van accelerators groeit, wordt de uitdaging om ze in een samenhangend systeem te integreren complexer. Heterogene systeemarchitecturen, zoals AMD's Heterogeneous System Architecture (HSA) [AMD, 2015] en NVIDIA's CUDA Unified Memory [NVIDIA, 2020], zijn erop gericht om een geïntegreerd programmeringsmodel en geheugenruimte te bieden voor verschillende soorten processors en accelerators. Deze architecturen maken naadloze samenwerking mogelijk tussen CPU's, GPU's en andere accelerators, waardoor ontwikkelaars zich kunnen concentreren op algoritmeontwerp in plaats van op de details van gegevenstransport en synchronisatie tussen verschillende apparaten.

Onderzoek op dit gebied verkent onderwerpen zoals efficiënte taakverdeling en -planning over heterogene apparaten, geïntegreerd geheugen-management en high-performance interconnects voor heterogene systemen. Naarmate het landschap van accelerators blijft evolueren, zal het ontwerp van GPU's waarschijnlijk worden beïnvloed door de behoefte om naadloos te integreren met andere soorten gespecialiseerde hardware.

3D-stapeling en chiplet-gebaseerde ontwerpen

3D-stapeling en chiplet-gebaseerde ontwerpen zijn opkomende verpakkingstechnologieën die nieuwe kansen bieden voor GPU-architectuurinnovatie. Deze technologieën maken de integratie mogelijk van meerdere dies of lagen binnen één enkele verpakking, waardoor hogere bandbreedte, lagere latentie en efficiëntere stroomlevering mogelijk zijn in vergelijking met traditionele 2D-verpakking.

3D-stapeling, zoals through-silicon vias (TSV's) of hybride geheugen kubus (HMC) -technologie [Jeddeloh en Keeth, 2012], maakt verticale integratie mogelijk van meerdere lagen logica of geheugen. Deze technologie is gebruikt in high-bandwidth memory (HBM) [Lee et al., 2014], die aanzienlijk hogere geheugenbandbreedtes en lager stroomverbruik biedt in vergelijking met traditionele GDDR-geheugens. GPU's, zoals AMD's Radeon R9 Fury X en NVIDIA's Tesla P100, hebben HBM al geadopteerd om geheugenbandbreedte-knelpunten in geheugenintensieve workloads te verlichten.Ontwerpen op basis van chiplets, aan de andere kant, houden de integratie in van meerdere kleinere chips (chiplets) binnen een enkele behuizing met behulp van hoogdichte interconnecties, zoals silicium interposers of ingebedde multi-die interconnect bruggen (EMIBs) [Demir et al., 2018]. Deze aanpak maakt het mogelijk om verschillende procestechnologieën te mixen en matchen, waardoor de optimalisatie van elke chiplet voor zijn specifieke functie mogelijk wordt. Bijvoorbeeld kunnen computeintensieve chiplets worden vervaardigd met behulp van geavanceerde procesvarianten, terwijl geheugenintensieve chiplets gebruik kunnen maken van oudere, kosteffectievere procesvarianten.

De modulaire aard van ontwerpen op basis van chiplets maakt ook meer flexibele en schaalbare GPU-architecturen mogelijk. Zo kan het aantal rekenkundige chiplets worden gevarieerd om GPU's met verschillende prestatie- en energiekenmerken te creëren, zonder dat een volledige herkonfiguratie van de GPU nodig is. Deze aanpak kan ook de integratie van gespecialiseerde accelerators of geheugentechnologieën naast de GPU-rekenchiplets vergemakkelijken.

Onderzoek op dit gebied verkent onderwerpen zoals 3D-gestapelde GPU-architecturen, chiplet-gebaseerde GPU-ontwerpen en nieuwe interconnecttechnologieën voor multi-die-integratie. Naarmate de doorgroei van procestechnologie lastiger en duurder wordt, bieden 3D-stapeling en ontwerpen op basis van chiplets een veelbelovend pad voor verdere prestatie- en energiezuinigheidsverbeteringen in GPU-architecturen.

Domeinspecifieke Architecturen voor AI/ML

De snelle groei van kunstmatige intelligentie (AI) en machine learning (ML) toepassingen heeft geleid tot de ontwikkeling van domeinspecifieke architecturen die zijn geoptimaliseerd voor deze workloads. Hoewel GPU's in de afgelopen jaren het primaire platform zijn geweest voor AI/ML-acceleratie, is er een toenemende trend naar meer gespecialiseerde hardware die hogere prestaties en energie-efficiëntie kan bieden voor specifieke AI/ML-taken.

Een voorbeeld van dergelijke gespecialiseerde hardware is de neuraal verwerkende eenheid (NPU), die specifiek is ontworpen om diepe neurale netwerken (Hier is de Nederlandse vertaling van het bestand:

DNN) inferentie en training. NPU's gebruiken vaak rekenen met verminderde precisie, gespecialiseerde geheugiehiërarchieën en dataflow-architecturen die zijn afgestemd op de unieke kenmerken van DNN-workloads. Voorbeelden van NPU's zijn Google's Tensor Processing Units (TPU's) [Jouppi et al., 2017], Intel's Nervana Neural Network Processors (NNP's) [Rao, 2019] en Huawei's Ascend AI-processors [Huawei, 2020].

Een andere opkomende trend in domein-specifieke architecturen voor AI/ML is het gebruik van in-geheugen-rekenen en analoge computatietechnieken. In-geheugen-reken-architecturen zijn erop gericht de energie en latentie die gepaard gaat met gegevensverplaatsing te verminderen door berekeningen rechtstreeks in het geheugen uit te voeren. Analoge computatietechnieken, zoals die gebruikt in memristor-gebaseerde versnellers [Shafiee et al., 2016], maken gebruik van de fysieke eigenschappen van apparaten om berekeningen op een efficiëntere manier uit te voeren in vergelijking met digitale schakelingen.

Aangezien AI/ML-workloads blijven evolueren en diverser worden, is er een groeiende behoefte aan flexibele en programmeerbare domein-specifieke architecturen die zich kunnen aanpassen aan veranderende eisen. Een benadering om deze flexibiliteit te bereiken is het gebruik van grofkorrelige herconfigureerbare architecturen (CGRA's) [Prabhakar et al., 2017], die een matrix van programmeerbare verwerkingselementen bieden die opnieuw kunnen worden geconfigureerd om verschillende dataflow-patronen en -algoritmen te ondersteunen.

Onderzoek op dit gebied verkent onderwerpen als nieuwe AI/ML-versnellerarchitecturen, in-geheugen- en analoge computatietechnieken, en programmeerbare en herconfigureerbare architecturen voor AI/ML. Aangezien GPU's een belangrijke rol blijven spelen bij AI/ML-versnelling, zal het ontwerp van toekomstige GPU-architecturen waarschijnlijk worden beïnvloed door de behoefte aan meer gespecialiseerde hardware en aanpassing aan de unieke vereisten van deze workloads.

Openstaande onderzoeksproblemen en kansen

Ondanks de aanzienlijke vooruitgang in GPU-architectuur en parallelle rekenkracht in de afgelopen jaren blijven er veel openstaande onderzoeksproblemenHere is the Dutch translation of the markdown file, with the comments in the code translated:

Uitdagingen en mogelijkheden voor verdere innovatie. Enkele van deze uitdagingen en mogelijkheden zijn:

Energie-efficiëntie: Naarmate de prestaties en complexiteit van GPU's blijven groeien, wordt het steeds kritischer om de energie-efficiëntie te verbeteren. Onderzoeksmogelijkheden op dit gebied omvatten nieuwe circuit- en architectuurtechnieken om het energieverbruik te verminderen, zoals near-threshold computing, power gating en dynamische spanning- en frequentieschaling.
Schaalbaarheid: GPU's in staat stellen om te schalen naar nog grotere aantallen kernen en threads, terwijl de hoge prestaties en programmeerbaarheid worden behouden, is een aanzienlijke uitdaging. Onderzoek op dit gebied kan onderwerpen verkennen zoals hiërarchische en gedistribueerde GPU-architecturen, schaalbare geheugenssystemen en programmamodellen die het parallelisme van toekomstige GPU's effectief kunnen benutten.
Betrouwbaarheid en veerkracht: Aangezien GPU's steeds vaker worden gebruikt in kritieke en veiligheidskritieke toepassingen, wordt het waarborgen van hun betrouwbaarheid en veerkracht van cruciaal belang. Onderzoeksmogelijkheden op dit gebied omvatten nieuwe fault tolerance- en foutcorrectietechnieken, zoals algoritmegebaseerde fault tolerance, checkpoint- en herstelmechanismen, en veerkrachtige architectuurontwerpen.
Virtualisatie en multi-tenancy: Het mogelijk maken van efficiënt delen van GPU-resources tussen meerdere applicaties en gebruikers is essentieel voor cloud computing en datacenteromgevingen. Onderzoek op dit gebied kan onderwerpen verkennen zoals GPU-virtualiseringstechnieken, kwaliteit van dienst (QoS)-beheer, en resource-allocatie- en -planningsalgoritmen voor multi-tenant GPU-systemen.
Programmamodellen en hulpmiddelen: Het ontwikkelen van programmamodellen en hulpmiddelen die de prestaties van toekomstige GPU-architecturen effectief kunnen benutten, terwijl de productiviteit van de programmeur behouden blijft, is een voortdurende uitdaging. Onderzoeksmogelijkheden op dit gebied omvatten domeinspecifieke talen en compilers voor GPU's, auto-tuning en optimalisatiekaders, en debuggen en profileren van hulpmiddelen voor paralHier is de Nederlandse vertaling van het bestand 'lel programs':

Naarmate GPU-architecturen blijven evolueren en er nieuwe toepassingsdomeinen opduiken, zullen onderzoekers en ingenieurs deze en andere uitdagingen moeten aanpakken om het volledige potentieel van parallelle berekeningen te ontgrendelen. Door het verkennen van nieuwe architectuurontwerpen, programmeringsmodellen en softwarehulpmiddelen kan de onderzoeksgemeenschap de toekomst van GPU-rekenkracht helpen vorm te geven en nieuwe doorbraken mogelijk maken op gebieden als wetenschappelijke berekeningen, kunstmatige intelligentie en data-analyse.

Verdere lezing

Voor degenen die zich verder willen verdiepen in de onderwerpen die in dit hoofdstuk aan bod komen, raden we de volgende bronnen aan:

Jouppi, N. P., Young, C., Patil, N., Patterson, D., Agrawal, G., Bajwa, R., ... & Yoon, D. (2017). In-datacenter performance analysis of a tensor processing unit. In Proceedings of the 44th Annual International Symposium on Computer Architecture (pp. 1-12). https://dl.acm.org/doi/abs/10.1145/3079856.3080246 (opens in a new tab)
Ham, T. J., Wu, L., Sundaram, N., Satish, N., & Martonosi, M. (2016). Graphicionado: A high-performance and energy-efficient accelerator for graph analytics. In 2016 49th Annual IEEE/ACM International Symposium on Microarchitecture (MICRO) (pp. 1-13). IEEE. https://ieeexplore.ieee.org/abstract/document/7783759 (opens in a new tab)
AMD. (2015). AMD Heterogeneous System Architecture (HSA). https://www.amd.com/en/technologies/hsa (opens in a new tab)
NVIDIA. (2020). CUDA Unified Memory. https://developer.nvidia.com/blog/unified-memory-cuda-beginners/ (opens in a new tab)
Jeddeloh, J., & Keeth, B. (2012). Hybrid memory cube new DRAM architecture increases density and performance. In 2012 symposium on VLSI technology (VLSIT) (pp. 87-88). IEEE. https://ieeexplore.ieee.org/abstract/document/6243767 (opens in a new tab)
Lee, J. H., Lim, D., Jeong, H.,Hier is de Nederlandse vertaling van het markdown-bestand, waarbij de code-opmerkingen zijn vertaald:

Kim, H., Song, T., Lee, J., ... & Kim, G. (2014). Een 1,2 V 8 Gb 8-kanaal 128 GB/s high-bandwidth memory (HBM) gestapelde DRAM met effectieve microbump I/O-testmethoden met behulp van 29 nm-proces en TSV. In 2014 IEEE International Solid-State Circuits Conference Digest of Technical Papers (ISSCC) (blz. 432-433). IEEE. https://ieeexplore.ieee.org/abstract/document/6757501 (opens in a new tab)

Demir, Y., Pan, Y., Song, S., Hardavellas, N., Kim, J. & Memik, G. (2018). Galaxy: Een high-performance energie-efficiënte multi-chip architectuur met behulp van fotonische interconnecties. In Proceedings van de 28e ACM International Conference on Supercomputing (blz. 303-312). https://dl.acm.org/doi/abs/10.1145/2597652.2597664 (opens in a new tab)
Rao, T. (2019). Intel Nervana Neural Network Processors (NNP) Herdefiniëren AI-silicon. [https://www.intel.com/content/www/us/en/artificial-intelligence (opens in a new tab)

Chapter 11 Gpu Research Directions on Scalarization and Affine Execution Hoe je AI grafische kaarten gemakkelijk kunt begrijpen als beginner