الفصل 12: الاتجاهات المستقبلية والتقنيات الناشئة في تصميم وحدات المعالجة الرسومية

مع استمرار تطور هندسة وحدات المعالجة الرسومية (GPU) لتلبية الطلب المتزايد على أحمال العمل الحاسوبية المتوازية، هناك العديد من الاتجاهات والتقنيات الناشئة التي من المرجح أن تشكل مستقبل تصميم وحدات المعالجة الرسومية. في هذا الفصل، نستكشف بعض هذه الاتجاهات الرئيسية، بما في ذلك الحوسبة غير المتجانسة والمعجلات، والتكديس ثلاثي الأبعاد والتصاميم القائمة على الشرائح، والهندسة المعمارية المحددة للمجال في مجال الذكاء الاصطناعي والتعلم الآلي، والمشاكل البحثية المفتوحة والفرص في هندسة معمارية وحدات المعالجة الرسومية.

الحوسبة غير المتجانسة والمعجلات

أصبحت الحوسبة غير المتجانسة، والتي تجمع بين أنواع مختلفة من المعالجات أو المعجلات لتحقيق أداء وكفاءة طاقة أعلى، أكثر انتشارًا في السنوات الأخيرة. لقد كانت وحدات المعالجة الرسومية في مقدمة هذا الاتجاه، وغالبًا ما يتم إقرانها مع وحدات المعالجة المركزية (CPU) لتسريع الأحمال الحاسوبية المتوازية. ومع ذلك، فإن مشهد المعجلات يتوسع بسرعة، مع ظهور أنواع جديدة من الأجهزة المتخصصة والتي يتم تطويرها لمجالات تطبيقية محددة.

أحد الأمثلة البارزة هو ظهور معجلات الذكاء الاصطناعي، مثل وحدات معالجة المصفوفات التابعة لشركة جوجل (TPUs) [Jouppi et al., 2017]، والتي تم تصميمها خصيصًا لتسريع أحمال العمل في مجال التعلم الآلي. غالبًا ما تستخدم هذه المعجلات رياضيات بدقة منخفضة، وهرميات الذاكرة المتخصصة، والهندسة المعمارية للتدفق البياني لتحقيق أداء وكفاءة طاقة عالية للمهام المتعلقة بالذكاء الاصطناعي.

فئة ناشئة أخرى من المعجلات مركزة على معالجة الرسوم البيانية وتحليلها. تتميز أحمال عمل معالجة الرسوم البيانية، مثل تلك الموجودة في تحليل الشبكات الاجتماعية وأنظمة التوصية والمحاكاة العلمية، بأنماط الوصول إلى الذاكرة غير المنتظمة والتزامن الدقيق، والتي يمكن أن تكون تحديًا بالنسبة لهندسة المعالجة المركزية التقليدية ووحدات المعالجة الرسومية. تهدف المعجلات المتخصصة في معالجة الرسوم البيانية، مثل Graphicionado [Ham et al., 2016] ووحدة المعالجة الذكية (IPU) من GraphCore [GraphCore, 2020]، إلى معالجة هذه التحديات من خلال توفير الدعم المادي للمعالجة الفعالة للرسوم البيانية.هذا هو الترجمة العربية للملف:

استكشاف الرسوم المتحركة، والتزامن، وموازنة الحمل.

مع تنامي تنوع المعجّلات، يصبح تحدي دمجها في نظام متماسك أكثر تعقيدًا. تهدف معمارية النظم المتجانسة، مثل معمارية النظم المتجانسة (HSA) لشركة AMD [AMD، 2015] والذاكرة الموحدة CUDA لشركة NVIDIA [NVIDIA، 2020]، إلى توفير نموذج برمجة موحد ومساحة ذاكرة عبر أنواع مختلفة من المعالجات والمعجّلات. تمكّن هذه المعماريات من التعاون السلس بين وحدات المعالجة المركزية والمعالجات الرسومية والمعجّلات الأخرى، مما يسمح للمطورين بالتركيز على تصميم الخوارزميات بدلاً من تفاصيل نقل البيانات والتزامن بين الأجهزة المختلفة.

تستكشف البحوث في هذا المجال مواضيع مثل تقسيم المهام وجدولتها بكفاءة عبر الأجهزة المتجانسة، وإدارة الذاكرة الموحدة، والروابط عالية الأداء للأنظمة المتجانسة. مع استمرار تطور منظر المعجّلات، من المحتمل أن يتأثر تصميم وحدات المعالجة الرسومية بالحاجة إلى الدمج السلس مع أنواع أخرى من الأجهزة المتخصصة.

التكديس ثلاثي الأبعاد والتصميمات المستندة إلى Chiplet

تعتبر تقنيات التعبئة الناشئة، مثل التكديس ثلاثي الأبعاد والتصميمات المستندة إلى Chiplet، فرصًا جديدة لابتكار معمارية وحدات المعالجة الرسومية. تمكّن هذه التقنيات من دمج العديد من الشرائح أو الطبقات داخل حزمة واحدة، مما يؤدي إلى زيادة النطاق الترددي، وانخفاض في زمن الوصول، وتوصيل الطاقة بكفاءة أكبر مقارنة بتعبئة2D التقليدية.

يمكّن التكديس ثلاثي الأبعاد، مثل عبور السيليكون (TSVs) أو تقنية مكعب الذاكرة الهجينة (HMC) [Jeddeloh و Keeth، 2012]، من التكامل الرأسي لعدة طبقات من المنطق أو الذاكرة. تم استخدام هذه التقنية في الذاكرة عالية النطاق الترددي (HBM) [Lee et al.، 2014]، والتي توفر نطاق ترددي ذاكرة أعلى وانخفاض في استهلاك الطاقة مقارنة بذاكرة GDDR التقليدية. تبنت وحدات المعالجة الرسومية، مثل Radeon R9 Fury X من AMD وTesla P100 من NVIDIA، HBM بالفعل للتخفيف من عوائق نطاق الترددي الذاكرة في الحمل الحسابي الكثيف للذاكرة.هنا ترجمة الملف إلى اللغة العربية. بالنسبة للرموز البرمجية، لا أقوم بترجمة الرموز ولكن أقوم بترجمة التعليقات فقط.

تصميمات القطع الرقيقة، من ناحية أخرى، تنطوي على دمج عدة رقاقات أصغر (قطع رقيقة) ضمن عبوة واحدة باستخدام وصلات عالية الكثافة، مثل الواسطات السيليكونية أو جسور التوصيل متعددة الرقاقات المضمّنة (EMIBs) [Demir وآخرون، 2018]. يسمح هذا النهج بالمزج والتطابق بين تقنيات العمليات المختلفة، مما يمكّن من تحسين كل قطعة رقيقة لوظيفتها المحددة. على سبيل المثال، يمكن تصنيع القطع الرقيقة المكثفة في الحساب باستخدام عقد عمليات متقدمة، بينما يمكن استخدام عقد عمليات أقدم وأكثر فعالية من حيث التكلفة للقطع الرقيقة المكثفة في الذاكرة.

الطبيعة النمطية لتصميمات القطع الرقيقة تمكّن أيضًا من معمارية وحدات المعالجة الرسومية (GPU) أكثر مرونة وقابلة للتطوير. على سبيل المثال، يمكن تغيير عدد القطع الرقيقة الحاسوبية لإنشاء وحدات معالجة رسومية بخصائص أداء وطاقة مختلفة، دون الحاجة إلى إعادة تصميم كامل للوحدة. يمكن أن يسهّل هذا النهج أيضًا دمج مُسرّعات متخصصة أو تقنيات الذاكرة إلى جانب القطع الرقيقة الحاسوبية للوحدة.

تستكشف الأبحاث في هذا المجال مواضيع مثل معمارية وحدات المعالجة الرسومية المركبة ثلاثي الأبعاد، وتصميمات وحدات المعالجة الرسومية القائمة على القطع الرقيقة، وتقنيات الوصلات المبتكرة لتكامل متعدد الرقاقات. مع زيادة التحديات والتكاليف المرتبطة بتطوير تقنية العمليات، تُعد التراكيب ثلاثية الأبعاد والتصميمات القائمة على القطع الرقيقة مسارًا واعدًا لتحقيق المزيد من التحسينات في الأداء وكفاءة الطاقة في معماريات وحدات المعالجة الرسومية.

معماريات محددة المجال للذكاء الاصطناعي والتعلم الآلي

أدى النمو السريع في تطبيقات الذكاء الاصطناعي والتعلم الآلي إلى تطوير معماريات محددة المجال مُحسّنة لهذه الأحمال. في حين كانت وحدات المعالجة الرسومية هي المنصة الرئيسية لتسريع الذكاء الاصطناعي والتعلم الآلي في السنوات الأخيرة، هناك اتجاه متزايد نحو أجهزة متخصصة أكثر يمكن أن توفر أداءً وكفاءة طاقة أعلى لمهام الذكاء الاصطناعي والتعلم الآلي المحددة.

أحد أمثلة هذه الأجهزة المتخصصة هو وحدة المعالجة العصبية (NPU)، والتي تم تصميمها خصيصًا لتسريع شبكات الأعصاب العميقة (هنا الترجمة العربية للملف الموصوف:

(DNN) الاستنتاج والتدريب. غالبًا ما تستخدم وحدات المعالجة العصبية (NPUs) حسابات ذات دقة منخفضة، وتراتبيات الذاكرة المتخصصة، وهندسة البيانات المخصصة لخصائص عمليات تحميل البيانات العصبية العميقة (DNN) الفريدة. تشمل أمثلة وحدات المعالجة العصبية (NPUs) وحدات معالجة المصفوفات (TPUs) من Google [جوبي وآخرون، 2017]، ومعالجات الشبكات العصبية العصبية (NNPs) من Intel [راو، 2019]، ومعالجات الذكاء الاصطناعي (Ascend AI) من Huawei [Huawei، 2020].

الاتجاه الناشئ الآخر في معمارية المجالات المحددة للذكاء الاصطناعي / التعلم الآلي هو استخدام الحوسبة الذاكرة والتقنيات الحسابية التناظرية. تهدف معماريات الحوسبة الذاكرة إلى تقليل الطاقة والتأخير المرتبطين بحركة البيانات من خلال إجراء الحسابات مباشرة في الذاكرة. تستخدم تقنيات الحوسبة التناظرية، مثل تلك المستخدمة في المسرعات المستندة إلى الذاكرة المقاومة [شافيي وآخرون، 2016]، الخصائص المادية للأجهزة لإجراء الحسابات بطريقة أكثر كفاءة في استهلاك الطاقة مقارنة بالدوائر الرقمية.

مع استمرار تطور حمولات عمل الذكاء الاصطناعي / التعلم الآلي وتنوعها، هناك حاجة متزايدة إلى معمارية مجالات محددة مرنة وقابلة للبرمجة يمكن أن تتكيف مع المتطلبات المتغيرة. إحدى طرق تحقيق هذه المرونة هي من خلال استخدام معماريات إعادة التكوين الخشنة (CGRAs) [برابهاكار وآخرون، 2017]، والتي توفر صفيف من عناصر المعالجة القابلة للبرمجة التي يمكن إعادة تكوينها لدعم أنماط تدفق البيانات والخوارزميات المختلفة.

يستكشف البحث في هذا المجال مواضيع مثل معمارية مسرعات الذكاء الاصطناعي / التعلم الآلي الجديدة، وتقنيات الحوسبة الذاكرة والحوسبة التناظرية، والمعماريات القابلة للبرمجة وإعادة التكوين للذكاء الاصطناعي / التعلم الآلي. بينما لا تزال معالجات الرسومات (GPUs) تلعب دورًا كبيرًا في تسريع الذكاء الاصطناعي / التعلم الآلي، فمن المرجح أن يتأثر تصميم معماريات GPU المستقبلية بالحاجة إلى دمج المزيد من الأجهزة المتخصصة والتكيف مع المتطلبات الفريدة لهذه الحمولات.

المشكلات البحثية المفتوحة والفرص

على الرغم من التقدم الكبير في معمارية معالجات الرسومات والحوسبة المتوازية في السنوات الأخيرة، لا تزال هناك العديد من المشكلات البحثية المفتوحةوفيما يلي الترجمة العربية لهذا الملف:

كفاءة الطاقة: مع استمرار نمو أداء وتعقيد وحدات معالجة الرسومات (GPU)، تصبح زيادة كفاءة استهلاك الطاقة أمرًا بالغ الأهمية. وتشمل فرص البحث في هذا المجال تقنيات دوائر وهندسة معمارية جديدة لخفض استهلاك الطاقة، مثل الحوسبة عند الجهد القريب من العتبة، وإيقاف الطاقة، والتعديل الديناميكي للجهد والتردد.
القابلية للتوسيع: تمكين وحدات GPU من التوسع إلى أعداد أكبر من النوى والخيوط مع الحفاظ على الأداء العالي والقابلية للبرمجة هو تحد كبير. قد تستكشف البحوث في هذا المجال مواضيع مثل الهندسة المعمارية للوحدات GPU الهرمية والموزعة، وأنظمة الذاكرة القابلة للتوسيع، ونماذج البرمجة القادرة على استغلال التوازي في وحدات GPU المستقبلية بفعالية.
الموثوقية والصمود: مع زيادة استخدام وحدات GPU في التطبيقات الحرجة للمهام الحيوية والسلامة، أصبح ضمان موثوقيتها وصمودها أمرًا بالغ الأهمية. وتشمل فرص البحث في هذا المجال تقنيات جديدة لتحمل الأعطال وتصحيح الأخطاء، مثل تحمل الأعطال القائم على الخوارزميات، وآليات النقطة المرجعية والاستعادة، وتصميمات الهندسة المعمارية المتينة.
الافتراضية والتعددية: تمكين المشاركة الفعالة لموارد وحدات GPU بين العديد من التطبيقات والمستخدمين أمر أساسي في بيئات الحوسبة السحابية ومراكز البيانات. قد تستكشف البحوث في هذا المجال مواضيع مثل تقنيات افتراضية الوحدات GPU، وإدارة جودة الخدمة (QoS)، وخوارزميات تخصيص وجدولة الموارد في أنظمة وحدات GPU متعددة المستأجرين.
نماذج البرمجة والأدوات: تطوير نماذج البرمجة والأدوات التي يمكن أن تستغل بفعالية أداء هندسة معمارية وحدات GPU المستقبلية مع الحفاظ على إنتاجية البرمجة هي تحد مستمر. وتشمل فرص البحث في هذا المجال لغات برمجة مخصصة للمجال وأدوات ترجمة لوحدات GPU، وأطر عمل لضبط الأداء والتحسين التلقائي، وأدوات التصحيح والتحليل للنظم المتوازية.كما تستمر معمارية وحدات معالجة الرسومات (GPU) في التطور وتظهر مجالات تطبيق جديدة، سيحتاج الباحثون والمهندسون إلى معالجة هذه التحديات وغيرها للكشف عن الإمكانات الكاملة للحوسبة المتوازية. من خلال استكشاف تصميمات معمارية جديدة، ونماذج برمجة، وأدوات برمجية، يمكن لمجتمع البحث المساعدة في تشكيل مستقبل الحوسبة باستخدام وحدات معالجة الرسومات وتمكين اختراقات جديدة في مجالات مثل الحوسبة العلمية، والذكاء الاصطناعي، وتحليل البيانات.

قراءة إضافية

للراغبين في التعمق أكثر في المواضيع المطروحة في هذا الفصل، نوصي بالموارد التالية:

Jouppi, N. P., Young, C., Patil, N., Patterson, D., Agrawal, G., Bajwa, R., ... & Yoon, D. (2017). تحليل أداء وحدة معالجة التنسور داخل مراكز البيانات. في وقائع المؤتمر الدولي السنوي الـ 44 للهندسة الحاسوبية (ص ص 1-12). https://dl.acm.org/doi/abs/10.1145/3079856.3080246 (opens in a new tab)
Ham, T. J., Wu, L., Sundaram, N., Satish, N., & Martonosi, M. (2016). غرافيسيوناد: مسرع عالي الأداء وموفر للطاقة لتحليل الرسوم البيانية. في المؤتمر الدولي السنوي التاسع والأربعين لنظم الميكروبرمجيات (MICRO) (ص ص 1-13). IEEE. https://ieeexplore.ieee.org/abstract/document/7783759 (opens in a new tab)
AMD. (2015). معمارية نظام AMD الغير متجانس (HSA). https://www.amd.com/en/technologies/hsa (opens in a new tab)
NVIDIA. (2020). الذاكرة الموحدة لـ CUDA. https://developer.nvidia.com/blog/unified-memory-cuda-beginners/ (opens in a new tab)
Jeddeloh, J., & Keeth, B. (2012). مكعب الذاكرة الهجينة: معمارية ذاكرة الوصول العشوائي الديناميكية الجديدة تزيد من الكثافة والأداء. في مؤتمر 2012 للتكنولوجيا VLSI (VLSIT) (ص ص 87-88). IEEE. https://ieeexplore.ieee.org/abstract/document/6243767 (opens in a new tab)
Lee, J. H., Lim, D., Jeong, H.,هذا هو الترجمة العربية للملف:

كيم ، ه. ، سونج ، ت. ، لي ، ج. ، ... و كيم ، ج. (2014). ذاكرة وصول عشوائي ذات نطاق ترددي عالي (HBM) مكدسة 1.2 فولت 8 جيجا بايت 8 قناة 128 جيجا بايت / ثانية مع طرق اختبار I / O ميكرو مفتاح فعالة باستخدام عملية 29 نانومتر و TSV. في مؤتمر دائرة الحالة الصلبة الدولي 2014 ملخص أوراق البحث التقنية (ISSCC) (ص. 432-433). IEEE. https://ieeexplore.ieee.org/abstract/document/6757501 (opens in a new tab)

ديمير ، ي. ، بان ، ي. ، سونج ، س. ، هارديفيلز ، ن. ، كيم ، ج. ، و ميميك ، ج. (2018). المجرة: معمارية متعددة الرقائق عالية الأداء وذات كفاءة طاقية باستخدام وصلات البصرية. في وقائع المؤتمر الدولي الثامن والعشرين لجمعية أكم للحوسبة (ص. 303-312). https://dl.acm.org/doi/abs/10.1145/2597652.2597664 (opens in a new tab)
راو ، ت. (2019). معالجات الشبكة العصبية インテル نيرفانا (NNP) تعيد تحديد رقائق الذكاء الاصطناعي. https://www.intel.com/content/www/us/en/artificial-intelligence (opens in a new tab)

Chapter 11 Gpu Research Directions on Scalarization and Affine Execution كيفية فهم بطاقات الرسومات الذكية للذكاء الاصطناعي للمبتدئين بسهولة