NVIDIA Hopper GPUs کے لیے CUDA پروگرامنگ سیکھیں۔
ہم نے freeCodeCamp.org یوٹیوب چینل پر ایک کورس شائع کیا ہے جو آپ کو سکھاتا ہے کہ کس طرح ایک موثر WGMMA پائپ لائن بنانا ہے اور جدید AI کو سپورٹ کرنے والے بڑے پیمانے پر میٹرکس ضربوں کو انجام دینے کے لیے Cutlass آپٹیمائزیشن کا فائدہ اٹھانا ہے۔
سنگل چپ پرفارمنس کے علاوہ، نصاب میں ملٹی جی پی یو اسکیلنگ اور این سی سی ایل پرائمیٹوز کا احاطہ کیا گیا ہے جو ٹریلین پیرامیٹر ماڈلز کو تربیت دینے کے لیے درکار ہیں۔ ان اسباق سے زیادہ سے زیادہ فائدہ اٹھانے کے لیے، آپ کو C++ نحو اور لکیری الجبرا کی بنیادی سمجھ ہونی چاہیے، خاص طور پر میٹرکس کو ٹائل کرنے اور ضرب لگانے کا طریقہ۔
کورس کا تعارف
مشمولات اور کورس کا جائزہ
سبق 1 — H100 Hopper GPU فن تعمیر
H100 تفصیلات: HBM3، بینڈوتھ اور پاور
ٹینسر کور کا جائزہ
ٹینسر میموری ایکسلریٹر (TMA)
ٹرانسفارمر انجن
L2 کیشے فن تعمیر
GPC، TPC اور SM لے آؤٹ
تھریڈ بلاک کلسٹر
تقسیم شدہ مشترکہ میموری
SM ذیلی تقسیم (SMSP)
وارپ شیڈولر اور ڈسپیچر
مشترکہ میموری اور ڈیٹا کی نقل و حرکت
قبضے
سبق 2 — کلسٹرز، ڈیٹا کی اقسام، ان لائن PTXs، اور پوائنٹرز
تھریڈ بلاک کلسٹر پروگرامنگ
کلسٹر وسیع ترتیب
ان لائن PTX اسمبلی
ریاست کی جگہ
PTX کی ڈیٹا کی قسم
سادہ پوائنٹر
پتہ کی جگہ کا ترجمہ
سبق 3 – مطابقت پذیری اور رکاوٹیں۔
متضاد کارروائیوں کا تعارف
پراکسی
باڑ اور میموری آرڈرنگ
باڑ کی ترتیب اور مرئیت
باڑ کی حد
باڑ حاصل کریں اور جاری کریں۔
متوقع تعداد اور دھاگے کی آمد
ایم بیریئر آمد آپریشن
ایم بیریئر پی ٹی ایکس ہدایات
رکاوٹ اسٹینڈ بائی آپریشن
مرحلہ اور برابری۔
عمل کا ارتکاب
سبق 4 – CuTensorMap ڈسکرپٹر
ٹینسر کی شکل، اسٹرائیڈ، اور ڈیٹا کی قسم
عنصر کی ترقی اور سائز
باکس کا سائز (ٹائل سائز)
بینک تنازعہ
swizzling
سوئزل فارمولہ ڈیپ ڈائیو
انٹرلیوڈ لے آؤٹ
حد سے باہر بھرنا (OOB)
لیکچر 5 — cp.async.bulk (TMA کے ذریعے غیر مطابقت پذیر بلک کاپی)
بلک ٹینسر آپریشنز (1D–5D)
ملٹی کاسٹ آپریشن
پیشگی بازیافت
لیکچر 6 – WGMMA حصہ 1 (وارپ گروپ میٹرکس ضرب جمع)
وارپ گروپ اور میٹرکس ضرب
WGMMA وضاحت کنندہ
جمع کرنے والا اور رجسٹر دوبارہ استعمال کریں۔
پیمانے کے عوامل (اسکیل ڈی، اسکیل اے، اسکیل بی)
کور میٹرکس اور 16×16 ٹائلیں۔
سبق 7 – WGMMA حصہ 2
کمٹ گروپ اور اسٹینڈ بائی گروپ
FP8 ڈیٹا کی قسم کا استعمال کرتے ہوئے WGMMA
سبق 8 – دانا ڈیزائن
کمپیوٹ کے پابند اور میموری سے منسلک دانا
وارپ اسپیشلائزیشن
تعاون بمقابلہ تعاون پنگ پونگ پائپ لائن
پائپ لائننگ کی بنیادی باتیں
سرکلر بفرنگ
ٹیبل ٹینس پائپ لائن میں گہرا غوطہ لگائیں۔
پائپ لائن میں ایپی لاگ پروسیسنگ
مسلسل شیڈولنگ
Split-K اور Stream-K حکمت عملی
ڈیٹا متوازی ٹائل کا شیڈولنگ
ایپیلاگ فیوژن (تعصب، ایکٹیویشن، اسکیلنگ)
Epilogue کام کا جائزہ
CUTLASS سورس کوڈ کو دریافت کریں۔
مین لوپ اور شیڈولنگ پالیسی
ڈسپیچ پالیسی
SM90 ٹائل شیڈیولر
SM90 ایپیلاگ (TMA وارپ اسپیشلائزڈ)
SM90 بلڈر
اجتماعی بلڈر
FAST.CU کرنل کا دورہ
مین لوپ کا نفاذ
پروڈیوسر وارپ گروپ (انحصار کی دیوار)
کنزیومر وارپ گروپ
prolog
ملٹی جی پی یو پروگرامنگ – حصہ 1
NV سوئچ
ٹوپولوجی اور سسٹم فن تعمیر
NVSwitch، BlueField DPU، اور اسٹوریج فیبرک
CUDA پیئر ٹو پیئر کمیونیکیشن
میسج پاسنگ انٹرفیس (MPI)
P2P کی حدود اور فوائد اور نقصانات
ملٹی جی پی یو پروگرامنگ – حصہ 2
SLURM وسائل کی تقسیم
PMix پروسیس مینجمنٹ
NVIDIA اجتماعی مواصلات لائبریری (NCCL)
این سی سی ایل اندرونی اور رنگ الگورتھم
AllReduce آپریشنز
NCCL اجتماعی: براڈکاسٹ، آل گیدر، ReduceScatter
متوازی حکمت عملی: ڈیٹا، ٹینسر، پائپ لائن، اور ماہر متوازی
کورس کا اختتام اور اگلے مراحل