NVIDIA H100 کے لیے CUDA پروگرامنگ

NVIDIA Hopper GPUs کے لیے CUDA پروگرامنگ سیکھیں۔

ہم نے freeCodeCamp.org یوٹیوب چینل پر ایک کورس شائع کیا ہے جو آپ کو سکھاتا ہے کہ کس طرح ایک موثر WGMMA پائپ لائن بنانا ہے اور جدید AI کو سپورٹ کرنے والے بڑے پیمانے پر میٹرکس ضربوں کو انجام دینے کے لیے Cutlass آپٹیمائزیشن کا فائدہ اٹھانا ہے۔

سنگل چپ پرفارمنس کے علاوہ، نصاب میں ملٹی جی پی یو اسکیلنگ اور این سی سی ایل پرائمیٹوز کا احاطہ کیا گیا ہے جو ٹریلین پیرامیٹر ماڈلز کو تربیت دینے کے لیے درکار ہیں۔ ان اسباق سے زیادہ سے زیادہ فائدہ اٹھانے کے لیے، آپ کو C++ نحو اور لکیری الجبرا کی بنیادی سمجھ ہونی چاہیے، خاص طور پر میٹرکس کو ٹائل کرنے اور ضرب لگانے کا طریقہ۔

  • کورس کا تعارف

  • مشمولات اور کورس کا جائزہ

  • سبق 1 — H100 Hopper GPU فن تعمیر

  • H100 تفصیلات: HBM3، بینڈوتھ اور پاور

  • ٹینسر کور کا جائزہ

  • ٹینسر میموری ایکسلریٹر (TMA)

  • ٹرانسفارمر انجن

  • L2 کیشے فن تعمیر

  • GPC، TPC اور SM لے آؤٹ

  • تھریڈ بلاک کلسٹر

  • تقسیم شدہ مشترکہ میموری

  • SM ذیلی تقسیم (SMSP)

  • وارپ شیڈولر اور ڈسپیچر

  • مشترکہ میموری اور ڈیٹا کی نقل و حرکت

  • قبضے

  • سبق 2 — کلسٹرز، ڈیٹا کی اقسام، ان لائن PTXs، اور پوائنٹرز

  • تھریڈ بلاک کلسٹر پروگرامنگ

  • کلسٹر وسیع ترتیب

  • ان لائن PTX اسمبلی

  • ریاست کی جگہ

  • PTX کی ڈیٹا کی قسم

  • سادہ پوائنٹر

  • پتہ کی جگہ کا ترجمہ

  • سبق 3 – مطابقت پذیری اور رکاوٹیں۔

  • متضاد کارروائیوں کا تعارف

  • پراکسی

  • باڑ اور میموری آرڈرنگ

  • باڑ کی ترتیب اور مرئیت

  • باڑ کی حد

  • باڑ حاصل کریں اور جاری کریں۔

  • متوقع تعداد اور دھاگے کی آمد

  • ایم بیریئر آمد آپریشن

  • ایم بیریئر پی ٹی ایکس ہدایات

  • رکاوٹ اسٹینڈ بائی آپریشن

  • مرحلہ اور برابری۔

  • عمل کا ارتکاب

  • سبق 4 – CuTensorMap ڈسکرپٹر

  • ٹینسر کی شکل، اسٹرائیڈ، اور ڈیٹا کی قسم

  • عنصر کی ترقی اور سائز

  • باکس کا سائز (ٹائل سائز)

  • بینک تنازعہ

  • swizzling

  • سوئزل فارمولہ ڈیپ ڈائیو

  • انٹرلیوڈ لے آؤٹ

  • حد سے باہر بھرنا (OOB)

  • لیکچر 5 — cp.async.bulk (TMA کے ذریعے غیر مطابقت پذیر بلک کاپی)

  • بلک ٹینسر آپریشنز (1D–5D)

  • ملٹی کاسٹ آپریشن

  • پیشگی بازیافت

  • لیکچر 6 – WGMMA حصہ 1 (وارپ گروپ میٹرکس ضرب جمع)

  • وارپ گروپ اور میٹرکس ضرب

  • WGMMA وضاحت کنندہ

  • جمع کرنے والا اور رجسٹر دوبارہ استعمال کریں۔

  • پیمانے کے عوامل (اسکیل ڈی، اسکیل اے، اسکیل بی)

  • کور میٹرکس اور 16×16 ٹائلیں۔

  • سبق 7 – WGMMA حصہ 2

  • کمٹ گروپ اور اسٹینڈ بائی گروپ

  • FP8 ڈیٹا کی قسم کا استعمال کرتے ہوئے WGMMA

  • سبق 8 – دانا ڈیزائن

  • کمپیوٹ کے پابند اور میموری سے منسلک دانا

  • وارپ اسپیشلائزیشن

  • تعاون بمقابلہ تعاون پنگ پونگ پائپ لائن

  • پائپ لائننگ کی بنیادی باتیں

  • سرکلر بفرنگ

  • ٹیبل ٹینس پائپ لائن میں گہرا غوطہ لگائیں۔

  • پائپ لائن میں ایپی لاگ پروسیسنگ

  • مسلسل شیڈولنگ

  • Split-K اور Stream-K حکمت عملی

  • ڈیٹا متوازی ٹائل کا شیڈولنگ

  • ایپیلاگ فیوژن (تعصب، ایکٹیویشن، اسکیلنگ)

  • Epilogue کام کا جائزہ

  • CUTLASS سورس کوڈ کو دریافت کریں۔

  • مین لوپ اور شیڈولنگ پالیسی

  • ڈسپیچ پالیسی

  • SM90 ٹائل شیڈیولر

  • SM90 ایپیلاگ (TMA وارپ اسپیشلائزڈ)

  • SM90 بلڈر

  • اجتماعی بلڈر

  • FAST.CU کرنل کا دورہ

  • مین لوپ کا نفاذ

  • پروڈیوسر وارپ گروپ (انحصار کی دیوار)

  • کنزیومر وارپ گروپ

  • prolog

  • ملٹی جی پی یو پروگرامنگ – حصہ 1

  • NV سوئچ

  • ٹوپولوجی اور سسٹم فن تعمیر

  • NVSwitch، BlueField DPU، اور اسٹوریج فیبرک

  • CUDA پیئر ٹو پیئر کمیونیکیشن

  • میسج پاسنگ انٹرفیس (MPI)

  • P2P کی حدود اور فوائد اور نقصانات

  • ملٹی جی پی یو پروگرامنگ – حصہ 2

  • SLURM وسائل کی تقسیم

  • PMix پروسیس مینجمنٹ

  • NVIDIA اجتماعی مواصلات لائبریری (NCCL)

  • این سی سی ایل اندرونی اور رنگ الگورتھم

  • AllReduce آپریشنز

  • NCCL اجتماعی: براڈکاسٹ، آل گیدر، ReduceScatter

  • متوازی حکمت عملی: ڈیٹا، ٹینسر، پائپ لائن، اور ماہر متوازی

  • کورس کا اختتام اور اگلے مراحل

  • Scroll to Top