AI پیپر ریویو: زبان کے ماڈلز بہت کم سیکھنے والے ہیں (GPT-3)

GPT-2 کے بعد، یہ واضح ہو گیا کہ زبان کے ماڈلز محققین کی اصل توقع سے کہیں زیادہ کام کر سکتے ہیں۔ اگلے لفظ کی پیشین گوئی کرنے کے لیے صرف ایک ماڈل کی تربیت نے پہلے ہی حیرت انگیز صلاحیتیں پیدا کرنا شروع کر دی ہیں جیسے ترجمہ، خلاصہ، اور سوالوں کے جوابات بغیر کسی مخصوص کام کے تربیت کے۔

تاہم، اب بھی بڑی حدود موجود تھیں۔ اگرچہ GPT-2 متعدد کاموں کو عام کرنے کے قابل تھا، اس نے پھر بھی قابل اعتماد طریقے سے اپنانے کے لیے جدوجہد کی۔ کارکردگی کا انحصار اکثر احتیاط سے تیار کیے گئے اشارے پر ہوتا ہے اور پھر بھی حقیقی دنیا کی ایپلی کیشنز کے لیے ٹھیک ٹیوننگ کی ضرورت ہوتی ہے۔ AI سسٹمز زیادہ لچکدار ہوتے جا رہے ہیں، لیکن وہ اب بھی انسانوں کی طرح سیاق و سباق میں کام نہیں سیکھتے ہیں۔

GPT-3 پھر اس خیال کو اور بھی آگے لے گیا۔ یہ پوچھنے کے بجائے کہ کیا زبان کا ماڈل ٹھیک ٹیوننگ کے بغیر کام انجام دے سکتا ہے، اس مقالے نے کچھ زیادہ ہی مہتواکانکشی کی کھوج کی۔

جب آپ اپنے لینگویج ماڈل کو انتہائی سائز میں پیمانہ کرتے ہیں تو کیا ہوتا ہے؟ جواب نے AI کمیونٹی میں تقریباً سب کو حیران کر دیا۔

GPT-3 نے ظاہر کیا کہ زبان کا کافی بڑا ماڈل اکثر نئے کاموں کو براہ راست پرامپٹ کے اندر موجود مثالوں سے سیکھ سکتا ہے۔ کوئی دوبارہ تربیت نہیں. کوئی تدریجی اپ ڈیٹس نہیں ہیں۔ قدرتی زبان میں لکھے گئے کچھ مظاہرے یہ ہیں۔

مثال کے طور پر، اگر آپ ماڈل کو کئی انگریزی-فرانسیسی ترجمے دکھاتے ہیں، تو ماڈل نئے جملوں کے لیے پیٹرن کو درست طریقے سے جاری رکھ سکتا ہے۔ سوالات اور جوابات کی مثالیں فراہم کرنا اکثر آپ کو فوری طور پر کارروائی کا اندازہ لگانے اور معقول جواب پیدا کرنے کی اجازت دیتا ہے۔

یہ مشہور ہوا: چند شاٹ سیکھنے اور سیاق و سباق میں سیکھنا.

زیادہ اہم بات یہ ہے کہ، GPT-3 AI سسٹمز کے ساتھ بات چیت کرنے کا ایک بالکل مختلف طریقہ تجویز کرتا ہے۔ ہر کام کے لیے الگ ماڈل کی تربیت دینے کے بجائے، وہی ماڈل اسے موصول ہونے والی ہدایات اور مثالوں کی بنیاد پر متحرک طور پر ڈھال سکتا ہے۔

یہ خیال بالآخر ChatGPT جیسے جدید AI سسٹمز کی بنیاد بن گیا۔

اب، بہت سے بااثر AI پیپرز کی طرح، GPT-3 پیپر کو اس کے سائز، تکنیکی تجربات، اور طویل بینچ مارک کی تشخیص کی وجہ سے پڑھنا مشکل ہو سکتا ہے۔ لہذا، اس مضمون میں، ہم ان سب کو واضح اور عملی طور پر توڑ دیں گے۔

آئیے اس پر ایک نظر ڈالتے ہیں کہ پیپر کس مسئلے کو حل کرنے کی کوشش کر رہا تھا، چند شاٹ لرننگ کیسے کام کرتی ہے، اسکیلنگ اتنی اہم کیوں ہو گئی، GPT-3 کو کس طرح تربیت دی گئی، اور اس پیپر نے بنیادی طور پر جدید AI تحقیق کی سمت کیوں بدل دی۔

آخر میں، آپ کو GPT-3 کے بنیادی خیالات کو سمجھنا چاہیے اور یہ پیپر بڑے پیمانے پر لینگویج ماڈل LLM کی تاریخ میں سب سے اہم سنگ میل کیوں بن گیا ہے۔

مقالہ کا خاکہ

اس مضمون میں، ہم کاغذ کا جائزہ لیں گے. زبان کا نمونہ سیکھنے والوں کی ایک چھوٹی تعداد ہے۔ ٹام براؤن وغیرہ۔ اوپن اے آئی میں۔

اس مقالے نے GPT-3 متعارف کرایا اور جدید AI تحقیق کی سمت میں تبدیلی کا مظاہرہ کیا۔ بڑے پیمانے پر لینگویج ماڈلز کاموں کو براہ راست اشارے اور مثالوں سے ٹاسک مخصوص فائن ٹیوننگ کے بغیر سیکھ سکتے ہیں، جیسا کہ GPT-1 کے طریقہ کار میں ہے۔

ہر نئے کام کے لیے ماڈل کو دوبارہ تربیت دینے کے بجائے، GPT-3 اکثر قدرتی زبان کی ہدایات، یک طرفہ مثالوں، یا تھوڑی تعداد میں اشارے کے ذریعے متحرک طور پر ڈھال سکتا ہے۔

اس مقالے میں درج ذیل خیالات بھی پیش کیے گئے: سیاق و سباق میں سیکھنایہاں، ماڈل قیاس کے دوران خود پرامپٹ کے اندر پیٹرن سے مؤثر طریقے سے سیکھتا ہے۔

اگر آپ اسے خود دریافت کرنا چاہتے ہیں تو اصل کاغذ یہ ہے: زبان کا ماڈل فیو شاٹ لرنرز (پی ڈی ایف) ہے۔

ذیل میں ایک فوری انفوگرافک ہے جس کا ہم اس پورے جائزے میں احاطہ کریں گے۔

اشاریہ:

شرطیں

اس تجزیہ سے زیادہ سے زیادہ فائدہ اٹھانے کے لیے، یہ کچھ بنیادی خیالات سے پہلے سے واقف ہونے میں مدد کرتا ہے۔

آپ کو اس سیریز میں پچھلے جائزے پڑھنا خاص طور پر مددگار ثابت ہوگا۔

GPT-3 پچھلے پیپرز میں متعارف کرائے گئے بہت سے آئیڈیاز پر براہ راست تعمیر کرتا ہے، خاص طور پر لغت سیکھنا، زیرو شاٹ لرننگ، اور بڑے پیمانے پر لینگویج ماڈلنگ۔

آپ کو درج ذیل مددگار بھی مل سکتے ہیں:

نیچرل لینگویج پروسیسنگ (NLP) کے بارے میں ایک عام فہم اور مشینیں متن کو کیسے پروسیس کرتی ہیں۔
ٹرانسفارمر ماڈل کیا ہے اس کا ایک اعلیٰ سطحی خیال (کوئی گہری ریاضیاتی تفصیلات درکار نہیں)۔
زیر نگرانی سیکھنے، غیر زیر نگرانی سیکھنے، اور زیرو شاٹ لرننگ کا علم
اشارے کی بنیادی تفہیم اور زبان کے ماڈل کس طرح متن تیار کرتے ہیں۔
مشین لرننگ کے عمومی تصورات جیسے ٹریننگ ڈیٹا، پیرامیٹرز، ایکسٹینشنز، اور انفرنس۔

لیکن آپ کو اس مضمون کی پیروی کرنے کے لیے AI محقق ہونے کی ضرورت نہیں ہے۔

میں وضاحت کو عملی اور بدیہی رکھوں گا، GPT-3 کے بنیادی خیالات کو سمجھنے پر زیادہ توجہ مرکوز کروں گا بجائے اس کے کہ گھنے ریاضی کی تفصیلات یا علمی اصطلاح میں الجھ کر رہوں۔

خلاصہ

GPT-3 سے پہلے، GPT-2 جیسے ماڈل پہلے ہی حیران کن نتائج دکھا چکے ہیں۔ اس کا مطلب یہ ہے کہ اگلے لفظ کی پیشن گوئی کرنے کے لیے تربیت یافتہ زبان کا ماڈل اب بھی بہت سے کام انجام دے سکتا ہے جن کے لیے اسے براہ راست تربیت نہیں دی گئی تھی۔ ترجمہ، خلاصہ، اور سوالوں کے جوابات جیسی صلاحیتیں جیسے جیسے ماڈل میں اضافہ ہوا قدرتی طور پر ابھرنا شروع ہوا۔

لیکن پھر بھی حدود تھیں۔

یہاں تک کہ GPT-2 کے لیے بھی، مضبوط کارکردگی کا انحصار اکثر محتاط اشارہ دینے یا اضافی فائن ٹیوننگ پر ہوتا ہے۔ حقیقت میں، زیادہ تر NLP سسٹم اب بھی اسی طرز پر چل رہے ہیں۔ اس کا مطلب ہے کہ پہلے ایک بڑے ماڈل کو تربیت دیں اور پھر ہر نئے کام کے لیے اسے الگ سے دوبارہ تربیت دیں یا اسے ٹھیک کریں۔

GPT-3 آپ کے پورے ورک فلو کو چیلنج کرتا ہے۔

مصنفین کے مطابق، ایک بار جب زبان کا ماڈل کافی بڑا ہو جائے تو، سیکھنے کا کام براہ راست صرف سیاق و سباق سے شروع ہو سکتا ہے۔ ماڈل کے پیرامیٹرز کو اپ ڈیٹ کرنے کے بجائے، آپ پرامپٹ میں صرف چند مثالیں دکھاتے ہیں اور ماڈل پیٹرن کو جاری رکھتا ہے۔

اس خیال کو اخبار میں کہا جاتا ہے۔ چند شاٹ سیکھنے.

مثال کے طور پر، ایک علیحدہ ترجمہ ماڈل کی تربیت کے بجائے، آپ لکھ سکتے ہیں:

کتا → کتا
بلی → چیٹ
گھر → ?

اور GPT-3 اکثر صحیح جواب فراہم کرتا رہتا ہے۔ میسن.

اس کے اہم ہونے کی وجہ یہ ہے کہ ماڈل تخمینہ کے دوران گریڈینٹ اپ ڈیٹس کے ذریعے نہیں سیکھتا ہے۔ روایتی معنوں میں دوبارہ تعلیم نہیں ملتی۔ سیکھنے کا عمل سیاق و سباق کی کھڑکی کے اندر ہی ہوتا ہے، مثالوں کے ذریعے پرامپٹس میں فراہم کی گئی ہے۔

اس سے زبان کے ماڈلز کے استعمال میں بڑا فرق پڑتا ہے۔

GPT-3 تجویز کرتا ہے کہ، ہر کام کے لیے ماہرانہ نظام بنانے کے بجائے، ایک کافی بڑا ماڈل صرف ہدایات اور مثالوں کو پڑھ کر متحرک طور پر اپنا سکتا ہے۔ کاغذ اس طرز عمل کی طرف اشارہ کرتا ہے: سیاق و سباق میں سیکھناGPT-3 کی زیادہ تر شراکتیں یہ ظاہر کرنے پر مرکوز ہیں کہ یہ خیال پیمانے پر کتنا طاقتور ہے۔

کاغذ کا مقصد

مصنفین کے مطابق، موجودہ NLP سسٹمز کی سب سے بڑی حدود میں سے ایک یہ ہے کہ وہ کام کے لیے مخصوص تربیت پر بہت زیادہ انحصار کرتے ہیں۔ اگرچہ GPT-3 کے متعارف ہونے تک ماڈلز تیزی سے طاقتور ہوتے گئے، زیادہ تر سسٹمز کو اب بھی ہر نئے کام کے لیے ایک علیحدہ فائن ٹیوننگ عمل کی ضرورت تھی۔

عملی طور پر، اس سے کچھ مسائل پیدا ہوئے۔

سب سے پہلے، تمام کاموں کے لیے لیبل لگا ڈیٹا درکار ہے۔ اگر آپ مضامین کا خلاصہ، سوالات کے جوابات، جذبات کی درجہ بندی کرنے اور متن کا ترجمہ کرنے کے لیے ماڈل چاہتے ہیں، تو آپ کو عام طور پر ہزاروں، کبھی کبھی لاکھوں، احتیاط سے تیار کردہ مثالوں کی ضرورت ہوتی ہے۔ اس ڈیٹا کو اکٹھا کرنا مہنگا، وقت طلب، اور چھوٹے یا مخصوص آپریشنز کے لیے اکثر ناقابل عمل تھا۔

دوسرا، ہر نئی خصوصیت کو اضافی تربیت کی ضرورت ہوتی ہے۔ یہاں تک کہ جب بیس ماڈل کو پہلے سے ہی متن کی بڑی مقدار پر پہلے سے تربیت دی گئی تھی، تب بھی ڈویلپرز کو مخصوص استعمال کے معاملات کے لیے اسے دوبارہ تربیت دینا یا اسے ٹھیک کرنا تھا۔

کاغذ کا استدلال ہے کہ یہ ورک فلو بنیادی طور پر غیر موثر ہے۔ زیادہ اہم بات یہ ہے کہ مصنفین بتاتے ہیں کہ یہ انسانوں کے سیکھنے کے طریقے سے مماثل نہیں ہے۔ انسان اکثر کسی کام کو صرف چند مظاہروں یا مختصر ہدایات کے بعد سمجھ سکتا ہے۔ آپ کو عام طور پر یہ سمجھنے کے لیے ہزاروں لیبل والی مثالوں کی ضرورت نہیں ہوتی ہے کہ سوال کیا پوچھ رہا ہے۔

یہ GPT-3 کا بنیادی سوال بن جاتا ہے۔

کیا لینگویج ماڈلز پیرامیٹر اپ ڈیٹس اور ٹاسک مخصوص ری ٹریننگ پر انحصار کرنے کے بجائے سیاق و سباق سے براہ راست نئے کام سیکھ سکتے ہیں؟

یہ سوال کاغذ کے تقریباً تمام تجربات کو چلاتا ہے۔ یہ جانچنے کے بجائے کہ آیا GPT-3 احتیاط سے بہتر بنائے گئے بینچ مارک میں مہارت حاصل کر سکتا ہے، مصنفین کچھ وسیع تر تلاش کر رہے ہیں۔ یعنی، کیا توسیع شدہ زبان کے ماڈل صرف اشارے، مثالوں، اور قدرتی زبان کی ہدایات کے ساتھ متحرک طور پر موافقت پذیر نظام تیار کر سکتے ہیں۔

بنیادی خیال

بنیادی طور پر، GPT-3 اب بھی انہی بنیادی خیالات پر بنایا گیا ہے جو GPT-2 میں استعمال ہوتے ہیں۔ ترتیب میں اگلے ٹوکن کی پیشین گوئی کرنے کے لیے زبان کے ماڈل کو تربیت دیں۔ تربیت کا مقصد خود حیرت انگیز طور پر آسان ہے۔ کچھ متن کو دیکھتے ہوئے، ماڈل اندازہ لگانا سیکھتا ہے کہ آگے کیا ہوگا، ایک وقت میں ایک ٹوکن۔

سطح پر، GPT-3 GPT-2 کے بہت بڑے ورژن سے زیادہ کچھ نہیں لگتا ہے۔ اور کچھ طریقوں سے یہ سچ ہے۔ ماڈل کا سائز ڈرامائی طور پر 175 بلین پیرامیٹرز تک ہے اور اسے کامن کرال، ویب ٹیکسٹ، کتابیں اور ویکیپیڈیا جیسے ذرائع سے جمع کیے گئے بہت بڑے اور متنوع ڈیٹاسیٹس پر تربیت دی جاتی ہے۔

لیکن مقالے کا استدلال ہے کہ جیسے جیسے زبان کے ماڈلز پھیلتے ہیں، مزید دلچسپ چیزیں ہونے لگتی ہیں۔

متن کے نمونوں کو یاد رکھنے میں صرف بہتر ہونے کے بجائے، GPT-3 فوری طور پر کاموں کو سیکھنے کی اپنی صلاحیت دکھانا شروع کر دیتا ہے۔ جب ماڈل ان پٹ کے اندر ہی مثالیں دیکھتا ہے، تو یہ اکثر بغیر کسی اضافی تربیت یا پیرامیٹر کی تازہ کاری کے پیٹرن کو درست طریقے سے جاری رکھنے کے قابل ہوتا ہے۔

مثال کے طور پر، اگر ایک پرامپٹ میں کئی سوال جواب جوڑے یا ترجمے کی مثالیں شامل ہیں، تو GPT-3 کام کی ساخت کا اندازہ لگا سکتا ہے اور نئے ان پٹس کے لیے اسی طرح کا آؤٹ پٹ تیار کر سکتا ہے۔ دوسرے الفاظ میں، پرامپٹ ایک عارضی سیکھنے کا ماحول بن جاتا ہے۔

یہ اس مقالے میں بنیادی تصوراتی تبدیلی ہے۔

روایتی مشین لرننگ عام طور پر تربیت اور تخمینہ کو الگ کرتی ہے۔ پہلے، ماڈل کو وزن کو اپ ڈیٹ کرکے تربیت دی جاتی ہے اور پھر بعد میں پیشین گوئی کے لیے تعینات کیا جاتا ہے۔ GPT-3 لائنوں کو دھندلا دیتا ہے۔ بلاشبہ، ماڈل پری ٹریننگ کے دوران سیکھتا ہے، لیکن یہ موصولہ سیاق و سباق کی بنیاد پر اندازہ کے دوران اپنے رویے کو متحرک طور پر ایڈجسٹ بھی کر سکتا ہے۔

مصنفین اس طرز عمل کو اس طرح بیان کرتے ہیں: سیاق و سباق میں سیکھنا.

جو چیز اس خیال کو اہم بناتی ہے وہ یہ ہے کہ ماڈل کو ہر کام کے لیے دوبارہ تربیت نہیں دی جاتی ہے۔ پرامپٹ پر کارروائی کے دوران کوئی گریڈینٹ اپ ڈیٹ نہیں ہوتا ہے۔ اس کے بجائے، GPT-3 سیاق و سباق کی ونڈو میں موجود مثالوں سے سیکھتا ہے۔

یہ زبان کے ماڈلز کے بارے میں ہمارے سوچنے کے انداز میں ایک لطیف لیکن اہم تبدیلی کی نمائندگی کرتا ہے۔ اشارے اب صرف ان پٹ نہیں ہیں۔ یہ ماڈل کو سکھانے کے لیے یہ ایک موثر ہلکا پھلکا انٹرفیس بناتا ہے کہ کیا کرنا ہے۔

طریقہ کار

GPT-3 کے اتنے بااثر ہونے کی ایک وجہ یہ ہے کہ بنیادی تربیتی عمل درحقیقت بہت واقف ہے۔ بہت سے تحقیقی مقالوں کے برعکس جو مکمل طور پر نئے فن تعمیرات یا پیچیدہ سیکھنے کے الگورتھم متعارف کراتے ہیں، GPT-3 زیادہ تر ان خیالات پر مبنی ہے جو پہلے سے موجود تھے۔ فرق یہ ہے کہ ان خیالات کو کس قدر جارحانہ انداز میں پھیلایا جاتا ہے۔

مصنفین کے مطابق، تربیت کا بنیادی مقصد معیاری خودکار زبان کی ماڈلنگ ہے۔ سیدھے الفاظ میں، ماڈل تکراری طور پر سیکھتا ہے کہ کس طرح متن کو پڑھنا ہے اور ترتیب میں اگلے ٹوکن کی پیشن گوئی کرنا ہے۔ یہ وہی عام طریقہ ہے جو GPT-2 میں استعمال ہوتا ہے۔

عمل خود تصوراتی طور پر آسان ہے۔

بہت بڑے ٹرانسفارمر ماڈلز کی تربیت
انٹرنیٹ ٹیکسٹ کی ایک بڑی مقدار درج کریں۔
اگلے لفظ کی مسلسل پیشن گوئی کرنے کے لیے بہتر بنائیں۔

جو چیز ڈرامائی طور پر تبدیل ہوتی ہے وہ پیمانہ ہے۔

GPT-3 کو کامن کرال، ویب ٹیکسٹ، کتابیں اور ویکیپیڈیا جیسے ذرائع سے جمع کیے گئے سیکڑوں بلین ٹوکنز پر تربیت دی گئی۔ دستاویز یہ بھی بتاتی ہے کہ اوپن اے آئی نے معیار کو بہتر بنانے اور نقل کو کم کرنے کے لیے کامن کرال ڈیٹاسیٹ کے ایک اہم حصے کو فلٹر اور صاف کیا ہے۔

لیکن طریقہ کار کا سب سے اہم حصہ صرف یہ نہیں ہے کہ ماڈل کی تربیت کیسے کی جاتی ہے۔ ماڈل ایسا ہی ہے۔ تربیت کے بعد استعمال کریں۔.

روایتی طور پر، این ایل پی سسٹمز فائن ٹیوننگ پر بہت زیادہ انحصار کرتے ہیں۔ زبان کے ماڈل کو پہلے سے تربیت دینے کے بعد، ڈویلپرز ہر انفرادی کام کے لیے ایک چھوٹے لیبل والے ڈیٹاسیٹ پر زبان کے ماڈل کو دوبارہ تربیت دیتے ہیں۔ مکمل طور پر مختلف نقطہ نظر کے ساتھ GPT-3 کے تجربات۔

ماڈل کو دوبارہ تربیت دینے کے بجائے، کام کو براہ راست پرامپٹ میں بیان کیا جاتا ہے۔

اس مقالے میں، ہم تین اہم ترتیبات کا مطالعہ کرتے ہیں۔

زیرو شاٹ لرننگ: ماڈل کو صرف فطری زبان کے احکامات موصول ہوتے ہیں۔
ایک شاٹ سیکھنا: ماڈل کو کام کی واحد مثال ملتی ہے۔
چند شاٹ سیکھنے: ماڈل کو ایک نئے کیس کو حل کرنے سے پہلے متعدد کیسز موصول ہوتے ہیں۔

مثال کے طور پر، ترجمہ کا اشارہ اس طرح لگتا ہے:

کتا → کتا
بلی → چیٹ
گھر → ?

GPT-3 پھر پیٹرن کی پیشن گوئی جاری رکھتا ہے۔

میسن

اس کے بارے میں حیرت انگیز بات یہ ہے کہ اس عمل میں کوئی دوبارہ تربیت شامل نہیں ہے۔ ماڈل کا وزن مکمل طور پر غیر تبدیل شدہ رہتا ہے۔ یہ صرف پرامپٹ کے اندر موجود معلومات کا استعمال کرتا ہے تاکہ اندازہ لگایا جا سکے کہ کس قسم کی کارروائی کی درخواست کی جا رہی ہے۔

درحقیقت، یہ پرامپٹ کو باقاعدہ ٹائپنگ سے کہیں زیادہ طاقتور چیز میں بدل دیتا ہے۔ یہ ایک عارضی کام کی جگہ بن جاتا ہے جہاں ماڈل پیٹرن کو پہچان سکتا ہے، رویے کو ایڈجسٹ کر سکتا ہے، اور سیکھے ہوئے علم کو متحرک طور پر لاگو کر سکتا ہے۔

کاغذ اس بات کا اعادہ کرتا ہے کہ یہ طرز عمل کام کے مخصوص انجینئرنگ کے بجائے پیمانے کے ذریعے ابھرتا ہے۔ GPT-3 ترجمہ، خلاصہ، تخمینہ، یا سوال کے جواب کے لیے الگ سے تربیت یافتہ نہیں ہے۔ اس کے بجائے، مقصد ایسا لگتا ہے کہ ایک ہی عام زبان کے ماڈل میں ان تمام خصوصیات کو پیدا کیا جائے، ایک بار جب ماڈل کافی بڑا ہو جائے۔

فائن ٹیوننگ بمقابلہ زیرو شاٹ بمقابلہ چند شاٹ

طرف	ٹھیک ٹیوننگ	زیرو شاٹ لرننگ	چند شاٹ سیکھنے
تعریف	ماڈل کو ایک مخصوص کام کے لیے لیبل والے ڈیٹا پر مزید تربیت دی جاتی ہے۔	ماڈل مثالوں کے بغیر صرف ہدایات کا استعمال کرتے ہوئے کام انجام دیتا ہے۔	ماڈل پرامپٹ میں مثالوں کی ایک چھوٹی سی تعداد سے کام سیکھتا ہے۔
تعلیم کے تقاضے	ہمیں زیر نگرانی، کام کے لیے مخصوص ڈیٹاسیٹس کی ضرورت ہے۔	کوئی خاص کام کی تربیت یا مثالیں نہیں ہیں۔	ریفریشر ٹریننگ کی ضرورت نہیں ہے، لیکن اشارے پر کچھ مظاہرہ۔
کس طرح کام دیے جاتے ہیں۔	علیحدہ تربیتی مراحل کے ذریعے۔	قدرتی زبان کی ہدایات کے ذریعے	ہدایات اور کچھ ان پٹ/آؤٹ پٹ مثالوں کے ساتھ،
سیکھنے کا عمل	تربیت کے دوران ماڈل کے وزن کو اپ ڈیٹ کیا جاتا ہے۔	وزن کی کوئی تازہ کاری نہیں۔	وزن کی کوئی تازہ کاری نہیں ہے۔ سیکھنا سیاق و سباق کی کھڑکی میں ہوتا ہے۔
لچکدار	عام طور پر ایک کام میں مہارت	مختلف قسم کے کاموں میں انتہائی لچکدار	لچکدار رہتے ہوئے بھی آپ کو ڈیمو کا فائدہ ملتا ہے۔
موافقت	نئی ملازمتوں کو دوبارہ تربیت کی ضرورت ہے۔	پیغام رسانی کے ذریعے فوری طور پر موافقت کریں۔	سیاق و سباق سے متعلق حساس مثالوں کے ساتھ تیزی سے موافقت کریں۔
ڈیٹا انحصار	لیبل والے ڈیٹاسیٹس پر بہت زیادہ انحصار	بنیادی طور پر پیشگی تربیت کے علم پر منحصر ہے۔	یہ پری ٹریننگ اور فوری مثالوں پر منحصر ہے۔
کارکردگی	تنگ بینچ مارک کاموں کے لیے اکثر سب سے زیادہ طاقتور	ٹھیک ٹیوننگ سے عام طور پر کمزور	اکثر اوقات یہ صفر شاٹ سے زیادہ مضبوط ہوتا ہے اور بعض اوقات یہ ٹھیک ٹیوننگ کے قریب ہوتا ہے۔
تمام آپریشنز میں اسکیل ایبلٹی	یہ مہنگا اور پیمانہ کرنا مشکل ہے۔	انتہائی قابل توسیع	دوبارہ تربیت کے بغیر توسیع پذیر
لاگت کا حساب	اعلیٰ کیونکہ ہر کام کو نئی تربیت کی ضرورت پڑ سکتی ہے۔	استعمال میں کم	استعمال میں کم
ہاں	جذباتی تجزیہ ڈیٹاسیٹس کے لیے فائن ٹیوننگ ماڈل	"اس جملے میں جذبات کی درجہ بندی کریں”	"مثبت: فلم اچھی تھی۔ منفی: فلم بورنگ تھی۔ جملہ: کہانی زبردست تھی →”
اہم طاقتیں۔	احتیاط سے تربیت یافتہ کاموں کے لیے اعلیٰ درستگی	سادگی اور وسیع عمومیت	لچک اور کارکردگی کے درمیان طاقتور توازن
اہم کمزوری	متعدد کاموں میں اچھی طرح سے پیمانہ نہیں ہے۔	کام کی شکل یا ارادے کو غلط سمجھا جا سکتا ہے۔	تیز معیار اور مثال کے انتخاب کے لیے حساس
سب سے زیادہ متعلقہ	روایتی NLP نظام، GPT-1 دور	GPT-2 اسٹائل پرامپٹ	GPT-3 اور سیاق و سباق کی تعلیم
بنیادی خیال	ہر کام کے لیے خاص طور پر تربیت دیں۔	ہدایات سے اعمال کا اندازہ لگانا	سیاق و سباق کی مثالوں سے اعمال کا اندازہ لگائیں۔

ماڈل فن تعمیر

ساختی طور پر، GPT-3 بنیادی طور پر نیا ڈیزائن متعارف نہیں کراتا ہے۔ درحقیقت، اس کاغذ کے سب سے دلچسپ پہلوؤں میں سے ایک یہ ہے کہ بنیادی فن تعمیر تقریباً GPT-2 سے مماثل ہے۔ OpenAI خودکار مقاصد کے ساتھ تربیت یافتہ صرف ڈیکوڈر ٹرانسفارمر ماڈلز کا استعمال جاری رکھے ہوئے ہے۔

اعلی سطح پر، ٹرانسفارمر فن تعمیر متن پر کارروائی کرنے کے لیے درج ذیل میکانزم کا استعمال کرتا ہے: توجہ. پچھلے تکراری ماڈلز کی طرح ایک وقت میں الفاظ کو سختی سے پڑھنے کے بجائے، ٹرانسفارمر پوری ترتیب کو دیکھ سکتا ہے اور اس بات کا تعین کر سکتا ہے کہ کون سے الفاظ ایک دوسرے سے زیادہ وابستہ ہیں۔

مزید خاص طور پر، GPT-3 پر انحصار کرتا ہے: ذاتی مفادیہ ماڈل کو متن پیدا کرتے وقت سیاق و سباق کے مختلف حصوں کو وزن دینے کی اجازت دیتا ہے۔ اس سے ماڈل کو الفاظ، جملوں اور خیالات کے درمیان طویل مدتی تعلقات کو حاصل کرنے میں مدد ملتی ہے۔

ماڈل بھی ہے۔ خود بخوداس کا مطلب یہ ہے کہ یہ پچھلے ٹوکن کی بنیاد پر اگلے ٹوکن کی پیش گوئی کر کے ترتیب وار متن تیار کرتا ہے۔ یہ اگلا ٹوکن پیشن گوئی کا ہدف GPT-3 کی بنیاد ہے، جیسا کہ اس نے GPT-2 کے لیے کیا تھا۔

تو اگر فن تعمیر زیادہ تر ایک جیسا ہے تو اصل میں کیا بدلا ہے؟

جواب پیمانہ ہے۔

GPT-3 ڈرامائی طور پر ماڈل کے سائز، تربیتی ڈیٹا کی مقدار، اور تربیت کے دوران استعمال ہونے والے کمپیوٹیشنل وسائل کو بڑھاتا ہے۔ GPT-3 کا سب سے بڑا ورژن 175 بلین پیرامیٹرز پر مشتمل ہے، جو GPT-2 کے 1.5 بلین پیرامیٹر ماڈل سے بہت بڑا ہے۔

کاغذ 125 ملین سے 175 بلین تک کے مختلف ماڈل سائز کے ساتھ بھی تجربات کرتا ہے۔ یہ اہم تھا کیونکہ مصنفین اس بات کا مطالعہ کرنا چاہتے تھے کہ ماڈل کے بڑھنے کے ساتھ ہی خصوصیات کیسے تیار ہوتی ہیں۔

فن تعمیر میں شامل ہیں:

ڈیکوڈر کے لیے مخصوص ٹرانسفارمر ڈیزائن
2048 ٹوکن کی سیاق و سباق کی کھڑکی
ملتے جلتے اہداف کے ساتھ تربیت یافتہ متعدد ماڈل اسکیلز
توجہ کا طریقہ کار جو ماڈل کو مؤثر طریقے سے متعلقہ تعلقات کو سنبھالنے کی اجازت دیتا ہے۔

اس مقالے کے سب سے اہم مشاہدات میں سے ایک یہ ہے کہ پیمانہ بڑھنے کے ساتھ ہی کارکردگی میں آسانی سے بہتری آتی ہے۔ بڑے ماڈل کاموں کی ایک وسیع رینج پر مستقل طور پر بہتر کارکردگی کا مظاہرہ کرتے ہیں، بشمول ترجمہ، سوال کے جوابات، تخمینہ، اور چند شاٹ لرننگ۔

یہ خیال پورے GPT-3 دستاویز کا مرکز بن جاتا ہے۔

ہاتھ سے تیار کردہ ٹاسک مخصوص نظاموں پر انحصار کرنے کے بجائے، مصنفین تجویز کرتے ہیں کہ بہت ساری جدید خصوصیات قدرتی طور پر ابھرتی ہیں جب زبان کے ماڈل کافی بڑے ہو جاتے ہیں اور کافی متنوع ڈیٹا پر تربیت یافتہ ہوتے ہیں۔ دوسرے الفاظ میں، توسیع خود ایک تحقیقی حکمت عملی کی طرح کام کرنا شروع کر دیتی ہے۔

جو چیز اس تبدیلی کو اہم بناتی ہے وہ یہ ہے کہ GPT-3 پیچیدہ تعمیراتی اختراعات کے ذریعے اپنے نتائج حاصل نہیں کرتا ہے۔ اس مقالے کا استدلال بہت آسان ہے اور بعض طریقوں سے زیادہ حیران کن ہے۔

نسبتا معیاری ٹرانسفارمر فن تعمیر، جب کافی حد تک جارحانہ طور پر پیمانہ کیا جاتا ہے، مکمل طور پر نئے طرز عمل کی نمائش کرنا شروع کر دیتا ہے۔

میمو: اصل شکل پورے ٹرانسفارمر فن تعمیر (انکوڈر-ڈیکوڈر) کو ظاہر کرتی ہے۔ آپ کو صرف توجہ کی ضرورت ہے۔. GPT طرز کے ماڈل کی وضاحت اور مطابقت کے لیے، یہاں استعمال ہونے والی تصاویر کو صرف فن تعمیر کے ڈیکوڈر پہلو پر فوکس کرنے کے لیے کاٹا گیا ہے۔ اس کی وجہ یہ ہے کہ GPT ماڈل صرف ڈیکوڈر ٹرانسفارمر ڈیزائن پر مبنی ہے۔

حوالہ: براؤنلی، جے ٹرانسفارمر ماڈل انکوڈرز اور مشین لرننگ ماسٹری میں ڈیکوڈر۔

تجربہ

یہ سمجھنے کے لیے کہ آیا GPT-3 دراصل صرف سیاق و سباق سے سیکھ سکتا ہے، مصنفین نے NLP کاموں کی ایک بہت وسیع رینج میں ماڈل کا جائزہ لیا۔ کسی ایک بینچ مارک پر توجہ مرکوز کرنے کے بجائے، یہ مقالہ جانچتا ہے کہ آیا ایک ہی پہلے سے تربیت یافتہ ماڈل صرف اشارے اور مثالوں کا استعمال کرتے ہوئے مختلف قسم کے مسائل سے مطابقت رکھتا ہے۔

تجربات مختلف شعبوں کا احاطہ کرتے ہیں، بشمول:

زبان کی ماڈلنگ اور متن کی تکمیل
سوالات کے جوابات
زبانوں کے درمیان ترجمہ
پڑھنے کی سمجھ
عام فہم استدلال
ونوگراڈ طرز کے انفرنس ٹاسکس
بند اور جملے کی تکمیل کے کام
جامع استدلال کے مسائل جیسے ریاضی اور الفاظ کی ہیرا پھیری

جو چیز ان تجربات کو خاص طور پر اہم بناتی ہے وہ خود تشخیص کی ترتیب ہے۔

ہر بینچ مارک کے لیے الگ الگ GPT-3 کو ٹھیک کرنے کے بجائے، ہم پرامپٹس کے ذریعے مجموعی طور پر ماڈل کی جانچ کرتے ہیں۔ مصنفین تین مختلف ترتیبات میں GPT-3 کا جائزہ لیتے ہیں۔

زیرو شاٹ لرننگیہاں ماڈل کو صرف نوکری کی تفصیل ملتی ہے۔
ایک شاٹ سیکھناآپ کو ایک ہی مثال ملتی ہے۔
چند شاٹ سیکھنےپرامپٹس میں کئی ڈیمو شامل ہیں۔

مثال کے طور پر، ترجمہ کے کام میں، ماڈل سے پیٹرن کو جاری رکھنے کے لیے کہنے سے پہلے پرامپٹ میں انگریزی سے فرانسیسی مثالیں شامل ہو سکتی ہیں۔ سوال جواب دینے والے کام میں، ماڈل ایک نئے سوال کو آزمانے سے پہلے کئی مثالی سوالات اور جوابات دیکھتا ہے۔

اہم بات یہ ہے کہ ان تشخیص کے دوران ماڈل کے پیرامیٹرز کبھی تبدیل نہیں ہوتے ہیں۔ کوئی تدریجی اپ ڈیٹس نہیں ہیں، کوئی دوبارہ تربیتی اقدامات نہیں ہیں، اور کوئی خاص کام کی اصلاح نہیں ہے۔ GPT-3 بالکل وہی پہلے سے تربیت یافتہ وزن کا استعمال کرتے ہوئے تمام آپریشن کرتا ہے۔

یہ اس مقالے میں موجودہ NLP سسٹم سے سب سے بڑی روانگی ہے۔

اس وقت، زیادہ تر جدید ترین ماڈلز نے احتیاط سے تیار کردہ ڈیٹا سیٹس پر نگرانی کی گئی فائن ٹیوننگ کے ذریعے مضبوط بینچ مارک نتائج حاصل کیے تھے۔ اس کے بجائے، GPT-3 جانچتا ہے کہ آیا ایک بڑے پیمانے پر زبان کا ماڈل پرامپٹ کے اندر پیٹرن کو سمجھ کر تمام کاموں کو عام کر سکتا ہے۔

کاغذ اس بات کا بھی جائزہ لیتا ہے کہ ماڈل کے سائز میں اضافے کے ساتھ کارکردگی کیسے بدلتی ہے۔ OpenAI نے 125 ملین پیرامیٹرز سے لے کر 175 بلین پیرامیٹرز تک کے GPT-3 کے مختلف ورژنز کو تربیت دی، اور پھر موازنہ کیا کہ اسکیلنگ نے صفر شاٹ، ون شاٹ، اور اعشاریہ رویے کو کیسے متاثر کیا۔

مصنفین کے مطابق، بڑے ماڈل سیاق و سباق کی معلومات کے استعمال میں نمایاں طور پر بہتر ہو جاتے ہیں۔ چند شاٹ لرننگ خاص طور پر پیمانے کے ساتھ نمایاں طور پر بہتر ہوتی ہے، یہ تجویز کرتی ہے کہ بڑے ماڈلز زیادہ معلومات کو صرف یاد نہیں رکھتے۔ وہ نئے کاموں کو متحرک طور پر ڈھالنے کے قابل ہو رہے ہیں۔

کلیدی نتائج

یہ وہ سیکشن ہے جہاں GPT-3 ایک "بڑے لینگویج ماڈل” کی طرح محسوس کرنا بند کر دیتا ہے اور بنیادی طور پر مختلف چیز کی طرح نظر آنے لگتا ہے۔

مقالے کے مطابق، تقریباً تمام تجربات میں سب سے واضح نمونوں میں سے ایک یہ ہے کہ ماڈل کے سائز میں اضافے کے ساتھ کارکردگی میں بہتری آتی رہتی ہے۔ جیسا کہ GPT-3 کا پیمانہ لاکھوں پیرامیٹرز سے سینکڑوں بلین تک ہوتا ہے، ماڈل اشارے کو سمجھنے، سیاق و سباق کے مطابق ڈھالنے، اور ان کاموں کو انجام دینے میں بہت بہتر ہو جاتا ہے جن کی اسے واضح طور پر تربیت نہیں دی گئی ہے۔

لیکن سب سے حیران کن نتیجہ صرف اعلی بینچ مارک سکور نہیں ہے۔

یہ ہے اصل پیش رفت چند شاٹ لرننگ دراصل پیمانے پر کام کرتی ہے۔.

بہت سے کاموں میں، GPT-3 کی کئی شاٹ پرفارمنس اپروچز، اور بعض صورتوں میں میچ یا اس سے زیادہ، طاقتور فائن ٹیونڈ سسٹمز۔ یہ حیران کن ہے کیونکہ GPT-3 انفرادی کاموں کے وزن کو اپ ڈیٹ کیے بغیر یہ نتائج حاصل کرتا ہے۔ سب کچھ نجی پیغامات کے ذریعے ہوتا ہے۔

سب سے مضبوط مثالوں میں سے ایک سوال جواب دینے والے بینچ مارکس سے ملتی ہے۔

TriviaQA میں، GPT-3 کو اشارے میں فراہم کردہ مزید مثالوں کے ساتھ نمایاں طور پر بہتر کیا گیا ہے۔ یہ مقالہ رپورٹ کرتا ہے کہ جب کہ زیرو شاٹ کی کارکردگی پہلے سے ہی مسابقتی ہے، ایک شاٹ اور چند شاٹ کے ساتھ پش کے نتائج مزید بہتر ہوتے ہیں، بالآخر اسی نجی ترتیب میں کچھ جدید ترین فائن ٹیونڈ سسٹم تک پہنچ جاتے ہیں یا اس سے زیادہ ہوتے ہیں۔

ماخذ: براؤن وغیرہ۔ (2020)، زبان کا نمونہ سیکھنے والوں کی ایک چھوٹی تعداد ہے۔تصویر 1.2۔

ایک ہی نمونہ پورے کاغذ میں بار بار ظاہر ہوتا ہے۔

چند شاٹ پرامپٹس مسلسل زیرو شاٹ پرامپٹس سے بہتر کارکردگی کا مظاہرہ کرتے ہیں۔
آپ کا ماڈل جتنا بڑا ہوگا، آپ سیاق و سباق کی مثالوں کو اتنا ہی بہتر استعمال کر سکتے ہیں۔
اسکیلنگ نہ صرف درستگی بلکہ خود موافقت کو بھی بہتر بناتی ہے۔

یہ آخری نکتہ خاص طور پر اہم ہے۔

مقالے سے پتہ چلتا ہے کہ اسکیلنگ ماڈلز کو حقائق کو یاد رکھنے یا زیادہ روانی سے متن تیار کرنے میں مدد سے زیادہ کام کرتی ہے۔ ماڈل جتنا بڑا ہوگا، یہ اتنا ہی مضبوط دکھائی دیتا ہے۔ سیاق و سباق میں سیکھنا صلاحیت یعنی، بڑے ماڈلز براہ راست پرامپٹ سے پیٹرن اور ٹاسک ڈھانچے کا اندازہ لگانے میں بہتر ہو جاتے ہیں۔

مصنفین نے مشاہدہ کیا کہ صفر شاٹ کی کارکردگی اور چند شاٹ کی کارکردگی کے درمیان فرق ماڈل کے سائز کے ساتھ بڑھتا ہے۔ چھوٹے ماڈلز کو پرامپٹس سے مؤثر طریقے سے سیکھنے میں دشواری ہوتی ہے، جبکہ بڑے ماڈلز اکثر مثالوں کی ایک چھوٹی سی تعداد سے ہی کسی کام کا اندازہ لگانے کے قابل ہوتے ہیں۔

جو چیز اس دریافت کو تاریخی طور پر اہم بناتی ہے وہ یہ ہے کہ یہ AI نظاموں میں صلاحیتوں کی نشوونما کے بارے میں محققین کے سوچنے کے انداز کو بدل دیتی ہے۔

GPT-3 سے پہلے، ایکسٹینشنز کو اکثر بنیادی طور پر موجودہ کارکردگی میٹرکس کو بہتر بنانے کے طریقے کے طور پر دیکھا جاتا تھا۔ GPT-3 ایک اور امکان پیش کرتا ہے: جیسے جیسے ماڈل کافی بڑے ہوتے ہیں، بالکل نئے طرز عمل سامنے آ سکتے ہیں۔

یہی وجہ ہے کہ یہ مقالہ اتنا بااثر ہوا۔ یہ صرف بہتر بینچ مارک نمبروں کی اطلاع دینے کے بارے میں نہیں تھا۔ ہم اس بات کا ثبوت فراہم کرتے ہیں کہ پیمانہ خود سیکھنے کے رویے کی نئی شکلیں کھول سکتا ہے۔

کام کے لحاظ سے مشاہدہ

سرخی کے نتائج سے پرے دیکھتے ہوئے، مقالہ GPT-3 کے بارے میں کچھ اور اہم بات ظاہر کرتا ہے۔ اس نے کہا، GPT-3 کی صلاحیتیں بہت ناہموار ہیں۔ یہ ماڈل کچھ علاقوں میں حیرت انگیز طور پر اچھی کارکردگی کا مظاہرہ کرتا ہے، لیکن پھر بھی دوسروں میں جدوجہد کرتا ہے۔

GPT-3 پیٹرن کی شناخت اور زبان کی استقامت کے ساتھ قریب سے منسلک کاموں میں خاص طور پر مضبوط کارکردگی دکھاتا ہے۔

ترجمہ ایک قابل ذکر مثال ہے۔ GPT-3 کو کبھی بھی ترجمے کے نظام کے طور پر خاص طور پر تربیت نہیں دی گئی ہے، لیکن جب کچھ مثالیں دی جائیں تو اشارہ کیا جائے، ماڈل اب بھی متاثر کن نتائج دے سکتا ہے۔ کاغذ کے مطابق، چند شاٹ ترجمہ کی کارکردگی نمایاں طور پر بہتر ہوتی ہے کیونکہ ماڈل کا سائز بڑھتا ہے، خاص طور پر جب انگریزی میں ترجمہ کیا جائے۔

ماڈل سوال جواب دینے والے معیارات پر بھی اچھی کارکردگی کا مظاہرہ کرتا ہے، خاص طور پر نجی ماحول میں جہاں جوابات براہ راست ماڈل کے پیرامیٹرز کے اندر محفوظ کردہ معلومات سے اخذ کیے جانے چاہییں۔ ٹریویا کیو اے جیسے کام GPT-3 صفر شاٹ سے کئی شاٹ پرامپٹس پر منتقل ہونے پر بڑے فوائد دکھاتے ہیں۔

متن کی تکمیل اور کلوز اسٹائل کے ساتھ کام کرنا ایک اور بڑی طاقت ہے۔ GPT-3 پیٹرن کو جاری رکھنے، مکمل پیراگراف، اور سیاق و سباق سے گمشدہ الفاظ کا اندازہ لگانے کی طاقتور صلاحیت کا مظاہرہ کرتا ہے۔ LAMBADA جیسے ڈیٹاسیٹس کے لیے، چند شاٹس ترتیب دینے سے خاص طور پر بڑی بہتری آتی ہے۔

تاہم، کاغذ کمزوریوں کو دستاویز کرنے کا بھی خیال رکھتا ہے۔

GPT-3 خاص طور پر کچھ قیاس-ہوی بینچ مارکس پر خاصی جدوجہد کرتا ہے، خاص طور پر ایسے کام جن میں قدرتی زبان کا اندازہ شامل ہوتا ہے۔ اے این ایل آئی جیسے ڈیٹا سیٹس سب سے بڑے ماڈلز کے لیے بھی مشکل رہتے ہیں۔

پڑھنے کے کچھ کاموں کی بھی حدود ہوتی ہیں۔ بہت سے معاملات میں، GPT-3 ایسے جوابات تیار کرتا ہے جو قابل فہم لگتے ہیں لیکن زیربحث حوالے کی گہری سمجھ کا مظاہرہ نہیں کرتے۔ یہ پورے کاغذ میں بار بار چلنے والا تھیم بن جاتا ہے۔ روانی زبان کی پیداوار کا مطلب ہمیشہ قابل بھروسہ اندازہ نہیں ہوتا ہے۔

سب سے دلچسپ مشاہدات میں سے ایک یہ ہے کہ GPT-3 فوری ڈیزائن کے لیے کتنا حساس ہے۔

کارکردگی اکثر اس لحاظ سے نمایاں طور پر مختلف ہوتی ہے کہ سیاق و سباق کی کھڑکی میں مثالیں کیسے لکھی جاتی ہیں، فارمیٹ کی جاتی ہیں یا ترتیب دی جاتی ہیں۔ بہت سے کاموں کے لیے، صرف چند ڈیمو شامل کرنے سے درستگی کو نمایاں طور پر بہتر بنایا جا سکتا ہے۔

یہ GPT-3 کے کام کرنے کے طریقہ کے بارے میں کچھ اہم تجویز کرتا ہے۔

ایک ماڈل صرف میموری سے مقررہ علم کی بازیافت نہیں ہے۔ اس کے بجائے، یہ سیاق و سباق کے اشارے پر بہت زیادہ انحصار کرتا ہے تاکہ اندازہ لگایا جا سکے کہ کس قسم کے رویے کی توقع کی جاتی ہے۔ چھوٹی، فوری تبدیلیاں خود ماڈل کی ٹاسک کی تشریح کو بدل سکتی ہیں۔

درحقیقت، اس مضمون نے AI کمیونٹی میں ایک بالکل نیا آئیڈیا متعارف کرانے میں مدد کی۔ ماڈل سے کیسے پوچھیں۔ یہ اتنا ہی اہم ہوسکتا ہے جتنا کہ خود ماڈل۔

یہ بصیرت آخر کار اس میں تیار ہوتی ہے جسے ہم اب کہتے ہیں۔ ریپڈ انجینئرنگ.

جنرلائزیشن بمقابلہ حفظ

GPT-3 کے ارد گرد سب سے بڑے سوالات میں سے ایک یہ ہے کہ آیا ماڈل واقعی مفید نمونوں کو سیکھتا ہے، یا یہ انٹرنیٹ کے بہت بڑے حصوں کو آسانی سے حفظ کرتا ہے۔

یہ تشویش خاص طور پر اہم ہے کیونکہ GPT-3 کو کامن کرال سمیت بڑے ویب سکیل ڈیٹا سیٹس پر تربیت دی گئی تھی۔ اتنے بڑے ماڈلز کے ساتھ، یہ پوچھنا مناسب ہے کہ آیا مضبوط بینچ مارک کی کارکردگی صحیح جنرلائزیشن سے آتی ہے یا تربیت کے دوران تشخیصی ڈیٹا کے کچھ حصوں کو نادانستہ طور پر دیکھنے سے۔

مصنفین اس مسئلے کو سنجیدگی سے لیتے ہیں اور مقالے کے پورے حصے کو اس کے مطالعہ کے لیے وقف کرتے ہیں جسے وہ کہتے ہیں۔ ڈیٹا کی آلودگی.

کاغذ کے مطابق، اوپن اے آئی نے تشخیص کے دوران استعمال ہونے والی تربیت اور بینچ مارک ڈیٹاسیٹس کے درمیان اوورلیپ کا پتہ لگایا۔ انہوں نے پایا کہ کچھ آلودگی موجود ہے۔ یعنی، کسی خاص تشخیصی ڈیٹاسیٹ کا حصہ ماڈل کے تربیتی کارپس کے اندر کہیں ظاہر ہوا۔

تاہم، مصنفین کا کہنا ہے کہ یہ اوورلیپ اتنا بڑا نہیں ہے کہ GPT-3 کے نتائج کی مکمل وضاحت کر سکے۔

بہت سے بینچ مارکس میں، کارکردگی میں بہتری آلودگی کے اثرات کا حساب کتاب کرنے کے بعد بھی مستقل رہتی ہے۔ مقالے میں یہ بھی بتایا گیا ہے کہ کچھ کام خاص طور پر موافقت اور تخمینہ کی جانچ کے لیے بنائے گئے ہیں اب بھی مضبوط Few-Shot برتاؤ کی نمائش کرتے ہیں، حالانکہ ان کا براہ راست تربیتی ڈیٹا میں ظاہر ہونے کا امکان نہیں ہے۔

ایک اور اہم مشاہدہ یہ ہے کہ GPT-3 اب بھی انڈر فٹنگ تربیت کا ڈیٹا۔ اس کا مطلب یہ ہے کہ بہت بڑی تربیت کے بعد بھی، ماڈل کو اس نے دیکھا سب کچھ یاد نہیں رکھا۔

یہ تفصیلات اہم ہیں کیونکہ وہ تجویز کرتے ہیں کہ ماڈل اعداد و شمار کے ڈھانچے اور لسانی نمونوں کو سیکھ رہا ہے بجائے اس کے کہ ڈیٹا سیٹ کی قطعی کاپی کو ذخیرہ کیا جائے۔

یقینا، حفظ اب بھی کسی حد تک ہوتا ہے۔ بڑے پیمانے پر زبان کے ماڈل تربیتی متن کے ٹکڑوں کو دوبارہ پیش کر سکتے ہیں، خاص طور پر اگر تربیت کے دوران نایاب یا بار بار ڈیٹا کثرت سے ظاہر ہوتا ہے۔ اخبار اس سے انکار نہیں کرتا۔ اس کے بجائے، مصنفین کا کہنا ہے کہ صرف حفظ ہی GPT-3 کی ترجمے، استدلال، سوالوں کے جوابات، اور سیاق و سباق کے سیکھنے کے کاموں میں وسیع پیمانے پر کارکردگی کی وضاحت نہیں کر سکتا۔

حقیقت میں، شواہد کسی اور پیچیدہ چیز کی طرف اشارہ کرتے ہیں۔

GPT-3 بڑے متنی اعداد و شمار سے پیٹرن، تعلقات، اور کام کے ڈھانچے کو جذب کرتا ہے اور پھر لچکدار طریقے سے نئے سیاق و سباق میں ان نمونوں کو دوبارہ استعمال کرتا ہے۔ یہ صرف محفوظ کردہ جوابات کو کاپی کرنے سے بہت مختلف ہے۔

یہ فرق جدید AI تحقیق میں مرکزی مباحثوں میں سے ایک بن جاتا ہے۔ GPT-3 نے محققین کو اس بارے میں زیادہ احتیاط سے سوچنے پر مجبور کیا ہے کہ کسی زبان کے ماڈل کے لیے کسی چیز کو "سمجھنے” کا واقعی کیا مطلب ہے، اور یہ کہ یادداشت، پیٹرن کی شناخت، اور حقیقی عامیت کے درمیان لائن کہاں ہے۔

دلیل

مقالے میں یہ وہ نکتہ ہے جہاں GPT-3 کے وسیع تر مضمرات واضح ہونے لگتے ہیں۔

مصنفین کے مطابق، بڑے پیمانے پر زبان کے ماڈل صرف متن کی پیش گوئی کرنے سے زیادہ عام کام انجام دے سکتے ہیں۔ بڑی مقدار میں لسانی ڈیٹا سیکھنے سے، ماڈل ایسے نمونوں کو سیکھتا دکھائی دیتا ہے جو خود کام سے متعلق ہوں۔

یہ خیال زبان کی ماڈلنگ کے بارے میں ہمارے سوچنے کے انداز کو بدل دیتا ہے۔

روایتی طور پر، NLP سسٹم کو واضح نگرانی کے ارد گرد ڈیزائن کیا گیا ہے۔ چاہے آپ کوئی ماڈل متن کا ترجمہ کرنے، سوالات کے جوابات، دستاویزات کا خلاصہ، یا جذبات کی درجہ بندی کرنا چاہتے ہیں، ہم نے لیبل والی مثالوں کا استعمال کرتے ہوئے ان کاموں کے لیے خاص طور پر ایک ماڈل کو تربیت دی ہے۔

GPT-3 ایک اور امکان پیش کرتا ہے۔

مقالے کا استدلال ہے کہ بہت سے کام پہلے ہی قدرتی زبان کے ڈیٹا میں واضح طور پر بنائے گئے ہیں۔ پری ٹریننگ کے دوران، ماڈل انٹرنیٹ پر بکھری ہوئی وضاحتوں، ترجمے، گفتگو، قیاس کے نمونوں، ہدایات، اور سوال جواب کے جوڑوں کی بے شمار مثالوں کے سامنے آتا ہے۔ جیسے جیسے پیمانہ بڑھتا ہے، ماڈل ان طرز عمل کو بالواسطہ طور پر سیکھنا شروع کر دیتا ہے۔

عملی طور پر، اس کا مطلب یہ ہے کہ ماڈلز کو ہمیشہ نئے کام انجام دینے کے لیے واضح تربیت کی ضرورت نہیں ہوتی ہے۔ اس کے بجائے، اشارے اور مثالیں اس طرز عمل کو چالو کر سکتی ہیں جو ماڈل نے پری ٹریننگ کے دوران پہلے ہی جذب کر لیا ہے۔

یہ وہی ہے جو GPT-3 میں حوصلہ افزائی کو اتنا طاقتور بناتا ہے۔

اشارے صرف معلومات دینے کے بارے میں نہیں ہیں۔ یہ ماڈل کو طرز عمل کے نمونوں کی طرف رہنمائی کرتا ہے جو پہلے سے سیکھی ہوئی نمائندگی کے اندر کہیں موجود ہیں۔

ایک ہی وقت میں، مصنفین محتاط ہیں کہ نتائج کو بڑھا چڑھا کر پیش نہ کریں۔

پورے کاغذ میں، وہ بار بار تسلیم کرتے ہیں کہ GPT-3 اب بھی متضاد ہے۔ کچھ نتائج بہت قائل ہیں، جب کہ دیگر واضح طور پر غلط، بے ہودہ، یا منطقی طور پر ناقص ہیں۔

یہ GPT-3 کی خصوصیات میں سے ایک بن جاتا ہے۔

ماڈلز اکثر اس سے زیادہ پراعتماد لگتے ہیں جتنا کہ وہ اصل میں ہیں۔ آپ روانی سے وضاحتیں اور قائل کرنے والے جوابات پیش کر سکتے ہیں یہاں تک کہ جب آپ کا بنیادی استدلال کمزور ہو یا آپ کے حقائق غلط ہوں۔ کچھ کاموں پر، خاص طور پر گہری استدلال اور پڑھنے کے فہم کے معیارات پر، GPT-3 اب بھی بہت جدوجہد کرتا ہے۔

لہذا، یہ کاغذ GPT-3 کو ذہانت کی حل شدہ شکل کے طور پر پیش نہیں کرتا ہے۔

اس کے بجائے، ہم اس بات کا ثبوت فراہم کرتے ہیں کہ زبان کے ماڈل کو بڑھانا نئی خصوصیات کو کھول دیتا ہے جو پہلے کمزور یا غیر موجود تھیں۔ نتائج کافی متاثر کن ہیں تاکہ سمت میں ایک بڑی تبدیلی کا مشورہ دیا جا سکے، لیکن مزید تحقیق کی ضرورت کو ختم کرنے کے لیے اتنے مضبوط نہیں۔

یہ توازن اس چیز کا حصہ ہے جو کاغذ کو مؤثر بناتا ہے۔ یہ مہتواکانکشی ہے، لیکن اس کی باقی حدود کے بارے میں حیرت انگیز طور پر ایماندار ہے۔

پابندیاں

GPT-3 پیپر نے اپنے ارد گرد جوش و خروش کے باوجود ساکھ برقرار رکھنے کی ایک وجہ یہ ہے کہ مصنفین ماڈل کی کمزوریوں کے بارے میں غیر معمولی طور پر کھلے تھے۔ یہ کاغذ یہ دعویٰ نہیں کرتا ہے کہ چند شاٹ لرننگ NLP کو حل کرتی ہے، اور نہ ہی یہ دعویٰ کرتا ہے کہ GPT-3 تمام کاموں پر قابل اعتماد طریقے سے کام کرتا ہے۔

زیادہ تر معاملات میں، موجودہ فائن ٹیونڈ سسٹم اب بھی بہتر کارکردگی کا مظاہرہ کریں گے۔

اگرچہ GPT-3 بینچ مارکس کی ایک وسیع رینج میں چند شاٹ کے متاثر کن نتائج حاصل کرتا ہے، لیکن یہ ماڈل متعدد قیاس سے بھرے کاموں، خاص طور پر قدرتی زبان کا اندازہ اور کچھ پڑھنے کے فہم ڈیٹاسیٹس پر جدوجہد کرتا رہتا ہے۔

مقالے میں اس بات پر بھی زور دیا گیا ہے کہ GPT-3 کی کامیابی زیادہ تر پیمانے پر منحصر ہے۔ ماڈل کے چھوٹے ورژن بہت کمزور چند شاٹ صلاحیتوں کو ظاہر کرتے ہیں، جبکہ مضبوط ترین نتائج صرف بہت بڑے پیرامیٹر شماروں کے لیے ظاہر ہوتے ہیں۔

اس سے اہم عملی مسائل پیدا ہوتے ہیں۔

GPT-3 کی تربیت کے لیے کمپیوٹنگ کے بے پناہ وسائل، خصوصی انفراسٹرکچر، اور ڈیٹا کی بڑی مقدار درکار ہے۔ سب سے بڑا ماڈل 175 بلین پیرامیٹرز پر مشتمل ہے اور اسے بڑے ڈیٹا سیٹس پر ایک بڑے GPU کلسٹر کا استعمال کرتے ہوئے تربیت دی گئی تھی۔

درحقیقت، اس وقت دنیا میں بہت کم تنظیمیں تھیں جو اس کام کو حقیقت پسندانہ طور پر نقل کر سکیں۔

مقالے میں تعصب اور انصاف کے بارے میں وسیع تر خدشات پر بھی بحث کی گئی ہے۔ چونکہ GPT-3 کو بڑے انٹرنیٹ ڈیٹاسیٹس پر تربیت دی جاتی ہے، اس لیے یہ لامحالہ سماجی تعصبات، دقیانوسی تصورات، اور ڈیٹا میں موجود مسائل زدہ لسانی نمونوں کو جذب کر لیتا ہے۔

یہ خاص طور پر تشویش کا باعث ہے کیونکہ ماڈل بہت قائل متن تیار کر سکتا ہے۔ غلط یا متعصب آؤٹ پٹ مستند لگ سکتا ہے چاہے یہ گمراہ کن یا نقصان دہ ہو۔

ایک اور مسئلہ جس کی مصنف نے تحقیق کی ہے۔ ڈیٹا کی آلودگی. چونکہ GPT-3 ٹرینیں ویب پیمانے پر کارپورا پر چلتی ہیں، بینچ مارک ڈیٹاسیٹ کے کچھ حصے حادثاتی طور پر ٹریننگ ڈیٹا میں ظاہر ہو سکتے ہیں۔ کاغذ اس کا براہ راست جائزہ لیتا ہے اور تسلیم کرتا ہے کہ کچھ اوورلیپ ہے۔ تاہم، مصنفین کا کہنا ہے کہ صرف آلودگی ہی مکمل نتائج کی وضاحت نہیں کرتی ہے۔

ماڈلز کی یہ جارحانہ توسیع ماحولیاتی اور اقتصادی اخراجات کے ساتھ بھی آتی ہے۔

GPT-3 پیمانے کا تعلیمی نظام بہت زیادہ کمپیوٹنگ اور توانائی استعمال کرے گا، جس سے AI تحقیق کی پائیداری اور رسائی کے بارے میں سوالات اٹھیں گے۔ جیسے جیسے ماڈل بڑھتے ہیں، جدید ترین پیشرفت تیزی سے صنعتی پیمانے پر بنیادی ڈھانچے تک رسائی پر انحصار کرتی ہے۔

اس سے تناؤ پیدا ہوتا ہے جو آج بھی موجود ہے۔

GPT-3 نے ثابت کیا ہے کہ اسکیلنگ بہت اچھی طرح سے کام کرتی ہے، لیکن اس نے یہ بھی اجاگر کیا ہے کہ کس طرح توجہ مرکوز کی گئی ایڈوانسڈ AI تحقیق بن رہی ہے۔ بڑے پیمانے پر زبان کے ماڈلز کا مستقبل یقیناً امید افزا ہے، لیکن یہ تیزی سے مہنگا بھی ہوتا جا رہا ہے۔

نتیجہ

کاغذ حیرت انگیز طور پر سادہ نتیجے کے ساتھ ختم ہوتا ہے۔ زبان کے ماڈل کو بڑھانا زبان کا ماڈل کیا کر سکتا ہے اس میں تبدیلی لاتا ہے۔

مصنفین کے مطابق، GPT-3 ظاہر کرتا ہے کہ کافی بڑے لینگویج ماڈل بغیر گریڈینٹ اپ ڈیٹس یا ٹاسک مخصوص فائن ٹیوننگ کے سیاق و سباق سے براہ راست کام سیکھ سکتے ہیں۔

یہ خیال NLP کی سمت میں ایک بڑی تبدیلی کی نمائندگی کرتا ہے۔

کئی سالوں سے، مشین لرننگ میں معیاری ورک فلو یہ ہے:

GPT-3 ایک مختلف نمونہ پیش کرتا ہے۔

کسی نئے کام کے لیے بار بار ماڈل کو دوبارہ تربیت دینے کے بجائے، وہی پہلے سے تربیت یافتہ ماڈل اکثر صرف ایک اشارے کے ساتھ ڈھال سکتا ہے۔ سیاق و سباق کی کھڑکی کے اندر دی گئی ہدایات اور مثالیں ماڈل کی مفید رویے میں رہنمائی کے لیے کافی ہیں۔

یعنی، ورک فلو اس طرح شروع ہوتا ہے:

یہ صرف سہولت نہیں ہے جو اہمیت رکھتی ہے۔ اس سے محققین کی عمومیت کے بارے میں سوچنے کا انداز بدل جاتا ہے۔

یہ مقالہ تجویز کرتا ہے کہ روایتی طور پر زیر نگرانی سیکھنے سے وابستہ بہت سی خصوصیات قدرتی طور پر بڑے پیمانے پر لینگویج ماڈلنگ سے ابھر سکتی ہیں۔ ترجمہ، سوال کا جواب، تخمینہ، خلاصہ، اور یہاں تک کہ کام کی موافقت بھی صرف اگلی ٹوکن پیشن گوئی پر تربیت یافتہ واحد مربوط نظام کے اندر سامنے آنا شروع ہو جاتی ہے۔

ایک ہی وقت میں، مصنفین اپنے نتائج میں محتاط رہتے ہیں.

GPT-3 یقیناً طاقتور ہے، لیکن یہ اتنا قابل اعتماد نہیں ہے کہ اسے ذہانت یا استدلال کے لیے مکمل حل سمجھا جائے۔ مقالہ بار بار منطق، حقائق کی درستگی، تعصب اور مستقل مزاجی سے متعلق کمزوریوں کو تسلیم کرتا ہے۔

پھر بھی، وسیع تر پیغام کو نظر انداز کرنا مشکل ہے۔

GPT-3 نے ظاہر کیا کہ زبان کے ماڈل کی توسیع صرف روانی کو بہتر نہیں کرتی ہے۔ یہ مکمل طور پر نئے طرز عمل تشکیل دے سکتا ہے جو چھوٹے نظاموں میں کمزور یا غیر موجود ہیں۔ اس احساس نے جدید AI تحقیق کی رفتار کو نئی شکل دی اور تیزی سے کام کرنے والے نظاموں کی بنیاد رکھی جس کی پیروی جلد ہوگی۔

حتمی بصیرت

اگر GPT-1 نے بڑے پیمانے پر پری ٹریننگ اور فائن ٹیوننگ کا آئیڈیا متعارف کرایا، اور GPT-2 نے ظاہر کیا کہ لینگویج ماڈلز ٹاسک مخصوص ٹریننگ کے بغیر حیرت انگیز طور پر اچھی طرح سے عام کر سکتے ہیں، GPT-3 اس خیال کو مزید آگے لے جاتا ہے۔

اس سے پتہ چلتا ہے کہ زبان کا ماڈل سیکھنا شروع کر سکتا ہے۔ خود استدلال کے دوران.

یہ اس مقالے میں حقیقی تصوراتی تبدیلی ہے۔

GPT-3 سے پہلے، زیادہ تر AI سسٹم اب بھی بنیادی طور پر کام کے لیے مخصوص نظام تھے۔ یہاں تک کہ مضبوط پہلے سے تربیت یافتہ ماڈلز کو بھی عام طور پر اضافی زیر نگرانی تربیت کی ضرورت ہوتی ہے اس سے پہلے کہ وہ کسی مخصوص ایپلی کیشن کے لیے مفید ہوں۔

GPT-3 اس طرز کو توڑنا شروع کر دیتا ہے۔

ترجمہ، خلاصہ، سوال کے جواب، یا تخمینہ کے لیے الگ الگ ماڈل بنانے کے بجائے، ایک ہی ماڈل اسے موصول ہونے والے اشارے کی بنیاد پر متحرک طور پر ڈھال سکتا ہے۔ سیاق و سباق کی کھڑکی کے اندر کی مثالیں مؤثر طریقے سے کارروائی کے لیے عارضی رہنما خطوط ہیں۔

درحقیقت، یہ AI سسٹمز کو تنگ تخصص سے دور اور زیادہ لچک کی طرف لے جاتا ہے۔

جو چیز اسے خاص طور پر اہم بناتی ہے وہ یہ ہے کہ GPT-3 نے اسے پیچیدہ علامتی استدلال کے نظام یا دستکاری کی پائپ لائنوں کے ذریعے حاصل نہیں کیا۔ ماڈل کو اب بھی نسبتاً آسان اگلا ٹوکن پیشن گوئی مقصد کا استعمال کرتے ہوئے تربیت دی گئی تھی۔ لیکن کافی پیمانے پر، مکمل طور پر نئے طرز عمل سامنے آنا شروع ہو جاتے ہیں۔

پیچھے مڑ کر دیکھیں تو یہ مقالہ جی پی ٹی سیریز کے اختتام کے بجائے ایک نئے دور کے آغاز کے قریب محسوس ہوتا ہے۔

بہت سے خیالات جو اب جدید AI کی تعریف کرتے ہیں ان کا سراغ براہ راست GPT-3 سے لگایا جا سکتا ہے۔

ریپڈ انجینئرنگ
نظام جو ہدایات پر عمل کرتا ہے۔
سیاق و سباق میں سیکھنا
بات چیت کرنے والا AI اسسٹنٹ
یونیورسل بیس ماڈل

اور بالآخر، ChatGPT جیسے سسٹم کے موجود ہونے کی وجہ یہ ہے کہ GPT-3 نے یہ ظاہر کیا کہ پرامپٹ خود انٹیلی جنس کے ساتھ بات چیت کرنے کے لیے ایک طاقتور انٹرفیس ہو سکتا ہے۔

یہی وجہ ہے کہ یہ مقالہ تاریخی اعتبار سے اہم ہے۔

یہ صرف زبان کے ماڈل کی توسیع نہیں ہے۔ اس نے لوگوں کے اسے استعمال کرنے کا تصور کرنے کا طریقہ بدل دیا ہے۔

GPT-1 بمقابلہ GPT-2 بمقابلہ GPT-3: کلیدی فرق

طرف	GPT-1	GPT-2	GPT-3
بنیادی خیال	پری ٹریننگ کے بعد فائن ٹیوننگ	زیرو شاٹ آپریشن صرف پیشگی تربیت کے ساتھ ممکن ہے۔	کچھ شاٹ اور سیاق و سباق سے متعلق مخصوص سیکھنا بڑے پیمانے پر پیشگی سیکھنے کے ذریعے ممکن ہے۔
تربیت کا نقطہ نظر	مرحلہ 2 پائپ لائن: پری ٹریننگ پھر ٹھیک ٹیوننگ	سنگل قدمی زبان کی ماڈلنگ	یہ ایک ہی زبان کی ماڈلنگ کا طریقہ ہے، لیکن بڑے پیمانے پر پھیلا ہوا ہے۔
نگرانی	ڈاؤن اسٹریم آپریشنز کے لیے آپ کو لیبل والے ڈیٹا کی ضرورت ہے۔	آپ بغیر کسی زیر نگرانی فائن ٹیوننگ کے کام کروا سکتے ہیں۔	دوبارہ تربیت کے بغیر اشارے اور مثالوں کے ذریعے موافقت پذیر
ٹاسک پروسیسنگ	ہر کام کے لیے علیحدہ فائن ٹیوننگ	آپریشنز بنیادی طور پر زیرو شاٹ پرامپٹس کے ذریعے سنبھالے جاتے ہیں۔	زیرو شاٹ، ون شاٹ، اور چند شاٹ پرامپٹس کے ذریعے سنبھالے گئے کام
سیکھنے کا انداز	اظہار سیکھنے کے بعد تخصص	عام زبان کے نمونے سیکھیں۔	صورتحال سے براہ راست اعمال کا اندازہ لگانے کا طریقہ سیکھیں۔
عام کرنا	محدود بیرونی فائن ٹیوننگ آپریشنز	مضبوط کراس ٹاسک جنرلائزیشن	بہت زیادہ طاقتور سیاق و سباق کی موافقت اور سیاق و سباق میں سیکھنا
اشارے استعمال کرنے کا طریقہ	کم سے کم اہمیت	اشارے مفید ہو جاتے ہیں۔	اشارے سسٹم کے آپریشن کے لیے مرکزی بن جاتے ہیں۔
اندازہ رویہ	تربیت کے بعد زیادہ تر جامد	قیاس کے دوران عام کر سکتے ہیں۔	یہ قیاس کے دوران متحرک طور پر ڈھال سکتا ہے۔
فن تعمیر	ٹرانسفارمر (ڈیکوڈر پر مبنی)	ڈیکوڈر وقف ٹرانسفارمر	بڑے پیمانے پر اسکیلنگ کے ساتھ صرف ڈیکوڈر ٹرانسفارمر
ماڈل سائز	~117M پیرامیٹرز	1.5B پیرامیٹرز تک	175B پیرامیٹرز تک
سیاق و سباق کی کھڑکی	چھوٹے سیاق و سباق کی لمبائی	1024 ٹوکن تک	2048 ٹوکن سیاق و سباق کی ونڈو
تربیت کے اعداد و شمار	کارپورا اور کیوریٹڈ ڈیٹا سیٹ بک کریں۔	ویب ٹیکسٹ انٹرنیٹ ڈیٹا سیٹ	کامن کرال، ویب ٹیکسٹ، کتابیں، اور ویکیپیڈیا سمیت بڑے ملٹی سورس ڈیٹا سیٹس
اہم خصوصیات	منتقلی سیکھنے	زیرو شاٹ لرننگ	کچھ شاٹ اور ان سیٹو سیکھنا
کارکردگی کا انداز	ٹھیک ٹیوننگ کے بعد مضبوط	ملازمت کی مخصوص تربیت کے بغیر بھی مضبوط	یہ اکثر ٹھیک ٹیونڈ سسٹمز سے مقابلہ کرتا ہے جو صرف اشارے استعمال کرتے ہیں۔
اسکیلنگ کی اہمیت	عام	اہم	مقالے کی مرکزی تحقیقی حکمت عملی
اہم حدود	لیبل شدہ ڈیٹاسیٹ اور دوبارہ تربیت کی ضرورت ہے۔	کمزور تخمینہ اور متضاد صفر شاٹ سلوک	بہت مہنگی حساب کی ضروریات اور محدود مسلسل تخمینہ
اہم شراکت	جدید ترین NLP پری ٹریننگ پیراڈائم کا تعارف	ملٹی ٹاسکنگ زیرو شاٹ آپریشن کا مظاہرہ	پیمانے پر ہنگامی حالات میں سیکھنے کا مظاہرہ کریں۔
تاریخی اثر	جدید ٹرانسفارمر NLP کی بنیادی باتیں	عام مقصد کے لینگویج ماڈل میں منتقلی۔	پرامپٹ پر مبنی AI سسٹمز اور جدید LLM ایپلی کیشنز کی بنیاد
میدان میں کیا تبدیلی آئی ہے۔	پیشگی تربیت معمول بن گیا ہے۔	پرامپٹ قابل عمل ہو گیا ہے۔	پرامپٹس AI سسٹمز کے لیے ڈیفالٹ انٹرفیس بن گئے ہیں۔
میراث	ایک جدید، الہامی ٹرانسفر لرننگ پائپ لائن	بڑے پیمانے پر پیدا کرنے والے ماڈلز سے متاثر	ChatGPT کا گائیڈنس کوآرڈینیشن اور بنیادی ماڈلز پر براہ راست اثر پڑا۔

جی پی ٹی فن تعمیر کے ارتقاء کا پائ ٹارچ نفاذ

GPT-1: پری ٹریننگ + فائن ٹیوننگ فن تعمیر

class GPT1(nn.Module):
    def __init__(self, vocab_size, d_model, n_layers):
        super().__init__()

        self.token_embedding = nn.Embedding(vocab_size, d_model)
        self.position_embedding = nn.Embedding(512, d_model)

        self.transformer_blocks = nn.ModuleList([
            TransformerBlock(d_model)
            for _ in range(n_layers)
        ])

        self.ln_f = nn.LayerNorm(d_model)

        # Language modeling head
        self.lm_head = nn.Linear(d_model, vocab_size)

    def forward(self, input_ids):
        positions = torch.arange(input_ids.size(1))

        x = (
            self.token_embedding(input_ids)
            + self.position_embedding(positions)
        )

        for block in self.transformer_blocks:
            x = block(x)

        x = self.ln_f(x)

        logits = self.lm_head(x)

        return logits

GPT1 سے وراثت nn.ModulePyTorch میں نیورل نیٹ ورک بنانے کے لیے استعمال ہونے والی بیس کلاس ہے۔ کنسٹرکٹر (init) ماڈل میں استعمال ہونے والی تمام قابل تربیت پرتوں کی وضاحت کرتا ہے۔

nn.Embedding(vocab_size, d_model) ایک سیکھنے کے قابل تلاش ٹیبل بنائیں جو ٹوکن آئی ڈیز کو گھنے ویکٹرز میں تبدیل کرے۔ الفاظ میں ہر ٹوکن کو سائز کے ویکٹر پر نقش کیا جاتا ہے۔ d_model.

پوزیشنی ایمبیڈنگ پرت ٹوکن آرڈر کے بارے میں معلومات کا اضافہ کرتی ہے۔ چونکہ ٹرانسفارمر متوازی طور پر ٹوکن پر کارروائی کرتا ہے، اس لیے ترتیب کے ڈھانچے کو سمجھنے کے لیے اسے واضح پوزیشنی معلومات کی ضرورت ہوتی ہے۔

nn.ModuleList([...]) ایک سے زیادہ اسٹورز Transformer blocks جبکہ یہ بھی یقینی بناتا ہے کہ ٹریننگ کے دوران PyTorch پیرامیٹرز کو درست طریقے سے ٹریک کر رہا ہے۔ ہر ٹرانسفارمر بلاک میں عام طور پر نقاب پوش خود توجہ اور فیڈ فارورڈ نیٹ ورک ہوتے ہیں۔

nn.LayerNorm(d_model) آؤٹ پٹ پروجیکشن سے پہلے پرت نارملائزیشن کا اطلاق کریں۔ اس سے ٹریننگ کو مستحکم کرنے اور گہرے ٹرانسفارمر آرکیٹیکچرز میں تدریجی بہاؤ کو بہتر بنانے میں مدد ملتی ہے۔

لینگویج ماڈلنگ ڈائریکٹر (nn.Linear) پوشیدہ تاثرات کو لغوی جگہ میں پیش کرنا۔ آؤٹ پٹ سائز ہے: vocab_sizeاگلے تمام ممکنہ ٹوکنز کے لیے پیشین گوئی کے اسکور تیار کرتا ہے۔

اندرونی forward() طریقہ، input_ids.size(1) ترتیب کی لمبائی بازیافت کریں اور torch.arange(...) ہر ٹوکن لوکیشن کے لیے لوکیشن انڈیکس بنائیں۔

ایک ابتدائی ٹرانسفارمر ان پٹ نمائندگی بنانے کے لیے ٹوکن ایمبیڈنگز اور پوزیشن ایمبیڈنگز کو ایک ساتھ جوڑا جاتا ہے۔

ماڈل پھر ترتیب وار ہر ٹرانسفارمر بلاک کے ذریعے اپنی نمائندگی کو منتقل کرتا ہے۔

for block in self.transformer_blocks:
    x = block(x)

یہ تکراری اسٹیکنگ GPT ماڈل کو تیزی سے تجریدی سیاق و سباق کی نمائندگی سیکھنے کی اجازت دیتا ہے۔

نارملائزیشن کے بعد، آخری پوشیدہ حالت فراہم کی جاتی ہے۔ lm_headپیداوار logits. یہ لاگٹس غیر معمولی پیش گوئی شدہ اسکور ہیں جو اگلا ٹوکن بنانے کے امکان کا حساب لگانے کے لیے استعمال ہوتے ہیں۔

ماڈل آخر کار ایک لاگٹ ٹینسر لوٹاتا ہے، جو حسب معمول پاس ہوتا ہے۔ softmax براہ راست یا استدلال کے دوران استعمال کیا جاتا ہے۔ CrossEntropyLoss تربیت میں۔

GPT-2: زیرو شاٹ ملٹی ٹاسکنگ آرکیٹیکچر

class GPT2(nn.Module):
    def __init__(self, vocab_size, d_model, n_layers):
        super().__init__()

        self.token_embedding = nn.Embedding(vocab_size, d_model)
        self.position_embedding = nn.Embedding(1024, d_model)

        self.transformer_blocks = nn.ModuleList([
            TransformerBlock(
                d_model=d_model,
                pre_layer_norm=True
            )
            for _ in range(n_layers)
        ])

        self.final_layer_norm = nn.LayerNorm(d_model)

        self.lm_head = nn.Linear(d_model, vocab_size, bias=False)

    def forward(self, input_ids):
        positions = torch.arange(input_ids.size(1))

        x = (
            self.token_embedding(input_ids)
            + self.position_embedding(positions)
        )

        for block in self.transformer_blocks:
            x = block(x)

        x = self.final_layer_norm(x)

        logits = self.lm_head(x)

        return logits

GPT-1 کی طرح، ماڈل ٹوکن ایمبیڈنگز اور لوکیشن ایمبیڈنگ کے ساتھ شروع ہوتا ہے۔ nn.Embedding یہ ٹوکن IDs کو گھنے ویکٹرز میں تبدیل کرتا ہے، جبکہ پوزیشنی ایمبیڈنگز ترتیب میں ٹوکن کی ترتیب کے بارے میں معلومات فراہم کرتی ہیں۔

ایک قابل ذکر فرق پوزیشنی ایمبیڈنگ سائز ہے (1024 اس کے بجائے 512)، GPT-2 کو طویل سیاق و سباق کو سنبھالنے کی اجازت دیتا ہے۔

ٹرانسفارمر کی تہوں کو استعمال کرکے محفوظ کیا جاتا ہے: nn.ModuleListلیکن ہر ایک TransformerBlock اب ہم استعمال کرتے ہیں:

pre_layer_norm=True

اس کا مطلب یہ ہے کہ پرت نارملائزیشن کو توجہ اور فیڈ فارورڈ آپریشنز کے بعد کے بجائے پہلے لاگو کیا جاتا ہے۔ یہ "پری-LN” ڈیزائن گہرے ٹرانسفارمر ماڈلز میں گریڈینٹ بہاؤ اور تربیتی استحکام کو نمایاں طور پر بہتر بناتا ہے۔

فارورڈ پاس اسی مجموعی پائپ لائن کی پیروی کرتا ہے۔

اس کا استعمال کرتے ہوئے مقام کا انڈیکس بنائیں: torch.arange()
ٹوکن اور مقام ایمبیڈنگز شامل کریں۔
جمع شدہ ٹرانسفارمر بلاکس کے ذریعے تاثرات کو منتقل کرنا
حتمی نارملائزیشن کا اطلاق کریں۔
لغوی جگہ میں پروجیکٹ آؤٹ پٹ

ترتیب وار بلاک پروسیسنگ یہاں ہوتی ہے۔

for block in self.transformer_blocks:
    x = block(x)

GPT-2 آؤٹ پٹ پرت میں چھوٹی اصلاحیں بھی متعارف کراتا ہے۔

self.lm_head = nn.Linear(d_model, vocab_size, bias=False)

self.lm_head = nn.Linear(d_model, vocab_size, bias=False)

تعصب کی اصطلاح کو ہٹا دیا گیا تھا کیونکہ یہ بڑے پیمانے پر لینگویج ماڈلنگ سیٹنگز میں بہت کم فائدہ پیش کرتا ہے اور صرف پیرامیٹرز کی تعداد کو تھوڑا کم کرتا ہے۔

ماڈل آخر کار واپس آ گیا ہے۔ logitsاس میں ہر ترتیب کی پوزیشن پر الفاظ کے تمام ٹوکنز کے لیے پیشین گوئی کے اسکور شامل ہیں۔

GPT-3: چند شاٹ/ان-سیاق و سباق سیکھنے کا فن تعمیر

class GPT3(nn.Module):
    def __init__(
        self,
        vocab_size=50257,
        d_model=12288,
        n_layers=96,
        n_heads=96,
        context_length=2048
    ):
        super().__init__()

        self.token_embedding = nn.Embedding(vocab_size, d_model)
        self.position_embedding = nn.Embedding(context_length, d_model)

        self.transformer_blocks = nn.ModuleList([
            TransformerBlock(
                d_model=d_model,
                n_heads=n_heads,
                pre_layer_norm=True,
                sparse_attention=True
            )
            for _ in range(n_layers)
        ])

        self.final_layer_norm = nn.LayerNorm(d_model)

        self.lm_head = nn.Linear(
            d_model,
            vocab_size,
            bias=False
        )

    def forward(self, input_ids):
        positions = torch.arange(input_ids.size(1))

        x = (
            self.token_embedding(input_ids)
            + self.position_embedding(positions)
        )

        for block in self.transformer_blocks:
            x = block(x)

        x = self.final_layer_norm(x)

        logits = self.lm_head(x)

        return logits

پچھلے جی پی ٹی ورژن کے مقابلے، یہ ماڈل ڈرامائی طور پر پیمانے کو بڑھاتا ہے۔ سرایت کا سائز (d_model=12288) اور کنورٹر پرتوں کی تعداد (96) نیٹ ورک بہت پیچیدہ لسانی نمونوں اور لمبی دوری پر انحصار سیکھ سکتے ہیں۔

ماڈل بھی استعمال کریں۔ 96 سر توجہ:

n_heads=96

ملٹی ہیڈ توجہ ماڈل کو ٹوکن کے درمیان بیک وقت متعدد رشتوں پر توجہ مرکوز کرنے کی اجازت دیتی ہے، جس سے سیاق و سباق کی سمجھ میں بہتری آتی ہے۔

پوزیشنی ایمبیڈنگ کی لمبائی کے پیمانے مندرجہ ذیل ہیں: 2048ماڈل کو GPT-2 کے مقابلے میں زیادہ طویل ترتیب کو ہینڈل کرنے کی اجازت دیتا ہے۔

ہر ٹرانسفارمر بلاک پر مشتمل ہے:

pre_layer_norm=True,
sparse_attention=True

پری لیئر نارملائزیشن بہت گہرے نیٹ ورکس میں تربیتی استحکام کو بہتر بناتی ہے، جبکہ کم توجہ ایک دوسرے کے ساتھ حصہ لینے والے ٹوکنز کی تعداد کو محدود کرکے توجہ کی کمپیوٹیشنل لاگت کو کم کرتی ہے۔ یہ GPT-3 پیمانے پر اہم ہو جاتا ہے، جہاں طویل ترتیب پر پوری توجہ دینا بہت مہنگا ہے۔

فارورڈ پاس معیاری GPT پائپ لائن کی پیروی کرتا ہے۔

ٹوکن ID کو ایمبیڈنگ میں تبدیل کریں۔
مقام کی معلومات شامل کریں۔
جمع شدہ ٹرانسفارمر بلاکس کے ذریعے تاثرات کو منتقل کرنا
آخری پرت نارملائزیشن کا اطلاق کریں۔
لغوی منطقیں بنائیں

بنیادی تکراری پروسیسنگ یہاں ہوتی ہے۔

for block in self.transformer_blocks:
    x = block(x)

آخر میں، آؤٹ پٹ پرت پوشیدہ حالت کو لغوی جگہ میں پیش کرتی ہے، پیدا کرتی ہے: logits ٹریننگ اور ٹیکسٹ جنریشن کے دوران اگلی ٹوکن پیشین گوئی کے لیے استعمال کیا جاتا ہے۔

وسائل:

مجھ سے رابطہ کریں