اے آئی پیپر ریویو: ہیومن فیڈ بیک کے ساتھ ہدایات پر عمل کرنے کے لیے زبان کے ماڈلز کو تربیت دینا (انسٹرکٹ جی پی ٹی)

GPT-3 قدرتی زبان کی پروسیسنگ کے میدان میں ایک اہم پیشرفت تھی۔ ہم نے 175 بلین پیرامیٹرز کا استعمال کرتے ہوئے قابل ذکر چند شاٹ سیکھنے کی صلاحیتوں کا مظاہرہ کیا اور یہ ظاہر کیا کہ زبان کے بڑے ماڈلز کو اسکیل کرنے سے فعالیت کی ایک وسیع رینج کو غیر مقفل کیا جا سکتا ہے۔

تاہم، اپنی شاندار کارکردگی کے باوجود، GPT-3 نے اہم حدود کا انکشاف کیا۔ اس کا مطلب یہ ہے کہ خام فنکشن خود بخود مفید معاون پیدا نہیں کرتے ہیں۔

زبان کے ماڈلز روانی سے متن تیار کر سکتے ہیں، سوالات کے جوابات دے سکتے ہیں، اور پیچیدہ کاموں کو حل کر سکتے ہیں بغیر اس کے کہ صارفین اصل میں کیا چاہتے ہیں۔

GPT-3 ایسے ردعمل پیدا کر سکتا ہے جو متضاد، حد سے زیادہ پراعتماد، کنٹرول کرنے میں مشکل، یا صارف کی ہدایات کے خلاف ہوں۔ اگرچہ یہ ایک طاقتور پیشین گوئی کا انجن تھا، لیکن یہ قابل اعتماد طور پر ایک مفید معاون کے طور پر کام کرنے کے لیے ڈیزائن نہیں کیا گیا تھا۔

اس چیلنج نے جدید AI میں سب سے زیادہ بااثر کاغذات میں سے ایک کو متحرک کیا۔ انسانی تاثرات کے ساتھ ہدایات پر عمل کرنے کے لیے زبان کے ماڈل کو تربیت دیں۔. ماڈل کو بڑا بنانے کے بجائے، محققین نے اسے سکھانے پر توجہ مرکوز کی کہ انسانی ارادوں کی بہتر طریقے سے پیروی کیسے کی جائے۔

نتیجہ انسٹرکٹ جی پی ٹی ہے، جی پی ٹی-3 پر ایک ایسا نظام جو یہ ظاہر کرتا ہے کہ کس طرح انسانی تاثرات قابل زبان ماڈلز کو زیادہ مفید اور منسلک معاونین میں تبدیل کر سکتے ہیں۔

اس چیلنج نے صف بندی کو جدید AI میں سب سے اہم مسائل میں سے ایک بنا دیا ہے۔

محققین نے محسوس کیا کہ بڑے ماڈلز کی تعمیر حل کا صرف ایک حصہ ہے۔ جب تک ہم نے اضافہ کیا، ہم نے اس بات کی ضمانت نہیں دی کہ ماڈل قابل اعتماد طریقے سے ہدایات پر عمل کرے گا یا اس طرح برتاؤ کرے گا جو صارف کی توقعات کے مطابق ہو۔ ہمارے ارتقاء کے اگلے مرحلے کے لیے ایک ماڈل کی ضرورت تھی جو ہمیں سکھائے کہ کس طرح زیادہ مفید، سچائی اور محفوظ طریقے سے جواب دینا ہے۔

اس کی وجہ سے ہدایات پر عمل کرنے والے نظام اور RLHF (انسانی تاثرات کے ساتھ کمک سیکھنا) کی ترقی ہوئی۔ صرف اگلے لفظ کی پیشن گوئی کرنے کے لیے ماڈلز کو بہتر بنانے کے بجائے، محققین انسانی ترجیحات اور ارادے کو بہتر طریقے سے میچ کرنے کے لیے ماڈلز کو تربیت دینا شروع کر رہے ہیں۔

یہ تبدیلی بڑے پیمانے پر زبان کے ماڈلز کے ارتقاء میں ایک اہم موڑ کی نشاندہی کرتی ہے۔

GPT-3 نے بڑے پیمانے پر لینگویج ماڈلنگ کی طاقت کا مظاہرہ کیا اور بہت سے لوگوں کو فوری اور پرائم نمبر سیکھنے سے متعارف کرایا۔

InstructGPT اس بنیاد پر یہ ظاہر کر کے بناتا ہے کہ کس طرح انسانی تاثرات ہدایات کی پیروی اور ماڈل کے رویے کو نمایاں طور پر بہتر بنا سکتے ہیں۔ اس کے بعد ChatGPT نے ان خیالات کو زیادہ وسیع تر سامعین تک پہنچایا جو کہ لاکھوں لوگوں کے ذریعہ استعمال ہونے والے قابل رسائی بات چیت کے انٹرفیس میں منسلک زبان کے ماڈلز کو پیک کر کے۔

بہت سے طریقوں سے، زبان کے ماڈل ان کے منسلک ہونے سے پہلے ہی قابل ہو گئے۔

یہی وجہ ہے کہ GPT-3 سے InstructGPT میں منتقلی مصنوعی ذہانت کی تاریخ کے اہم ترین سنگ میلوں میں سے ایک ہے۔ فوکس اب صرف ماڈل کی صلاحیتوں کو بڑھانے پر نہیں تھا۔ اسے مزید قابل استعمال، مستحکم اور انسانی ارادے کے لیے جوابدہ بنانا بھی ضروری تھا۔

InstructGPT کی کامیابی نے صف بندی کی بہت سی تکنیکوں کا آغاز کیا جو بعد میں ChatGPT اور GPT-4 جیسے سسٹمز کے بنیادی حصے بن گئے۔

کاغذی خاکہ:

اس مضمون میں، میں بنیادی طور پر مقالہ پر توجہ مرکوز کروں گا۔ انسانی تاثرات کے ساتھ ہدایات پر عمل کرنے کے لیے زبان کے ماڈل کو تربیت دیں۔اوپن اے آئی نے 2022 میں شائع کیا۔

یہ مقالہ متعارف کراتا ہے۔ جی پی ٹی کو ہدایت دیں۔یہ بڑے پیمانے پر زبان کے ماڈلز کی تاریخ میں سب سے اہم تبدیلیوں میں سے ایک ہے۔ جبکہ پچھلے جی پی ٹی سسٹمز نے ماڈل کے سائز کو بڑھانے اور بنیادی فعالیت کو بہتر بنانے پر توجہ مرکوز کی ہے، یہ کام اتنی ہی اہم چیز پر توجہ مرکوز کرتا ہے: ایڈجسٹمنٹ.

اس مقالے میں، ہم دریافت کرتے ہیں کہ کس طرح زبان کے ماڈلز کو ہیومن فیڈ بیک انفورسمنٹ لرننگ (RLHF) کا استعمال کرتے ہوئے انسانی ہدایات پر بہتر طریقے سے عمل کرنے کی تربیت دی جا سکتی ہے۔ صرف اگلے ٹوکن کی پیشن گوئی کرنے کے لیے بہتر بنانے کے بجائے، ماڈل کو ایسے جوابات پیدا کرنے کے لیے مزید بہتر بنایا گیا ہے جو انسان اصل میں ترجیح دیتے ہیں: ایسے ردعمل جو زیادہ مفید، محفوظ، اور صارف کے ارادے کے ساتھ بہتر ہوں۔

جو چیز اس دستاویز کو تاریخی طور پر اہم بناتی ہے وہ یہ ہے کہ یہ جدید ChatGPT الائنمنٹ پائپ لائن کی بنیاد بن گئی۔

تعامل کے وہ نمونے جنہیں لوگ اب ChatGPT کے ساتھ جوڑتے ہیں (مثلاً مندرجہ ذیل ہدایات، بات چیت کا برتاؤ، رد عمل سے نمٹنے، اور محفوظ جواب دینا) یہاں متعارف کرائے گئے خیالات سے براہ راست معلوم کیا جا سکتا ہے۔

اگر آپ خود ایک نظر ڈالنا چاہتے ہیں تو اصل کاغذ دوبارہ پڑھیں۔ انسانی تاثرات کے ساتھ ہدایات پر عمل کرنے کے لیے زبان کے ماڈل کو تربیت دیں۔

ذیل میں ایک فوری انفوگرافک ہے جس کا ہم اس پورے جائزے میں احاطہ کریں گے۔

اشاریہ:

شرطیں

اس تجزیہ سے زیادہ سے زیادہ فائدہ اٹھانے کے لیے، یہ کچھ بنیادی خیالات سے پہلے سے واقف ہونے میں مدد کرتا ہے۔

آپ کو اس سیریز میں پچھلے جائزے پڑھنا خاص طور پر مددگار ثابت ہوگا۔

اگرچہ GPT-4 کو InstructGPT کے بعد جاری کیا گیا تھا، پھر بھی ہمارے GPT-4 کا جائزہ پڑھنا مددگار ثابت ہو سکتا ہے۔ یہ ایک وسیع تناظر فراہم کرتا ہے کہ کس طرح صف بندی کی تکنیک تیار ہوئی ہے اور انہیں GPT ماڈلز کی بعد کی نسلوں میں مزید طاقتور انفرنس اور ملٹی موڈل صلاحیتوں کے ساتھ کیسے ملایا گیا ہے۔

آپ کو درج ذیل مددگار بھی مل سکتے ہیں:

قدرتی زبان کی پروسیسنگ (NLP) اور بڑے پیمانے پر زبان کے ماڈلز کی عمومی تفہیم
ٹرانسفارمر پر مبنی آٹوریگریسو ماڈلز کے بارے میں جدید خیالات
اشارے سے واقفیت، چند شاٹ لرننگ، اور حالات میں سیکھنا
کمک سیکھنے اور انسانی تاثرات کے نظام کی بنیادی تفہیم
مشین لرننگ کے عمومی تصورات جیسے کہ ٹریننگ ڈیٹا، فائن ٹیوننگ، اسکیلنگ، اور انفرنس۔
صف بندی، حفاظت، اور AI رویے کے کنٹرول کے تصورات کے بارے میں کچھ علم۔

لیکن آپ کو اس مضمون کی پیروی کرنے کے لیے AI محقق ہونے کی ضرورت نہیں ہے۔

میں وضاحت کو عملی اور بدیہی رکھوں گا، یہ سمجھنے پر زیادہ توجہ مرکوز رکھوں گا کہ کس طرح InstructGPT نے ریاضیاتی تفصیلات یا علمی اصطلاحات میں الجھنے کے بجائے جدید AI سسٹمز کو تبدیل کیا ہے۔

خلاصہ

کاغذ انسانی تاثرات کے ساتھ ہدایات پر عمل کرنے کے لیے زبان کے ماڈل کو تربیت دیں۔ یہ جدید AI سسٹمز کی تاریخ کے سب سے بڑے موڑ میں سے ایک ہے۔ صرف یہ پوچھنے کے بجائے کہ زبان کے ماڈل کو کیسے بڑا اور ہوشیار بنایا جائے، OpenAI نے دوسرے سوالات پر توجہ مرکوز کی۔ ہم ان ماڈلز کو حقیقی لوگوں کے لیے کس طرح مددگار بناتے ہیں؟

یہ کاغذ میں متعارف کرایا گیا ہے. جی پی ٹی کو ہدایت دیں۔GPT-3 کا ایک عمدہ ورژن GPT-3 نامی طریقہ استعمال کرتے ہوئے انسانی ہدایات پر زیادہ درست طریقے سے عمل کرنے کے لیے۔ انسانی تاثرات کے ساتھ کمک سیکھنا (RLHF).

کاغذ کی بنیادی بصیرت سادہ لیکن بہت اہم ہے۔

زبان کا ایک بڑا ماڈل خود بخود اسے بہتر معاون نہیں بناتا ہے۔

اعلی کارکردگی والے ماڈل جیسے GPT-3 بھی کر سکتے ہیں:

اس مسئلے کو حل کرنے کے لیے، OpenAI نے ملٹی اسٹیج چھانٹنے والی پائپ لائن بنائی۔ انسان پہلے مثالی جواب دکھاتا ہے، پھر انسان ماڈل کے نتائج کی درجہ بندی کرتا ہے، اور آخر میں ماڈل کمک سیکھنے کا استعمال کرتے ہوئے ان ترجیحات سے سیکھتا ہے۔

اس نے جدید AI کی ترقی کی سمت بدل دی۔

یہ مقالہ ظاہر کرتا ہے کہ صف بندی اور قابل استعمال خام ماڈل کے سائز سے زیادہ اہم ہو سکتے ہیں۔ سب سے زیادہ حیران کن نتائج میں سے ایک یہ تھا کہ 1.3B انسٹرک جی پی ٹی ماڈل کو اکثر انسانی تشخیص کاروں نے اصل 175B GPT-3 ماڈل پر ترجیح دی تھی، باوجود اس کے کہ یہ بہت چھوٹا ہے۔

مقالہ مندرجہ ذیل ہدایات، سچائی، زہریلے پن میں کمی، بات چیت کے رویے، اور عام صارف کی ترجیحات میں بہتری کو بھی ظاہر کرتا ہے۔

تاریخی طور پر، یہ کاغذ جدید بات چیت کے AI نظاموں کی بنیاد بن گیا۔

GPT-3 نے ظاہر کیا کہ زبان کے ماڈل اشارے سے سیکھ سکتے ہیں۔

GPT-4 نے بعد میں یہ ظاہر کیا کہ ایکسٹینشنز اور ملٹی موڈل انفرنس کے ذریعے اور بھی زیادہ طاقتور صلاحیتوں کو کھولا جا سکتا ہے۔

لیکن InstructGPT نے اتنی ہی اہم چیز کا انکشاف کیا۔ AI سسٹمز کو صحیح معنوں میں قابل استعمال مصنوعات بننے کے لیے انسانی ارادے سے مماثل ہونا چاہیے۔

بہت سے طریقوں سے، یہ مقالہ خام زبان کی ماڈلنگ سے ترتیب شدہ معاونین تک، فعالیت میں توسیع سے رویے کی تشکیل تک، اور تحقیقی مظاہروں سے حقیقی بات چیت کے AI نظاموں تک کی منتقلی کی نمائندگی کرتا ہے۔

اور یہ منتقلی بالآخر براہ راست ChatGPT کی طرف لے گئی۔

بنیادی مسئلہ

اس مقالے میں سب سے اہم خیالات میں سے ایک یہ ہے کہ ایک خام زبان کا نمونہ بنانا ایک مفید معاون بنانے جیسا نہیں ہے۔

InstructGPT سے پہلے، GPT-3 جیسے ماڈلز کو بنیادی طور پر ایک سادہ مقصد کے ساتھ تربیت دی جاتی تھی: ایک ترتیب میں اگلے ٹوکن کی پیش گوئی کرنا۔

یہ اہداف زبان کے ماڈلز کو روانی سے متن بنانے کے لیے بہت طاقتور بناتے ہیں، لیکن یہ اہم حدود بھی پیدا کرتے ہیں۔ ماڈل نے سیکھا کہ انٹرنیٹ ٹیکسٹ کیسے جاری رکھا جائے، ضروری نہیں کہ انسانوں کی مدد کیسے کی جائے۔

یہ جدید AI الائنمنٹ ریسرچ کو زیر کرنے والی تعریفوں میں سے ایک بن گیا ہے۔

اپنی متاثر کن صلاحیتوں کے باوجود، GPT-3 نے اکثر ایک قابل اعتماد معاون کی طرح کام کرنے کے لیے جدوجہد کی۔ اگرچہ ماڈل روانی سے متن تیار کر سکتا ہے، لیکن اسے صارف کے ارادے کی پیروی کرنے کے لیے واضح طور پر تربیت نہیں دی گئی ہے۔

ذیل میں چند مثالیں دی گئی ہیں جو GPT-3 اور InstructGPT کے درمیان فرق کو اس طریقے سے اجاگر کرتی ہیں جس طرح وہ صارف کے اشارے پر جواب دیتے ہیں۔

ماخذ: ہدایات پر عمل کرنے کے لیے زبان کے ماڈل کو سیدھ میں لانا

یہ مثالیں ابتدائی GPT سسٹم کی اہم کمزوریوں کو بے نقاب کرتی ہیں۔ GPT-3 اکثر درخواست کردہ کارروائی کو مکمل کیے بغیر اپنا فوری نمونہ جاری رکھے گا۔ InstructGPT، اس کے برعکس، صارف کی ہدایات کا براہ راست جواب دیا۔ فرق خام ذہانت کا نہیں تھا۔ یہ تربیتی اہداف میں فرق تھا۔

GPT ماڈل کو ایک بڑے، انٹرنیٹ پیمانے پر ڈیٹاسیٹ پر تربیت دی جاتی ہے جہاں مقصد صرف یہ پیش گوئی کرنا ہے کہ آگے کیا متن آئے گا۔ نتیجہ فزیبلٹی، پائیداری، اور پیٹرن کی مکملیت کے لیے موزوں ماڈل ہے۔ یہ ضروری نہیں کہ سچائی، حفاظت، افادیت، یا انسانی مقاصد کے ساتھ ہم آہنگ ہو۔

یہ زبان کے افعال اور مفید معاون اعمال کے درمیان ایک وسیع خلا چھوڑ دیتا ہے۔

مثال کے طور پر، اگر کوئی صارف نقصان دہ، گمراہ کن، یا بے ہودہ سوال پوچھتا ہے، تو ماڈل قدرتی طور پر مسئلے کو پہچاننے کے بجائے پیٹرن کو جاری رکھنے کی کوشش کر سکتا ہے۔ بہت سے معاملات میں، ماڈل نے ایک قابل اعتماد اسسٹنٹ سے زیادہ انٹرنیٹ ٹیکسٹ سمیلیٹر کی طرح برتاؤ کیا۔

مقالے میں اس بات کا اعادہ کیا گیا ہے کہ اکیلے پیمانے سے یہ مسئلہ حل نہیں ہو سکتا۔

محققین نے تیزی سے تسلیم کیا ہے کہ بہتر رویے کو صرف پیمانہ بڑھانے سے زیادہ کی ضرورت ہوتی ہے۔

ماڈل کو مضبوط ہدایات کی پیروی، انسانی ارادے سے بہتر موافقت، بہتر حفاظتی رویے، زیادہ سچائی، اور حقیقی دنیا کے صارف کی ضروریات کے لیے اصلاح کی بھی ضرورت تھی۔

GPT-3 کیوں کافی نہیں ہے۔

جب GPT-3 کو جاری کیا گیا، تو یہ محسوس ہوا کہ AI صلاحیتوں میں ایک بہت بڑا قدم آگے ہے۔

ماڈلز متعدد تربیتی سیشنز انجام دے سکتے ہیں، سوالات کے جوابات دے سکتے ہیں، متن کا خلاصہ کر سکتے ہیں، کوڈ تیار کر سکتے ہیں، زبانوں کا ترجمہ کر سکتے ہیں، اور یہاں تک کہ روایتی فائن ٹیوننگ کے بغیر مخصوص تخمینہ کے کاموں کو حل کر سکتے ہیں۔ بہت سے محققین کے لیے، یہ پہلا موقع تھا جب زبان کے ماڈلز واقعی آفاقی محسوس ہونے لگے۔

تاہم، عملی طور پر، GPT-3 کا استعمال اکثر مجوزہ بینچ مارک کارکردگی سے کم قابل اعتماد تھا۔

عملی طور پر، GPT-3 کے استعمال میں اکثر محتاط اور تیز انجینئرنگ کی ضرورت ہوتی ہے۔ الفاظ میں تھوڑی سی تبدیلی آپ کے جواب کے معیار کو مکمل طور پر تبدیل کر سکتی ہے۔ کبھی کبھی ماڈل نے ہدایات پر اچھی طرح عمل کیا، لیکن کبھی کبھی اس نے انہیں مکمل طور پر نظر انداز کر دیا۔

صارفین نے اکثر اپنے آپ کو وہ جواب حاصل کرنے کے لیے بار بار دوبارہ لکھتے ہوئے پایا جو وہ اصل میں چاہتے تھے۔

یہ InstructGPT کے پیچھے بنیادی محرک بن گیا۔

OpenAI نے ماڈل کے رویے کو مزید مستقل، پیش قیاسی، اور صارفین کے لیے مفید بنانے کے طریقے تلاش کرکے جواب دیا۔

انسٹرکٹ جی پی ٹی: سیدھ سے چلنے والے ایل ایل ایم کی پیدائش

InstructGPT کا اجراء بڑے پیمانے پر زبان کے ماڈلز کی تاریخ میں سب سے بڑی تبدیلیوں میں سے ایک تھی۔

InstructGPT سے پہلے، زبان کے ماڈلز میں سب سے زیادہ ترقی ڈیٹا اسکیلنگ، کمپیوٹیشن، اور ماڈل سائز سے آئی تھی۔

توجہ سیدھ میں منتقل ہو گئی۔ خیال یہ ہے کہ ایسے نظاموں کی تعمیر کی جائے جو زیادہ قابل اعتماد طریقے سے ہدایات پر عمل کریں اور اس طریقے سے کام کریں جس طرح صارفین اصل میں ترجیح دیتے ہیں۔

InstructGPT جدید AI سسٹمز میں ایک اہم ترین آئیڈیا متعارف کراتا ہے: Reinforcement Learning with Human Feedback (RLHF)۔

انٹرنیٹ ٹیکسٹ کی پیشن گوئی کرنے کے لیے ماڈلز کو بہتر بنانے کے بجائے، OpenAI ماڈلز کو بہتر بنانے کے لیے نکلا جس کی بنیاد پر انسان اصل میں ترجیح دیتے ہیں۔ انسانی لیبلرز نے ماڈل کے نتائج کو درجہ بندی کیا، اور یہ ترجیحات خود سیکھنے کے عمل کا حصہ بن گئیں۔

یہ بنیادی طور پر زبان کے ماڈل کے مقصد کو تبدیل کرتا ہے۔

صرف اگلے ٹوکن کی پیشن گوئی کرنے کے لیے بہتر بنانے کے بجائے، نظاموں کو تیزی سے ایسے ردعمل پیدا کرنے کے لیے بہتر بنایا جا رہا ہے جو انسانوں کے لیے مفید، محفوظ اور اپنے ارادے کے مطابق ہوں۔

فرق ٹھیک ٹھیک لگ سکتا ہے، لیکن یہ AI کی ترقی کی سمت کو مکمل طور پر بدل دیتا ہے۔

InstructGPT ہدایت یافتہ تربیت اور انسانی ترجیحی اصلاح کو یکجا کرتا ہے تاکہ ایک ایسا ماڈل بنایا جا سکے جس کے طرز عمل کو صرف پری ٹریننگ کے بجائے فیڈ بیک کے ذریعے تشکیل دیا جا سکے۔

ماڈلز کو اب انٹرنیٹ کی نقل کرنے کی تربیت نہیں دی جاتی ہے۔ ایک معاون کی طرح کام کرنے کی تربیت دی گئی۔

RLHF پائپ لائن: InstructGPT نے اسسٹنٹ کی طرح کام کرنا کیسے سیکھا۔

InstructGPT پیپر کے مرکز میں ایک تربیتی پائپ لائن ہے جس نے جدید AI معاونین کی تعمیر کے طریقے کو مکمل طور پر تبدیل کر دیا ہے۔

RLHF کو روایتی زبان کے ماڈل کی پری ٹریننگ کی بجائے تبدیل کرنے کے لیے ڈیزائن کیا گیا ہے۔

InstructGPT پیپر نے ایک اور خیال پیش کیا۔ دوسرے الفاظ میں، صرف انٹرنیٹ ٹیکسٹ سے ماڈل کو تربیت دینے کے بجائے، کیوں نہ براہ راست انسانی ترجیحات کا استعمال کرتے ہوئے ماڈل کو تربیت دیں؟

اس سے RLHF پائپ لائن کی ترقی ہوئی، انسانی تاثرات کے ساتھ کمک سیکھنا۔ یہ نقطہ نظر بعد میں جدید بات چیت کے AI نظاموں کا ایک معیاری جزو بن گیا۔

اس مقالے میں شکل 2 خاص طور پر اہم ہے کیونکہ یہ OpenAI کے ذریعے متعارف کرائی گئی پوری الائنمنٹ پائپ لائن کا تصور کرتا ہے۔ کسی ایک تربیتی قدم پر انحصار کرنے کے بجائے، نظام متعدد مراحل کا استعمال کرتا ہے جہاں انسانی تاثرات بتدریج ماڈل کے رویے کو تشکیل دیتے ہیں۔

ماخذ: انسانی تاثرات کے ساتھ ہدایات پر عمل کرنے کے لیے زبان کے ماڈل کو تربیت دیں۔ (اوپن اے آئی، 2022)۔

جیسا کہ آپ اوپر تصویر میں دیکھ سکتے ہیں، یہ عمل تین اہم مراحل میں ہوتا ہے:

مرحلہ 1 – زیر نگرانی فائن ٹیوننگ (SFT)

پہلا قدم انسانی تحریری مظاہرے سے شروع ہوتا ہے۔

لیبلرز کو ایک اشارہ دیا جاتا ہے اور ان سے کہا جاتا ہے کہ وہ اپنا مثالی جواب لکھیں (جو جواب ایک مفید معاون کو پیش کرنا چاہیے)۔ یہ مثالیں ماڈل کے لیے ابتدائی تربیتی ڈیٹاسیٹ بن جاتی ہیں۔

اس مرحلے میں، ماڈل اسسٹنٹ طرز کے جوابات کے بنیادی نمونوں کو سیکھتا ہے۔

یہ اب بھی روایتی زیر نگرانی تعلیم ہے، لیکن اس کے مقاصد معیاری زبان کی ماڈلنگ سے مختلف ہیں۔ صرف ویب ٹیکسٹ سے سیکھنے کے بجائے، ماڈل اب ترجیحی معاون اعمال کی مثالوں سے سیکھتا ہے۔

یہ مرحلہ ایک ماڈل بناتا ہے جسے کاغذ سپروائزڈ فائن ٹیونڈ ماڈل (SFT ماڈل) کہتا ہے۔

اس سے رویے میں پہلے ہی نمایاں طور پر بہتری آئی ہے، لیکن OpenAI نے کچھ اہم محسوس کیا۔ بات یہ ہے کہ انسانی ترجیحات ایک سادہ "صحیح جواب” سے زیادہ پیچیدہ ہیں۔

فوری طور پر بہت سے ممکنہ جوابات ہوتے ہیں، لیکن انسان دوسروں پر کچھ جوابات کو ترجیح دے سکتے ہیں۔

یہ اگلے مرحلے کی طرف جاتا ہے۔

مرحلہ 2 – انعام کے ماڈل کو تربیت دیں۔

دوسرے مرحلے میں، انسان اب خود جواب نہیں لکھتے۔

اس کے بجائے، ماڈل ایک ہی پرامپٹ کے متعدد جوابات تیار کرتا ہے اور ایک انسانی لیبلر انہیں بہترین سے بدترین درجہ دیتا ہے۔

دیے گئے پرامپٹ کے لیے، کچھ جوابات واضح، دیگر زیادہ درست، اور باقی محفوظ یا زیادہ مناسب ہو سکتے ہیں۔ ایک انسانی لیبلر ترجیح کے مطابق ان متبادلات کی درجہ بندی کرتا ہے۔

اس کے بعد درجہ بندی کا استعمال ایک علیحدہ نیورل نیٹ ورک کو تربیت دینے کے لیے کیا جاتا ہے جسے ریوارڈ ماڈل (RM) کہتے ہیں۔

یہ ماڈل کچھ بہت اہم سیکھتا ہے: آؤٹ پٹ جسے انسان ترجیح دیتے ہیں۔

دوسرے لفظوں میں، نظام انسانی ترجیحات کو قابل تربیت انعامی اشاروں میں ترجمہ کرتا ہے۔

یہ اس مقالے میں سب سے بڑی تصوراتی اختراعات میں سے ایک ہے۔ رویے کے اصولوں کو دستی طور پر پروگرام کرنے کے بجائے، OpenAI ماڈلز کو انسانی فیصلے کا اندازہ لگانے کی تربیت دیتا ہے۔

انعامی ماڈل انسانی ترجیحات کے نمونوں کو حاصل کرتے ہیں اور انہیں تربیتی اشاروں میں تبدیل کرتے ہیں۔

وہ انعام کا اشارہ آخری تربیتی مرحلے کی بنیاد بن جاتا ہے۔

مرحلہ 3 — PPO کمک سیکھنا

آخری مرحلہ انعامی ماڈل کے مقابلے زبان کے ماڈل کو بہتر بنانے کے لیے کمک سیکھنے کا استعمال کرتا ہے۔

مزید خاص طور پر، یہ مقالہ Proximal Policy Optimization (PPO) کا استعمال کرتا ہے، ایک کمک سیکھنے کا الگورتھم جو عام طور پر پالیسی کی اصلاح کے کاموں میں استعمال ہوتا ہے۔

اس مرحلے میں، ماڈل ایک ردعمل پیدا کرتا ہے، انعامی ماڈل سے اسکور حاصل کرتا ہے، اور اس اسکور کو زیادہ سے زیادہ کرنے کے لیے اپنے رویے کو بتدریج اپ ڈیٹ کرتا ہے۔

ماڈل بتدریج ریوارڈ ماڈل میں زیادہ اسکور کرنے والے ردعمل کی طرف بڑھتا ہے۔

کلیدی اختراع یہ ہے کہ اصلاح اب زبان کے ماڈلنگ کے اہداف کے بجائے انسانی ترجیحات کی سیکھی ہوئی نمائندگی کے لیے ہوتی ہے۔

مقالے کے مطابق، اس RLHF پائپ لائن نے نقصان دہ اور غیر محفوظ رویے کو کم کرتے ہوئے رہنما اصولوں کی تعمیل اور صارف کی ترجیحی درجہ بندی میں نمایاں طور پر بہتری لائی ہے۔

اور بہت سے طریقوں سے، یہ پائپ لائن جدید بات چیت کے AI نظاموں کے لیے بلیو پرنٹ بن گئی۔

مددگار، ایماندار، بے ضرر

مصنفین کا کہنا ہے کہ زبان کے ماڈلز کا جائزہ لینے کے لیے صرف خصوصیات کی پیمائش کرنے سے زیادہ کی ضرورت ہوتی ہے۔ ان کا اندازہ اس بنیاد پر بھی ہونا چاہیے کہ وہ انسانوں کے ساتھ کیسے برتاؤ کرتے ہیں۔

اس وقت، اس نے محققین کے زبان کے ماڈلز کا جائزہ لینے کے انداز میں ایک اہم تبدیلی کی نشاندہی کی۔

یہی وجہ ہے کہ یہ مقالہ بار بار تین اہداف کے گرد مرکوز ایک نئی صف بندی کے فلسفے پر زور دیتا ہے:

یہ خیالات جدید الائنمنٹ ریسرچ اور بات چیت کے AI سسٹمز کی تصوراتی بنیاد بن گئے۔

مددگار

پہلا مقصد آسان ہے۔ آپ کے ماڈل کو صحیح معنوں میں صارفین کی مدد کرنی چاہیے جو وہ چاہتے ہیں۔

واقعی مددگار ہونے کا مطلب واضح طور پر ہدایات پر عمل کرنا، سوالات کا براہ راست جواب دینا، متعلقہ معلومات فراہم کرنا، اور صارف کے ارادے کے مطابق ہونا۔

یہ سادہ لگ سکتا ہے، لیکن یہ بنیادی طور پر آپ کے تربیتی اہداف کو بدل دیتا ہے۔

ماڈل کو اب صرف زبانی روانی کے لیے بہتر نہیں بنایا گیا ہے۔ پریوست کے لیے موزوں ہے۔

صاف

دوسرا مقصد ایمانداری ہے۔

بڑے پیمانے پر زبان کے ماڈلز کے ساتھ سب سے بڑا مسئلہ یہ ہے کہ وہ اکثر جوابات غلط ہونے پر بھی قائل کرنے والے جوابات پیش کرتے ہیں۔ ماڈلز حقیقت پسندانہ طور پر حقائق کی نمائندگی کر سکتے ہیں، حوالہ جات پیدا کر سکتے ہیں، اور غیر یقینی صورتحال کے باوجود اعتماد کے ساتھ جواب دے سکتے ہیں۔

یہ مقالہ تسلیم کرتا ہے کہ ایک کارآمد معاون کو صرف ذہین ظاہر نہیں ہونا چاہیے۔ ہمیں دیانت داری کے ساتھ کام کرنا چاہیے اور جب ضروری ہو تو غیر یقینی صورتحال کو تسلیم کرنا چاہیے۔

یہ خاص طور پر اہم ہے کیونکہ زبان کے ماڈلز کو قابل فہم متن تیار کرنے کے لیے بہتر بنایا گیا ہے، ثابت شدہ سچائی نہیں۔

نتیجے کے طور پر، پچھلے ماڈلز بعض اوقات درستگی پر مستقل آواز کو ترجیح دیتے ہیں۔

InstructGPT میں متعارف کرایا گیا سیدھ کا عمل انسانی تاثرات اور ترجیحی اصلاح کے ذریعے اس رویے کو کم کرنے کی کوشش کرتا ہے۔ انسانی درجہ بندی کرنے والے مستقل طور پر زیادہ درست، شفاف اور قابل اعتماد جوابات کو ترجیح دیتے ہیں، اور یہ ترجیحات RLHF کی تربیت کے دوران آہستہ آہستہ ماڈل کو تشکیل دیتی ہیں۔

اس مقالے میں یہ دعویٰ نہیں کیا گیا ہے کہ فریب کاری مکمل طور پر ختم ہو جائے گی۔ اس سے دور۔ تاہم، یہ پہلی بڑی کوششوں میں سے ایک ہے جو زبان کے ماڈلز کو واضح طور پر بہتر بنانے کی بجائے سچائی اور وشوسنییتا کے لیے خالص ٹیکسٹ جنریشن کے معیار کے لیے ہے۔

بے ضرر

تیسرا مقصد بے ضرر ہے۔

انٹرنیٹ ڈیٹا پر تربیت یافتہ بڑے پیمانے پر زبان کے ماڈلز لامحالہ اس ڈیٹا سے زہریلے، متعصب، غیر محفوظ، یا نقصان دہ نمونوں کو جذب کرتے ہیں۔ صف بندی کے بغیر، ماڈل خطرناک ہدایات، جارحانہ مواد، یا ہیرا پھیری کا رویہ پیدا کر سکتے ہیں۔

یہ کاغذ ان مسائل کو براہ راست حل کرتا ہے اور ماڈل کی ترقی کے ایک اہم حصے کے طور پر حفاظت کو حل کرتا ہے۔

RLHF اور انسانی ترجیحی درجہ بندی کے ذریعے، ماڈل سیکھتا ہے کہ کس طرح کچھ نقصان دہ درخواستوں کو مسترد کرنا ہے، نقصان دہ درخواستوں کو پیدا کرنے سے بچنا ہے، محفوظ ردعمل پیدا کرنا ہے، اور بات چیت کے دوران زیادہ ذمہ داری سے برتاؤ کرنا ہے۔

یہ جدید بات چیت کے AI نظام کی خصوصیات میں سے ایک بن گیا ہے۔

لامحدود بجلی کی پیداوار کو زیادہ سے زیادہ کرنے کے بجائے، نظام افادیت، حفاظت، اور انسانی اقدار کو متوازن کرنا شروع کر دیتا ہے۔

تاہم، یہ مقالہ اپنی حدود کے بارے میں بھی ایماندار ہے۔

مصنفین تسلیم کرتے ہیں کہ نقصان دہ نتائج، تعصب، اور غیر محفوظ رویے اب بھی سامنے آ سکتے ہیں۔ صف بندی نامکمل ہیں، اور انسانی اقدار خود پیچیدہ اور عالمی سطح پر بیان کرنا مشکل ہیں۔

لیکن تاریخی طور پر، یہ کاغذ ایک ایسے لمحے کو نشان زد کرتا ہے جب حفاظت اور صف بندی ثانوی خدشات کے بجائے بنیادی انجینئرنگ کے مقاصد بن گئے۔

یہ تینوں اصول (فائدہ، دیانت اور غیر نقصان دہ) کو ایک ساتھ لے کر تعلیمی اہداف سے آگے نکل جاتے ہیں۔ یہ ChatGPT دور میں AI نظام کی فلسفیانہ بنیاد بن گئی۔

پچھلے جی پی ٹی مضامین میں بنیادی طور پر ذہانت کو بڑھانے کے طریقے تلاش کیے گئے ہیں۔ لیکن InstructGPT نے کچھ گہرائی سے دریافت کیا: انسانوں کے لیے ذہانت کو کیسے قابل استعمال بنایا جائے۔

ایک نئے پیمانے کے عنصر کے طور پر انسانی رائے

InstructGPT پیپر میں سب سے زیادہ دلچسپ خیالات میں سے ایک یہ ہے کہ اس نے خاموشی سے تبدیل کر دیا ہے کہ جدید AI میں "اسکیلنگ” کا کیا مطلب ہے۔

کئی سالوں سے، زبان کے ماڈلز میں پیش رفت کی پیمائش بنیادی طور پر توسیعات کے ذریعے کی جاتی رہی ہے۔

GPT-1 نے دکھایا کہ پری ٹریننگ کام کرتی ہے۔ GPT-2 نے ظاہر کیا کہ بڑے ماڈلز زیادہ مضبوط زیرو شاٹ رویہ تیار کرتے ہیں۔ GPT-3 اس خیال کو 175 بلین پیرامیٹرز تک بڑھا کر اور چند شاٹ سیکھنے کی متاثر کن صلاحیتوں کا مظاہرہ کرتے ہوئے آگے لے جاتا ہے۔

اور یہ کسی حد تک درست بھی تھا۔ بڑے ماڈلز نے انفرنس، کوڈ جنریشن، زبان کی تفہیم، ترجمہ، اور عام کرنے کی صلاحیتوں کو بہتر بنایا ہے۔

یہ وہ جگہ ہے جہاں انسانی آراء مرکزی مرحلہ لیتی ہے۔

مکمل طور پر انٹرنیٹ کے پیمانے پر متن پر انحصار کرنے کے بجائے، OpenAI ایک ٹریننگ پائپ لائن متعارف کراتا ہے جہاں انسانی ترجیحات براہ راست ماڈل کے رویے کو تشکیل دیتی ہیں۔ لیبلرز نے جوابات کی درجہ بندی کی، معیار کا اندازہ لگایا، اور نظام کی ان نتائج کی طرف رہنمائی کی جنہیں لوگوں نے اصل میں ترجیح دی۔

کئی طریقوں سے، اس نے AI سسٹمز کے لیے توسیع کی ایک بالکل نئی جہت بنائی ہے۔

تاریخی طور پر، اس نے ماڈل پیمانے سے خود کو ماڈل رویے کے معیار کی طرف توجہ دلائی ہے۔

انسٹرکٹ جی پی ٹی استعمال کو بڑھانے پر توجہ مرکوز کرتا ہے۔ اور نتائج حیرت انگیز طور پر طاقتور تھے۔

مقالے کے مطابق، انسانی جائزہ لینے والے اکثر سیدھ کے ماڈل کو ترجیح دیتے ہیں جو اصل 175B GPT-3 ماڈل سے بہت چھوٹا تھا۔

اس دریافت نے صنعت کی ترقی کے بارے میں سوچنے کا انداز بدل دیا۔

نتائج نے تجویز کیا کہ رویے کو بہتر بنانا بعض اوقات سائز میں اضافہ جتنا اہم ہوسکتا ہے۔

یہی وجہ ہے کہ RLHF چیٹ جی پی ٹی دور کے متعین خیالات میں سے ایک بن گیا ہے۔

InstructGPT کے بعد، جدید AI سسٹمز کو اب صرف بینچ مارک سکور، پیرامیٹرز کی تعداد، یا سکیلنگ کروز سے جانچا نہیں جاتا ہے۔

استعمال کے قابل، بات چیت کے معیار، حفاظت، وشوسنییتا، اور وہ انسانوں کے ساتھ کتنی اچھی طرح سے تعامل کرتے ہیں اس کی بنیاد پر ان کا تیزی سے جائزہ لیا گیا ہے۔

اور یہ تبدیلیاں بنیادی طور پر بڑے پیمانے پر زبان کے ماڈلز کی مستقبل کی سمت کو تبدیل کرتی ہیں۔

ChatGPT نے دنیا بھر میں دھماکہ خیز ترقی کیوں حاصل کی ہے۔

جب ChatGPT کو عوامی طور پر جاری کیا گیا تھا، تو ردعمل فوری تھا اور اس سے پہلے AI انڈسٹری میں دیکھنے والے کسی بھی چیز کے برعکس تھا۔

لاکھوں لوگوں نے چند ہی دنوں میں اس ایپ کو استعمال کرنا شروع کر دیا۔ ڈویلپرز، طلباء، مصنفین، محققین، کاروبار، اور روزمرہ استعمال کرنے والوں نے اچانک محسوس کیا کہ وہ AI کے ساتھ بالکل مختلف انداز میں بات چیت کر رہے ہیں۔

جو چیز اس لمحے کو بہت اہم بناتی ہے وہ یہ ہے کہ جدید ترین AI صلاحیتیں آخر کار روزمرہ کے صارفین کے لیے قابل رسائی ہوتی جا رہی ہیں۔ بہر حال، بنیادی زبان کا ماڈل ChatGPT کے وجود سے پہلے ہی اچھی کارکردگی کا مظاہرہ کر رہا تھا۔ GPT-3 مضامین لکھ سکتا ہے، سوالات کے جوابات دے سکتا ہے، کوڈ لکھ سکتا ہے، متن کا خلاصہ کر سکتا ہے، اور سیکھنے کے کئی متاثر کن کام انجام دے سکتا ہے۔ GPT-4 نے بعد میں مزید بہتر اندازہ اور ملٹی موڈل صلاحیتوں کو شامل کیا۔

سوال اب یہ نہیں تھا کہ کیا زبان کے ماڈل کچھ مفید کام کرسکتے ہیں، لیکن کیا لوگ ان کے ساتھ فطری طور پر بات چیت کرسکتے ہیں۔

ChatGPT طاقتور زبان کے ماڈل کی خصوصیات کو RLHF کی بنیاد پر چھانٹنے، بات چیت کی بات چیت، محفوظ رویے، اور صارف دوست چیٹ انٹرفیس کے ساتھ یکجا کرتا ہے۔

پچھلے نظاموں کو مستقل نتائج حاصل کرنے کے لیے اکثر پرواز کے دوران اہم تجربات کی ضرورت ہوتی تھی۔ صارفین کو احتیاط سے پرامپٹس کو انجینئر کرنا تھا، سوالات کو دوبارہ آزمانا تھا، اور عجیب آؤٹ پٹ کو حل کرنا تھا۔ ایک ماڈل ایک لمحے میں بہت اچھا اور اگلے کو الجھانے والا ہو سکتا ہے۔

ChatGPT نے اس تجربے کو ڈرامائی طور پر تبدیل کر دیا ہے۔

انسٹرکٹ جی پی ٹی دستاویز میں متعارف کرائی گئی سیدھ کی تکنیکیں ہدایات پر عمل کرنے، گفتگو کے بہاؤ کو برقرار رکھنے، ارادے کو سمجھنے، اور خالصتاً تخلیقی انداز کے بجائے باہمی تعاون کے ساتھ جواب دینے سے نظام کو بہت بہتر بناتی ہیں۔

انٹرایکٹو انٹرفیس خود بھی بہت اہم تھا۔

ChatGPT سے پہلے، جدید AI سسٹمز کے ساتھ بات چیت کرنے کے لیے اکثر APIs، کوڈنگ کا علم، تیز تجربہ، یا تکنیکی سمجھ کی ضرورت ہوتی ہے۔

چیٹ جی پی ٹی ہر چیز کو ایک مانوس چیٹ فارمیٹ میں آسان بناتا ہے۔ بس قدرتی طور پر ٹائپ کریں اور سسٹم قدرتی طور پر جواب دے گا۔

یہ ڈیزائن کے فیصلے معمولی لگ سکتے ہیں، لیکن تاریخی طور پر وہ اہم تھے۔ اس نے بڑے پیمانے پر زبان کے ماڈلز کو ریسرچ ٹولز سے صارفین کی مصنوعات میں تبدیل کر دیا۔

اگرچہ نامکمل ہے، سسٹم نے پچھلے لینگویج ماڈل انٹرفیس سے کہیں زیادہ مستحکم محسوس کیا۔

سسٹم کو اس طرح سے مواصلت کرنے میں آپ کی مدد کرنے کے لیے ڈیزائن کیا گیا ہے جو زیادہ قدرتی اور باہمی تعاون کے ساتھ محسوس ہو۔

پیش رفت صرف یہ نہیں ہے کہ AI ہوشیار ہو رہا ہے۔ پیش رفت یہ ہے کہ AI دستیاب ہو گیا ہے۔

اور اس کی افادیت وہی ہے جس نے بڑے پیمانے پر زبان کے ماڈلز کو متاثر کن تحقیقی مظاہروں سے عالمی سطح پر اپنائے گئے AI معاونین میں تبدیل کیا۔

ChatGPT ایک انٹرفیس انقلاب کے طور پر

ChatGPT کے بارے میں سب سے اہم بات یہ ہے کہ اس نے کمپیوٹر کے ساتھ انسانوں کے تعامل کے طریقے کو بدل دیا ہے۔

ChatGPT سے پہلے، طاقتور AI سسٹمز بنیادی طور پر APIs، ریسرچ ڈیمو، ڈویلپر ٹولز، اور پیچیدہ فوری ورک فلو کے پیچھے تھے۔

اعلی سطحی زبان کے ماڈلز کو استعمال کرنے کے لیے اکثر تکنیکی علم کی ضرورت ہوتی ہے۔ ماڈل سے قابل اعتماد پیداوار حاصل کرنے کے لیے ڈویلپرز نے تیز انجینئرنگ، API پیرامیٹرز، درجہ حرارت کی ترتیبات، اور احتیاط سے ساختہ ان پٹ کے ساتھ تجربہ کیا۔

یہاں تک کہ GPT-3، بہت طاقتور ہونے کے باوجود، بہت سے صارفین کو ایک تحقیقی نظام کی طرح محسوس ہوا۔ مجھے "ماڈل سے بات کرنے” کا طریقہ سیکھنا پڑا۔

اور بہت سے معاملات میں، بات چیت کو نازک محسوس کیا. الفاظ میں ایک چھوٹی سی تبدیلی آپ کے جواب کے معیار کو مکمل طور پر تبدیل کر سکتی ہے۔

ChatGPT نے راتوں رات اس متحرک کو تبدیل کر دیا۔

صارفین کو AI کے مطابق ڈھالنے کے بجائے، AI انسانوں کے مطابق ڈھالنے میں بہت بہتر ہو گیا ہے۔

فطری گفتگو انٹرفیس بن گئی۔

کئی دہائیوں سے، انسانی کمپیوٹر کے تعامل کا انحصار کمانڈز، مینوز، سرچ بکس، فارمز، پروگرامنگ لینگوئجز، اور خصوصی سافٹ ویئر انٹرفیس پر ہے۔

ChatGPT کچھ مختلف متعارف کراتا ہے۔ اس کا مطلب تھا کہ میں سادہ زبان میں وضاحت کر سکتا ہوں کہ میں کیا چاہتا ہوں۔ اور نظام عام طور پر سمجھتا ہے۔

اس سے AI ان لوگوں کے لیے قابل رسائی ہونے کا احساس پیدا ہوا ہے جنہوں نے پہلے کبھی کوڈ نہیں لکھا، API استعمال نہیں کیا، یا مشین لرننگ سسٹم کے ساتھ بات چیت نہیں کی۔

بہت سے طریقوں سے، ChatGPT کمپیوٹنگ کے لیے ایک عالمگیر انٹرفیس میں فوری طور پر بدل جاتا ہے۔ اور اس ایک شفٹ نے تقریباً ہر ڈیجیٹل سیکٹر کو متاثر کیا۔

تعلیم میں، طلباء مشکل تصورات کی وضاحت کرنے، اسباق کا خلاصہ کرنے، زبان کی مشق کرنے، اور ٹیوشن کے انداز سے مدد حاصل کرنے کے لیے گفتگوی AI استعمال کرنا شروع کر رہے ہیں۔

کوڈنگ میں، ڈویلپرز ڈیبگنگ، کوڈ جنریشن، دستاویزات، اور نئے فریم ورک سیکھنے کے لیے AI سسٹمز استعمال کرنا شروع کر رہے ہیں۔

اس کے نتیجے میں AI کوڈنگ اسسٹنٹس کا ظہور ہوا جو براہ راست ترقیاتی ماحول میں ضم ہو گئے۔

تحریری اور مواد کی تخلیق میں، بات چیت کا AI خیالات کا مسودہ تیار کرنے، متن کو دوبارہ لکھنے، مضامین کو منظم کرنے، اور لوگوں کو زیادہ مؤثر طریقے سے بات چیت کرنے میں مدد کرنے کے لیے دماغی طوفان کا شراکت دار بن گیا ہے۔

تلاش کا رویہ بھی بدلنا شروع ہو رہا ہے۔ لنکس کی فہرست کے ذریعے تلاش کرنے کے بجائے، صارفین تیزی سے براہ راست، انٹرایکٹو جوابات کی توقع کرتے ہیں۔ اس نے بنیادی طور پر روایتی سرچ انجن کے تعامل کے ماڈل کو چیلنج کیا۔

اور پروڈکٹیوٹی ٹولز میں، AI سسٹمز سافٹ ویئر کی خصوصیات سے زیادہ تعاون کے معاونین کی طرح کام کرنا شروع کر رہے ہیں۔

یہ تبدیلی بات چیت کے AI اور بات چیت کے ڈیزائن میں پیشرفت سے ممکن ہوئی ہے جو گفتگو کو قدرتی اور مفید بناتی ہے۔

InstructGPT کی طرف سے متعارف کرائی گئی الائنمنٹ ٹیکنالوجی اس بات چیت کے تجربے کو عملی بنانے کا ایک اہم حصہ تھی۔

تاریخی طور پر، یہ GPT دور کے اہم ترین نتائج میں سے ایک ہو سکتا ہے۔ ابتدائی سافٹ ویئر کے لیے انسانوں کو انٹرفیس سیکھنے کی ضرورت تھی۔ ChatGPT نے کمپیوٹنگ کو انسانی سیکھنے کے انٹرفیس کی طرف دھکیل دیا۔

بینچ مارکس اور نتائج

ہم پہلے ہی بحث کر چکے ہیں کہ کس طرح ماڈل کو بڑا بنانا سب سے بڑی بہتری میں سے ایک نہیں تھا۔ اس کے بجائے، یہ بہتر مماثل ماڈلز سے انسانوں تک آتا ہے۔

یہ پورے مقالے کے کلیدی نتائج میں سے ایک ہے، اور اس نے بڑے پیمانے پر زبان کے ماڈلز کی ترقی کے بارے میں بہت سے محققین کے سوچنے کے انداز کو بدل دیا ہے۔

اس کام سے پہلے، مروجہ عقیدہ یہ تھا کہ بڑے ماڈلز، زیادہ پیرامیٹرز، زیادہ کمپیوٹیشنز، اور زیادہ ڈیٹا کا استعمال کرتے ہوئے اسکیلنگ بنیادی راستہ تھا۔ اور GPT-3 اس خیال کی تصدیق کرتا دکھائی دے رہا تھا۔ بڑے ماڈلز نے مستقل طور پر مضبوط چند شاٹ لرننگ، انفرنس، اور جنرلائزیشن کی صلاحیتوں کا مظاہرہ کیا۔

تاہم، InstructGPT پیپر ایک مختلف نقطہ نظر پیش کرتا ہے۔ محققین نے پایا کہ انسانی شرح کرنے والے اکثر نسبتاً چھوٹے 1.3B پیرامیٹر InstructGPT ماڈل کو اصل 175B GPT-3 ماڈل پر ترجیح دیتے ہیں۔

نتائج بہت اہم تھے۔ اس نے تجویز کیا کہ چھانٹنا بعض اوقات پیمانے سے بہتر کارکردگی کا مظاہرہ کرتا ہے۔

یہ ChatGPT دور کی وضاحتی بصیرت میں سے ایک بن گیا۔

مقالے کے مطابق، انسانی جائزہ لینے والوں نے مستقل طور پر InstructGPT جوابات کو ترجیح دی کیونکہ وہ زیادہ مفید، زیادہ درست، محفوظ، اور صارفین کو درحقیقت اس کے ساتھ بہتر طور پر منسلک تھے۔

کئی اہم شعبوں میں بہتری دیکھی گئی۔

ایک بڑی بہتری مندرجہ ذیل ہدایات تھی: پچھلے GPT ماڈل اکثر ہدایات کو نظر انداز کرتے تھے، موضوع سے ہٹ جاتے تھے، یا ایسے جوابات پیش کرتے تھے جو روانی سے لگتے تھے لیکن صارف کے اصل کام کو پورا نہیں کرتے تھے۔ InstructGPT نے بہت زیادہ کوآپریٹو اسسٹنٹ کی طرح برتاؤ کیا اور اشارے پر زیادہ قابل اعتماد طریقے سے عمل کیا۔

یہ مقالہ سچائی میں بہتری کی بھی اطلاع دیتا ہے۔ بڑے پیمانے پر لینگویج ماڈل معلومات کو فریب دینے اور اعتماد کے ساتھ غلط بیانات پیدا کرنے کے لیے جانے جاتے ہیں۔ RLHF اور affinity optimization کے ذریعے، InstructGPT نے ان میں سے کچھ طرز عمل کو کم کیا اور ایسے جوابات تیار کیے جن کے بارے میں انسانوں کو زیادہ سچا اور قابل اعتماد سمجھا جاتا ہے۔

ایک اور اہم بہتری زہریلا اور منفی نتائج سے متعلق ہے۔ محققین نے زہریلے معیارات کے خلاف نظام کا جائزہ لیا اور پایا کہ منسلک ماڈل نے پچھلے جی پی ٹی سسٹمز کے مقابلے میں کم زہریلے یا غیر محفوظ رد عمل پیدا کیے ہیں۔

جو چیز ان نتائج کو تاریخی طور پر اہم بناتی ہے وہ یہ ہے کہ وہ صنعت کی اس سمجھ کو بدل دیتے ہیں کہ "بہتر AI” کا اصل مطلب کیا ہے۔

InstructGPT سے پہلے، بہتریوں کو زیادہ تر بینچ مارک سکور، پیمانے کے منحنی خطوط اور پیرامیٹر شمار کے ذریعے ماپا جاتا تھا۔

InstructGPT کے بعد سے، محققین نے استعمال کے قابل، حفاظت، صف بندی، گفتگو کے معیار، اور انسانی ترجیحات کے اطمینان پر تیزی سے توجہ مرکوز کی ہے۔

اس سے اے آئی ڈیولپمنٹ فلسفہ میں ایک بڑی تبدیلی آئی۔

حقیقت پسندی اور وہم

زبان کے ماڈلز کے ساتھ ایک بڑا چیلنج یہ ہے کہ روانی کے جوابات ہمیشہ سچے نہیں ہوتے۔

اس رویے کو اب عام طور پر hallucinations کہا جاتا ہے۔

فریب کاری بہت سی شکلیں لے سکتی ہے، بشمول من گھڑت حقائق، من گھڑت حوالہ جات، غلط وضاحتیں، اور حتمی جوابات جن میں حقائق کی حمایت کا فقدان ہے۔

اور چونکہ جوابات اتنے روانی اور فطری ہیں، بعض اوقات غلطیاں صارفین کے لیے قابل فہم لگ سکتی ہیں۔ انسٹرک جی پی ٹی پیپر اسے معمولی خامی کے بجائے ایک سنگین مسئلہ سمجھتا ہے۔

مصنفین بتاتے ہیں کہ زبان کے ماڈلز کو ثابت شدہ سچائی کے بجائے خوش اسلوبی کے لیے بہتر بنایا گیا ہے۔ یہ ایک اہم فرق ہے۔ زبان کا ماڈل اس طرح متن تیار کر سکتا ہے: ظاہری شکل درست لیکن ابھی تک غلط۔

اسی لیے یہ مقالہ سچائی اور حقیقت پر مبنی اعتبار پر خاص زور دیتا ہے۔

RLHF اور انسانی ترجیحات کی اصلاح کے ذریعے، InstructGPT کو ایسے جوابات پیدا کرنے کی تربیت دی جاتی ہے جو انسانوں کو زیادہ درست اور قابل اعتماد معلوم ہوں۔ انسانی شرح کرنے والوں نے عام طور پر ایسے جوابات کو ترجیح دی جو غیر یقینی صورتحال کے بارے میں زیادہ شفاف تھے اور گمراہ کن معلومات پر مشتمل ہونے کا امکان کم تھا۔

یہ مقالہ سچائی کے معیارات پر ماڈل کا بھی جائزہ لیتا ہے جیسے TruthfulQA، جو یہ ظاہر کرتا ہے کہ منسلک ماڈل پچھلے GPT سسٹمز کے مقابلے میں بہتری ہے۔

تاہم، کاغذ محتاط تھا کہ نتائج کو بڑھا چڑھا کر پیش نہ کریں۔ وہم و گمان دور نہیں ہوا۔ منسلک ماڈل اب بھی تخمینہ کی غلطیاں کر سکتے ہیں، غلط معلومات پیدا کر سکتے ہیں، اشارے کو غلط سمجھ سکتے ہیں، یا حد سے زیادہ پر اعتماد جوابات پیش کر سکتے ہیں۔

یہ nuance بہت اہم ہے. یہ کاغذ یہ دعوی نہیں کرتا ہے کہ RLHF حقیقت پسندی یا تخمینہ کو مکمل طور پر حل کرتا ہے۔ اس کے بجائے، صف بندی سے رویے میں بہتری آئی، کمال نہیں۔

جیسا کہ ChatGPT اور بعد میں GPT-4 سسٹم دنیا بھر میں لاکھوں صارفین تک پہنچ گئے، یہ امتیاز تیزی سے اہم ہوتا گیا۔

ماڈل زیادہ کارآمد، زیادہ سچا، اور زیادہ منسلک ہو گیا، لیکن یہ اب بھی ایک گارنٹیڈ فیکٹ انجن کے بجائے ایک امکانی زبان کا ماڈل رہا۔

بہت سے طریقوں سے، InstructGPT پیپر AI سسٹمز کو نہ صرف ذہین، بلکہ حقیقی دنیا کے انسانی تعامل کے لیے کافی قابل اعتماد بنانے کی ایک بڑی کوشش کا آغاز کرتا ہے۔

حفاظت اور انکار کا رویہ

جیسے جیسے زبان کے ماڈلز زیادہ طاقتور ہوتے گئے، محققین نے محسوس کیا کہ حفاظت ایک تعیناتی کا مسئلہ بنتا جا رہا ہے۔

ایسے ماڈل جو بڑے پیمانے پر انسان جیسی زبان پیدا کر سکتے ہیں، نقصان دہ ہدایات تیار کرنے، نقصان دہ مواد بنانے، غلط معلومات پھیلانے، یا غیر محفوظ طریقے سے برتاؤ کرنے کے لیے بھی جوڑ توڑ کر سکتے ہیں۔

InstructGPT دستاویزات ان خطرات کو بہت سنجیدگی سے لیتی ہے اور فریم الائنمنٹ کو بڑے پیمانے پر لینگویج ماڈلز کی ذمہ دارانہ تعیناتی کا ایک ضروری حصہ سمجھتی ہے۔

RLHF کے ذریعے متعارف کرائی گئی سب سے بڑی تبدیلیوں میں سے ایک محفوظ تر رد عمل تھا۔

پچھلے جی پی ٹی سسٹم نے اکثر تقریباً ہر چیز کا جواب دینے کی کوشش کی تھی۔ نتیجتاً، وہ اکثر غیر محفوظ اشارے پر جواب دیتے تھے بجائے اس کے کہ یہ تسلیم کیا جائے کہ کب نہ کہنا مناسب تھا۔

InstructGPT اس طرز عمل کو تبدیل کرنا شروع کرتا ہے۔

انسانی رائے اور ترجیحی اصلاح کے ذریعے، ماڈل سیکھتا ہے کہ کچھ درخواستوں کا براہ راست جواب نہیں دیا جانا چاہیے۔ انسانی لیبلرز مستقل طور پر ایسے نتائج کو ترجیح دیتے ہیں جن میں محفوظ ردعمل، نقصان دہ ہدایات کو مسترد کرنا، اور خطرناک یا نقصان دہ اقدامات سے اجتناب شامل ہوتا ہے۔

یہ نظام کو غیر محفوظ درخواستوں کو مسترد کرنے، نقصان دہ تخلیقات کو روکنے، اور بات چیت کے دوران زیادہ محتاط رویہ اختیار کرنے میں بہتر بناتا ہے۔

یہ مقالہ حفاظت سے متعلقہ معیارات کا استعمال کرتے ہوئے زہریلے پن میں کمی کا بھی جائزہ لیتا ہے اور پتا چلا ہے کہ منسلک ماڈل عام طور پر پچھلے GPT سسٹمز کے مقابلے میں کم نقصان دہ پیداوار پیدا کرتا ہے۔

ایک اور اہم مسئلہ والدین کے مواد کی فلٹرنگ ہے۔ بڑے پیمانے پر زبان کے ماڈلز بڑے انٹرنیٹ ڈیٹاسیٹس سے نمونوں کو جذب کرتے ہیں، جن میں لامحالہ متعصب زبان، غلط معلومات، غیر محفوظ ہدایات، اور نقصان دہ رویہ شامل ہوتا ہے۔

صف بندی کے بغیر، ماڈل حیرت انگیز آسانی کے ساتھ ان نمونوں کو دوبارہ تیار کر سکتے ہیں۔

RLHF پری ٹریننگ کے اوپر ایک اصلاحی پرت کے طور پر کام کرتا ہے۔ انٹرنیٹ ٹیکسٹ کی نقل کرنے کے بجائے، ماڈل کو ان جوابات سے ملنے کے لیے مزید بہتر بنایا گیا ہے جنہیں انسان محفوظ اور زیادہ مناسب سمجھتے ہیں۔

یقیناً یہ مقالہ اپنی حدود کے بارے میں حقیقت پسندانہ ہے۔

مصنفین تسلیم کرتے ہیں کہ صف بندی نامکمل ہے اور اس کے نتیجے میں اب بھی غیر محفوظ پیداوار ہو سکتی ہے۔ ماڈلز اب بھی مخالفانہ پیغامات یا حفاظتی رویے (بعد میں جیل بریک کے نام سے مشہور) کو روکنے کی کوششوں کا شکار ہو سکتے ہیں۔

یہ ایک اہم نکتہ ہے۔ صف بندی خطرے کو کم کرتی ہے لیکن اسے ختم نہیں کرتی۔

اور تاریخی طور پر، یہ احساس بڑے پیمانے پر AI کی تعیناتیوں کے مستقبل کے لیے اہم ہو گیا ہے۔

کئی طریقوں سے، InstructGPT پیپر فلیگ شپ لینگویج ماڈلز کے اندر جدید AI سیفٹی انجینئرنگ کے آغاز کی نمائندگی کرتا ہے۔

InstructGPT نے بڑے پیمانے پر موشن چھانٹنا متعارف کرایا ہے۔ GPT-4 نے اس کے بعد ریڈ ٹیمنگ، مخالفانہ جانچ، تعیناتی کی نگرانی، اور ایک بہت بڑی حفاظتی تشخیص پائپ لائن کے ساتھ اس کو مزید وسعت دی۔

اس طرح یہ کاغذ ابتدائی جنریٹیو لینگویج ماڈلز اور GPT-4 دور میں چلنے والے بہت زیادہ حفاظتی فوکسڈ AI سسٹمز کے درمیان ایک براہ راست پل کا کام کرتا ہے۔

پابندیاں

InstructGPT پیپر کے سب سے مضبوط پہلوؤں میں سے ایک یہ ہے کہ یہ صف بندی کو حل شدہ مسئلہ کے طور پر پیش نہیں کرتا ہے۔

متاثر کن نتائج کے باوجود، مصنفین محتاط اور حیرت انگیز طور پر نظام کی باقی کمزوریوں اور خطرات کے بارے میں ایماندار ہیں۔

یہ توازن اہم ہے کیونکہ کاغذ یہ دعوی نہیں کرتا ہے کہ RLHF ایک کامل AI نظام بناتا ہے۔ مصنفین مستقل حل کے بجائے فریم کی سیدھ میں ایک کام کے طور پر آگے بڑھتے ہیں۔

ایک بڑی حد یہ ہے کہ ماڈل اب بھی فریب ہے۔

مقالہ تسلیم کرتا ہے کہ صف بندی میں بہتری کے باوجود فریب نظر ایک اہم مسئلہ بنی ہوئی ہے۔

RLHF سچائی اور ہدایات کی تعمیل کو بہتر بناتا ہے، لیکن بنیادی طور پر زبان کے نمونوں کی ممکنہ نوعیت پر توجہ نہیں دیتا ہے۔ نظام اب بھی معروضی سچائی کی تصدیق کرنے کے بجائے ممکنہ متن کے نمونوں کی پیش گوئی کرتا ہے۔

ایک اور اہم مسئلہ ریوارڈ ہیکنگ ہے۔

چونکہ ماڈل انعامی سگنل کے لیے بہتر بنایا گیا ہے جس پر اسے تربیت دی گئی تھی، اس لیے یہ بعض اوقات ایسے شارٹ کٹس دریافت کر سکتا ہے جو حقیقت میں اس کے تخمینے یا سمجھ کو بہتر کیے بغیر انعام کو زیادہ سے زیادہ بناتے ہیں۔ اس کا مطلب یہ ہے کہ ماڈل درج ذیل رویے سیکھ سکتا ہے: دیکھو گہرے مسائل کو چھپاتے ہوئے اسے تشخیص کار کے مطابق بنایا گیا ہے۔

یہ زیادہ وسیع پیمانے پر کمک سیکھنے کے نظام میں ایک عام چیلنج ہے۔

اس مقالے میں ضرورت سے زیادہ تردید اور چاپلوسی کی طرف بھی اشارہ کیا گیا ہے، جن مسائل پر بعد میں ChatGPT دور کے نظاموں میں بڑے پیمانے پر بحث کی گئی۔

بعض اوقات ترتیب شدہ ماڈل بہت محتاط ہوتا ہے اور غیر ضروری طور پر بے ضرر درخواستوں کو مسترد کر دیتا ہے۔ دوسرے معاملات میں، ماڈل صارف کو یہ بتاتا ہے کہ وہ کیا سننا چاہتے ہیں بجائے اس کے کہ وہ زیادہ متوازن اور سچا جواب دیں۔

یہ حفاظت، مدد، اور ایمانداری کے درمیان ایک مشکل تناؤ پیدا کرتا ہے۔

ایک اور بڑی حد تعصب ہے۔

چونکہ یہ سسٹمز بڑے انٹرنیٹ ڈیٹاسیٹس پر تربیت یافتہ ہیں اور انسانی لیبلنگ کے ذریعے مزید تشکیل دیے گئے ہیں، اس لیے وہ لامحالہ دونوں ذرائع سے تعصبات کے وارث ہوتے ہیں۔ کاغذ واضح طور پر تسلیم کرتا ہے کہ صف بندی تمام نقصان دہ یا متعصبانہ رویے کو ختم نہیں کرتی ہے۔

اور شاید سب سے اہم بات، مقالے میں اس بات پر زور دیا گیا ہے کہ RLHF اپنے ماڈل کو عالمی انسانی اقدار کے بجائے لیبلر کی ترجیحات کے مطابق بناتا ہے۔ یہ ایک بہت اہم nuance ہے.

نظام مخصوص ثقافتی اور تنظیمی سیاق و سباق کے اندر کام کرنے والے مخصوص انسانی تشریح کاروں کے فیصلوں سے سیکھتا ہے۔ اس کا مطلب یہ ہے کہ صف بندی خود ساپیکش اور نامکمل ہے۔

افادیت، انصاف، حفاظت، یا قابل قبول رویے کی کوئی واحد، عالمی سطح پر متفقہ تعریف نہیں ہے۔

یہ مقالہ ان خدشات پر غور سے بحث کرتا ہے اور اس بات کو تسلیم کرتا ہے کہ انسانی تاثرات اپنی حدود اور مفروضے لاتے ہیں۔

صف بندی خود بھی کمزور ہے۔ یہاں تک کہ منسلک نظاموں کو بھی بعض اوقات جیل بریک طرز کے حملوں کے ذریعے جوڑ دیا جاسکتا ہے جو دشمن کے پیغامات یا محفوظ چالوں کو نظرانداز کرتے ہیں۔ یہ بعد میں ChatGPT اور GPT-4 کی تعیناتی کے واضح چیلنجوں میں سے ایک بن گیا۔

اور آخر میں، پیمانے کا عملی مسئلہ ہے.

RLHF کو بڑی مقدار میں انسانی لیبلنگ، درجہ بندی، تشخیص اور نگرانی کی ضرورت ہوتی ہے۔ اس طرح کی چھانٹنے والی پائپ لائن کی تعمیر مہنگی، وقت طلب اور آپریشنل طور پر پیچیدہ ہے۔ انٹرنیٹ سے خود بخود ختم شدہ پری ٹریننگ ڈیٹا کے برعکس، انسانی رائے شاذ و نادر ہی آسانی سے ترازو کرتی ہے۔

کئی طریقوں سے، یہ مقالہ جدید AI سسٹمز کے بارے میں اہم سچائیوں کو ظاہر کرتا ہے۔ ماڈلز کو ذہین بنانا مشکل ہے۔ لیکن قابل اعتماد طریقے سے اسے انسانوں سے ملانا زیادہ مشکل ہو سکتا ہے۔

تاریخی اہمیت

اب پیچھے مڑ کر، میں اس بات پر زیادہ زور نہیں دے سکتا کہ InstructGPT پیپر پوری AI انڈسٹری کے لیے کتنا اہم تھا۔

پچھلے جی پی ٹی مضامین نے بنیادی طور پر ایک اہم سوال پر توجہ مرکوز کی ہے: ہم اپنے زبان کے ماڈلز کی فعالیت کو کیسے بہتر بنا سکتے ہیں؟

اس دور کو بنیادی طور پر بڑے ڈیٹاسیٹس، اعلی پیرامیٹر شمار، اسکیلنگ قوانین، اور بینچ مارک کی کارکردگی کے ذریعے کارفرما تھا۔

ماڈلز متن پیدا کرنے، کاموں کو حل کرنے اور ابھرتی ہوئی صلاحیتوں کا مظاہرہ کرنے میں تیزی سے متاثر کن ہو گئے ہیں۔ تاہم، وہ اب بھی بنیادی طور پر پیشن گوئی کے انجنوں کی طرح برتاؤ کرتے ہیں جو انٹرنیٹ ٹیکسٹ کے ساتھ جاری رکھنے کے لیے تربیت یافتہ ہیں۔

InstructGPT نے اپنی توجہ کو مکمل طور پر تبدیل کر دیا ہے۔ پہلی بار، بڑے پیمانے پر AI کی ترقی ماڈل پر مبنی AI سے تعامل پر مبنی AI کی طرف منتقل ہونا شروع ہو رہی ہے۔

یہ ایک اہم فلسفیانہ تبدیلی تھی۔ صنعت نے محسوس کیا ہے کہ صارفین نہ صرف خام ذہانت، بینچ مارک سکور، یا پیرامیٹر شمار میں دلچسپی رکھتے ہیں۔

وہ استعمال کے قابل، بات چیت کے معیار، حفاظت، اعتماد، اور آیا یہ نظام واقعی ان کی مؤثر طریقے سے مدد کر سکتا ہے میں دلچسپی رکھتے تھے۔

یہی وجہ ہے کہ ChatGPT عوام کو بہت مختلف محسوس ہوتا ہے۔ اگرچہ بنیادی زبان کے ماڈل کی خصوصیات اہم تھیں، اصل جدت اس بات سے آئی کہ ان خصوصیات کو قابل استعمال انسانی تجربے میں کیسے مجسم کیا گیا۔

انٹرفیس زیادہ انٹرایکٹو بن گیا ہے۔ نظام زیادہ تعاون پر مبنی ہو گیا ہے۔ AI صارف کے ارادے کے ساتھ زیادہ ہم آہنگ ہو گیا ہے۔

ان تبدیلیوں نے مصنوعی ذہانت کے بارے میں عوامی تاثر کو بنیادی طور پر تبدیل کر دیا ہے۔

ChatGPT سے پہلے، زیادہ تر لوگ AI کو ریسرچ سافٹ ویئر، ٹیکنالوجی ڈیمو، یا ماہرین کے لیے خصوصی ٹولز کے طور پر دیکھتے تھے۔

ChatGPT کے بعد، لاکھوں لوگوں نے روزانہ بات چیت کے ذریعے AI سسٹمز کے ساتھ تعامل شروع کیا۔

اور اس نے سب کچھ بدل دیا۔

پچھلے GPT مضامین نے بنیادی طور پر یہ جاننے پر توجہ مرکوز کی ہے کہ ایکسٹینشنز کیا حاصل کر سکتی ہیں۔ InstructGPT نے ایک مختلف چیلنج پیش کیا۔ ہم ان نظاموں کو حقیقی دنیا میں کیسے محفوظ طریقے سے تعینات کر سکتے ہیں؟

ان تبدیلیوں نے تحقیق اور انجینئرنگ کے مکمل طور پر نئے شعبے بنانے میں مدد کی ہے، بشمول RLHF پائپ لائنز، حفاظتی ٹیوننگ، انکاری رویہ، ریڈ ٹیمنگ، مخالفانہ جانچ، پالیسی فریم ورک، اور بڑے پیمانے پر انسانی تاثرات کا بنیادی ڈھانچہ۔

بہت سے طریقوں سے، ChatGPT کا دور شروع ہوا جب محققین نے محسوس کیا کہ مضبوط ماڈل بنانا مسئلہ کا صرف ایک حصہ ہے۔

ایک زیادہ مشکل چیلنج ان نظاموں کو عالمی سطح پر انسانی تعامل کے لیے کافی مستحکم بنا رہا ہے۔

اس سے یہ وضاحت کرنے میں بھی مدد ملتی ہے کہ بعد کے نظاموں نے حفاظت، صف بندی، تعیناتی کے طریقوں، اور حقیقی وشوسنییتا پر زیادہ زور کیوں دیا۔

صنعت اب صرف تحقیقی مقالوں کے لیے زبان کے ماڈلز نہیں بناتی۔ ہم حقیقی دنیا میں کام کرنے کی نیت سے ایک AI سسٹم بنا رہے تھے۔ اور InstructGPT پیپر اس تبدیلی میں سب سے واضح موڑ تھا۔

بحث: حقیقی تبدیلی

GPT-3 سے ChatGPT میں منتقلی ماڈل کی کارکردگی میں سادہ بہتری سے کہیں زیادہ گہرے اثرات کی نمائندگی کرتی ہے۔

یہ پوری AI صنعت کو چلانے والے مرکزی سوال کو بدل دیتا ہے۔

GPT-3 دور میں، سب سے بڑا سوال یہ تھا کہ "کیا لینگویج ماڈل کسی کام کو فوری طور پر سیکھ سکتا ہے؟”

یہ GPT-3 کی طرف سے متعارف کرایا گیا پیش رفت تھی۔

تحقیق کی توجہ توسیع اور ابھرتے ہوئے افعال کی طرف مبذول ہو گئی ہے۔

تاہم، چیٹ جی پی ٹی کا دور بالکل مختلف چیلنجز متعارف کرایا ہے۔ سوال اب صرف یہ نہیں ہے کہ "کیا ماڈل کام کر سکتا ہے؟” اس کے بجائے، سوال یہ بن گیا، "کیا انسان درحقیقت روزانہ کی بنیاد پر ان سسٹمز پر بھروسہ اور استعمال کر سکتے ہیں؟”

اس تبدیلی نے سب کچھ بدل دیا۔

چونکہ لاکھوں لوگ AI سسٹم کے ساتھ براہ راست بات چیت کرنا شروع کر دیتے ہیں، صرف خام ذہانت ہی کافی نہیں ہوگی۔ صارفین کو ایک ایسے نظام کی ضرورت تھی جو سمجھنے میں آسان، قابل اعتماد، محفوظ، انٹرایکٹو اور انسانی توقعات کے مطابق ہو۔

یہی وجہ ہے کہ InstructGPT پیپر تاریخی اعتبار سے اہم ہے۔ اس سے یہ خیال متعارف کرایا جاتا ہے کہ بڑے پیمانے پر زبان کے ماڈلز کو نہ صرف فعالیت بلکہ انسانی تعامل کے معیار کے لیے بھی بہتر بنایا جانا چاہیے۔

بہت سے طریقوں سے، صنعت "ماڈل کتنا ہوشیار ہے؟” سے بدل گئی ہے۔ "ماڈل کتنا مفید ہے؟”

اور اس منتقلی نے AI کی ترقی کو بنیادی طور پر تبدیل کر دیا ہے۔

ChatGPT کے بعد، کامیابی کو اب صرف بینچ مارک سکور، پیرامیٹرز کی تعداد، یا سکیلنگ کروز سے نہیں ماپا جاتا تھا۔

ان کی سیدھ، بات چیت کے معیار، حفاظت، اور عملی استعمال کے ذریعے تیزی سے پیمائش کی جاتی ہے۔

یہ اس بات کی بھی وضاحت کرتا ہے کہ سیدھ کا مطالعہ اچانک جدید AI نظاموں میں مرکزی حیثیت کیوں اختیار کر گیا ہے۔

GPT-3 نے دکھایا کہ ماڈل اشارے سے سیکھ سکتا ہے۔ ChatGPT نے ظاہر کیا کہ انسانوں کو تعاون کے لیے ایک ماڈل کی ضرورت ہے۔

یہی اصل تبدیلی تھی۔

اور یہ بالآخر مصنوعی ذہانت کی تاریخ کا سب سے اہم موڑ ثابت ہو سکتا ہے۔

GPT-4 سے جڑیں۔

GPT-4 کے بارے میں سمجھنے کے لیے سب سے اہم چیزوں میں سے ایک یہ ہے کہ یہ کہیں سے نہیں آیا۔

یہ انسٹرک جی پی ٹی میں متعارف کرائے گئے چھانٹنے والے آئیڈیاز پر بناتا ہے اور بڑے پیمانے پر تعیناتیوں کے ساتھ ChatGPT کے تجربے کے ذریعے بہتر ہوتا ہے۔

GPT-4 اکثر اس کے تخمینے، ملٹی موڈل صلاحیتوں، اور بینچ مارک کارکردگی کے لحاظ سے زیر بحث آتا ہے۔

لیکن ان تمام بہتریوں کے نیچے بھی اتنی ہی اہم چیز ہے۔ یہ چھانٹنے والی پائپ لائن ہے۔

InstructGPT دستاویز میں متعارف کرائے گئے کام کے بغیر، GPT-4 ایک عملی معاون کے طور پر بہت کم مفید ہوگا۔

یہ فرق بہت اہم ہے۔

GPT-4 کی صف بندی کی بہت سی تکنیکوں کا پتہ InstructGPT میں متعارف کرائے گئے آئیڈیاز سے لگایا جا سکتا ہے، بشمول RLHF، کمانڈ کوآرڈینیشن، بات چیت کی سیدھ، محفوظ مسترد کرنے کا رویہ، اور انسانی ترجیح کی اصلاح۔

ChatGPT ان خیالات کے لیے ایک بڑے پیمانے پر حقیقی دنیا کی جانچ کا میدان بن گیا ہے۔

لاکھوں صارفین کے تعاملات نے فریب کاری اور جیل بریک کی کوششوں سے لے کر بڑے پیمانے پر حفاظت اور استعمال کے مسائل تک کی کمزوریوں کو بے نقاب کیا ہے۔

یہ تعیناتی اسباق ناقابل یقین حد تک قیمتی رہے ہیں۔

جب GPT-4 آیا، OpenAI اب صرف بڑے زبان کے ماڈلز کی تربیت نہیں کر رہا تھا۔ ہم RLHF پائپ لائن، انسانی تاثرات، حفاظتی انجینئرنگ، مخالفانہ جانچ، اور حقیقی صارف کے تعاملات کی شکل میں ایک بڑے پیمانے پر ترتیب شدہ بات چیت کا نظام بنا رہے تھے۔

یہی وجہ ہے کہ GPT-4 پچھلے GPT ماڈلز سے یکسر مختلف محسوس ہوتا ہے۔

بہت سے طریقوں سے، GPT-4 دو اہم خیالات کے امتزاج کی نمائندگی کرتا ہے: توسیعی افعال اور توسیعی سیدھ۔

GPT-3 نے ظاہر کیا کہ زبان کے ماڈل اشارے سے کام سیکھ سکتے ہیں۔
InstructGPT نے ثابت کیا ہے کہ ماڈلز انسانی آراء کے ذریعے بنائے جا سکتے ہیں۔
ChatGPT نے ثابت کیا ہے کہ مربوط بات چیت AI عالمی سطح پر کام کر سکتی ہے۔
GPT-4 ان تمام خیالات کو ایک بہت زیادہ قابل ملٹی موڈ سسٹم میں یکجا کرتا ہے۔

یہ تاریخی پیش رفت اہم ہیں کیونکہ وہ یہ ظاہر کرتی ہیں کہ جدید AI سسٹمز اکیلے پیمانے سے نہیں بنائے جاتے۔ یہ ذہانت، صف بندی، تعامل کے ڈیزائن، اور تعیناتی کے تجربے کے امتزاج سے بنایا گیا ہے۔

اور InstructGPT پیپر ان بنیادی بنیادوں میں سے ایک بن گیا جس نے GPT-4 کو ممکن بنایا۔

GPT-3 بمقابلہ InstructGPT بمقابلہ ChatGPT بمقابلہ GPT-4: کلیدی فرق

اب تک، ہم نے الگ الگ GPT-3، InstructGPT، ChatGPT، اور GPT-4 پر تبادلہ خیال کیا ہے۔ لیکن ان کو ساتھ ساتھ دیکھنا مددگار ثابت ہو سکتا ہے۔

اگرچہ ان نظاموں کا آپس میں گہرا تعلق ہے، لیکن ہر ایک نے جدید AI کے ارتقاء میں مختلف تبدیلیاں لائی ہیں۔

GPT-3 پیمانے کے ذریعے فعالیت پر توجہ مرکوز کرتا ہے، InstructGPT انسانی تاثرات کے ذریعے صف بندی پر توجہ مرکوز کرتا ہے، ChatGPT بات چیت کے استعمال پر توجہ مرکوز کرتا ہے، اور GPT-4 ان خیالات کو زیادہ طاقتور تخمینہ اور ملٹی موڈل صلاحیتوں کے ساتھ جوڑتا ہے۔

نیچے دی گئی جدول ان کے درمیان اہم فرقوں کا خلاصہ کرتی ہے اور یہ ظاہر کرتی ہے کہ ہر نظام پچھلی نسلوں کی ترقی پر کیسے استوار ہوتا ہے۔

طرف	GPT-3	جی پی ٹی کو ہدایت دیں۔	چیٹ جی پی ٹی	GPT-4
بنیادی خیال	بڑے پیمانے پر زبان کے ماڈل جو چند شاٹ اور سیاق و سباق میں سیکھنے کو قابل بناتے ہیں۔	RLHF کا استعمال کرتے ہوئے زبان کے ماڈل کو انسانی ہدایات کے مطابق ڈھالنا	بات چیت اور استعمال کے لیے موزوں AI اسسٹنٹ	منسلک، ملٹی موڈل پر مبنی ماڈلز مضبوط تخمینہ اور تعیناتی کی پختگی کے ساتھ
بنیادی مقصد	بڑے پیمانے پر لغت کی تربیت کے ذریعے خصوصیات کو پیمائی کرنا	گائیڈ لائن کی تعمیل اور سیدھ میں بہتری	عوام کو مفید گفتگوی AI فراہم کرنا	حقیقی دنیا کی تعیناتی کے لیے ایک قابل اعتماد ملٹی موڈل AI نظام کی تعمیر
تربیت کے مقاصد	انٹرنیٹ پیمانے کے متن میں اگلے ٹوکن کی پیش گوئی کریں۔	انسانی آراء اور ترجیحی تعلیم کا استعمال کرتے ہوئے آؤٹ پٹ کو بہتر بنائیں	RLHF اور گفتگو کی ٹیوننگ کے ذریعے آپٹمائزڈ بات چیت کی بات چیت	RLHF، بڑے پیمانے پر ملٹی موڈل پری ٹریننگ سیفٹی ٹیوننگ اور تعیناتی کی اصلاح کے ساتھ مل کر
سیدھ میں توجہ مرکوز	کم سے کم واضح چھانٹی	کاغذ کا مرکزی مرکز	طاقتور گفتگو کی چھانٹی	اعلی درجے کی سیدھ اور حفاظتی انجینئرنگ
RLHF کا استعمال کیسے کریں۔	مرکز نہیں	نظام میں کلیدی اختراعات	تعامل کے معیار کے کلیدی اجزاء	بڑے پیمانے پر پھیلائیں اور بہتر بنائیں
انسانی رائے کا کردار	محدود	انسانی درجہ بندی براہ راست ماڈل کے رویے کی تشکیل کرتی ہے۔	انسانی رائے گفتگو کے بہاؤ اور استعمال کو بہتر بناتی ہے۔	بڑے پیمانے پر حفاظتی جائزوں اور ریڈ ٹیمنگ کے ساتھ مل کر انسانی تاثرات
تعامل کا انداز	پرامپٹ پر مبنی ٹیکسٹ جنریشن	اسسٹنٹ مندرجہ ذیل ہدایات	قدرتی کثیر سطحی گفتگو کا معاون	اعلی درجے کی گفتگو اور ملٹی موڈ سپورٹ
فوری انداز	زیرو شاٹ، ایک شاٹ، چند شاٹ پرامپٹس	ہدایات کے اشارے اب زیادہ قابل اعتماد ہیں۔	بات چیت کا پیغام رسانی بنیادی انٹرفیس بن جاتا ہے۔	انٹرایکٹو اور ملٹی موڈل پرامپٹس
بات چیت کی یادداشت	محدود حالات کا تسلسل	ہدایات کے ساتھ بہتر تعمیل	پوری بات چیت کے دوران گفتگو کے بہاؤ کو برقرار رکھیں۔	طویل تعاملات پر مضبوط سیاق و سباق کے نتائج
اگلی ہدایات	اکثر متضاد	زبردست بہتری	طاقتور گفتگو کی ہدایات جیسے:	زیادہ قابل اعتماد اور اہم کمانڈ پروسیسنگ
سچائی	بار بار فریب اور زیادہ اعتماد	RLHF کے ساتھ بہتر حقیقت پسندانہ صف بندی	زیادہ مستحکم، لیکن پھر بھی نفسیاتی۔	وہم ابھی بھی باقی ہے، لیکن حقائق کو استدلال کرنے اور انجام دینے کی صلاحیت میں بہتری آئی ہے۔
محفوظ رویہ	کمزور حفاظتی کنٹرول	آپٹ آؤٹ کا محفوظ رویہ متعارف کروائیں۔	سخت رد عمل اور ثالثی کا رویہ	اعلی درجے کی حفاظتی پائپ لائن اور مخالفانہ جانچ
نقصان دہ آؤٹ پٹ پروسیسنگ	اکثر، آپ اب بھی ایک غیر محفوظ پیغام دیکھیں گے۔	انسانی رائے کے ذریعے مسترد کرنے کے محفوظ طریقے سیکھیں۔	عوامی طور پر تقسیم کرتے وقت مسترد کرنے کے رویے کو مضبوط بنائیں	مزید نفیس سیدھ اور حفاظتی نظام
استدلال کی صلاحیت	وقت کے لئے طاقتور ابھرتی ہوئی استدلال	بنیادی فعالیت اسی طرح کی ہے، لیکن رویے کو بہتر بنایا گیا ہے.	بات چیت میں عملی استدلال کی مہارت کو بہتر بنائیں	استدلال اور مسائل کے حل میں ایک شاندار چھلانگ
ملٹی موڈ فنکشن	صرف متن	صرف متن	لانچ کے وقت بنیادی طور پر ٹیکسٹ پر مبنی	متن اور تصویر کی کثیر موڈیلیٹی کو سمجھنا
کوڈنگ کی صلاحیت	طاقتور کوڈ جنریشن ابھرتی ہے۔	کوڈنگ کے کاموں کا بہتر استعمال	کوڈنگ اسسٹنٹ کے طور پر بڑے پیمانے پر استعمال کیا جاتا ہے۔	بہت مضبوط کوڈنگ اور ڈیبگنگ کی کارکردگی
سیاق و سباق کی پروسیسنگ	2048 ٹوکن سیاق و سباق کی ونڈو	اسی طرح کی GPT-3 پر مبنی سیاق و سباق کی پابندیاں	بہتر انٹرایکٹو میموری ہینڈلنگ	سیاق و سباق کی بہت زیادہ صلاحیتیں۔
ماڈل کا سائز	175B پیرامیٹرز	GPT-3 ماڈل کا ایک عمدہ ورژن۔	منسلک GPT-3.5/GPT-4 سسٹم پر مبنی	OpenAI پر عوامی نہیں ہے۔
تربیت کے اعداد و شمار	انٹرنیٹ کے بڑے ٹیکسٹ ڈیٹا سیٹس	GPT-3 پری ٹریننگ اور انسانی مظاہرہ اور درجہ بندی	بڑے پیمانے پر انٹرایکٹو انٹرایکشن ٹیوننگ ڈیٹاسیٹ	بڑے ملٹی موڈل اور انٹرنیٹ پیمانے پر ڈیٹاسیٹس
سیکھنے کا نمونہ	سیاق و سباق میں پیمانے پر سیکھنا	RLHF کے ساتھ انسانی ترجیحات سیکھنا	اپنی گفتگو کو تعیناتی کے پیمانے کے مطابق بنائیں	مشترکہ صلاحیت کی توسیع اور سیدھ میں توسیع
اہم اختراعات	ایمرجنسی چند شاٹ لرننگ	RLHF پر مبنی الائنمنٹ پائپ لائن	بات چیت کا AI انٹرفیس انقلاب	ملٹی موڈ الائنمنٹ فاؤنڈیشن سسٹم
صارف کا تجربہ	طاقتور لیکن کنٹرول کرنا مشکل	وہ زیادہ تعاون کرنے والے اور رہنما اصولوں سے آگاہ ہیں۔	ایسا لگتا ہے کہ آپ کسی معاون سے بات کر رہے ہیں۔	زیادہ مستحکم، قابل اور ملٹی موڈل تعامل
قابل اعتماد	اکثر غیر مستحکم مندرجہ ذیل اشارے	زیادہ مستحکم کمانڈ آپریشن	نمایاں طور پر بہتر استعمال کے قابل	زیادہ مضبوطی اور تعامل کا معیار
تعیناتی کا انداز	تحقیق اور API کا استعمال	الائنمنٹ ریسرچ سنگ میل	بڑے پیمانے پر عوامی تقسیم	بڑے پیمانے پر ملٹی موڈ تعیناتی۔
بینچ مارک پر زور	فیچر ایکسٹینشنز اور کچھ ٹاسک آپریشنز	انسانی ترجیح کی تشخیص اور چھانٹنا	حقیقی گفتگو کا استعمال	وسیع ملٹی موڈ بینچ مارک غلبہ
اہم حدود	غلط فہمی اور فریب کاری	چھانٹنا اب بھی نامکمل اور ساپیکش ہے۔	ہیلوسینیشن اور جیل بریک کے خطرات	فریب کاری، حفاظتی تجارت، شفافیت کی کمی
تاریخی اہمیت	ثابت شدہ توسیع نئی صلاحیتیں پیدا کرتی ہے۔	جدید، صف بندی پر مرکوز ایل ایل ایم تعلیم کا تعارف	عالمی سطح پر مکالماتی AI کو مرکزی دھارے میں لانا	الائنڈ ملٹی موڈل اے آئی سسٹمز کے دور کی تعریف
AI میں کیا تبدیلی آئی ہے۔	پرامپٹ نے مرکز کا مرحلہ لیا۔	صف بندی ایک اہم تحقیقی ترجیح بن گئی ہے۔	AI مین اسٹریم کنزیومر انٹرفیس بن گیا۔	AI ایک قابل تعیناتی، ملٹی موڈل انفراسٹرکچر بن گیا ہے۔
میراث	فوری طور پر چلنے والی AI پر مبنی	چیٹ جی پی ٹی چھانٹنے والی پائپ لائن کے بنیادی اصول	بات چیت کا AI عالمی سطح پر مقبول ہوا۔	ایک جدید ملٹی موڈل AI ماحولیاتی نظام کی تعمیر

GPT-1 سے GPT-4 تک: جدید AI سسٹمز اور الائنمنٹ ارتقاء کی ٹائم لائن

سمیٹنے سے پہلے، ایک قدم پیچھے ہٹنا اور بڑی تصویر کو دیکھنا اچھا خیال ہو سکتا ہے۔

InstructGPT پیپر تنہائی میں ظاہر نہیں ہوا۔ یہ ایک بہت بڑے ارتقاء کا حصہ تھا جس نے GPT ماڈل کو تحقیق سے چلنے والے لینگویج ماڈل سے بات چیت کے AI سسٹم میں تبدیل کر دیا جسے ہم آج استعمال کرتے ہیں۔

ہر نسل نے نئے آئیڈیاز متعارف کروائے ہیں جو میدان کو آگے بڑھاتے ہیں۔

GPT-1 نے بڑے پیمانے پر پری ٹریننگ متعارف کرائی، GPT-2 نے زیرو شاٹ صلاحیتوں کا مظاہرہ کیا، GPT-3 نے پرامپٹ اور سیاق و سباق کی تعلیم کو مقبول بنایا، اور InstructGPT نے انسانی تاثرات کے ساتھ صف بندی متعارف کرائی۔ ChatGPT نے ان خیالات کو لاکھوں صارفین تک بات چیت کے انٹرفیس کے ذریعے پہنچایا، اور GPT-4 زیادہ طاقتور تخمینہ اور ملٹی موڈل صلاحیتوں کے ساتھ صف بندی کو یکجا کرتا ہے۔

نیچے دی گئی ٹائم لائن ان اہم تبدیلیوں کا خلاصہ کرتی ہے جنہوں نے جدید AI دور کو تشکیل دیا ہے۔

سال	نظام	اہم ٹرانزیشنز	کیا بدل گیا ہے	اہم کاغذات/پریزنٹیشنز	تاریخی اہمیت
2018	GPT-1	پری ٹریننگ + فائن ٹیوننگ کا دور	ہم سپروائزڈ فائن ٹیوننگ سے پہلے ٹرانسفارمرز کا استعمال کرتے ہوئے جنریٹو پری ٹریننگ متعارف کراتے ہیں۔	تخلیقی لغت کی تربیت کے ذریعے زبان کی سمجھ کو بہتر بنانا	ایک جدید بڑے پیمانے پر NLP پری ٹریننگ پیراڈائم کے ساتھ شروعات کرنا
2019	GPT-2	زیرو شاٹ لینگویج ماڈلنگ کا دور	ہم نے دکھایا کہ زبان کے بڑے ماڈلز ٹاسک مخصوص فائن ٹیوننگ کے بغیر متعدد کام انجام دے سکتے ہیں۔	زبان کے ماڈل غیر زیر نگرانی ملٹی ٹاسک سیکھنے والے ہیں۔	اے آئی کو یونیورسل جنریٹو ماڈل میں تبدیل کریں۔
2020	GPT-3	سیاق و سباق میں سیکھنے کا دور	صرف اشارے کا استعمال کرتے ہوئے پیمانے پر چند شاٹ، ایک شاٹ، اور زیرو شاٹ لرننگ کا مظاہرہ کریں	زبان کا نمونہ سیکھنے والوں کی ایک چھوٹی تعداد ہے۔	AI نظام کے مرکزی انٹرفیس کو فوری طور پر بنانے کے لیے بنایا گیا ہے۔
مارچ 2022	جی پی ٹی کو ہدایت دیں۔	صف بندی اور RLHF دور	ماڈل کو صارف کے ارادے کے مطابق ترتیب دینے کے لیے انسانی تاثرات (RLHF) کے ساتھ کمک سیکھنے کا تعارف۔	انسانی تاثرات کے ساتھ ہدایات پر عمل کرنے کے لیے زبان کے ماڈل کو تربیت دیں۔	AI کی ترقی کو خام فعالیت سے سیدھ اور استعمال میں تبدیل کریں۔
نومبر 2022	GPT-3.5 / ChatGPT	مکالماتی AI کا دور	ہم نے GPT-3.5 کو RLHF اور عوامی تعیناتی کے لیے چیٹ پر مبنی تعامل کے ساتھ ملایا۔	GPT-3.5 فیملی پر مبنی ChatGPT پبلک ریلیز	LLM کو عالمی سطح پر استعمال ہونے والے مرکزی دھارے میں گفتگو کے معاون میں تبدیل کرنا
2023	GPT-4	ملٹی موڈ سیدھ بنیادی ماڈل دور	مضبوط وشوسنییتا اور حفاظتی نظام کے ساتھ متن اور امیجز میں ملٹی موڈل استدلال کے لیے توسیعی منسلک AI۔	GPT-4 تکنیکی رپورٹ	یہ قابل استعمال ملٹی موڈل AI سسٹمز کے جدید دور کا آغاز کرتا ہے۔
2023 سے اب تک	GPT-4 + ChatGPT ماحولیاتی نظام	AI کی مدد سے انفراسٹرکچر کا دور	AI سسٹمز کوڈنگ، تدریس، پیداواری صلاحیت، استدلال، اور ملٹی موڈل تعامل کے لیے مربوط معاونوں میں تبدیل ہو چکے ہیں۔	GPT-4 تعیناتی ماحولیاتی نظام	AI کو ریسرچ پروڈکٹ سے عالمی انفراسٹرکچر پلیٹ فارم میں تبدیل کریں۔

حتمی بصیرت

جب لوگ جدید AI کی تاریخ پر نظر ڈالتے ہیں، تو وہ اکثر ان لمحات پر توجہ مرکوز کرتے ہیں جب ماڈل بڑے، زیادہ طاقتور اور زیادہ قابل ہوتے ہیں۔ لیکن جی پی ٹی سیریز کی کہانی صرف پیمانے کے بارے میں نہیں ہے۔ یہ اس ذہانت کو کارآمد بنانے کا طریقہ سیکھنے کے بارے میں بھی ایک کہانی ہے۔

GPT-1 نے یہ ظاہر کیا کہ زبان کا ماڈل کسی خاص کام پر لاگو ہونے سے پہلے متن کی بڑی مقدار سے حیرت انگیز طور پر بھرپور نمائندگی سیکھ سکتا ہے۔

GPT-2 اس خیال پر پھیلتا ہے اور یہ ظاہر کرتا ہے کہ پیمانہ خود نئے طرز عمل کو قابل بنا سکتا ہے۔

GPT-3 نے اس فیلڈ کو ایک بالکل نئے دائرے میں پھیلا دیا ہے، جس سے یہ ظاہر ہوتا ہے کہ ایک ماڈل صرف اشارے اور مثالوں کا جواب دے کر مختلف کام انجام دے سکتا ہے۔

تھوڑی دیر کے لیے ایسا لگتا تھا کہ اسکیلنگ ہی ہر چیز کا جواب ہے۔

پھر InstructGPT پہنچا اور ایک اور مسئلہ کو بے نقاب کیا۔

سوال اب یہ نہیں تھا کہ آیا ماڈل متن پیدا کر سکتا ہے، سوالات کے جوابات دے سکتا ہے، اور کام مکمل کر سکتا ہے۔ ماڈل پہلے ہی نمایاں طور پر قابل ہے۔

اصل سوال یہ تھا کہ کیا لوگ واقعی ان پر بھروسہ کر سکتے ہیں۔ کیا آپ مسلسل ہدایات پر عمل کر سکتے ہیں؟ کیا آپ اس طریقے سے جواب دے سکتے ہیں کہ صارفین کو مفید لگے؟ کیا یہ ایک جدید ترین پیشن گوئی انجن سے زیادہ ہو سکتا ہے؟

یہ InstructGPT کے قلب میں پیش رفت تھی۔

مکمل طور پر ماڈلز کو بہتر بنانے پر توجہ مرکوز کرنے کے بجائے، کاغذ نے انہیں بہتر کارکردگی دکھانے پر توجہ مرکوز کی۔

انسانی رائے خود تربیتی عمل کا حصہ بن چکی ہے۔

سیدھ ایک تحقیقی تشویش سے ایک بنیادی ڈیزائن کے اصول پر منتقل ہو گئی ہے۔ پہلی بار، انسانوں اور AI کے درمیان تعلقات کو بہتر بنانا اتنا ہی اہم ہو گیا ہے جتنا کہ ماڈلز کی خام صلاحیتوں کو بہتر بنانا۔

تبدیلی کا اثر ایک کاغذ سے بہت آگے نکل گیا۔

اس نے ChatGPT کی بنیاد ڈالی، جس نے لاکھوں لوگوں کو بات چیت کی AI متعارف کرائی۔ اچانک، اعلیٰ سطحی زبان کے ماڈلز کے ساتھ تعامل کے لیے اب APIs، تحقیقی مہارت، یا احتیاط سے ڈیزائن کیے گئے اشارے کی ضرورت نہیں رہی۔ لوگ آسانی سے سوالات پوچھ سکتے ہیں، مشورہ لے سکتے ہیں، خیالات کو دریافت کر سکتے ہیں، اور قدرتی گفتگو کے ذریعے نئی چیزیں سیکھ سکتے ہیں۔

ان تبدیلیوں نے اے آئی کو تحقیقی اختراع سے بڑے پیمانے پر استعمال ہونے والی مصنوعات میں تبدیل کر دیا ہے۔

GPT-4 بعد میں انسٹرک جی پی ٹی میں شروع کی گئی الائنمنٹ ٹیکنالوجی کو زیادہ طاقتور تخمینہ اور وسیع تر فعالیت کے ساتھ ملا کر اس بنیاد پر تعمیر کرے گا۔ لیکن تب تک انڈسٹری نے ایک اہم سبق سیکھ لیا تھا۔ دوسرے لفظوں میں، صرف اہلیت کافی نہیں ہے۔ انٹیلی جنس دستیاب ہونا ضروری تھا۔

ماضی میں، InstructGPT پیپر کی پائیدار اہمیت یہ نہیں ہے کہ اس نے ایک نئی ٹریننگ پائپ لائن متعارف کرائی۔ اس نے جدید AI کے اہداف کو نئے سرے سے متعین کرنے میں مدد کی ہے۔

مسئلہ اب ایسے نظام کی تعمیر کا نہیں تھا جو زبان پیدا کر سکے۔

یہ ایک ایسے نظام کی تعمیر کے بارے میں تھا جہاں لوگ مل کر کام کر سکیں، سیکھ سکیں اور اعتماد کر سکیں۔

اور یہ بالآخر وہ تبدیلی ہو سکتی ہے جو مصنوعی ذہانت کے دور کی وضاحت کرتی ہے۔

وسائل:

مجھ سے رابطہ کریں