AI کاغذ کا جائزہ: GPT-4 تکنیکی رپورٹ (GPT-4)

2020 میں GPT-3 کی ریلیز نے زبان کے ماڈلز کے بارے میں لوگوں کے سوچنے کے انداز کو مکمل طور پر بدل دیا۔ ہم نے دکھایا کہ کافی بڑے نیورل نیٹ ورک روایتی فائن ٹیوننگ کے بغیر براہ راست اشارے اور مثالوں سے کام سیکھ سکتے ہیں۔

اس خیال نے بالآخر تیز رفتار انجینئرنگ، AI معاونین، اور بڑے پیمانے پر لینگویج ماڈل ایپلی کیشنز کی پہلی لہر کو جنم دیا۔

لیکن GPT-4 مختلف محسوس ہوا۔

GPT-3 اب بھی ایک طاقتور، تجرباتی، اور بعض اوقات غیر متوقع تحقیقی پیش رفت کی طرح محسوس ہوتا ہے۔ دوسری طرف، GPT-4 ایک حقیقی AI پلیٹ فارم کے آغاز کی طرح محسوس ہوا۔ بہتر بینچ مارکس حاصل کرنے کے لیے اب صرف زبان کے ماڈلز کو بڑھانے پر توجہ مرکوز نہیں کی گئی ہے۔ اس کے بجائے، بات چیت قابل اعتماد، ملٹی موڈل تفہیم، صف بندی، حفاظت، اور حقیقی تعیناتی کی طرف منتقل ہوگئی۔

یہ تبدیلیاں OpenAI کی طرف سے شائع کردہ GPT-4 تکنیکی رپورٹ میں دیکھی جا سکتی ہیں۔

پچھلے جی پی ٹی پیپرز کے برعکس، اوپن اے آئی نے ایک روایتی تحقیقی مقالہ شائع نہیں کیا جس میں تفصیلی آرکیٹیکچر ڈایاگرام، پیرامیٹر کاؤنٹ، ڈیٹا سیٹس، یا ٹریننگ کنفیگریشن تھے۔ اس کے بجائے، انہوں نے ایک زیادہ محدود تکنیکی رپورٹ شائع کی جو بنیادی طور پر فعالیت، تشخیص، حفاظتی کارروائیوں، اور تعیناتی کے تحفظات پر مرکوز تھی۔

یہ فیصلہ خود ظاہر کرتا ہے کہ میدان کتنا بدل گیا ہے۔

جب GPT-4 آیا، بڑے پیمانے پر لینگویج ماڈل اب کوئی تحقیقی پروجیکٹ نہیں تھے جو لیبز کے اندر استعمال ہوتے تھے۔ ChatGPT جیسی مصنوعات نے اسے عالمی سطح پر تقسیم شدہ نظام بنا دیا ہے جسے لاکھوں لوگ استعمال کرتے ہیں۔ غلط استعمال، فریب کاری، تعصب، سائبرسیکیوریٹی رسک، اور کوآرڈینیشن کے سوالات اب اتنے ہی اہم تھے جتنے کہ خام ماڈل کی کارکردگی۔

GPT-4 ایک اور بڑی تبدیلی بھی متعارف کراتا ہے: ملٹی موڈیلٹی۔

پچھلے GPT ماڈل صرف متن کے ساتھ کام کرتے تھے۔ GPT-4 اس خیال کو ان پٹ کے طور پر تصاویر اور متن دونوں کو قبول کرتے ہوئے بڑھاتا ہے، جس سے ماڈل کو اسکرین شاٹس، خاکوں، دستاویزات، بصری لطیفوں اور معلومات کی دیگر مخلوط شکلوں کا تجزیہ کرنے کی اجازت ملتی ہے۔ یہ بڑے پیمانے پر زبان کے ماڈلز کو تنگ ٹیکسٹ جنریٹرز کے بجائے زیادہ عام مقصد کے AI سسٹمز کے قریب بناتا ہے۔

تاریخی طور پر، پیش رفت ناقابل یقین حد تک واضح رہی ہے۔

GPT-1 نے ڈکشنری سیکھنے اور ٹرانسفر لرننگ کو متعارف کرایا۔
GPT-2 زیرو شاٹ ملٹی ٹاسکنگ لرننگ متعارف کراتا ہے۔
GPT-3 چند شاٹ پرامپٹس اور سیاق و سباق کی تعلیم کو متعارف کراتا ہے۔
GPT-4 الائنڈ ملٹی موڈل AI سسٹمز کے دور کا آغاز کرتا ہے۔

بہت سے طریقوں سے، GPT-4 اس لمحے کی نمائندگی کرتا ہے جب بڑے پیمانے پر زبان کے ماڈلز کو بنیادی طور پر تحقیقی تجربات کے طور پر دیکھا جانا بند ہو گیا اور حقیقی دنیا کی ایپلی کیشنز کے لیے بنیادی کمپیوٹنگ انٹرفیس بننا شروع ہوا۔

مقالہ کا خاکہ

اس مضمون میں GPT-4 تکنیکی رپورٹ اوپن اے آئی کے ذریعہ 2023 میں شائع کیا گیا۔

کئی اہم تکنیکی تفصیلات کو جان بوجھ کر اس رپورٹ سے خارج کر دیا گیا ہے، بشمول:

پیرامیٹرز کی تعداد
عین مطابق فن تعمیر
تربیت کمپیوٹنگ
ڈیٹا سیٹ کنفیگریشن
ہارڈ ویئر کی ترتیب

OpenAI کے مطابق، یہ پابندیاں جزوی طور پر مسابقتی ماحول اور بڑے پیمانے پر AI سسٹمز کے ارد گرد بڑھتے ہوئے حفاظتی خدشات کی وجہ سے متعارف کرائی گئیں۔

فرق تاریخی طور پر اہم ہے۔

GPT-1، GPT-2، اور GPT-3 دستاویزات میں عوامی طور پر تعمیراتی توسیعات، ڈیٹاسیٹس، اور تربیت کے طریقوں پر بہت تفصیل سے تبادلہ خیال کیا گیا ہے۔ GPT-4 زیادہ محدود انکشاف کی طرف ایک قابل ذکر تبدیلی کی نمائندگی کرتا ہے کیونکہ زبان کے ماڈل تجارتی لحاظ سے زیادہ قیمتی اور وسیع پیمانے پر تقسیم ہوتے ہیں۔

آپ اصل رپورٹ یہاں پڑھ سکتے ہیں۔

GPT-4 تکنیکی رپورٹ

ذیل میں ایک فوری انفوگرافک ہے جس کا ہم اس پورے جائزے میں احاطہ کریں گے۔

اشاریہ:

شرطیں

اس تجزیے سے زیادہ سے زیادہ فائدہ اٹھانے کے لیے، یہ جدید زبان کے ماڈلز کے کچھ بنیادی خیالات سے پہلے ہی واقف ہونے میں مدد کرتا ہے۔

آپ کو اس سیریز میں پچھلے جائزے پڑھنا خاص طور پر مفید معلوم ہوگا۔

GPT-4 اس مقالے میں متعارف کرائے گئے بہت سے تصورات پر براہ راست تعمیر کرتا ہے، خاص طور پر بڑی لغت سیکھنا، زیرو شاٹ اور چند شاٹ لرننگ، اور سیاق و سباق کے اشارے پر۔

اس سے آپ کو اس کی عمومی تفہیم حاصل کرنے میں بھی مدد ملے گی:

ٹرانسفارمر فن تعمیر اور خود توجہ
GPT-1 کا ارتقاء → GPT-3
چند شاٹ لرننگ اور پرامپٹس
بنیادی پرامپٹ انجینئرنگ کے تصورات
انسانی تاثرات کے ساتھ کمک سیکھنا (RLHF)
پیمانے کے قوانین اور کیوں بڑے ماڈلز اکثر نئی خصوصیات تیار کرتے ہیں۔

تاہم، آپ کو اس مضمون پر عمل کرنے کے لیے ریاضی کے گہرے علم کی ضرورت نہیں ہے۔

پچھلے جائزوں کی طرح، میں بہت زیادہ گہرائی میں ڈوبنے کے بجائے تصورات کو بدیہی اور عملی طور پر سمجھانے پر زیادہ توجہ دوں گا۔

خلاصہ

GPT-4 صرف GPT-3 کا بڑا ورژن نہیں ہے۔

یہ آج واضح لگ سکتا ہے، لیکن اس وقت، بہت سے لوگوں کا خیال تھا کہ GPT-4 اسی سمت میں صرف ایک اور توسیعی قدم تھا۔ لیکن تکنیکی رپورٹ کچھ زیادہ اہم دکھاتی ہے۔ GPT-4 تجرباتی لینگویج ماڈل سے قابل تعیناتی، عام مقصد کے AI سسٹم میں منتقلی کی نمائندگی کرتا ہے۔

رپورٹ کے مطابق GPT-4 بیک وقت کئی اہم پیشرفت متعارف کراتا ہے۔

سب سے پہلے، جیسا کہ اوپر ذکر کیا گیا ہے، ماڈل ہے: کثیر موڈ. پچھلے GPT سسٹمز کے برعکس جو صرف ٹیکسٹ کے ساتھ کام کرتے تھے، GPT-4 ٹیکسٹ آؤٹ پٹ تیار کرتے ہوئے ان پٹ کے طور پر امیجز اور ٹیکسٹ دونوں پر کارروائی کر سکتا ہے۔ یہ ماڈل کو اسکرین شاٹس، خاکوں، دستاویزات، تصاویر، بصری لطیفوں، اور مخلوط میڈیا پرامپٹس کا تجزیہ کرنے کی اجازت دیتا ہے۔

دوسرا، GPT-4 پیشہ ورانہ اور تعلیمی جائزوں کی ایک وسیع رینج میں بہت مضبوط تخمینہ اور بینچ مارک کارکردگی کا مظاہرہ کرتا ہے۔ رپورٹ سے پتہ چلتا ہے کہ GPT-4 نے یونیفائیڈ بار امتحان، LSAT، GRE، SAT، AP ٹیسٹ، کوڈنگ بینچ مارکس، اور جدید استدلال کے کاموں سمیت ٹیسٹوں پر انسانی سطح کے قریب نتائج حاصل کیے ہیں۔

رپورٹ میں درج ذیل نکات پر بھی روشنی ڈالی گئی ہے۔ ایڈجسٹمنٹ اور تاریخییت بہتری

پچھلے GPT سسٹمز نے اکثر غیر محفوظ، گمراہ کن، یا حد سے زیادہ پر اعتماد نتائج پیدا کیے تھے۔ اگرچہ GPT-4 میں ابھی بھی یہ مسائل ہیں، OpenAI نے نقصان دہ رویے کو کم کرنے اور صارف کے ارادے کی تعمیل کو بہتر بنانے کے لیے انسانی تاثرات (RLHF)، مخالفانہ جانچ، رد کرنے والے رویے، اور حفاظتی تشخیص پائپ لائنوں کے ساتھ کمک سیکھنے میں بہت زیادہ سرمایہ کاری کی ہے۔

رپورٹ کے دیگر اہم موضوعات میں شامل ہیں: پیشین گوئی کی پیمائش.

مصنفین کے مطابق، OpenAI نے ایک بنیادی ڈھانچہ اور اصلاح کا طریقہ تیار کیا ہے جو بہت چھوٹے ٹریننگ رنز کا استعمال کرتے ہوئے GPT-4 کی حتمی کارکردگی کا درست اندازہ لگا سکتا ہے۔

یہ تفصیلات آپ کے خیال سے کہیں زیادہ اہم ہیں۔

GPT-3 نے ثابت کیا ہے کہ اسکیلنگ کام کرتی ہے۔ GPT-4 ظاہر کرتا ہے کہ بڑے پیمانے پر لینگویج ماڈل اسکیلنگ ایک انجینئرنگ ڈسپلن بن رہی ہے جس میں تیزی سے پیشین گوئی کی جاسکتی ہے۔

وسیع تر مضمرات یہ ہیں کہ یہ رپورٹ تاریخی طور پر کیوں اہم ہے۔

GPT-4 تحقیقی مظاہروں سے بڑے پیمانے پر زبان کے ماڈلز کو قابل تعینات AI معاونین میں تبدیل کرتا ہے جو متعدد ڈومینز میں استدلال کر سکتے ہیں، قدرتی زبان کے ذریعے بات چیت کر سکتے ہیں، ہدایات پر زیادہ قابل اعتماد طریقے سے عمل کر سکتے ہیں، اور ChatGPT جیسے نظاموں کے ذریعے عالمی سطح پر کام کر سکتے ہیں۔

کئی طریقوں سے، یہ رپورٹ اے آئی کی تعیناتی کے جدید دور کے آغاز کی نشاندہی کرتی ہے۔

رپورٹ کے مقاصد

GPT-4 تکنیکی رپورٹ صرف ایک زیادہ قابل زبان ماڈل کا مظاہرہ نہیں کرتی ہے۔ بہت سے طریقوں سے، یہ رپورٹ اس بات کا ثبوت ہے کہ بڑے پیمانے پر AI سسٹمز کو پہلے سے کہیں زیادہ قابل اعتماد، محفوظ طریقے سے اور پیشین گوئی کے ساتھ تیار کیا جا سکتا ہے۔

GPT-4 کے اہم اہداف میں سے ایک یہ تھا کہ اوپر بیان کیے گئے کاموں کی ایک وسیع رینج میں تخمینہ اور اعتبار کو بہتر بنایا جائے۔

ایک اور اہم مقصد بہتری تھی۔ ایڈجسٹمنٹ صارف کا ارادہ – اپنے ماڈلز کو مزید کارآمد بنانے کے لیے RLHF، سیفٹی فائن ٹیوننگ، ریجیکشن ٹریننگ، اور مخالفانہ ٹیسٹنگ میں سرمایہ کاری کریں۔

رپورٹ صرف ٹیکسٹ AI سسٹمز سے آگے ایک اہم تبدیلی کی نشاندہی کرتی ہے کیونکہ GPT-4 ملٹی موڈل صلاحیتوں کو متعارف کراتا ہے۔ یہ نظام کو ایک خالص لینگویج جنریٹر سے کسی آفاقی استدلال کے انٹرفیس کے قریب تک پھیلا دیتا ہے جو بصری اور متنی معلومات کی ایک ساتھ تشریح کر سکتا ہے۔

سیفٹی پوری رپورٹ میں ایک اور اہم موضوع ہے۔

OpenAI بار بار نقصان دہ پیداوار کو کم کرنے، مسترد کرنے کے رویے کو بہتر بنانے، غلط استعمال کے خطرات کو کم کرنے، اور اپنے ماڈلز کے ارد گرد زیادہ محفوظ تعیناتی کے نظام کی تعمیر کے لیے اپنی کوششوں پر زور دیتا ہے۔ رپورٹ میں ریڈ ٹیمنگ، ڈومین ایکسپرٹ ٹیسٹنگ، پالیسی انفورسمنٹ، اور ماڈل کی مدد سے حفاظتی پائپ لائنز پر بحث کی گئی ہے جو حقیقی دنیا کے استعمال کے دوران خطرناک رویے کو کم کرنے کے لیے ڈیزائن کی گئی ہیں۔

لیکن تاریخی اعتبار سے اہم ترین اہداف میں سے ایک دراصل یہ ہے: پیشن گوئی.

مصنفین کے مطابق، GPT-4 کو بنیادی ڈھانچے اور اصلاح کے طریقوں کا استعمال کرتے ہوئے تیار کیا گیا تھا جو انتہائی متوقع انداز میں پیمانے کے لیے ڈیزائن کیا گیا تھا۔ OpenAI کا دعویٰ ہے کہ وہ ہزاروں گنا کم کمپیوٹ کے ساتھ تربیت یافتہ ماڈلز کا استعمال کرتے ہوئے GPT-4 کی کارکردگی کے حتمی پہلوؤں کا اندازہ لگا سکتا ہے۔

یہ خیال تکنیکی لگ سکتا ہے، لیکن یہ ایک اہم تبدیلی کی نمائندگی کرتا ہے کہ جدید ترین AI سسٹم کیسے بنائے جاتے ہیں۔

زبان کے ماڈلز کی پچھلی نسلوں نے توسیع کے دوران اکثر اہم غیر یقینی صورتحال کو متعارف کرایا۔ GPT-4 تجویز کرتا ہے کہ بڑے پیمانے پر AI کی ترقی خالص تجرباتی ہونے کی بجائے زیادہ منظم اور انجینئرنگ پر مبنی ہوتی جا رہی ہے۔

درحقیقت، یہ رپورٹ پوری AI صنعت میں ہونے والی وسیع منتقلی کی عکاسی کرتی ہے، تحقیقی پروٹو ٹائپ سے لے کر بڑے پیمانے پر حقیقی دنیا کے استعمال کے لیے ڈیزائن کیے جانے والے بنیادی ڈھانچے کے نظام تک۔

بنیادی خیال

GPT-4 کے بارے میں سب سے حیران کن بات یہ ہے کہ تمام تر ہائپ اور نئی خصوصیات کے باوجود، اس کے بنیادی سیکھنے کے مقاصد اب بھی بنیادی طور پر بہت آسان ہیں۔

GPT-1، GPT-2، اور GPT-3 کی طرح، GPT-4 اب بھی بنیادی طور پر اگلے ٹوکن پیشن گوئی ماڈل کے طور پر تربیت یافتہ ہے۔ یعنی، نظام ترتیب میں متن کے اگلے ٹکڑے کی بار بار پیش گوئی کرکے سیکھتا ہے۔

مزید برآں، فن تعمیر ٹرانسفارمر پر مبنی اور آٹو ریگریسیو رہتا ہے۔

اس کا مطلب یہ ہے کہ GPT-4 ایک وقت میں آؤٹ پٹ ایک ٹوکن تیار کرتا ہے، ان پٹ ترتیب میں الفاظ، جملوں، تصاویر اور سیاق و سباق کے درمیان تعلقات کو سمجھنے کے لیے خود توجہ کا استعمال کرتے ہوئے۔

اعلیٰ سطح پر، بنیادی اصول GPT-2 کے بعد سے زیادہ تبدیل نہیں ہوئے ہیں۔

لیکن GPT-4 اس نقطہ نظر کو اور بھی آگے لے جاتا ہے۔

رپورٹ کے مطابق، ماڈل بہت بڑا، زیادہ بہتر، اور بنیادی ڈھانچے کا استعمال کرتے ہوئے تربیت یافتہ ہے جو خاص طور پر بڑے پیمانے پر، متوقع رویے کے لیے ڈیزائن کیا گیا ہے۔

سب سے بڑی تصوراتی تبدیلی یہ ہے کہ GPT-4 اب صرف ٹیکسٹ ان پٹ تک محدود نہیں ہے۔

ایک اور اہم فرق ہے۔ تربیت کے بعد ترتیب دیں۔.

جب کہ GPT-3 نے پہلے ہی مضبوط چند شاٹ سیکھنے کی صلاحیتوں کا مظاہرہ کیا ہے، GPT-4 انسانی تاثرات (RLHF)، حفاظتی ہم آہنگی، انکار کے رویے، اور ہدایات کے ساتھ کمک سیکھنے پر بہت زیادہ زور دیتا ہے۔ رپورٹ کے مطابق، تربیت کے بعد کا یہ عمل حقیقت پسندی، مطلوبہ طرز عمل کی تعمیل اور ردعمل کی حفاظت کو نمایاں طور پر بہتر بناتا ہے۔

یہ جدید AI نظاموں کے سب سے اہم خیالات میں سے ایک کی طرف جاتا ہے۔

صلاحیت صرف سائز سے ظاہر نہیں ہوتی ہے۔

GPT-4 تجویز کرتا ہے کہ مضبوط AI سلوک ان کے مجموعہ سے آتا ہے:

درحقیقت، اضافی الائنمنٹ پرت کی وجہ سے GPT-4 خام پیشین گوئی ماڈل کے مقابلے میں ایک انٹرایکٹو اسسٹنٹ کی طرح محسوس ہوتا ہے۔

یہ امتیاز تاریخی اعتبار سے اہم ہے۔

GPT-3 نے یہ ظاہر کیا کہ زبان کے توسیعی ماڈل طاقتور ابھرتے ہوئے رویے کو کھول سکتے ہیں۔ GPT-4 ظاہر کرتا ہے کہ اکیلے پیمانے کافی نہیں ہے۔ حقیقی دنیا میں وسیع پیمانے پر استعمال کے قابل بنانے کے لیے ماڈل کی صف بندی، حفاظتی تربیت، اور تعیناتی پر مرکوز بہتری کی بھی ضرورت ہے۔

پیشین گوئی کی پیمائش

GPT-4 تکنیکی رپورٹ میں سب سے اہم خیالات میں سے ایک قابل پیشن گوئی کی صلاحیت ہے، جسے بہت سے لوگوں نے نظر انداز کیا جب رپورٹ پہلی بار سامنے آئی۔

بڑے پیمانے پر زبان کے ماڈلز کی پچھلی نسلوں میں بہت زیادہ غیر یقینی صورتحال موجود تھی۔

محققین بڑے سسٹمز کو تربیت دے سکتے ہیں اور امید کرتے ہیں کہ کارکردگی بہتر ہو جائے گی، لیکن کوئی بھی پوری طرح سے نہیں جانتا تھا کہ سکیلنگ کتنی دور تک جائے گی یا بڑے پیمانے پر ٹریننگ رنز توقع کے مطابق کام کریں گے۔

GPT-4 نے اسے تبدیل کر دیا۔ رپورٹ کے مطابق، OpenAI نے ایک بنیادی ڈھانچہ اور اصلاح کا طریقہ تیار کیا ہے جو ہزاروں گنا کم کمپیوٹ کے ساتھ تربیت یافتہ ماڈلز کا استعمال کرتے ہوئے GPT-4 کے آخری تربیتی نقصان کے ساتھ ساتھ کچھ خصوصیات کا درست اندازہ لگا سکتا ہے۔

یہ پہلی آواز سے کہیں زیادہ اہم ہے۔ GPT-3 نے ثابت کیا ہے کہ توسیعی زبان کے ماڈل کام کرتے ہیں۔

GPT-4 نے تجویز کیا کہ اسکیلنگ آزمائشی اور غلطی کے تجربے کے بجائے پیشین گوئی انجینئرنگ کا معاملہ بننا شروع ہو رہی ہے۔

ان تبدیلیوں سے کئی اہم فوائد حاصل ہوئے ہیں:

بڑے ماڈلز کو تربیت دینے سے پہلے بہتر فیچر کی پیشن گوئی
ناکام تربیت پر عمل درآمد کی وجہ سے لاکھوں ڈالر کے ضائع ہونے کے خطرے کو کم کریں۔
ماڈل رویے کی ابتدائی تشخیص کے ذریعے محفوظ تعیناتیوں کا منصوبہ بنائیں
چھوٹے پیمانے کے تجربات سے فرنٹ لائن اسکیل سسٹم تک زیادہ قابل اعتماد طریقے سے اسکیلنگ

رپورٹ یہ بھی ظاہر کرتی ہے کہ ماڈل کے نقصان نے بڑے پیمانے پر طاقت کے بہت مستحکم قانون کی پیروی کی، جس سے OpenAI کو تربیت ختم ہونے سے بہت پہلے GPT-4 کی حتمی کارکردگی کا اندازہ لگانے کی اجازت ملی۔

تاہم، مضمون ایک اہم نکتہ پیش کرتا ہے: تمام خصوصیات آسانی سے پیمانے پر نہیں ہوتیں۔ کچھ رویے، خاص طور پر استدلال سے متعلق کام، دوبارہ بہتر ہونے سے پہلے غیر متوقع طور پر یا عارضی طور پر خراب ہو سکتے ہیں۔

پیشین گوئی کی پیمائش کی کچھ اہم حدود میں شامل ہیں:

کچھ خصوصیات اب بھی بڑے پیمانے پر غیر متوقع دکھائی دیتی ہیں۔
بینچ مارک کی کارکردگی آسانی سے بہتر نہیں ہوسکتی ہے اور غیر خطی سلوک کر سکتی ہے۔
جیسا کہ ماڈل بڑھتا جا رہا ہے، ہو سکتا ہے سکیلنگ کے قوانین ہمیشہ کے لیے برقرار نہ رہیں۔
یہاں تک کہ ایک پیش قیاسی تربیتی وکر کے باوجود، استدلال کی ناکامیاں اور فریب نظر اب بھی غیر متوقع طور پر ظاہر ہو سکتے ہیں۔

پیش قیاسی توسیع اور غیر متوقع طور پر ابھرنے کے درمیان تناؤ جدید AI تحقیق کے متعین موضوعات میں سے ایک بن گیا ہے۔

ماڈل فن تعمیر

GPT-4 تکنیکی رپورٹ کے سب سے غیر معمولی پہلوؤں میں سے ایک یہ ہے کہ OpenAI اصل ماڈل کے فن تعمیر کے بارے میں کتنا کم انکشاف کرتا ہے۔

جیسا کہ اوپر بحث کی گئی ہے، GPT-1، GPT-2، اور GPT-3 پیپرز میں، OpenAI نے عوامی طور پر تفصیلات پر تبادلہ خیال کیا جیسے کہ پیرامیٹرز کی تعداد، ڈیٹا سیٹ کا سائز، اسکیلنگ کنفیگریشن، اور تربیت کا طریقہ۔

جیسا کہ آپ دیکھ سکتے ہیں، GPT-4 بہت مختلف ہے۔ رپورٹ میں کچھ اہم تکنیکی تفصیلات کو چھوڑ دیا گیا ہے، جیسے کہ پیرامیٹرز کی صحیح تعداد، عین فن تعمیر کی ترتیب، ڈیٹاسیٹ کا سائز اور ترتیب، استعمال شدہ تربیتی کمپیوٹ، ہارڈویئر انفراسٹرکچر، اور سیٹ اپ۔

رپورٹ میں واضح طور پر کہا گیا ہے کہ یہ کوتاہی مسابقتی ماحول اور بڑے پیمانے پر AI سسٹمز کے ارد گرد حفاظتی تحفظات کی وجہ سے ہوئی ہے۔

یہ فیصلہ لانچ کے سب سے زیادہ زیر بحث پہلوؤں میں سے ایک بن گیا۔

تاریخی طور پر، GPT-4 ایک عبوری دور کی نشاندہی کرتا ہے جس میں جدید ترین AI تحقیق زیادہ بند اور مصنوعات پر مبنی ہونا شروع ہوئی۔ پچھلے جی پی ٹی پیپرز روایتی تحقیقی اشاعتوں کی طرح محسوس ہوتے تھے۔ GPT-4 عالمی سطح پر AI کو تعینات کرنے والی کمپنی کے لیے کنٹرول سسٹم کی رپورٹ کی طرح محسوس ہوتا ہے۔

اگرچہ عمل درآمد کی بہت سی تفصیلات پوشیدہ ہیں، پھر بھی رپورٹ کچھ اہم نکات کی تصدیق کرتی ہے۔

GPT-4 اب بھی بنیادی طور پر ایک ٹرانسفارمر پر مبنی ماڈل ہے جسے آٹوریگریسو اگلی ٹوکن پیشن گوئی کا استعمال کرتے ہوئے تربیت دی گئی ہے۔
پچھلے جی پی ٹی سسٹمز کی طرح، یہ سیاق و سباق کی پروسیسنگ کے دوران ترتیب وار آؤٹ پٹ پیدا کرنے کے لیے خود توجہ دینے کا طریقہ کار استعمال کرتا ہے۔
GPT-4 ملٹی موڈل ہے۔ اس کا مطلب یہ ہے کہ یہ ٹیکسٹ آؤٹ پٹ تیار کرتے وقت امیج اور ٹیکسٹ ان پٹ دونوں کو قبول کر سکتا ہے۔

یہ جی پی ٹی سیریز میں سب سے بڑی تعمیراتی تبدیلیوں میں سے ایک ہے کیونکہ یہ ماڈل کو خالص زبان کی سمجھ سے بالاتر ہو کر مشترکہ بصری اور متنی استدلال تک پھیلاتا ہے۔

ایک اور اہم جزو پوسٹ ٹریننگ سیدھ ہے۔ ہم پہلے ہی اس پر تھوڑی سی بات کر چکے ہیں۔ عملی طور پر، اس کا مطلب ہے کہ GPT-4 اب پہلے سے تربیت یافتہ خام زبان کا ماڈل نہیں ہے۔ یہ ایک بہت ہی نفیس نظام ہے جو کئی مراحل میں بنایا گیا ہے۔

GPT-4 فن تعمیر کے ارد گرد کی رازداری تاریخی طور پر اہم ہے کیونکہ یہ AI میں ہونے والی وسیع تر تبدیلیوں کی عکاسی کرتی ہے۔

جیسے جیسے زبان کے ماڈل تجارتی لحاظ سے زیادہ قیمتی اور سماجی طور پر بااثر ہو گئے ہیں، جدید ترین AI تحقیق مکمل کھلے پن سے کنٹرول شدہ انکشاف، حفاظت سے چلنے والی تعیناتی، اور مسابقتی تحفظ کی طرف بڑھنا شروع ہو گئی ہے۔

ملٹی موڈ لرننگ

GPT-4 کی سب سے اہم اختراعات میں سے ایک یہ ہے کہ ماڈل اب متن تک محدود نہیں ہے۔ GPT-4 ٹیکسٹ آؤٹ پٹ تیار کرتے وقت تصاویر اور متن دونوں کو بطور ان پٹ قبول کر سکتا ہے۔

یہ آج کل سادہ لگ سکتا ہے، لیکن اس وقت یہ بڑے پیمانے پر زبان کے ماڈلز کے بارے میں لوگوں کے سوچنے کے انداز میں ایک سمندری تبدیلی تھی۔

پچھلے جی پی ٹی سسٹمز خالصتاً لسانی طور پر کام کرتے تھے۔ GPT-4 خیال کو بہت وسیع تر چیز تک پھیلاتا ہے: ایک ایسا ماڈل جو بیک وقت معلومات کی متعدد شکلوں میں استدلال کر سکتا ہے۔

درحقیقت، GPT-4 تجزیہ کر سکتا ہے:

رپورٹ کئی مثالوں کے ذریعے اس خصوصیت کو ظاہر کرتی ہے، لیکن ایک خاص طور پر یادگار مثال مشہور VGA کیبل meme ہے۔

تصویر میں، اسمارٹ فون ایک بڑے VGA مانیٹر کیبل اڈاپٹر سے جڑا ہوا دکھائی دیتا ہے۔ یہ یقینی طور پر حقیقی زندگی میں مضحکہ خیز ہوگا۔ GPT-4 درست طریقے سے وضاحت کرتا ہے کہ مزاح پرانے VGA ہارڈ ویئر اور جدید سیل فون چارجنگ پورٹس کے درمیان فرق سے آتا ہے۔

یہ صرف اعتراض کی شناخت نہیں تھی جس نے اس مثال کو اہم بنا دیا۔ ماڈل کی تشریح کی جا رہی تھی۔ حالات کے مطابق مزاح بصری مناظر کے ساتھ شروع.

یہ فرق اہم ہے۔

جبکہ روایتی کمپیوٹر ویژن سسٹم اکثر کسی تصویر کے اندر موجود اشیاء کی شناخت کرنے کے قابل ہوتے تھے، GPT-4 نے ملٹی موڈل انفرنس کے قریب کچھ ظاہر کیا۔ اس کا مطلب ہے مشترکہ بصری اور متنی معلومات کے رشتوں، سیاق و سباق، ارادے اور یہاں تک کہ لطیفوں کو سمجھنا۔

رپورٹ میں یہ بھی نوٹ کیا گیا ہے کہ زبان کے ماڈلز کے لیے تیار کی گئی پرامپٹنگ تکنیکوں میں سے بہت سے (بشمول کئی اشارے اور سوچ کی سوچ کی وجہ) ملٹی موڈل سیٹنگز میں مؤثر طریقے سے کام کرتی رہتی ہیں۔

اس سے پتہ چلتا ہے کہ GPT-4 صرف ایک تصویری درجہ بندی کو چیٹ بوٹ سے منسلک کرنے کے بارے میں نہیں ہے۔ اس کے بجائے، یہ ماڈل بصری اور زبانی تفہیم کو زیادہ متحد اندازے کے نظام میں ضم کرتا دکھائی دیتا ہے۔

تاریخی طور پر، یہ GPT سیریز کے لیے ایک اہم لمحہ تھا۔

GPT-1 زبان کی لغت سیکھنے پر توجہ مرکوز کرتا ہے۔
GPT-2 نے زیرو شاٹ صلاحیتوں کو بڑھا دیا۔
GPT-3 سیاق و سباق کی تعلیم کو متعارف کرایا ہے۔
GPT-4 نے عوامی طور پر عملی ملٹی موڈل AI کا مظاہرہ کیا۔

اور بہت سے پچھلے تحقیقی مظاہروں کے برعکس، GPT-4 کی ملٹی موڈل صلاحیتیں صرف ایک تجرباتی پروٹو ٹائپ نہیں تھیں جو کسی کاغذ میں چھپی ہوئی تھیں۔ یہ ایک حقیقی مصنوعات کا حصہ بن گیا ہے جسے لاکھوں لوگ استعمال کرتے ہیں۔

ان تبدیلیوں نے ملٹی موڈل AI کو مکمل طور پر نظریاتی کے بجائے عملی اور قابل استعمال محسوس کیا ہے۔

فائن ٹیوننگ بمقابلہ زیرو شاٹ بمقابلہ فیو شاٹ بمقابلہ الائنڈ ملٹی موڈ لرننگ

یہ سمجھنے کا ایک واضح ترین طریقہ یہ ہے کہ GPT ماڈل کس طرح تیار ہوئے ہیں اس کا موازنہ کرنا ہے کہ وہ کس طرح سیکھتے ہیں اور کاموں کو کیسے اپناتے ہیں۔

اگرچہ ابتدائی این ایل پی سسٹمز لیبل والے ڈیٹا سیٹس کا استعمال کرتے ہوئے فائن ٹیوننگ پر بہت زیادہ انحصار کرتے تھے، بعد میں جی پی ٹی ماڈل تیزی سے زیرو شاٹ پرامپٹس، چند شاٹ لرننگ، اور بالآخر ملٹی موڈل تعاملات کا حکم دیتے تھے۔

نیچے دی گئی جدول لچک، تربیت کے تقاضوں، توسیع پذیری، اور عملی استعمال کے لحاظ سے ان طریقوں کے درمیان فرق کا خلاصہ کرتی ہے۔

طرف	ٹھیک ٹیوننگ	زیرو شاٹ لرننگ	چند شاٹ سیکھنے	GPT-4 طرز کی سیدھ میں ملٹی موڈ لرننگ
تعریف	ماڈل کو ایک مخصوص کام کے لیے لیبل والے ڈیٹا پر مزید تربیت دی جاتی ہے۔	ماڈل مثالوں کے بغیر صرف ہدایات کا استعمال کرتے ہوئے کام انجام دیتا ہے۔	ماڈل پرامپٹ میں مثالوں کی ایک چھوٹی سی تعداد سے کام سیکھتا ہے۔	یہ ماڈل عام مقصد کے کاموں کو انجام دینے کے لیے پرامپٹنگ، ملٹی موڈل استدلال، اور الائنمنٹ ٹریننگ کو یکجا کرتا ہے۔
تعلیم کے تقاضے	ہمیں زیر نگرانی، کام کے لیے مخصوص ڈیٹاسیٹس کی ضرورت ہے۔	کوئی خاص کام کی تربیت یا مثالیں نہیں ہیں۔	کوئی ریفریشر کورس نہیں ہے، لیکن جب اشارہ کیا جائے تو مظاہرے کی ضرورت ہوتی ہے۔	بڑے پیمانے پر پری ٹریننگ اور RLHF، سیفٹی کوآرڈینیشن اور ملٹی موڈل پوسٹ ٹریننگ
کس طرح کام دیے جاتے ہیں۔	علیحدہ تربیتی مراحل کے ذریعے۔	قدرتی زبان کی ہدایات کے ذریعے	ہدایات اور مثالوں کے ذریعے	انٹرایکٹو اشارے، تصاویر، ہدایات، اور متعلقہ تعاملات کے ذریعے۔
سیکھنے کا عمل	تربیت کے دوران ماڈل کے وزن کو اپ ڈیٹ کیا جاتا ہے۔	وزن کی کوئی تازہ کاری نہیں۔	چونکہ سیکھنا سیاق و سباق پر منحصر ہوتا ہے، اس لیے وزن کی کوئی تازہ کاری نہیں ہوتی ہے۔	پری ٹریننگ، RLHF الائنمنٹ، ملٹی موڈل انفرنس، اور سیاق و سباق کے اشارے کے ذریعے سیکھیں۔
لچکدار	عام طور پر ایک کام میں مہارت	مختلف قسم کے کاموں میں انتہائی لچکدار	ڈیمو کا فائدہ اٹھاتے ہوئے لچک	یونیورسل ملٹی موڈ اسسٹنٹ کے طور پر کام کرتا ہے۔
موافقت	نئی ملازمتوں کو دوبارہ تربیت کی ضرورت ہے۔	اشارے کے ساتھ فوری طور پر موافقت کریں۔	سیاق و سباق سے متعلق حساس مثالوں کے ساتھ تیزی سے موافقت کریں۔	متحرک طور پر ڈومینز، طریقہ کار، اور تعامل کے انداز میں ڈھال لیتا ہے۔
ڈیٹا انحصار	لیبل والے ڈیٹاسیٹس پر بہت زیادہ انحصار	بنیادی طور پر پیشگی تربیت کے علم پر منحصر ہے۔	پری ٹریننگ اور فوری مثالوں پر منحصر ہے۔	بڑے پیمانے پر ملٹی موڈل لغت سیکھنے اور انسانی تاثرات کی چھانٹی پر منحصر ہے۔
کارکردگی	تنگ بینچ مارک کاموں کے لیے اکثر سب سے زیادہ طاقتور	ٹھیک ٹیوننگ سے عام طور پر کمزور	اکثر ٹھیک ٹیونڈ کارکردگی تک پہنچتا ہے۔	یہ اکثر استدلال اور زبان کے بہت سے کاموں پر خصوصی نظاموں سے بہتر کارکردگی کا مظاہرہ کرتا ہے۔
تمام آپریشنز میں اسکیل ایبلٹی	یہ مہنگا اور پیمانہ کرنا مشکل ہے۔	انتہائی قابل توسیع	دوبارہ تربیت کے بغیر توسیع پذیر	یہ زبان، کوڈنگ، استدلال، اور ملٹی موڈل کاموں میں وسیع پیمانے پر پھیلا ہوا ہے۔
لاگت کا حساب	اعلی کیونکہ ہر کام کو دوبارہ تربیت کی ضرورت پڑ سکتی ہے۔	استعمال میں کم	استعمال میں کم	تربیت کی لاگت بہت زیادہ ہے، لیکن تعیناتی متعدد ایپلی کیشنز کے لیے موثر ہے۔
ہاں	جذباتی تجزیہ ڈیٹاسیٹس کے لیے فائن ٹیوننگ ماڈل	"اس جملے میں جذبات کی درجہ بندی کریں”	"مثبت: مجھے فلم پسند آئی۔ منفی: فلم بورنگ تھی…”	ایک تصویر اپ لوڈ کریں اور ماڈل سے اپنے چارٹس کی وضاحت کرنے، اپنے کوڈ کو کھولنے، اور اپنی دستاویز کا خلاصہ کرنے کو کہیں۔
اہم طاقتیں۔	پیشہ ورانہ کاموں کے لیے اعلیٰ درستگی	سادگی اور وسیع عمومیت	لچک اور کارکردگی کے درمیان طاقتور توازن	ترتیب شدہ بات چیت کے تعاملات کے ذریعے مربوط ملٹی موڈل استدلال۔
اہم کمزوری	متعدد کاموں میں اچھی طرح سے پیمانہ نہیں ہے۔	کام کی شکل یا ارادے کو غلط سمجھا جا سکتا ہے۔	فوری معیار اور کیس حساس	یہ اب بھی فریب کا باعث بنتا ہے، استدلال کی غلطیوں کا سبب بنتا ہے، اور سخت حفاظتی کنٹرول کی ضرورت ہوتی ہے۔
سب سے زیادہ متعلقہ	روایتی NLP نظام، GPT-1 دور	GPT-2 اسٹائل پرامپٹ	GPT-3 اور سیاق و سباق کی تعلیم	GPT-4 اور منسلک ملٹی موڈ پر مبنی ماڈلز
بنیادی خیال	ہر کام کے لیے خاص طور پر تربیت دیں۔	ہدایات سے اعمال کا اندازہ لگانا	سیاق و سباق کی مثالوں سے کاموں کا اندازہ لگانا	پیمانہ کو یکجا کرنا، چھانٹنا، ملٹی موڈیلیٹی، اور ایک قابل تعینات AI سسٹم میں اشارہ کرنا

RLHF اور صف بندی

GPT-4 اور پچھلے GPT ماڈلز کے درمیان سب سے بڑا فرق یہ ہے کہ رپورٹ میں کتنا زور دیا گیا ہے: ایڈجسٹمنٹ اور حفاظت.

اگرچہ GPT-3 نے چند شاٹ سیکھنے کی متاثر کن صلاحیتوں کا مظاہرہ کیا، اس نے سنگین کمزوریوں کو بھی بے نقاب کیا۔ ماڈلز حقائق کو دھوکہ دے سکتے ہیں، نقصان دہ ہدایات پیدا کر سکتے ہیں، اعتماد کے ساتھ غلط معلومات پیدا کر سکتے ہیں، یا صارف کے ارادے کی قابل اعتماد طریقے سے پیروی کرنے میں ناکام ہو سکتے ہیں۔

GPT-4 ان مسائل کو ذہن میں رکھتے ہوئے ڈیزائن کیا گیا تھا۔

ان بہتریوں کا ایک بڑا حصہ Reinforcement Learning with Human Feedback (RLHF) سے آتا ہے۔

اعلیٰ سطح پر، RLHF ماڈل کے جوابات پر انسانی تاثرات جمع کرکے اور پھر ماڈل کو ترجیحی طرز عمل پر تربیت دینے کے لیے اس فیڈ بیک کو استعمال کرکے کام کرتا ہے۔ صرف انٹرنیٹ کے متن سے سیکھنے کے بجائے، نظام انسانی فیصلے سے یہ بھی سیکھتا ہے کہ کس قسم کے جوابات مفید، محفوظ، درست اور مناسب ہیں۔

رپورٹ کے مطابق، GPT-4 کو تربیت کے بعد کے وسیع تر تبدیلیوں سے گزرنا پڑے گا جس کو بہتر بنانے کے لیے ڈیزائن کیا گیا ہے:

تاریخییت
اگلی ہدایات
انکار کا رویہ
بے ضرر
صارف کے ارادے پر عمل کریں۔

یہ الائنمنٹ پرت بنیادی وجہ ہے کہ GPT-4 خام پہلے سے تربیت یافتہ لینگویج ماڈلز سے مختلف محسوس کرتا ہے۔

رپورٹ بار بار اس بات پر زور دیتی ہے: انکار کا رویہ ایک اہم حفاظتی خصوصیت کے طور پر۔

GPT-4 کے پرانے ورژن کبھی کبھار اندرونی جانچ کے دوران خطرناک ہدایات پیدا کر سکتے ہیں، بشمول نقصان دہ کیمیائی ترکیب کے مشورے یا ہتھیاروں سے متعلق مواد۔ OpenAI اس رویے کو مخالفانہ جانچ، ڈومین ماہرین، RLHF ٹریننگ، اور ایک اضافی حفاظتی پائپ لائن کا استعمال کرتے ہوئے نمایاں طور پر کم کرتا ہے۔

رپورٹ میں پیش کیے گئے کیسز خاصے سوچنے پر مجبور کرنے والے ہیں۔

کچھ صورتوں میں، GPT-4 کے پچھلے ورژن نے خطرناک مواد کی تخلیق کے بارے میں تفصیلی جوابات فراہم کیے ہیں۔ بعد میں ترتیب دیا گیا ورژن اس کے بجائے درخواست کو مسترد کرتا ہے اور بات چیت کو محفوظ طریقے سے ری ڈائریکٹ کرتا ہے۔

جو چیز اسے اہم بناتی ہے وہ یہ ہے کہ GPT-4 کو صرف "زیادہ محدود” نہیں بنایا گیا ہے۔

رپورٹ میں جوابی مسائل پر بھی بات کی گئی ہے۔ میں بہت محتاط ہوں۔. OpenAI نے خاص طور پر خطرناک درخواستوں کو روکنے کے لیے کام کیا جبکہ بے ضرر درخواستوں کے غیر ضروری مسترد ہونے کو کم کیا۔

عملی طور پر، صف بندی ان کے درمیان ایک متوازن عمل بن جاتی ہے:

افادیت
حفاظت
ایمانداری
لچکدار
وشوسنییتا

اس کا تعارف اخبار میں بھی کیا گیا ہے۔ اصول پر مبنی انعامی ماڈل ایک ماڈل کی مدد سے حفاظتی پائپ لائن ہے جو تربیت کے دوران محفوظ طرز عمل کی طرف GPT-4 کی رہنمائی میں مدد کرتی ہے۔

تاریخی طور پر، رپورٹ کا یہ حصہ AI کی ترقی میں ایک اور بڑی تبدیلی کی نمائندگی کرتا ہے۔

پچھلی GPT دستاویزات میں بنیادی طور پر خصوصیات اور توسیعات پر توجہ مرکوز کی گئی ہے۔ GPT-4 الائنمنٹ اور پلیسمنٹ سیفٹی کو ثانوی کے بجائے بنیادی انجینئرنگ مسئلہ کے طور پر دیکھتا ہے۔

یہ تبدیلیاں پوری صنعت میں گہری بیداری کی عکاسی کرتی ہیں۔ ایک بار جب AI سسٹمز عالمی سطح پر تعینات کیے جانے کے لیے کافی طاقتور ہو جاتے ہیں، تو صرف ذہانت کو بہتر بنانا کافی نہیں رہے گا۔ نظام کو بھی محفوظ طریقے سے کام کرنا چاہیے، قابل اعتماد طریقے سے انسانی ارادوں کی پیروی کرنا چاہیے، اور نقصان دہ غلط استعمال کی مزاحمت کرنی چاہیے۔

بینچ مارکس اور تجربات

GPT-4 تکنیکی رپورٹ کے سب سے نمایاں پہلوؤں میں سے ایک تشخیصی عمل کا پیمانہ ہے۔

رپورٹ کے مطابق، OpenAI نے GPT-4 کا وسیع پیمانے پر تعلیمی امتحانات، پیشہ ورانہ سرٹیفیکیشنز، استدلال کے کاموں، کوڈنگ بینچ مارکس، اور روایتی NLP اسیسمنٹس پر تجربہ کیا۔

مقصد صرف یہ ظاہر کرنا نہیں تھا کہ GPT-4 روانی سے متن تیار کر سکتا ہے۔ تشخیص کو اس بات کی پیمائش کرنے کے لیے ڈیزائن کیا گیا ہے کہ آیا ماڈل استدلال کر سکتا ہے، مسائل حل کر سکتا ہے، ہدایات پر عمل کر سکتا ہے، سوالات کے جوابات دے سکتا ہے، اور مختلف ڈومینز میں عام کر سکتا ہے۔

جب رپورٹ کو عام کیا گیا تو انسانی آزمائش کے نتائج نے بہت زیادہ توجہ مبذول کی۔

GPT-4 نے کئی مشہور ٹیسٹوں میں خاص طور پر اعلیٰ سکور حاصل کیے ہیں۔

تعلیمی اور پیشہ ورانہ امتحانات میں جی پی ٹی کی کارکردگی

ذیل کا جدول تعلیمی اور پیشہ ورانہ ٹیسٹوں کی ایک وسیع رینج پر GPT-4 کی کارکردگی کا خلاصہ کرتا ہے اور دکھاتا ہے کہ ماڈل کس طرح یونیفارم بار امتحان، LSAT، GRE، SAT، AP امتحان، اور کوڈنگ اسائنمنٹس جیسے ٹیسٹوں پر GPT-3.5 سے موازنہ کرتا ہے۔

ماخذ: GPT-4 تکنیکی رپورٹ (اوپن اے آئی، 2023)، ٹیبل 1۔

کچھ معاملات میں، GPT-3.5 کے ساتھ موازنہ خاص طور پر ڈرامائی تھا۔ مثال کے طور پر، رپورٹ کے مطابق، GPT-3.5 نے فرضی بار کے امتحان میں نچلے 10% کے قریب اسکور کیا، جب کہ GPT-4 ٹاپ 10% تک پہنچ گیا۔

ان نتائج نے بڑے پیمانے پر زبان کے ماڈلز کے بارے میں عوامی تاثر کو تبدیل کرنے میں مدد کی ہے۔

پچھلے سسٹمز کو بنیادی طور پر خودکار انجن یا ٹیکسٹ جنریٹر سمجھا جاتا تھا۔ GPT-4 نے دکھایا ہے کہ پیمانہ کاری اور صف بندی ایسے نظام تیار کر سکتی ہے جو انسانوں کے لیے بنائے گئے بہت سے کاموں پر مسابقتی طور پر انجام دے سکتے ہیں۔

ذیل کا اعداد و شمار کئی ٹیسٹوں پر GPT-4 کی صد فیصد درجہ بندی کا تصور کرتا ہے، جو کہ GPT-3.5 کے مقابلے میں استدلال، زبان کی سمجھ، ریاضی، اور پیشہ ورانہ ٹیسٹوں میں نمایاں بہتری کو نمایاں کرتا ہے۔

ماخذ: GPT-4 تکنیکی رپورٹ (اوپن اے آئی، 2023)، شکل 4۔

یہ رپورٹ معیاری NLP بینچ مارکس کے ایک وسیع سوٹ پر GPT-4 کا بھی جائزہ لیتی ہے۔

چند اہم ترین یہ ہیں:

زیادہ تر تشخیصات میں، GPT-4 نمایاں طور پر GPT-3.5 کو پیچھے چھوڑ دیتا ہے اور اکثر پچھلے جدید ترین لینگویج ماڈلز کو پیچھے چھوڑ دیتا ہے۔ بعض صورتوں میں، وہ ایسے سسٹمز کو بھی پیچھے چھوڑ دیتے ہیں جو بینچ مارک مخصوص فائن ٹیوننگ یا خصوصی انجینئرنگ پائپ لائنوں پر انحصار کرتے ہیں۔

ایک خاص طور پر اہم بینچ مارک Massively Multitask Language Understanding (MMLU) ہے، جو 57 موضوعات کے بارے میں علم اور استدلال کی جانچ کرتا ہے۔ GPT-4 نے اس بینچ مارک پر بہت مضبوط کارکردگی حاصل کی، بشمول کثیر لسانی متغیرات کا متعدد زبانوں میں ترجمہ کیا گیا۔

کوڈنگ کے جائزے بھی تاریخی طور پر اہم ہیں۔ HumanEval اور LeetCode طرز کے کاموں پر، GPT-4 پچھلے GPT سسٹمز کے مقابلے کوڈ بنانے اور مسائل کے حل میں نمایاں بہتری دکھاتا ہے۔

یہ خصوصیت بالآخر جدید AI کوڈنگ معاونین کی بنیادوں میں سے ایک بن گئی۔

نیچے دی گئی جدول GPT-4 کا موازنہ لینگویج کے پچھلے ماڈلز اور جدید ترین سسٹمز جیسے کہ MMLU، HellaSwag، ARC، HumanEval، اور GSM-8K پر کرتا ہے، جو ماڈل کی مضبوط کارکردگی کو ظاہر کرتا ہے، کوڈنگ، اور زبان کو سمجھنے کے کاموں میں۔

ماخذ: GPT-4 تکنیکی رپورٹ (اوپن اے آئی، 2023)، جدول 2۔

جو چیز ان تجربات کو خاص طور پر اہم بناتی ہے وہ یہ ہے کہ GPT-4 بہت سے شعبوں میں اچھی کارکردگی کا مظاہرہ کرتا ہے۔ ایک ہی وقت میں مختلف زمرہ جات:

استدلال
کوڈنگ
ریاضی
زبان کی سمجھ
پیشہ ورانہ امتحان
کثیر لسانی کام
عام فہم استدلال

یہ وسعت ان وجوہات میں سے ایک ہے جس نے GPT-4 کو پچھلے نظاموں سے معیار کے لحاظ سے مختلف محسوس کیا۔

ایک تنگ بینچ مارک پر سبقت حاصل کرنے کے بجائے، GPT-4 نے فکری کاموں کی ایک وسیع رینج میں تیزی سے عمومی رویہ دکھایا۔

کوڈنگ اور استدلال کی مہارت

ان علاقوں میں سے ایک جہاں GPT-4 اپنے پیشرو کے مقابلے میں سب سے زیادہ قابل ذکر بہتری دکھاتا ہے کوڈنگ اور ساختی تخمینہ ہے۔

GPT-3 پہلے سے ہی کوڈ بنانے کے قابل تھا، لیکن GPT-4 ان صلاحیتوں کو بہت آگے لے جاتا ہے۔ رپورٹ کے مطابق، یہ ماڈل پروگرامنگ بینچ مارکس، ریاضیاتی استدلال کے کاموں، اور ملٹی سٹیپ پرابلم حل کرنے میں اہم فوائد کو ظاہر کرتا ہے۔

رپورٹ میں نمایاں کردہ کلیدی معیارات میں شامل ہیں: انسانی تشخیصایک ماڈل کی ازگر کے فنکشنز پیدا کرنے کی صلاحیت کی پیمائش کرتا ہے جو قدرتی زبان کی وضاحتوں پر کام کرتے ہیں۔

GPT-4 اس بینچ مارک پر GPT-3.5 کے مقابلے میں نمایاں طور پر اعلیٰ کارکردگی حاصل کرتا ہے، جو بہت زیادہ طاقتور کوڈ کی ترکیب اور مسئلہ حل کرنے کی صلاحیتوں کا مظاہرہ کرتا ہے۔

رپورٹ میں آسان، درمیانے اور مشکل پروگرامنگ کے مسائل کا LeetCode طرز کا جائزہ بھی شامل ہے۔

اگرچہ GPT-4 اب بھی بہت سے مشکل مسابقتی پروگرامنگ کاموں کے ساتھ جدوجہد کر رہا ہے، یہ GPT-3.5 سے نمایاں طور پر بہتر کارکردگی کا مظاہرہ کرتا ہے، خاص طور پر آسان اور درمیانے درجے کے کوڈنگ کے مسائل پر۔

یہ اصلاحات عملی طور پر بہت اہم ہو گئی ہیں۔

GPT-4 کے اجراء کے ساتھ، AI کوڈنگ اسسٹنٹس حقیقی دنیا کے سافٹ ویئر ڈویلپمنٹ ورک فلو میں واقعی کارآمد ہونا شروع ہو رہے ہیں۔ GPT-4 پر بنائے گئے سسٹمز ڈویلپرز کی مدد کر سکتے ہیں:

یہ پہلا لمحہ تھا جب بڑے پیمانے پر زبان کے ماڈلز نے تجرباتی مظاہروں کے بجائے عملی انجینئرنگ ٹولز کے طور پر کام کرنا شروع کیا۔

رپورٹ میں اس کی اہمیت کو بھی اجاگر کیا گیا ہے: خیالات کی ایک سیریز کو بھڑکانا تخمینہ کے کاموں کے لیے۔

ماڈل کو فوری جواب دینے پر مجبور کرنے کے بجائے، ذہنیت کا ایک سلسلہ GPT-4 کو کسی نتیجے پر پہنچنے سے پہلے قدم بہ قدم استدلال کرنے کی ترغیب دیتا ہے۔

مثال کے طور پر، GSM8K (ابتدائی اسکول کے ریاضی کے مسائل کا ڈیٹاسیٹ) جیسے بینچ مارکس پر، GPT-4 اس وقت بہت بہتر کارکردگی کا مظاہرہ کرتا ہے جب یہ انٹرمیڈیٹ انفرنس کے مراحل پیدا کر سکتا ہے۔

یہ لوگوں کے زبان کے بڑے ماڈلز کے ساتھ تعامل کے طریقے میں ایک اور بڑی تبدیلی کی نشاندہی کرتا ہے۔ پرانے نظاموں کو اکثر براہ راست جواب دینے والے جنریٹرز کی طرح برتا جاتا تھا۔ GPT-4 نے دکھایا ہے کہ ماڈل کو مسئلہ کے بارے میں "سوچنے” پر مجبور کر کے انفرنس بھاری کاموں کی کارکردگی کو نمایاں طور پر بہتر بنایا جا سکتا ہے۔

GPT-3.5 کے مقابلے میں، GPT-4 مسلسل کئی شعبوں میں مضبوط اندازہ ظاہر کرتا ہے۔

بالکل، ماڈل ابھی تک کامل نہیں ہے.

رپورٹ بار بار نوٹ کرتی ہے کہ GPT-4 اب بھی فریب کا شکار ہو سکتا ہے، منطقی غلطیاں کر سکتا ہے، پیچیدہ استدلال کی زنجیروں کو ناکام بنا سکتا ہے، یا اعتماد کے ساتھ غلط حل پیدا کر سکتا ہے۔

لیکن تاریخی طور پر، رپورٹ کا یہ حصہ اہم ہے کیونکہ اس نے AI ایپلی کیشنز کی ایک نئی قسم قائم کرنے میں مدد کی: بڑے پیمانے پر زبان کے ماڈلز بطور گفتگو استدلال اور کوڈنگ معاون۔

یہ خیال تیزی سے جدید AI سسٹمز کے استعمال کی وضاحت کرنے والے معاملات میں سے ایک بن گیا۔

کثیر لسانی فنکشن

GPT-4 تکنیکی رپورٹ کے سب سے کم درج کردہ پہلوؤں میں سے ایک یہ ہے کہ ماڈل متعدد زبانوں میں کتنا طاقتور کارکردگی کا مظاہرہ کرتا ہے۔

پچھلے زبان کے ماڈل بنیادی طور پر انگریزی کے ارد گرد مرکوز تھے۔ یہاں تک کہ جب کثیر لسانی تعاون موجود ہے، کم وسائل والی زبانوں میں کارکردگی عام طور پر انگریزی معیارات کے مقابلے میں نمایاں طور پر پیچھے رہ جاتی ہے۔

GPT-4 اس علاقے میں نمایاں پیش رفت کی نمائندگی کرتا ہے۔

کثیر لسانی استدلال کی صلاحیت کا اندازہ لگانے کے لیے، OpenAI نے MMLU بینچ مارک کا ترجمہ کرنے کے لیے ایک مشینی ترجمہ کا نظام استعمال کیا، ایک وسیع علمی اور پیشہ ورانہ استدلال کا بینچ مارک جس میں 57 موضوعات کا احاطہ کرتا ہے، متعدد زبانوں میں۔

رپورٹ کے مطابق، GPT-4 ٹیسٹ کی جانے والی زیادہ تر زبانوں میں بہت اچھی کارکردگی کا مظاہرہ کرتا ہے، بہت سے معاملات میں انگریزی میں اپنے پیشرو کی کارکردگی کو پیچھے چھوڑتا ہے۔

جو چیز اسے خاص طور پر اہم بناتی ہے وہ یہ ہے کہ بہتری صرف اعلیٰ وسائل والی زبانوں جیسے فرانسیسی، جرمن یا ہسپانوی تک محدود نہیں ہے۔

رپورٹ میں کارکردگی کے مضبوط فوائد کو نمایاں کیا گیا ہے، خاص طور پر کم وسائل والی زبانوں میں:

لیٹوین
ویلش
سواحلی
بنگالی
نیپالی
مراٹھی
تیلگو

اس کے بڑے پیمانے پر زبان کی ماڈلنگ کے لیے اہم مضمرات ہیں۔ جیسا کہ ماڈل کا پیمانہ اور تربیتی ڈیٹا زیادہ متنوع ہوتا جاتا ہے، سیکھی ہوئی خصوصیات انگریزی سے زیادہ طاقتور طریقے سے عام ہونا شروع ہوجاتی ہیں۔

دوسرے لفظوں میں، GPT-3 میں دیکھا جانے والا اسکیلنگ اثر خالصتاً انگریزی کا رجحان نہیں ہے۔

GPT-4 ظاہر کرتا ہے کہ بہت سے استدلال اور زبان کو سمجھنے کے افعال کو زبانوں کے درمیان منتقل کیا جا سکتا ہے، یہاں تک کہ جب دستیاب تربیتی ڈیٹا بہت زیادہ محدود ہو۔

یہ تاریخی طور پر اہم ہے کیونکہ یہ ہمیں انگریزی بولنے والے صارفین کے لیے بنیادی طور پر بہتر بنائے گئے ٹولز کی بجائے عالمی سطح پر مفید نظاموں میں بڑے پیمانے پر زبان کے ماڈلز بنانے کے قریب لاتا ہے۔

کثیر لسانی نتائج پوری رپورٹ میں ایک اور کلیدی تھیم کو بھی تقویت دیتے ہیں۔ GPT-4 کسی ایک ڈومین یا بینچ مارک تک محدود نہیں ہے۔ اس کے بجائے، یہ ایک عام مقصد کے تخمینے کے نظام کی طرح برتاؤ کرتا ہے جو اس کے مطابق ڈھال سکتا ہے:

زبان
کام
کھانا
ڈومین
تعامل کا انداز

بلاشبہ، کثیر لسانی کارکردگی اب بھی ناہموار ہے۔

رپورٹ تمام زبانوں میں کامل روانی یا استدلال کے مساوی معیار کا دعویٰ نہیں کرتی ہے۔ کم وسائل والی زبانیں اب بھی بڑے چیلنجز کا باعث ہیں، اور بہت سے کثیر لسانی ماحول میں تشخیص خود ہی مشکل ہے۔

تاہم، پچھلے GPT نظاموں کے مقابلے میں، GPT-4 کثیر لسانی عمومی کے لحاظ سے اہم پیش رفت کو ظاہر کرتا ہے۔ اور یہ عالمی سطح پر تعینات اے آئی سسٹمز کے لیے ایک اہم سنگ میل ہے۔

فوری کارروائی

GPT-4 کے ارد گرد سب سے زیادہ دلچسپ خیالات میں سے ایک ہے فوری کارروائی.

بڑے پیمانے پر زبان کے ماڈلز کے تناظر میں، ابھرنے سے مراد وہ صلاحیتیں ہیں جو غیر متوقع طور پر ظاہر ہوتی ہیں کیونکہ ماڈل بڑا اور زیادہ قابل ہوتا ہے۔ تمام شعبوں میں بغیر کسی رکاوٹ کے بہتر ہونے کے بجائے، ماڈل کے ایک خاص پیمانے پر پہنچنے پر کچھ ٹیکنالوجیز "آن” ہوتی نظر آتی ہیں۔

GPT-3 نے پہلے ہی چند شاٹ لرننگ اور سیاق و سباق میں موافقت کے ذریعے اس رجحان کا اشارہ دیا ہے۔ GPT-4 اس رجحان کو مزید مضبوطی سے جاری رکھے ہوئے ہے۔

رپورٹ کے مطابق پیمانہ بڑھنے سے بہت سی خصوصیات غیر خطی طور پر بہتر ہوتی ہیں۔

سیدھے الفاظ میں، ماڈل کے سائز یا حساب کو دوگنا کرنے سے ایک ہی کام پر اس کی کارکردگی میں قدرے بہتری نہیں آتی۔ کبھی کبھی، آپ مکمل طور پر نئے رویے بھی دیکھ سکتے ہیں جو چھوٹے سسٹمز میں کمزور یا غیر حاضر تھے۔

یہ خاص طور پر تشخیصی کاموں میں نمایاں ہے۔

GPT-4 GPT-3.5 کے مقابلے میں کوڈنگ، ریاضیاتی استدلال، علمی تشخیص، مندرجہ ذیل ہدایات، اور ساختی مسائل کے حل میں نمایاں بہتری دکھاتا ہے۔

رپورٹ میں اس بات پر بھی روشنی ڈالی گئی ہے کہ کس طرح پروموشن کی حکمت عملی بڑے پیمانے پر زیادہ موثر ہو سکتی ہے۔

چند شاٹ پرامپٹس (جہاں ماڈل پرامپٹ کے اندر موجود مثالوں سے سیکھتا ہے) پچھلے سسٹمز کے مقابلے GPT-4 میں بہت زیادہ قابل اعتماد طریقے سے کام کرتے ہیں۔ اسی طرح، سوچ کا سلسلہ استدلال کے بھاری کاموں کے لیے بہت زیادہ مفید ہے۔

GPT-4 اکثر مسائل کے بارے میں قدم بہ قدم استدلال کر کے کارکردگی کو بہتر بنا سکتا ہے بجائے اس کے کہ پرواز پر جوابات پیدا کریں۔

جو چیز اسے اہم بناتی ہے وہ یہ ہے کہ ان صلاحیتوں کو واضح طور پر سسٹم میں پروگرام نہیں کیا گیا ہے۔ ماڈل اب بھی بنیادی طور پر اگلے ٹوکن کی پیشن گوئی کرکے تربیت یافتہ ہے۔ تاہم، کافی پیمانے پر درج ذیل رویہ ممکن ہے:

یہ بہت زیادہ طاقتور نظر آنے لگا۔

متوقع توسیع کے بارے میں رپورٹ کی بحث بھی اس خیال سے براہ راست تعلق رکھتی ہے۔ اوپن اے آئی وضاحت کرتا ہے کہ اسکیلنگ قوانین کا استعمال کرتے ہوئے چھوٹے ٹریننگ رنز کے ذریعے GPT-4 کی صلاحیتوں کا اندازہ لگانا اکثر ممکن ہوتا ہے۔

ایک ہی وقت میں، کچھ رویے اب بھی واضح طور پر پیش گوئی کرنا مشکل ہیں. کاغذ ایسے معاملات کو بھی نوٹ کرتا ہے جہاں کچھ کام غیر متوقع طور پر بہتر ہوتے ہیں یا ماڈل کے بڑھنے کے ساتھ ساتھ پچھلے سکیلنگ کے رجحانات کو ریورس کرتے ہیں۔

تاریخی طور پر، GPT-4 GPT سیریز کے سب سے بڑے اسباق میں سے ایک کو تقویت دیتا ہے۔ یعنی، بڑے پیمانے پر زبان کے ماڈل صرف اس طرح زیادہ روانی نہیں ہوتے جیسے وہ پیمانہ کرتے ہیں۔ وہ معیار کے لحاظ سے مختلف طرز عمل کا مظاہرہ کرنا شروع کر دیتے ہیں۔

اس احساس نے بنیادی طور پر AI تحقیق کو تبدیل کردیا۔ زبان کے ماڈلز کو تنگ این ایل پی سسٹم کے طور پر سمجھنے کے بجائے، محققین انہیں عام مقصد کے سیکھنے کے نظام کے طور پر دیکھنا شروع کر رہے ہیں جس میں توسیعات، صف بندی، اور بہتر تربیتی طریقوں کے ذریعے ابھرتے رہنے کی صلاحیت ہے۔

پابندیاں

اپنے متاثر کن بینچ مارک نتائج اور ملٹی موڈل صلاحیتوں کے باوجود، GPT-4 تکنیکی رپورٹ حیرت انگیز طور پر براہ راست ماڈل کی کمزوریوں کو بیان کرتی ہے۔

کاغذ اس بات کا اعادہ کرتا ہے کہ GPT-4 اب بھی مکمل طور پر قابل اعتماد نہیں ہے۔

سب سے بڑا مسئلہ اب بھی ہے۔ فریب.

پچھلے GPT سسٹمز کی طرح، GPT-4 اعتماد کے ساتھ غلط، ہیرا پھیری، یا گمراہ کن معلومات پیدا کر سکتا ہے۔ بنیادی حقائق غلط ہونے پر بھی ماڈل بہت ہی قائل کرنے والے جوابات پیدا کر سکتا ہے۔

یہ خاص طور پر خطرناک ہے کیونکہ GPT-4 اکثر اپنے پیشرو سے زیادہ روانی اور قائل ہے۔ درحقیقت، زبان کی مضبوط پیداوار صارفین کے لیے غلطیوں کی نشاندہی کرنا زیادہ مشکل بنا سکتی ہے۔

رپورٹ میں بھی بحث کی گئی ہے۔ استدلال کی ناکامی.

اگرچہ GPT-4 بہت سے بینچ مارکس پر GPT-3.5 سے نمایاں طور پر بہتر کارکردگی کا مظاہرہ کرتا ہے، لیکن یہ نسبتاً سادہ منطقی کارروائیوں میں ناکام ہو سکتا ہے، ریاضی کی غلطیاں کر سکتا ہے، یا طویل قیاساتی زنجیروں کے دوران ٹوٹ سکتا ہے۔

ایک اور اہم پابندی ہے۔ حد سے زیادہ اعتماد.

GPT-4 قدرتی طور پر "جانتا ہے جب یہ نہیں جانتا ہے۔” یہ ماڈلز اعلیٰ اعتماد کے ساتھ غیر یقینی یا غلط جوابات دے سکتے ہیں، جو کہ ادویات، قانون، تعلیم یا سائبرسیکیوریٹی جیسی اعلیٰ خطرے والی صورتحال میں خطرہ لاحق ہوتے ہیں۔

رپورٹ میں یہ بھی بتایا گیا ہے کہ GPT-4 کے علم کی حدود ہیں۔ ماڈل کا زیادہ تر تربیتی ڈیٹا ستمبر 2021 کے آس پاس ختم ہو جائے گا۔ اس کا مطلب ہے کہ سسٹم میں بعد کے کئی واقعات کے بارے میں قابل اعتماد آگاہی کا فقدان ہے۔

ایک خاص طور پر دلچسپ سیکشن یہ ہے: انشانکن.

رپورٹ کے مطابق، پہلے سے تربیت یافتہ GPT-4 ماڈل دراصل کافی اچھی طرح سے کیلیبریٹڈ تھا۔ یعنی، ماڈل کا اعتماد اکثر اس کی درستگی کے امکان سے ملتا ہے۔ تاہم، تربیت کے بعد کی صف بندی اور RLHF نے کچھ معاملات میں اصلاح کے معیار کو کم کر دیا۔

یہ ایک اہم تجارت کو بے نقاب کرتا ہے۔ کسی ماڈل کو زیادہ کارآمد اور سیدھ میں رکھنا خود بخود اسے درست یا بہتر کیلیبریٹ نہیں کرتا ہے۔

مقالہ بھی ایماندارانہ ہے۔ تعصب اور غیر محفوظ رویہ.

چونکہ GPT-4 بڑے، انٹرنیٹ پیمانہ ڈیٹا سیٹس سے سیکھتا ہے، یہ اب بھی تربیتی ڈیٹا میں موجود سماجی تعصبات، دقیانوسی تصورات، اور مسائل زدہ نمونوں کی عکاسی کر سکتا ہے۔

اگرچہ OpenAI نقصان دہ نتائج کو کم کرنے کی وسیع کوششوں پر بحث کرتا ہے، لیکن رپورٹ واضح طور پر تسلیم کرتی ہے کہ غیر محفوظ رویہ اب بھی ممکن ہے۔

ایک مثال یہ ہے: باگنی: مخالفانہ اشارے یا ہوشیار ڈائیلاگ ہیرا پھیری کا استعمال کرتے ہوئے حفاظتی طریقہ کار کو نظرانداز کرنے کی کوشش۔ رپورٹ کے مطابق، GPT-4 کے حفاظتی نظام نقصان دہ رویے کو نمایاں طور پر کم کرتے ہیں، لیکن پرعزم صارفین اب بھی بعض اوقات خطرناک یا پالیسی کی خلاف ورزی کرنے والے نتائج پیدا کر سکتے ہیں۔

مقالے میں اس بات پر بھی زور دیا گیا ہے کہ GPT-4 پر اضافی تحفظات، انسانی نگرانی، یا تصدیقی نظام کے بغیر زیادہ خطرہ والے ماحول میں اندھا اعتماد نہیں کیا جانا چاہیے۔

یہ ایمانداری رپورٹ کے اس قدر اہم رہنے کی ایک وجہ ہے۔ GPT-4 کو ذہانت کی حل شدہ شکل کے طور پر پیش کرنے کے بجائے، OpenAI اسے ایک طاقتور لیکن نامکمل نظام کے طور پر تیار کرتا ہے جس کی صلاحیتیں بڑھتی ہیں جبکہ اس کے خطرات بھی ہوتے ہیں۔

تاریخی طور پر، یہ AI ریسرچ کلچر میں ایک بڑی تبدیلی کی عکاسی کرتا ہے۔

پچھلے کاغذات بنیادی طور پر کارکردگی کو بہتر بنانے پر مرکوز تھے۔ GPT-4 صلاحیتوں پر برابر زور دیتا ہے۔ اور ناکامی کے طریقوں، کیونکہ ایک بار ایک ماڈل کو وسیع پیمانے پر تعینات کیا جاتا ہے، اس کی حدود کو سمجھنا اتنا ہی اہم ہو جاتا ہے جتنا اس کی طاقت کا مظاہرہ کرنا۔

حفاظت اور خطرہ

GPT-4 کے جاری ہونے تک AI فیلڈ میں تبدیلی آنے والی واضح ترین علامتوں میں سے ایک یہ ہے کہ رپورٹ کا ایک اہم حصہ حفاظت، خطرے کے تجزیہ اور تعیناتی کے مسائل کے لیے وقف ہے۔

پچھلے جی پی ٹی مضامین میں بنیادی طور پر خصوصیت میں اضافہ، اسکیلنگ رویے، اور بینچ مارک کی کارکردگی پر توجہ مرکوز کی گئی ہے۔ GPT-4 تکنیکی رپورٹ اب بھی ان موضوعات پر بحث کرتی ہے، لیکن حفاظت ثانوی بحث کے بجائے انجینئرنگ کا بنیادی موضوع بن جاتا ہے۔

رپورٹ کے مطابق اوپن اے آئی کے پاس ایک وسیع رینج ہے۔ سرخ ٹیم تعیناتی سے پہلے مخالفانہ جانچ۔

ریڈ ٹیمنگ میں نظام کو جان بوجھ کر کریش کرنے، حفاظتی آلات کو نظرانداز کرنے، غیر محفوظ پیداوار کا سبب بننے، یا خطرناک رویے کو بے نقاب کرنے کی کوششیں شامل ہیں۔ OpenAI نے سائبر سیکیورٹی، غلط معلومات، کیمیائی اور حیاتیاتی خطرات جیسے شعبوں میں خطرات کا اندازہ لگانے کے لیے بیرونی ڈومین کے ماہرین کے ساتھ کام کیا۔

اس قسم کی جانچ ذہنیت میں ایک بڑی تبدیلی کی عکاسی کرتی ہے۔

مقصد اب صرف یہ نہیں تھا کہ "کیا ماڈل کچھ متاثر کن کر سکتا ہے؟” لیکن یہ بھی: "جب عالمی سطح پر قابل نظاموں کا غلط استعمال کیا جائے تو کیا ہوتا ہے؟”

رپورٹ بار بار مندرجہ ذیل خدشات پر بحث کرتی ہے: خطرناک کمانڈز تیار کرنا.

اپنی داخلی تشخیص کے دوران، ہم نے ایسی مثالوں کی نشاندہی کی جہاں GPT-4 کے پچھلے ورژن خطرناک مواد، قابل اعتراض مواد، یا استحصالی طریقوں سے متعلق غیر محفوظ یا نقصان دہ معلومات پیدا کر سکتے ہیں۔ OpenAI عوامی تعیناتی سے پہلے ان خطرات کو نمایاں طور پر کم کرنے کے لیے RLHF، سیفٹی فائن ٹیوننگ، اصول پر مبنی ریوارڈ ماڈلز، اور پالیسی سسٹمز کا استعمال کرتا ہے۔

سائبرسیکیوریٹی کے مسائل پر بھی خاصی توجہ دی جارہی ہے۔ یہ رپورٹ اس سے منسلک خطرات پر بحث کرتی ہے:

اگرچہ GPT-4 کو ایک خود مختار ہیکنگ سسٹم کے طور پر پیش نہیں کیا گیا ہے، OpenAI واضح طور پر تسلیم کرتا ہے کہ اگر غیر ذمہ دارانہ طور پر تعینات کیا گیا ہے تو تیزی سے قابل زبان ماڈل موجودہ سائبر سیکیورٹی کے خطرات کو بڑھا سکتے ہیں۔

ایک اور موضوع خاص اہمیت کا حامل ہے۔ بایو سیکیوریٹی.

رپورٹ میں وضاحت کی گئی ہے کہ اس شعبے کے ماہرین نے اس بات کا جائزہ لیا کہ آیا GPT-4 نقصان دہ حیاتیاتی یا کیمیائی علم کے حامل صارفین کو بامعنی مدد فراہم کر سکتا ہے۔ OpenAI نے خاص طور پر تحقیق کی کہ آیا اس کے ماڈل خطرناک غلط استعمال کی راہ میں حائل رکاوٹوں کو کم کرنے میں مدد کر سکتے ہیں۔

یہ پہلی بار میں سے ایک تھا جب ایک بڑے AI پیپر نے عوامی طور پر اعلی سطحی زبان کے ماڈلز کو حقیقی دنیا کے حفاظتی مضمرات کے ساتھ ممکنہ دوہری استعمال کی ٹیکنالوجی کے طور پر خطاب کیا۔

رپورٹ میں اس بات پر بھی زور دیا گیا ہے: تعیناتی کی نگرانی اور بار بار حفاظتی بہتری۔

حفاظت کو کسی ایسی چیز کے طور پر سمجھنے کے بجائے جس پر ریلیز سے پہلے توجہ دی جاتی ہے، OpenAI خود کو سیکھنے کے عمل کے حصے کے طور پر تعینات کرتا ہے۔ صارف کے تعاملات کی نگرانی کرنا، ناکامی کے طریقوں کی نشاندہی کرنا، حفاظتی تدابیر کو اپ ڈیٹ کرنا، اور انکار کے نظام کو بہتر بنانا ایک وقتی تحقیقی کاموں کی بجائے جاری آپریشنل ذمہ داریاں بن گئی ہیں۔

تاریخی طور پر، یہ حصہ پوری رپورٹ کے سب سے اہم حصوں میں سے ایک ہو سکتا ہے۔

GPT-4 اس لمحے کو نشان زد کرتا ہے جب AI سیفٹی ایک مخصوص تحقیقی بحث سے فلیگ شپ فرنٹیئر ماڈل کی ترقی کے بنیادی جزو کی طرف منتقل ہو گئی۔

یہ تبدیلیاں پوری صنعت میں گہری بیداری کی عکاسی کرتی ہیں۔ ایک بار جب AI سسٹمز بڑے پیمانے پر تعیناتی کے لیے کافی طاقتور ہو جاتے ہیں، تو فعالیت کو بہتر بنانا اور خطرے کا انتظام کرنا انجینرنگ کے لیے لازم و ملزوم چیلنجز بن جاتا ہے۔

دلیل

GPT سیریز پر نظر ڈالتے ہوئے، GPT-4 کسی ایک ریسرچ ماڈل کے آغاز کے بجائے ایک نئے کمپیوٹنگ پلیٹ فارم کے آغاز جیسا محسوس ہوتا ہے۔

GPT-1 نے بڑے پیمانے پر زبان کی لغت سیکھنے کا آئیڈیا متعارف کرایا ہے۔ GPT-2 نے صفر شاٹ ملٹی ٹاسکنگ رویے کا مظاہرہ کیا۔ GPT-3 نے ظاہر کیا کہ ماڈل فوری طور پر اور سیاق و سباق میں سیکھنے کے ذریعے اپنا سکتا ہے۔

لیکن GPT-4 بات چیت کو دوبارہ تبدیل کرتا ہے۔

ایک تکنیکی رپورٹ کے مطابق، اب توجہ صرف ماڈلز کو بڑا بنانے یا بینچ مارک سکور بڑھانے پر نہیں ہے۔ رپورٹ بار بار وشوسنییتا، تعیناتی، صف بندی، انفراسٹرکچر، ملٹی موڈل تعامل، اور حفاظتی انجینئرنگ پر زور دیتی ہے۔

تبدیلی تاریخی طور پر اہم ہے۔

پچھلے GPT پیپرز کو ایسا محسوس ہوا جیسے بنیادی طور پر مشین لرننگ کمیونٹی کے لیے شائع کردہ تحقیقی سنگ میل۔ GPT-4 ایک بنیادی ڈھانچے کی طرح محسوس ہوتا ہے جو عالمی سطح پر حقیقی دنیا کی تعیناتیوں کے لیے ڈیزائن کیا گیا ہے۔

یہ خاص طور پر ChatGPT جیسے سسٹمز کے ساتھ واضح ہوتا ہے۔

GPT-4 کو محض ڈاؤن لوڈ کے قابل تحقیقی پروڈکٹ یا بینچ مارک ماڈل کے طور پر جاری نہیں کیا گیا تھا۔ اس کے بجائے، یہ AI مصنوعات کے پورے ماحولیاتی نظام کا حصہ بن گیا ہے۔

درحقیقت، GPT-4 نے بڑے پیمانے پر زبان کے ماڈلز کو الگ تھلگ تحقیقی مظاہروں سے مسلسل تعینات سافٹ ویئر پلیٹ فارمز میں تبدیل کرنے میں مدد کی ہے۔

ایک اور بڑی تبدیلی فرنٹیئر اے آئی سسٹمز کے ارد گرد بڑھتی ہوئی رازداری ہے۔

GPT-2 اور GPT-3 کے برعکس، GPT-4 رپورٹ جان بوجھ کر بہت سی تکنیکی تفصیلات کو چھوڑ دیتی ہے، بشمول پیرامیٹرز کی تعداد، تعمیراتی تفصیلات، تربیتی کمپیوٹ، اور ڈیٹاسیٹ کی تعمیر۔

OpenAI جزوی طور پر حفاظتی خدشات اور مسابقتی ماحول کے ذریعے اس کی وضاحت کرتا ہے، لیکن وسیع تر مضمرات اہم ہیں۔ جدید ترین AI ماڈل خالصتاً تعلیمی تحقیقی منصوبوں کی بجائے حکمت عملی کے لحاظ سے قابل قدر ٹیکنالوجی بن رہے ہیں۔

یہ بڑے پیمانے پر AI کی ترقی میں ایک بہت زیادہ بند دور کے آغاز کی نشاندہی کرتا ہے۔

رپورٹ میں یہ بھی بتایا گیا ہے کہ کیوں۔ ایڈجسٹمنٹ تو یہ ایک مرکزی تشویش بن گیا۔

جیسے جیسے زبان کے ماڈلز کی کارکردگی میں بہتری آئی، اسی طرح فریب کاری، نقصان دہ پیداوار، سائبرسیکیوریٹی کے غلط استعمال، غلط معلومات اور غیر محفوظ اندازے سے وابستہ خطرات بھی بڑھے۔ GPT-4 بہتری کی اختیاری پرت کے بجائے سیدھ کو بنیادی انجینئرنگ کی ضرورت کے طور پر دیکھتا ہے۔

یہ اے آئی سسٹمز کی تاریخ میں ایک اور بڑی تبدیلی ہے۔

پچھلے ماڈلز کا بنیادی طور پر فعالیت کے لیے جائزہ لیا گیا تھا۔

درستگی
شرمندگی
بینچ مارک سکور
توسیع شدہ سلوک

GPT-4 مندرجہ ذیل بحث کو بڑھاتا ہے:

حفاظت
تعیناتی کی نگرانی
انکار کا رویہ
پالیسی کا نفاذ
انسانی نگرانی
آپریشنل وشوسنییتا

ماڈلز کو اب صرف اس بات پر نہیں لگایا جاتا کہ وہ کیا ہیں۔ ~ کر سکتے ہیں۔ مزید برآں، اس کا تعین اس بات سے ہوتا ہے کہ یہ حقیقی دنیا کے ماحول میں کتنی محفوظ اور مستقل طور پر کام کرتا ہے۔

بہت سے طریقوں سے، GPT-4 جدید ٹیکنالوجی کے عروج کی علامت ہے۔ بنیادی ماڈل ماحولیاتی نظام.

ہر انفرادی کام کے لیے علیحدہ نظام کی تربیت دینے کے بجائے، ایک بڑا سیدھ ماڈل متعدد ایپلی کیشنز کے لیے مشترکہ بنیاد کے طور پر کام کر سکتا ہے۔

کوڈنگ
ٹیوشن
تلاش کریں
تحریر
تحقیق کی حمایت
کسٹمر سپورٹ
ملٹی موڈل تعامل
انٹرپرائز ورک فلو

اس خیال نے سافٹ ویئر انڈسٹری کو بنیادی طور پر تبدیل کر دیا۔

تاریخی طور پر، GPT-4 کو بالآخر اس کے سنگل بینچ مارک کے نتائج کے لیے کم اور اس کی نمائندگی کرنے کے لیے زیادہ یاد رکھا جا سکتا ہے: وہ لمحہ جب بڑے پیمانے پر زبان کے ماڈل ایک عملی، مسلسل تعینات عام مقصد کے AI انفراسٹرکچر بن گئے۔

نتیجہ

GPT-4 تکنیکی رپورٹ جدید AI سسٹمز کی تاریخ میں اہم ترین موڑ کی نشاندہی کرتی ہے۔

رپورٹ کے مطابق، GPT-4 محض ایک بڑی زبان کا ماڈل نہیں ہے۔ یہ ایک ملٹی موڈل الائنمنٹ پر مبنی ماڈل ہے جو عالمی سطح پر حقیقی دنیا کی تعیناتیوں کے لیے ڈیزائن کیا گیا ہے۔

یہ ماڈل پوری GPT سیریز میں تیار کیے گئے کئی اہم خیالات کو یکجا کرتا ہے۔

بڑے پیمانے پر ٹرانسفارمر پری ٹریننگ
خود بخود اگلی ٹوکن پیشن گوئی
پیمانے کا قانون
چند پیغامات دکھائیں۔
متعدد قیاس آرائیاں
انسانی آراء کے ساتھ کمک سیکھنا
حفاظت پر مرکوز فالو اپ ٹریننگ

ایک ساتھ، یہ اجزاء ایک ایسا نظام بناتے ہیں جو پچھلے GPT ماڈلز سے معیار کے لحاظ سے مختلف محسوس کرتا ہے۔

GPT-4 ظاہر کرتا ہے کہ اب صرف اسکیلنگ ہی پوری کہانی نہیں رہی۔

GPT-3 نے یہ ظاہر کیا کہ بڑے ماڈل پیمانے کے ذریعے طاقتور ابھرتی ہوئی صلاحیتوں کو تیار کر سکتے ہیں۔ GPT-4 ظاہر کرتا ہے کہ صف بندی، حفاظتی انجینئرنگ، تربیت کے بعد کی بہتری، اور تعیناتی کا بنیادی ڈھانچہ مفید AI نظاموں کی تعمیر کے یکساں اہم حصے بن گئے ہیں۔

پیمانے اور صف بندی کا یہ امتزاج بالآخر جدید AI ترقی کے لیے غالب نمونہ بن گیا۔

رپورٹ پوری صنعت میں ہونے والی وسیع تر تبدیلی کی بھی عکاسی کرتی ہے۔

بڑے پیمانے پر زبان کے ماڈلز کو اب الگ تھلگ تحقیقی تجربات یا بینچ مارک سسٹم نہیں سمجھا جاتا ہے۔ GPT-4 نے پروڈکٹس، APIs، ملٹی موڈل اسسٹنٹس، کوڈنگ سسٹمز، انٹرپرائز ٹولز، اور عالمی سطح پر قابل رسائی بات چیت کے انٹرفیس جیسے ChatGPT کے ذریعے AI کو حقیقی دنیا کی تعیناتیوں میں آگے بڑھایا ہے۔

تاریخی طور پر، GPT-4 اس لمحے کی نمائندگی کرتا ہے جب ایک بنیادی ماڈل روزمرہ کی کمپیوٹنگ کے لیے ایک عملی بنیادی ڈھانچہ بن گیا۔

اور وہ تبدیلیاں آج بھی جدید AI کی سمت کو تشکیل دیتی ہیں۔

حتمی بصیرت

اگر آپ پوری جی پی ٹی سیریز پر نظر ڈالیں تو جو کچھ ہو رہا ہے وہ بالکل واضح ہو جاتا ہے۔

GPT-1 یہ خیال پیش کرتا ہے کہ قابل منتقلی زبان کی نمائندگی بڑے پیمانے پر لغت سیکھنے کے ذریعے پیدا کی جا سکتی ہے۔ ہر کام کے لیے ایک الگ NLP سسٹم کو شروع سے تربیت دینے کے بجائے، ماڈل پہلے عام زبان کے نمونے سیکھ سکتا ہے اور پھر فائن ٹیوننگ کے ذریعے اپنایا جا سکتا ہے۔

GPT-2 اس خیال کو یہ دکھا کر مزید آگے لے جاتا ہے کہ زبان کا کافی بڑا ماڈل زیرو شاٹ سیٹنگ میں واضح زیر نگرانی سیکھنے کے بغیر کام انجام دے سکتا ہے۔ ماڈلز اب صرف کاموں کو حفظ کرنے کے بارے میں نہیں تھے، بلکہ زبان سے ہی عام کرنا شروع کر رہے تھے۔

GPT-3 ایک بار پھر تمثیل کو تبدیل کرتا ہے۔ چند شاٹ پرامپٹس اور سیاق و سباق میں سیکھنے سے یہ ظاہر ہوتا ہے کہ ماڈل پرامپٹ کے اندر لکھی گئی مثالوں کے ذریعے قیاس کے دوران متحرک طور پر موافقت کر سکتا ہے۔ اس نے AI سسٹمز کے ساتھ تعامل کے لیے پرامپٹ کو ایک نئے انٹرفیس میں تبدیل کر دیا۔

GPT-4 نے پھر اس خیال کو بہت بڑی چیز میں پھیلا دیا۔ فوکس اب صرف ماڈلز کی پیمائش یا بینچ مارک کو بہتر بنانے پر نہیں تھا۔ GPT-4 آرڈر شدہ ملٹی موڈ پر مبنی ماڈلز کے دور کا آغاز کرتا ہے۔ ایک نظام ایک ایسا نظام ہے جو نہ صرف زبان پیدا کرنے کے لیے بنایا گیا ہے، بلکہ محفوظ طریقے سے کام کرنے، ہدایات پر عمل کرنے، طریقہ کار میں استدلال کرنے، اور حقیقی دنیا کی ایپلی کیشنز کے لیے قابل استعمال انفراسٹرکچر کے طور پر کام کرنے کے لیے بنایا گیا ہے۔

تاریخی طور پر، یہ سب سے اہم تبدیلی ہو سکتی ہے۔

GPT-4 صرف ایک بڑی زبان کا ماڈل نہیں تھا۔

یہ تجرباتی بڑے پیمانے پر لینگویج ماڈلز سے عالمی سطح پر تعینات AI معاونین میں منتقلی کی نمائندگی کرتا ہے جو روزمرہ کمپیوٹنگ، سافٹ ویئر ڈویلپمنٹ، تعلیم، پیداواری ٹولز، اور ملٹی موڈل ہیومن کمپیوٹر انٹریکشن میں شامل ہیں۔

اور بہت سے طریقوں سے، ہم صرف منتقلی کے آغاز میں ہیں۔

GPT-1 بمقابلہ GPT-2 بمقابلہ GPT-3 بمقابلہ GPT-4: کلیدی فرق

یہ دیکھنے کا ایک آسان طریقہ کہ GPT سیریز کس طرح تیار ہوئی ہے یہ دیکھنا ہے کہ ہر نسل نے کیا متعارف کرایا ہے۔

GPT-1 نے جدید ترین لغت کی تربیت متعارف کرائی، GPT-2 نے دکھایا کہ بڑے پیمانے پر لینگویج ماڈل صفر شاٹ پرامپٹ کے ساتھ کام انجام دے سکتے ہیں، GPT-3 نے چند شاٹ پرامپٹس اور سیاق و سباق میں سیکھنے کو مرکزی دھارے میں دھکیل دیا، اور GPT-4 نے چھانٹی، ملٹی موڈل انفرنس، اور حقیقی دنیا کی ڈیپلومنٹس کے ساتھ خیال کو مزید وسعت دی۔

نیچے دیا گیا موازنہ ظاہر کرتا ہے کہ کس طرح توجہ دھیرے دھیرے کام کے مخصوص NLP ماڈلز سے عمومی مقصد کے AI سسٹمز کی طرف منتقل ہو رہی ہے جو گفتگو، کوڈنگ، استدلال، اور ملٹی موڈل تفہیم کے قابل ہیں۔

طرف	GPT-1	GPT-2	GPT-3	GPT-4
بنیادی خیال	پری ٹریننگ کے بعد فائن ٹیوننگ	زیرو شاٹ آپریشن صرف پیشگی تربیت کے ساتھ ممکن ہے۔	کچھ شاٹ اور سیاق و سباق سے متعلق مخصوص سیکھنا بڑے پیمانے پر پیشگی سیکھنے کے ذریعے ممکن ہے۔	عام مقصد کی تعیناتی کے لیے ملٹی موڈ پر مبنی ماڈل کو منسلک کیا۔
تربیت کا نقطہ نظر	مرحلہ 2 پائپ لائن: پری ٹریننگ پھر ٹھیک ٹیوننگ	سنگل قدمی زبان کی ماڈلنگ	یہ ایک ہی زبان کی ماڈلنگ کا طریقہ ہے، لیکن بڑے پیمانے پر پھیلا ہوا ہے۔	RLHF، بڑے پیمانے پر پری ٹریننگ سیفٹی ٹیوننگ اور ملٹی موڈل پوسٹ ٹریننگ کے ساتھ مل کر
نگرانی	ڈاؤن اسٹریم آپریشنز کے لیے آپ کو لیبل والے ڈیٹا کی ضرورت ہے۔	آپ بغیر کسی زیر نگرانی فائن ٹیوننگ کے کام کروا سکتے ہیں۔	دوبارہ تربیت کے بغیر اشارے اور مثالوں کے ذریعے موافقت پذیر	گائیڈ لائن کی تعمیل اور حفاظت کو بہتر بنانے کے لیے الائنمنٹ ٹریننگ اور RLHF کا استعمال کریں۔
ٹاسک پروسیسنگ	ہر کام کے لیے علیحدہ فائن ٹیوننگ	آپریشنز بنیادی طور پر زیرو شاٹ پرامپٹس کے ذریعے سنبھالے جاتے ہیں۔	زیرو شاٹ، ون شاٹ، اور چند شاٹ پرامپٹس کے ذریعے سنبھالے گئے کام	انٹرایکٹو پرامپٹس، ملٹی موڈل تعامل، اور ترتیب شدہ جوابات کے ذریعے سنبھالے گئے اعمال
سیکھنے کا انداز	اظہار سیکھنے کے بعد تخصص	عام زبان کے نمونے سیکھیں۔	صورتحال سے براہ راست اعمال کا اندازہ لگانے کا طریقہ سیکھیں۔	سیاق و سباق پر منحصر استدلال، ملٹی موڈل تفہیم، اور ترتیب شدہ تعامل کا رویہ سیکھیں۔
عام کرنا	محدود بیرونی فائن ٹیوننگ آپریشنز	مضبوط کراس ٹاسک جنرلائزیشن	بہت زیادہ طاقتور سیاق و سباق کی موافقت اور سیاق و سباق میں سیکھنا	زبان، وژن، کوڈنگ، اور استدلال کے کاموں میں وسیع ملٹی موڈل جنرلائزیشن۔
اشارے استعمال کرنے کا طریقہ	کم سے کم اہمیت	اشارے مفید ہو جاتے ہیں۔	اشارے سسٹم کے آپریشن کے لیے مرکزی بن جاتے ہیں۔	پرامپٹس AI سسٹمز کا بنیادی تعامل انٹرفیس بن جاتے ہیں۔
اندازہ رویہ	تربیت کے بعد زیادہ تر جامد	قیاس کے دوران عام کر سکتے ہیں۔	یہ قیاس کے دوران متحرک طور پر ڈھال سکتا ہے۔	منسلک بات چیت کا رویہ آپ کو متن اور تصاویر میں انٹرایکٹو طریقے سے استدلال کرنے کی اجازت دیتا ہے۔
فن تعمیر	ٹرانسفارمر (ڈیکوڈر پر مبنی)	ڈیکوڈر وقف ٹرانسفارمر	بڑے پیمانے پر اسکیلنگ کے ساتھ صرف ڈیکوڈر ٹرانسفارمر	ٹرانسفارمر پر مبنی ملٹی موڈل آٹوریگریسو ماڈل
ماڈل سائز	~117M پیرامیٹرز	1.5B پیرامیٹرز تک	175B پیرامیٹرز تک	OpenAI پر عوامی نہیں ہے۔
سیاق و سباق کی کھڑکی	چھوٹے سیاق و سباق کی لمبائی	1024 ٹوکن تک	2048 ٹوکن سیاق و سباق کی ونڈو	ملٹی موڈل ان پٹ کے ساتھ بہت زیادہ سیاق و سباق کو سنبھالنا
تربیت کے اعداد و شمار	کارپورا اور کیوریٹڈ ڈیٹا سیٹ بک کریں۔	ویب ٹیکسٹ انٹرنیٹ ڈیٹا سیٹ	کامن کرال، ویب ٹیکسٹ، کتابیں، اور ویکیپیڈیا سمیت بڑے ملٹی سورس ڈیٹا سیٹس	بڑے ملٹی موڈل اور انٹرنیٹ پیمانے پر ڈیٹاسیٹ (تفصیلات ظاہر نہیں کی گئیں)
اہم خصوصیات	منتقلی سیکھنے	زیرو شاٹ لرننگ	کچھ شاٹ اور ان سیٹو سیکھنا	ملٹی موڈل استدلال اور منسلک AI کے لیے سپورٹ
کارکردگی کا انداز	ٹھیک ٹیوننگ کے بعد مضبوط	ملازمت کی مخصوص تربیت کے بغیر بھی مضبوط	یہ اکثر ٹھیک ٹیونڈ سسٹمز سے مقابلہ کرتا ہے جو صرف اشارے استعمال کرتے ہیں۔	یہ اکثر کئی بینچ مارکس میں پچھلے جدید ترین نظاموں کو پیچھے چھوڑ دیتا ہے۔
اسکیلنگ کی اہمیت	عام	اہم	مقالے کی مرکزی تحقیقی حکمت عملی	چھانٹی کے ساتھ مل کر پیمانہ غالب نمونہ بن جاتا ہے۔
اہم حدود	لیبل شدہ ڈیٹاسیٹ اور دوبارہ تربیت کی ضرورت ہے۔	کمزور تخمینہ اور متضاد صفر شاٹ سلوک	بہت مہنگی حساب کی ضروریات اور محدود مسلسل تخمینہ	فریب، سیدھ میں تجارت، حفاظتی خطرات، اور شفافیت کی کمی۔
اہم شراکت	جدید ترین NLP پری ٹریننگ پیراڈائم کا تعارف	ملٹی ٹاسکنگ زیرو شاٹ آپریشن کا مظاہرہ	پیمانے پر ہنگامی حالات میں سیکھنے کا مظاہرہ کریں۔	ایک ملٹی موڈ پر مبنی ماڈل پیش کر رہا ہے جو حقیقی دنیا کی تعیناتیوں کے لیے منسلک ہے۔
تاریخی اثر	جدید ٹرانسفارمر NLP کی بنیادی باتیں	عام مقصد کے لینگویج ماڈل میں منتقلی۔	پرامپٹ پر مبنی AI سسٹمز اور جدید LLM ایپلی کیشنز کی بنیاد	تجرباتی LLM سے عالمی سطح پر تعینات AI اسسٹنٹ تک
میدان میں کیا تبدیلی آئی ہے۔	پیشگی تربیت معمول بن گیا ہے۔	پرامپٹ قابل عمل ہو گیا ہے۔	پرامپٹس AI سسٹمز کے لیے ڈیفالٹ انٹرفیس بن گئے ہیں۔	اے آئی سسٹم قابل تعیناتی ملٹی موڈل انفراسٹرکچر پلیٹ فارم بن چکے ہیں۔
میراث	ایک جدید، الہامی ٹرانسفر لرننگ پائپ لائن	بڑے پیمانے پر پیدا کرنے والے ماڈلز سے متاثر	ChatGPT کا گائیڈنس کوآرڈینیشن اور بنیادی ماڈلز پر براہ راست اثر پڑا۔	منسلک، ملٹی موڈل AI ماحولیاتی نظام کے جدید دور کی تعریف کی۔

جی پی ٹی فن تعمیر کے ارتقاء کا پائ ٹارچ نفاذ

GPT-1: پری ٹریننگ + فائن ٹیوننگ فن تعمیر

class GPT1(nn.Module):
    def __init__(self, vocab_size, d_model, n_layers):
        super().__init__()

        self.token_embedding = nn.Embedding(vocab_size, d_model)
        self.position_embedding = nn.Embedding(512, d_model)

        self.transformer_blocks = nn.ModuleList([
            TransformerBlock(d_model)
            for _ in range(n_layers)
        ])

        self.ln_f = nn.LayerNorm(d_model)

        # Language modeling head
        self.lm_head = nn.Linear(d_model, vocab_size)

    def forward(self, input_ids):
        positions = torch.arange(input_ids.size(1))

        x = (
            self.token_embedding(input_ids)
            + self.position_embedding(positions)
        )

        for block in self.transformer_blocks:
            x = block(x)

        x = self.ln_f(x)

        logits = self.lm_head(x)

        return logits

GPT1 سے وراثت nn.ModulePyTorch میں نیورل نیٹ ورک بنانے کے لیے استعمال ہونے والی بیس کلاس ہے۔ کنسٹرکٹر (init) ماڈل میں استعمال ہونے والی تمام قابل تربیت پرتوں کی وضاحت کرتا ہے۔

nn.Embedding(vocab_size, d_model) ایک سیکھنے کے قابل تلاش ٹیبل بنائیں جو ٹوکن آئی ڈیز کو گھنے ویکٹرز میں تبدیل کرے۔ الفاظ میں ہر ٹوکن کو سائز کے ویکٹر پر نقش کیا جاتا ہے۔ d_model.

پوزیشنی ایمبیڈنگ پرت ٹوکن آرڈر کے بارے میں معلومات کا اضافہ کرتی ہے۔ چونکہ ٹرانسفارمر متوازی طور پر ٹوکن پر کارروائی کرتا ہے، اس لیے ترتیب کے ڈھانچے کو سمجھنے کے لیے اسے واضح پوزیشنی معلومات کی ضرورت ہوتی ہے۔

nn.ModuleList([...]) ایک سے زیادہ اسٹورز Transformer blocks جبکہ یہ بھی یقینی بناتا ہے کہ ٹریننگ کے دوران PyTorch پیرامیٹرز کو درست طریقے سے ٹریک کر رہا ہے۔ ہر ٹرانسفارمر بلاک میں عام طور پر نقاب پوش خود توجہ اور فیڈ فارورڈ نیٹ ورک ہوتے ہیں۔

nn.LayerNorm(d_model) آؤٹ پٹ پروجیکشن سے پہلے پرت نارملائزیشن کا اطلاق کریں۔ اس سے ٹریننگ کو مستحکم کرنے اور گہرے ٹرانسفارمر آرکیٹیکچرز میں تدریجی بہاؤ کو بہتر بنانے میں مدد ملتی ہے۔

زبان ماڈلنگ کے سربراہ (nn.Linear) پوشیدہ تاثرات کو لغوی جگہ میں پیش کرنا۔ آؤٹ پٹ سائز ہے: vocab_sizeاگلے تمام ممکنہ ٹوکنز کے لیے پیشین گوئی کے اسکور تیار کرتا ہے۔

اندرونی forward() طریقہ، input_ids.size(1) ترتیب کی لمبائی بازیافت کریں اور torch.arange(...) ہر ٹوکن لوکیشن کے لیے لوکیشن انڈیکس بنائیں۔

ایک ابتدائی ٹرانسفارمر ان پٹ نمائندگی بنانے کے لیے ٹوکن ایمبیڈنگز اور پوزیشن ایمبیڈنگز کو ایک ساتھ جوڑا جاتا ہے۔

ماڈل پھر ترتیب وار ہر ٹرانسفارمر بلاک کے ذریعے اپنی نمائندگی کو منتقل کرتا ہے۔

for block in self.transformer_blocks:
    x = block(x)

یہ تکراری اسٹیکنگ GPT ماڈل کو تیزی سے تجریدی سیاق و سباق کی نمائندگی سیکھنے کی اجازت دیتا ہے۔

نارملائزیشن کے بعد، آخری پوشیدہ حالت فراہم کی جاتی ہے۔ lm_headپیداوار logits. یہ لاگٹس غیر معمولی پیش گوئی شدہ اسکور ہیں جو اگلا ٹوکن بنانے کے امکان کا حساب لگانے کے لیے استعمال ہوتے ہیں۔

ماڈل آخر کار ایک لاگٹ ٹینسر لوٹاتا ہے، جو حسب معمول پاس ہوتا ہے۔ softmax براہ راست یا استدلال کے دوران استعمال کیا جاتا ہے۔ CrossEntropyLoss تربیت میں۔

GPT-2: زیرو شاٹ ملٹی ٹاسکنگ فن تعمیر

class GPT2(nn.Module):
    def __init__(self, vocab_size, d_model, n_layers):
        super().__init__()

        self.token_embedding = nn.Embedding(vocab_size, d_model)
        self.position_embedding = nn.Embedding(1024, d_model)

        self.transformer_blocks = nn.ModuleList([
            TransformerBlock(
                d_model=d_model,
                pre_layer_norm=True
            )
            for _ in range(n_layers)
        ])

        self.final_layer_norm = nn.LayerNorm(d_model)

        self.lm_head = nn.Linear(d_model, vocab_size, bias=False)

    def forward(self, input_ids):
        positions = torch.arange(input_ids.size(1))

        x = (
            self.token_embedding(input_ids)
            + self.position_embedding(positions)
        )

        for block in self.transformer_blocks:
            x = block(x)

        x = self.final_layer_norm(x)

        logits = self.lm_head(x)

        return logits

GPT-1 کی طرح، ماڈل ٹوکن ایمبیڈنگز اور لوکیشن ایمبیڈنگ کے ساتھ شروع ہوتا ہے۔ nn.Embedding یہ ٹوکن IDs کو گھنے ویکٹرز میں تبدیل کرتا ہے، جبکہ پوزیشنی ایمبیڈنگز ترتیب میں ٹوکن کی ترتیب کے بارے میں معلومات فراہم کرتی ہیں۔

ایک قابل ذکر فرق پوزیشنی ایمبیڈنگ سائز ہے (1024 اس کے بجائے 512)، GPT-2 کو طویل سیاق و سباق کو سنبھالنے کی اجازت دیتا ہے۔

ٹرانسفارمر کی تہوں کو استعمال کرکے محفوظ کیا جاتا ہے: nn.ModuleListلیکن ہر ایک TransformerBlock اب ہم استعمال کرتے ہیں:

pre_layer_norm=True

اس کا مطلب یہ ہے کہ پرت نارملائزیشن کو توجہ اور فیڈ فارورڈ آپریشنز کے بعد کے بجائے پہلے لاگو کیا جاتا ہے۔ یہ "پری-LN” ڈیزائن گہرے ٹرانسفارمر ماڈلز میں گریڈینٹ بہاؤ اور تربیتی استحکام کو نمایاں طور پر بہتر بناتا ہے۔

فارورڈ پاس اسی مجموعی پائپ لائن کی پیروی کرتا ہے۔

اس کا استعمال کرتے ہوئے مقام کا انڈیکس بنائیں: torch.arange()
ٹوکن اور مقام ایمبیڈنگز شامل کریں۔
جمع شدہ ٹرانسفارمر بلاکس کے ذریعے تاثرات کو منتقل کرنا
حتمی نارملائزیشن کا اطلاق کریں۔
لغوی جگہ میں پروجیکٹ آؤٹ پٹ

ترتیب وار بلاک پروسیسنگ یہاں ہوتی ہے۔

for block in self.transformer_blocks:
    x = block(x)

GPT-2 آؤٹ پٹ پرت میں چھوٹی اصلاحیں بھی متعارف کراتا ہے۔

self.lm_head = nn.Linear(d_model, vocab_size, bias=False)

تعصب کی اصطلاح کو ہٹا دیا گیا تھا کیونکہ یہ بڑے پیمانے پر لینگویج ماڈلنگ سیٹنگز میں بہت کم فائدہ پیش کرتا ہے اور صرف پیرامیٹرز کی تعداد کو تھوڑا کم کرتا ہے۔

ماڈل آخر کار واپس آ گیا ہے۔ logitsاس میں ہر ترتیب کی پوزیشن پر الفاظ کے تمام ٹوکنز کے لیے پیشین گوئی کے اسکور شامل ہیں۔

GPT-3: چند شاٹ/ان-سیاق و سباق سیکھنے کا فن تعمیر

class GPT3(nn.Module):
    def __init__(
        self,
        vocab_size=50257,
        d_model=12288,
        n_layers=96,
        n_heads=96,
        context_length=2048
    ):
        super().__init__()

        self.token_embedding = nn.Embedding(vocab_size, d_model)
        self.position_embedding = nn.Embedding(context_length, d_model)

        self.transformer_blocks = nn.ModuleList([
            TransformerBlock(
                d_model=d_model,
                n_heads=n_heads,
                pre_layer_norm=True,
                sparse_attention=True
            )
            for _ in range(n_layers)
        ])

        self.final_layer_norm = nn.LayerNorm(d_model)

        self.lm_head = nn.Linear(
            d_model,
            vocab_size,
            bias=False
        )

    def forward(self, input_ids):
        positions = torch.arange(input_ids.size(1))

        x = (
            self.token_embedding(input_ids)
            + self.position_embedding(positions)
        )

        for block in self.transformer_blocks:
            x = block(x)

        x = self.final_layer_norm(x)

        logits = self.lm_head(x)

        return logits

پچھلے جی پی ٹی ورژن کے مقابلے، یہ ماڈل ڈرامائی طور پر پیمانے کو بڑھاتا ہے۔ سرایت کا سائز (d_model=12288) اور کنورٹر پرتوں کی تعداد (96) نیٹ ورک بہت پیچیدہ زبان کے نمونے اور لمبی دوری پر انحصار سیکھ سکتے ہیں۔

ماڈل بھی استعمال کریں۔ 96 سر توجہ:

n_heads=96

ملٹی ہیڈ توجہ ماڈل کو ٹوکن کے درمیان بیک وقت متعدد رشتوں پر توجہ مرکوز کرنے کی اجازت دیتی ہے، جس سے سیاق و سباق کی سمجھ میں بہتری آتی ہے۔

پوزیشنی ایمبیڈنگ کی لمبائی کے پیمانے مندرجہ ذیل ہیں: 2048ماڈل کو GPT-2 کے مقابلے میں زیادہ طویل ترتیب کو ہینڈل کرنے کی اجازت دیتا ہے۔

ہر ٹرانسفارمر بلاک پر مشتمل ہے:

pre_layer_norm=True,
sparse_attention=True

پری لیئر نارملائزیشن بہت گہرے نیٹ ورکس میں تربیتی استحکام کو بہتر بناتی ہے، جبکہ کم توجہ ایک دوسرے کے ساتھ حصہ لینے والے ٹوکنز کی تعداد کو محدود کرکے توجہ کی کمپیوٹیشنل لاگت کو کم کرتی ہے۔ یہ GPT-3 پیمانے پر اہم ہو جاتا ہے، جہاں طویل ترتیب پر پوری توجہ دینا بہت مہنگا ہے۔

فارورڈ پاس معیاری GPT پائپ لائن کی پیروی کرتا ہے۔

ٹوکن ID کو ایمبیڈنگ میں تبدیل کریں۔
مقام کی معلومات شامل کریں۔
جمع شدہ ٹرانسفارمر بلاکس کے ذریعے تاثرات کو منتقل کرنا
آخری پرت نارملائزیشن کا اطلاق کریں۔
لغوی منطقیں بنائیں

بنیادی تکراری پروسیسنگ یہاں ہوتی ہے۔

for block in self.transformer_blocks:
    x = block(x)

آخر میں، آؤٹ پٹ پرت پوشیدہ حالت کو لغوی جگہ میں پیش کرتی ہے، پیدا کرتی ہے: logits ٹریننگ اور ٹیکسٹ جنریشن کے دوران اگلی ٹوکن پیشین گوئی کے لیے استعمال کیا جاتا ہے۔

GPT-4: الائنڈ ملٹی موڈل پر مبنی ماڈل فن تعمیر

class GPT4(nn.Module):
    def __init__(
        self,
        vocab_size=50257,
        d_model=12288,
        n_layers=120,
        n_heads=96,
        context_length=8192
    ):
        super().__init__()

        # Text embeddings
        self.token_embedding = nn.Embedding(
            vocab_size,
            d_model
        )

        self.position_embedding = nn.Embedding(
            context_length,
            d_model
        )

        # Vision encoder for image inputs
        self.vision_encoder = VisionTransformer(
            embed_dim=d_model
        )

        # Multimodal projection layer
        self.image_projection = nn.Linear(
            d_model,
            d_model
        )

        # Decoder-only Transformer blocks
        self.transformer_blocks = nn.ModuleList([
            TransformerBlock(
                d_model=d_model,
                n_heads=n_heads,
                pre_layer_norm=True,
                flash_attention=True
            )
            for _ in range(n_layers)
        ])

        self.final_layer_norm = nn.LayerNorm(d_model)

        # Language modeling head
        self.lm_head = nn.Linear(
            d_model,
            vocab_size,
            bias=False
        )

        # RLHF alignment head
        self.reward_head = RewardModel(
            hidden_size=d_model
        )

    def forward(
        self,
        input_ids,
        image_inputs=None
    ):

        positions = torch.arange(
            input_ids.size(1)
        )

        text_embeddings = (
            self.token_embedding(input_ids)
            + self.position_embedding(positions)
        )

        # Encode image if provided
        if image_inputs is not None:

            image_features = self.vision_encoder(
                image_inputs
            )

            image_embeddings = self.image_projection(
                image_features
            )

            x = torch.cat(
                [image_embeddings, text_embeddings],
                dim=1
            )

        else:
            x = text_embeddings

        # Transformer decoding
        for block in self.transformer_blocks:
            x = block(x)

        x = self.final_layer_norm(x)

        logits = self.lm_head(x)

        return logits

پچھلے جی پی ٹی ماڈل کی طرح، فن تعمیر ٹوکن ایمبیڈنگ اور لوکیشن ایمبیڈنگ سے شروع ہوتا ہے۔ nn.Embedding ٹوکن IDs کو گھنے ویکٹر کی نمائندگی میں تبدیل کرتے ہوئے پوزیشنی ایمبیڈنگز ترتیب ترتیب کی معلومات کو محفوظ رکھتی ہیں۔

ایک بڑا فرق وژن انکوڈر کا اضافہ ہے۔

self.vision_encoder = VisionTransformer(
    embed_dim=d_model
)

یہ ماڈیول امیج ان پٹ پر کارروائی کرتا ہے اور اسے بصری خصوصیت کی نمائندگی میں تبدیل کرتا ہے جسے ٹرانسفارمر سمجھ سکتا ہے۔

تصویر کی خصوصیات پھر پروجیکشن پرت سے گزر جاتی ہیں۔

self.image_projection = nn.Linear(
    d_model,
    d_model
)

یہ متنی ٹوکنز کے لیے استعمال ہونے والی ایمبیڈنگ اسپیس میں تصویری نمائندگی کو سیدھ میں لا کر ملٹی موڈل پروسیسنگ کو قابل بناتا ہے۔

ٹرانسفارمر اسٹیک صرف ڈیکوڈر رہتا ہے، لیکن اب استعمال کرتا ہے:

flash_attention=True

فلیش اٹینشن ایک بہترین توجہ کا نفاذ ہے جو میموری کے استعمال کو کم کرتا ہے اور ٹریننگ اور انفرنس کی رفتار کو بہتر بناتا ہے، خاص طور پر بہت لمبی سیاق و سباق والی ونڈوز کے لیے: 8192 ٹوکن

اندرونی forward() طریقہ کار میں، ٹیکسٹ ایمبیڈنگس پہلے تیار کی جاتی ہیں۔ ایک تصویر کو دیکھتے ہوئے، اسے انکوڈ کیا جاتا ہے اور ایمبیڈنگ پر پیش کیا جاتا ہے۔

image_features = self.vision_encoder(
    image_inputs
)

تصویر اور ٹیکسٹ ایمبیڈنگز کو پھر استعمال کرتے ہوئے جوڑ دیا جاتا ہے:

x = torch.cat(
    [image_embeddings, text_embeddings],
    dim=1
)

torch.cat() ترتیب کے طول و عرض کے ساتھ ٹینسر کو جوڑ کر، ہم ٹرانسفارمر کو ایک ہی ترتیب کے طور پر تصویر اور ٹیکسٹ ٹوکنز کو ایک ساتھ پروسیس کرنے کے قابل بناتے ہیں۔

مشترکہ نمائندگی ترتیب وار تمام ٹرانسفارمر بلاکس سے گزرتی ہے۔

for block in self.transformer_blocks:
    x = block(x)

نارملائزیشن کے بعد، آخری پوشیدہ حالت لغوی جگہ میں پروجیکشن کے ذریعے پیدا ہوتی ہے۔ logits اگلی ٹوکن پیشن گوئی کے لیے۔

یہ فن تعمیر ایک انعامی ماڈل ہیڈ بھی متعارف کراتا ہے۔

self.reward_head = RewardModel(
    hidden_size=d_model
)

یہ جزو Reinforcement Learning with Human Feedback (RLHF) کی نمائندگی کرتا ہے، جو ماڈل آؤٹ پٹ کو انسانی ترجیحات کے مطابق ڈھالنے اور ردعمل کے معیار اور حفاظت کو بہتر بنانے کے لیے استعمال ہوتا ہے۔

وسائل:

مجھ سے رابطہ کریں