اے آئی پیپر ریویو: چین آف تھاٹ انڈکشن کے ساتھ بڑے پیمانے پر زبان کے ماڈلز میں نتائج اخذ کرنا

پچھلے کچھ سالوں میں، بڑے زبان کے ماڈلز نے محققین کو متن بنانے، سوالات کے جوابات دینے، زبانوں کا ترجمہ کرنے اور ایسے کاموں کو انجام دینے کی صلاحیت سے متاثر کیا ہے جن کے لیے انہیں کبھی واضح طور پر تربیت نہیں دی گئی تھی۔

ہر نئی نسل اس سادہ عقیدے کی تصدیق کرتی نظر آتی ہے کہ بڑے ماڈل بہتر خصوصیات پیش کرتے ہیں۔ لیکن ایک ایسا شعبہ تھا جہاں ترقی مایوس کن حد تک محدود دکھائی دیتی تھی۔ جب کسی مسئلے کو استدلال کی متعدد سطحوں کی ضرورت ہوتی ہے، تو زبان کے ماڈل اکثر ایسے طریقوں سے شکار ہوتے ہیں جنہیں نظر انداز کرنا مشکل ہوتا ہے۔

ریاضی کے الفاظ کے مسائل، معمولی سوالات، یا علامتی پہیلیاں روانی سے زبان کی پیداوار اور حقیقی مسئلے کے حل کے درمیان ایک حیران کن فرق کو ظاہر کر سکتی ہیں۔ ماڈلز اکثر پراعتماد جوابات دیتی تھیں، لیکن صرف اعتماد ہی کافی نہیں تھا۔ سوال یہ تھا کہ کیا کوئی جواب پر پہنچنے سے پہلے مسئلہ کو حل کر سکتا ہے۔

اس پس منظر میں، کاغذ تھیٹ چین انڈکشن بڑے پیمانے پر زبان کے ماڈلز سے قیاس آرائیاں کرتا ہے۔ ایک سادہ مگر غیر متوقع خیال پیش کیا گیا۔ ماڈل سے فوراً جواب طلب کرنے کے بجائے، مصنفین نے پہلے انٹرمیڈیٹ انفرنس کے مراحل کے ذریعے کام کرنے کی سفارش کی۔

اس کے بعد جدید AI تحقیق میں سب سے زیادہ متاثر کن دریافتوں میں سے ایک تھی۔ یعنی، ضروری نہیں کہ ہم بہت سی غیر معمولی صلاحیتوں سے محروم ہوں جو بڑے پیمانے پر زبان کے ماڈلز میں موجود نہیں ہیں۔ بہت سے معاملات میں وہ صرف صحیح طریقے سے اخذ نہیں کیے گئے تھے۔

یہ مقالہ بڑے پیمانے پر لینگویج ماڈلز میں پرامپٹس، انفرنسز اور فیچرز کے بارے میں محققین کے سوچنے کے طریقے کو نئی شکل دیتا ہے۔ اس سے بھی اہم بات یہ ہے کہ اس نے بعد کے سالوں میں ابھرنے والی بہت سی انفرنس پر مبنی ٹیکنالوجیز اور سسٹمز کی فکری بنیاد رکھی۔

مقالہ کا خاکہ

اس مضمون میں ہم کاغذ کو دیکھیں گے۔ تھیٹ چین انڈکشن بڑے پیمانے پر زبان کے ماڈلز سے قیاس آرائیاں کرتا ہے۔2022 میں گوگل ریسرچ کے محققین کے ذریعہ شائع کیا گیا۔

اس مقالے نے جدید AI میں سب سے زیادہ بااثر خیالات میں سے ایک متعارف کرایا۔ چین آف تھاٹ پرامپٹس. جیسا کہ محققین زبان کے ماڈلز کو بڑے سائز میں پیمانہ کرنے پر توجہ مرکوز کرتے ہیں، یہ مطالعہ ظاہر کرتا ہے کہ کارکردگی میں بہتری ہمیشہ بڑے ماڈلز بنانے سے نہیں آتی۔ بعض اوقات کلید یہ ہوتی تھی کہ ہم ان کے ساتھ بات چیت کے طریقے کو تبدیل کریں۔

یہ مقالہ ایک سادہ لیکن طاقتور سوال کی تحقیق کرتا ہے۔ کیا ہوگا اگر ہم جوابات فراہم کرنے سے پہلے زبان کے ماڈلز کو اپنے استدلال کا مظاہرہ کرنے کی ترغیب دیں؟ براہ راست جواب دینے کے بجائے، ماڈل کی رہنمائی کی جاتی ہے کہ وہ درمیانی قیاس کے اقدامات پیدا کرے جو حتمی حل کی طرف لے جاتے ہیں۔

جو چیز اس مقالے کو تاریخی طور پر اہم بناتی ہے وہ یہ ہے کہ اس نے بڑے پیمانے پر زبان کے ماڈلز میں اندازہ لگانے کے بارے میں محققین کے سوچنے کے انداز کو بدل دیا۔ مصنفین نے ظاہر کیا کہ بہت ساری قیاس آرائیوں کو بغیر کسی اضافی تربیت، فائن ٹیوننگ، یا فن تعمیر میں ترمیم کے اکیلے اشارے سے کھولا جا سکتا ہے۔

اس خیال کا اثر تیزی سے ریاضی کے استدلال سے آگے بڑھ گیا۔ اس نے قیاس پر تحقیق کی ایک نئی نسل کو متاثر کیا، جس میں خود مستقل مزاجی، عمل کی نگرانی، تصدیق پر مبنی طریقے، اور قیاس پر مبنی ماڈلز شامل ہیں جو اگلے سالوں میں سامنے آئے۔

بہت سے طریقوں سے، اس کاغذ نے زبان کے ماڈلز کے بارے میں پوچھنے سے ایک تبدیلی کا نشان لگایا۔ جواب کیا ہے ان سے پوچھنا وہ جواب تک کیسے پہنچے.

اگر آپ اسے خود دریافت کرنا چاہتے ہیں تو اصل کاغذ یہ ہے:

تھیٹ چین انڈکشن بڑے پیمانے پر زبان کے ماڈلز سے قیاس آرائیاں کرتا ہے۔

یہاں ایک فوری انفوگرافک ہے جس کا ہم اس جائزے میں احاطہ کریں گے۔

اشاریہ:

شرطیں

ان تجزیوں سے زیادہ سے زیادہ فائدہ اٹھانے کے لیے، کچھ بنیادی خیالات اور بڑے پیمانے پر زبان کے ماڈلز کے ارتقاء سے پہلے سے ہی واقف ہونا مددگار ہے جو فکر کی زنجیروں کو اخذ کرنے کا باعث بنتے ہیں۔

آپ کو اس سیریز میں پچھلے جائزے پڑھنا خاص طور پر مددگار ثابت ہوگا۔

GPT-3 کا جائزہ لینا خاص طور پر اہم ہے کیونکہ Thought Chains مضمون براہ راست GPT-3 کی سب سے حیران کن خصوصیات میں سے ایک پر بناتا ہے: سیاق و سباق میں سیکھنا۔ ماڈل کے فن تعمیر کو تبدیل کرنے یا ماڈل کو دوبارہ تربیت دینے کے بجائے، مصنفین نے محسوس کیا کہ اشارے میں مثالوں کو ظاہر کرنے کے طریقہ کو تبدیل کرکے صرف انفرنس کی کارکردگی کو نمایاں طور پر بہتر بنایا جا سکتا ہے۔

آپ کو درج ذیل مددگار بھی مل سکتے ہیں:

قدرتی زبان کی پروسیسنگ (NLP) اور بڑے پیمانے پر زبان کے ماڈلز کی عمومی تفہیم
ٹرانسفارمر پر مبنی آٹوریگریسو ماڈلز کی بنیادی تفہیم
اشارے سے واقفیت، چند شاٹ لرننگ، اور حالات میں سیکھنا
ایک اعلی سطحی تفہیم کہ کس طرح ایک زبان کا ماڈل ٹوکن کے ذریعہ ٹیکسٹ ٹوکن ٹوکن تیار کرتا ہے۔
مشین لرننگ کے عمومی تصورات جیسے کہ تربیت، تخمینہ، پیمانے کے قوانین، اور ماڈل کی تشخیص۔
استدلال کے کاموں، منطق کے مسائل، اور ریاضی کے الفاظ کے مسائل کی نمائش۔
بینچ مارک ڈیٹاسیٹس اور ماڈل کی کارکردگی کی تشخیص کی بنیادی تفہیم

اس مضمون کی پیروی کرنے کے لیے آپ کو ریاضی یا مشین لرننگ ریسرچ میں گہرے پس منظر کی ضرورت نہیں ہے۔

ہم اس بات پر توجہ مرکوز کرتے ہوئے اپنی بدیہی اور عملی وضاحت جاری رکھیں گے کہ چین آف تھیٹ پرامپٹنگ جدید AI میں سب سے زیادہ اثر انگیز انفرنس تکنیک کیوں بن گئی ہے اور کس طرح ایک سادہ پرامپٹنگ حکمت عملی نے لینگویج ماڈل انفرنس کے بارے میں محققین کے سوچنے کے انداز کو تبدیل کر دیا ہے۔

خلاصہ

بڑے پیمانے پر زبان کے ماڈلز کے دیرینہ چیلنجوں میں سے ایک قیاس آرائی ہے۔ اگرچہ یہ ماڈل روانی سے متن تیار کر سکتے ہیں اور مختلف سوالات کے جوابات دے سکتے ہیں، لیکن وہ اکثر اس وقت جدوجہد کرتے ہیں جب کام کو متعدد منطقی مراحل کی ضرورت ہوتی ہے۔

یہ مضمون ان حدود کو دور کرنے کے لیے ایک بہت ہی آسان خیال پیش کرتا ہے۔ یعنی، صرف سوالات اور جوابات کے ساتھ اپنے ماڈل کو چلانے کے بجائے، آپ کو ایسی مثالیں فراہم کرنی چاہئیں جن میں درمیانی استدلال کے اقدامات بھی شامل ہوں جو حل کی طرف لے جاتے ہیں۔

مصنفین اس نقطہ نظر کو چین آف تھاٹ (CoT) پرامپٹنگ کہتے ہیں۔ ماڈل کو مرحلہ وار اندازے کے کئی مظاہرے دکھا کر، ہم نے پایا کہ زبان کے کافی بڑے ماڈلز اپنی قیاس کی زنجیریں بنا سکتے ہیں اور پیچیدہ مسائل کو زیادہ مؤثر طریقے سے حل کر سکتے ہیں۔ اہم بات یہ ہے کہ ان بہتریوں کے لیے کسی اضافی تربیت یا فائن ٹیوننگ کی ضرورت نہیں ہے، صرف پیغام رسانی کا ایک مختلف انداز۔

ریاضی، عام فہم اور علامتی استدلال کے کاموں پر تجربات کے ذریعے، یہ مقالہ ظاہر کرتا ہے کہ ترتیب وار سوچ مسلسل کارکردگی کو بہتر بناتی ہے۔ فوائد خاص طور پر بڑے ماڈل پیمانوں پر واضح ہوتے ہیں، جو تجویز کرتے ہیں کہ ماڈل کے بڑھنے کے ساتھ ہی انفرنس کی صلاحیتیں قدرتی طور پر ابھرتی ہیں، بشرطیکہ صحیح اشارہ دینے والی حکمت عملی فراہم کی جائے۔

اس مقالے میں سب سے زیادہ حیران کن نتائج GSM8K ریاضی کے بینچ مارک سے آتے ہیں۔ یہاں، PaLM 540B صرف آٹھ تھنک چین مثالوں کا استعمال کرتے ہوئے جدید ترین کارکردگی کو حاصل کرتا ہے اور تصدیق کنندہ سے لیس ایک عمدہ ٹیونڈ GPT-3 سسٹم کو پیچھے چھوڑتا ہے۔ ان نتائج سے ظاہر ہوتا ہے کہ صرف اشارے ہی استدلال کی مہارت کو غیر مقفل کر سکتے ہیں جنہیں معیاری اشارے اکثر بے نقاب کرنے میں ناکام رہتے ہیں۔

نیچے دی گئی تصویر ایک سادہ ریاضی کی مثال کا استعمال کرتے ہوئے ایک معیاری پرامپٹ کا چین آف سوچ (CoT) پرامپٹ سے موازنہ کرتی ہے۔

ماخذ: تھاٹ چین انڈکشن بڑے لینگویج ماڈلز سے قیاس آرائیاں کرتا ہے۔

معیاری اشارے میں، ماڈل کو سوال جواب کے جوڑے کے طور پر پیش کیا جاتا ہے اور اس سے براہ راست جواب پیدا کرنے کی توقع کی جاتی ہے، جس سے کثیر مرحلہ مسائل میں غلطی ہو سکتی ہے۔

سوچ کی زنجیر کی مثالوں میں حتمی جواب سے پہلے درمیانی استدلال کے اقدامات شامل ہیں۔ جب کسی نئے مسئلے کا سامنا ہوتا ہے، تو ماڈل صحیح حل تک پہنچنے کے لیے اسی طرح کے مرحلہ وار عمل کی پیروی کرتا ہے۔

اس مقالے سے پتہ چلتا ہے کہ تخمینے کے مظاہرے فراہم کرنے سے ریاضی، عام فہم، اور علامتی استدلال کے کاموں پر کارکردگی کو نمایاں طور پر بہتر بنایا جا سکتا ہے، خاص طور پر بڑی زبان کے ماڈلز میں۔

تعارف

2022 تک، بڑے پیمانے پر زبان کے ماڈلز نے پہلے ہی قدرتی زبان کی پروسیسنگ کو تبدیل کر دیا ہے۔ GPT-3 جیسے ماڈلز نے دکھایا ہے کہ ماڈل کا سائز سکیل کرنے سے متاثر کن صلاحیتوں کو کھولا جا سکتا ہے، ٹیکسٹ جنریشن سے لے کر تربیت تک چند بار۔

تاہم، اہم حدود موجود تھے. ضروری نہیں کہ ایک بڑا ماڈل اندازہ لگانے کے لیے بہتر ہو۔ ایسے کام جن میں ملٹی سٹیپ ریاضی، عام فہم استدلال، یا علامتی ہیرا پھیری کی ضرورت ہوتی ہے وہ سب سے بڑے دستیاب ماڈلز کے لیے بھی حیرت انگیز طور پر مشکل رہے۔

مصنفین تحقیق کی دو امید افزا سمتوں کا مشاہدہ کرکے آغاز کرتے ہیں۔ پہلا پچھلے کام سے آتا ہے جس سے ظاہر ہوتا ہے کہ قیاس کے کام قدرتی زبان کی وضاحت یا درمیانی حل کے اقدامات سے فائدہ اٹھا سکتے ہیں۔ فوری طور پر جوابات تلاش کرنے کے بجائے، ماڈل ایسے شواہد پیدا کر سکتے ہیں جو اس بات کی عکاسی کرتے ہیں کہ انسان کیسے مسائل کو حل کر سکتے ہیں۔

دوسری سمت چند اشارے ہیں، جہاں پرامپٹس میں فراہم کردہ چند مثالوں سے ماڈل ٹاسک سیکھتا ہے، جس سے کام کے لیے مخصوص فائن ٹیوننگ کی ضرورت ختم ہوتی ہے۔

تاہم، دونوں طریقوں میں خرابیاں ہیں۔ انسانی شواہد کے بڑے ذخیرے پر تربیتی ماڈل مہنگا اور وقت طلب ہوتا ہے، جبکہ معیاری فیو شاٹ پرامپٹس اکثر ایسے کاموں کے لیے جدوجہد کرتے ہیں جن کے لیے حقیقی دنیا کا اندازہ درکار ہوتا ہے۔

اس مقالے کی کلیدی بصیرت دونوں خیالات میں سے بہترین کو یکجا کرنا تھا۔ صرف ان پٹ آؤٹ پٹ کی مثالیں فراہم کرنے کے بجائے، پرامپٹ میں ایک اضافی جزو شامل ہوتا ہے: استدلال کا عمل خود۔ ہر مثال مندرجہ ذیل ڈھانچے کی پیروی کرتی ہے: ان پٹ → خیالات کا سلسلہ → آؤٹ پٹ.

اس سادہ ترمیم کے ساتھ، سوچ کا سلسلہ پرامپٹ پیدا ہوا۔ انٹرمیڈیٹ انفرنس کے مراحل کو سامنے لا کر، ماڈل کو حتمی جواب تک پہنچنے سے پہلے پیچیدہ مسائل کو چھوٹے، زیادہ قابل انتظام اقدامات میں تقسیم کرنے کی ترغیب دی جاتی ہے۔

خیال کا جائزہ لینے کے لیے، مصنفین نے ریاضی، عقل، اور علامتی استدلال کے معیارات میں سوچ کی زنجیر کے اشارے کا تجربہ کیا۔ نتائج نے معیاری اشارے کے مقابلے میں نمایاں بہتری ظاہر کی، کچھ فوائد کافی بڑے ہیں۔

خیالات کا ایک سلسلہ پیدا کرنا

اس مقالے کا مرکز ایک سادہ سا مشاہدہ ہے کہ انسان کس طرح مشکل مسائل کو حل کرتے ہیں۔ جب ایک کثیر الجہتی استدلال کے کام کا سامنا کرنا پڑتا ہے، تو ہمیں شاذ و نادر ہی فوراً جواب مل جاتا ہے۔ اس کے بجائے، مسئلے کو چھوٹے چھوٹے ٹکڑوں میں توڑ دیں، ہر درمیانی قدم پر توجہ دیں، اور پھر دھیرے دھیرے نتیجے کی طرف بڑھیں۔ مصنفین نے استدلال کیا کہ بڑے پیمانے پر زبان کے ماڈل اسی طرح کے عمل سے فائدہ اٹھا سکتے ہیں۔

اس خیال نے سوچنے کی زنجیر (CoT) پرامپٹس کو جنم دیا جس میں اشارے کی مثالیں شامل تھیں جن میں نہ صرف سوالات اور جوابات شامل تھے، بلکہ استدلال کے اقدامات بھی شامل تھے جو ان سے منسلک تھے۔ اس استدلال کے عمل کے متعدد مظاہروں کے ساتھ، زبان کے کافی بڑے ماڈلز نے حتمی جواب پیدا کرنے سے پہلے اپنی سوچ کی زنجیریں بنانا سیکھ لیا ہے۔

اس نقطہ نظر کی اہمیت درستگی کو بہتر بنانے سے بالاتر ہے۔ سب سے پہلے، پیچیدہ مسائل کو قابل انتظام درمیانی مراحل میں تحلیل کرکے، کثیر مرحلہ استدلال زیادہ آسانی سے انجام دیا جا سکتا ہے۔

دوسرا، نتیجہ اخذ کرنے کا عمل ایک حد تک تشریح فراہم کرتا ہے، جس سے محققین اور صارفین کو اس بات کی جھلک ملتی ہے کہ ماڈل اپنے جواب تک کیسے پہنچا۔ اگرچہ یہ قیاس آرائیاں ماڈل کے اندرونی حسابات کو مکمل طور پر ظاہر نہیں کرتی ہیں، لیکن وہ اس بات کی نشاندہی کرنے میں مدد کر سکتے ہیں کہ غلطیاں کہاں ہوئیں۔

فکر کے معروف سلسلے کا ایک اور اہم پہلو عمومیت ہے۔ مصنفین اسے کسی ایک بینچ مارک کے حل کے طور پر نہیں بلکہ ایک وسیع استدلال کے فریم ورک کے طور پر تجویز کرتے ہیں جس کا اطلاق ریاضی کے مسائل، عام فہم استدلال کے کاموں، علامتوں میں ہیرا پھیری، اور ممکنہ طور پر بہت سے دوسرے مسائل پر کیا جا سکتا ہے جن کے لیے ترتیب وار استدلال کی ضرورت ہوتی ہے۔

شاید سب سے اہم بات یہ ہے کہ یہ خصوصیت کسی بھی اضافی تربیت یا فن تعمیر میں ترمیم کے بغیر محض اشارہ کرکے زبان کے موجودہ ماڈلز سے حاصل کی جاسکتی ہے۔

یہ حصہ کاغذ کی بنیادی دلیل کو قائم کرتا ہے۔ اس کا مطلب یہ ہے کہ قیاس کی صلاحیتوں کے لیے ضروری نہیں کہ نئے ماڈل کے فن تعمیر یا خصوصی فائن ٹیوننگ کی ضرورت ہو۔ زبان کے کافی بڑے ماڈلز میں، یہ خصوصیات اس وقت سامنے آسکتی ہیں جب ماڈل کو فوری طور پر جواب پیدا کرنے کے لیے کہا جانے کے بجائے درمیانی اندازے کے مراحل پیدا کرنے کے لیے رہنمائی کی جاتی ہے۔

ریاضی کا استدلال

مصنفین ریاضی کے استدلال کے ساتھ اپنی تجرباتی تشخیص کا آغاز کرتے ہیں، ایک ایسا علاقہ جس نے بڑے پیمانے پر زبان کے ماڈلز میں طویل عرصے سے کمزوریوں کو بے نقاب کیا ہے۔

اگرچہ ریاضی کے الفاظ کے مسائل کو حل کرنا انسانوں کے لیے نسبتاً آسان ہے، لیکن اس کے لیے اکثر درمیانی حسابات اور منطقی استدلال کی ایک سیریز کی ضرورت ہوتی ہے۔

پچھلی تحقیق سے پتہ چلا ہے کہ بڑے پیمانے پر زبان کے ماڈل بھی ان کاموں کو انجام دینے کے لیے جدوجہد کرتے ہیں، ریاضی کے استدلال کو یہ جانچنے کے لیے ایک مثالی ترتیب بناتے ہیں کہ آیا ترتیب وار سوچ کے اشارے حقیقت میں استدلال کی صلاحیت کو بہتر بنا سکتے ہیں۔

ان کے نقطہ نظر کا جائزہ لینے کے لیے، مصنفین نے پانچ قائم کردہ بینچ مارکس کا انتخاب کیا جو مختلف قسم کے ریاضیاتی الفاظ کے مسائل کا احاطہ کرتے ہیں۔ یہ ڈیٹا سیٹ انداز اور مشکل میں مختلف ہوتے ہیں، سادہ ریاضی کے سوالات سے لے کر مزید پیچیدہ مسائل تک جن کے حل تک پہنچنے سے پہلے استدلال کے متعدد مراحل کی ضرورت ہوتی ہے۔ ایک ساتھ مل کر، وہ ایک وسیع تصویر فراہم کرتے ہیں کہ زبان کے ماڈلز ریاضیاتی استدلال کو کتنی اچھی طرح سے ہینڈل کرتے ہیں۔

تجربہ دو شامل کرنے کی حکمت عملیوں کا موازنہ کرتا ہے۔ پہلا ایک معیاری چند اشارے ہیں جہاں ماڈل کو ایک مثال کے ساتھ پیش کیا گیا ہے جس میں صرف ایک سوال اور اس کے جواب شامل ہیں۔ یہ اس وقت غالب کا اشارہ دینے والا نقطہ نظر تھا اور اس نے اس پورے مقالے میں بنیادی طور پر کام کیا۔

دوسرا سوچنے کے اشارے کا ایک سلسلہ ہے، جہاں ہر مثال کو وسعت دی جاتی ہے تاکہ درمیانی استدلال کے اقدامات شامل ہوں جو سوال کو حتمی جواب سے جوڑتے ہیں۔

ایک منصفانہ موازنہ کو یقینی بنانے کے لیے، مصنفین نے دستی طور پر آٹھ تخمینے کے مظاہروں کا ایک چھوٹا سا سیٹ تیار کیا اور انہیں ریاضی کے بینچ مارک میں دوبارہ استعمال کیا۔ اہم بات یہ ہے کہ یہ مثالیں خاص ڈیٹا سیٹس کے لیے بہت زیادہ بہتر یا ڈیزائن نہیں کی گئی ہیں۔ اس کے بجائے، ان کا مقصد یہ جانچنا تھا کہ آیا فطری استدلال کے اعتدال پسند مظاہرے ماڈل کو اپنے طور پر نئے مسائل کے ذریعے استدلال کرنے کے لیے قابل اعتماد طریقے سے حوصلہ افزائی کر سکتے ہیں۔

یہ مطالعہ زبان کے ماڈلز کے متنوع مجموعے کا بھی جائزہ لیتا ہے، جس کے ماڈل سائز سیکڑوں ملین سے لے کر اربوں پیرامیٹرز تک ہوتے ہیں، بشمول GPT-3، LaMDA، PaLM، UL2، اور Codex۔ اس وسیع دائرہ کار نے مصنفین کو نہ صرف یہ تحقیق کرنے کی اجازت دی کہ آیا سوچ کا ایک سلسلہ کام کرتا ہے، بلکہ یہ بھی کہ ماڈل کے بڑھنے کے ساتھ ساتھ ان کی تاثیر کیسے بدلتی ہے۔

اس تجرباتی فریم ورک کو قائم کرنے میں، مقالے نے درج ذیل کلیدی سوالات کی چھان بین کی: قدم بہ قدم استدلال کی چند مثالوں کو دیکھتے ہوئے، کیا بڑے پیمانے پر زبان کے ماڈلز ریاضیاتی مسائل کو حل کر سکتے ہیں جنہیں معیاری اشارے سے ہینڈل کرنا مشکل ہو؟

نتیجہ

ریاضی کے استدلال کے تجربات سے پتہ چلتا ہے کہ استدلال کے سلسلے کی کامیابی کا انحصار زیادہ تر ماڈل کے سائز پر ہوتا ہے۔

بینچ مارکس میں سب سے واضح نمونوں میں سے ایک یہ ہے کہ چھوٹے ماڈلز کو اندازہ لگانے کے اقدامات سے بہت کم فائدہ ہوتا ہے۔ کچھ معاملات میں، ماڈل نے خراب کارکردگی کا مظاہرہ کیا کیونکہ اس نے قابل فہم آواز والی لیکن منطقی طور پر ناقص وضاحتیں پیدا کیں۔

گائیڈڈ سوچ کی ترتیب کے فوائد صرف اس وقت ظاہر ہوئے جب ماڈل بہت بڑے پیمانے پر پہنچ گیا، یہ تجویز کرتا ہے کہ انٹرمیڈیٹ انفرنس کے مراحل کو مؤثر طریقے سے استعمال کرنے کی صلاحیت خود ایک ابھرتی ہوئی صلاحیت ہے۔

ایک اور اہم مشاہدہ یہ ہے کہ جیسے جیسے مسائل مشکل ہوتے جاتے ہیں، سوچ کی ٹرینوں کو سیدھا کرنے کے فائدے بڑھتے جاتے ہیں۔ ان آسان کاموں کے لیے جن کے لیے صرف ایک قیاس قدم کی ضرورت ہوتی ہے، معیاری اشارے پہلے ہی کافی ہیں اور اضافی قیاس کے عمل بہت کم قیمت فراہم کرتے ہیں۔

تاہم، جیسے جیسے مسئلہ کی پیچیدگی بڑھتی جاتی ہے، معیاری اشارے اور سوچ کے سلسلہ کے درمیان فرق نمایاں طور پر وسیع ہو جاتا ہے۔ GSM8K بینچ مارک اس رجحان کی سب سے مضبوط مثال فراہم کرتا ہے، جس میں سب سے بڑے GPT اور PaLM ماڈلز کی کارکردگی میں دو گنا سے زیادہ بہتری نظر آتی ہے جب ان کا مرحلہ وار اندازہ لگایا جا سکتا ہے۔

شاید سب سے اہم نتیجہ یہ ہے کہ سوچ کی ٹرین کے ذریعے، بڑے پیمانے پر زبان کے ماڈلز ان کاموں کے لیے براہ راست تربیت یافتہ خصوصی نظاموں کا مقابلہ کر سکتے ہیں، اور بعض صورتوں میں اس سے آگے نکل سکتے ہیں۔

PaLM 540B نے ٹاسک مخصوص فائن ٹیوننگ کے بجائے مکمل طور پر اشارے پر انحصار کرنے کے باوجود، بہت کم تعداد کے تخمینے کے مظاہروں کا استعمال کرتے ہوئے متعدد ریاضی کے معیارات پر نئے جدید ترین نتائج مرتب کیے ہیں۔ یہ نتائج عام مفروضے کو چیلنج کرتے ہیں کہ قیاس کے کاموں پر مضبوط کارکردگی کے لیے لازمی طور پر سرشار تربیتی ڈیٹاسیٹس اور ماہر ماڈلز کی ضرورت ہوتی ہے۔

ان بہتریوں کو بہتر طور پر سمجھنے کے لیے، مصنفین نے دستی طور پر ماڈل کے ذریعے پیدا ہونے والے انفرنس ٹریس کا معائنہ کیا۔ جب ماڈل صحیح جواب پر پہنچا، تو تخمینہ کا عمل بھی عام طور پر درست تھا۔ اس سے ظاہر ہوتا ہے کہ ماڈل نے حتمی جواب پر اندازہ لگانے کے بجائے اکثر مراحل کی مستقل منطقی ترتیب کی پیروی کی۔

غلط پیشین گوئیوں کے درمیان، بہت سی انفرنس چینز بڑی حد تک درست تھیں اور چھوٹی غلطیوں جیسے ریاضی کی غلطیاں، غلط علامت نقشہ سازی، یا درمیانی مراحل کی کمی کی وجہ سے ناکام ہوئیں۔ زیادہ سنگین ناکامیوں کا نتیجہ خود مسئلے کو غلط فہمی یا متضاد استدلال کے نتیجے میں ہوتا ہے۔

خرابی کے تجزیے نے یہ وضاحت بھی فراہم کی کہ کیوں بڑے ماڈل فکر کی راہنمائی کرنے سے زیادہ فائدہ اٹھائیں گے۔ PaLM 62B اور PaLM 540B کا موازنہ ظاہر کرتا ہے کہ جیسے جیسے پیمانے میں اضافہ ہوتا ہے، چھوٹے ماڈلز میں نظر آنے والی بہت سی معنوی غلط فہمیاں اور نامکمل قیاس کے نمونے کم ہو جاتے ہیں۔

دوسرے لفظوں میں، بڑے ماڈلز صرف لمبی تفصیل پیدا نہیں کرتے۔ وہ استدلال کی زنجیریں تیار کر رہے تھے جو منطقی طور پر زیادہ مکمل اور بنیادی مسئلے کے لیے زیادہ وفادار تھے۔

پرہیز مطالعہ

اس حصے کو دیکھنے سے پہلے، مختصراً یہ بتانا مفید ہے کہ ایبلیشن اسٹڈی کیا ہے۔ مشین لرننگ ریسرچ میں، ایبلیشن اسٹڈیز کسی طریقہ کار کے کچھ حصوں کو منظم طریقے سے ہٹاتے یا اس میں ترمیم کرتے ہیں تاکہ یہ معلوم کیا جا سکے کہ کون سے اجزاء دراصل کارکردگی کے لیے ذمہ دار ہیں۔ پرہیز کی تحقیق میں، یہ پوچھنے کے بجائے کہ آیا کوئی طریقہ کام کرتا ہے، ہم پوچھتے ہیں کہ یہ کیوں کام کرتا ہے۔

اس مقالے میں، مصنفین اس بات کا تعین کرنے کے لیے تخفیف کے تجربات کا استعمال کرتے ہیں کہ سوچ کی زنجیر کی شمولیت کے کون سے پہلو بہتر استدلال میں سب سے زیادہ حصہ ڈالتے ہیں۔

سوچ کی ایک زنجیر کا مظاہرہ کرنے کے بعد جو استدلال کی کارکردگی کو بہتر بناتا ہے، مصنفین نے مزید بنیادی سوالات کی طرف رجوع کیا۔ یہ کیوں کام کرتا ہے؟ صرف اعلی درستگی کا مشاہدہ کافی نہیں ہے۔ ان حاصلات کے ماخذ کو سمجھنے کے لیے، انہوں نے خاتمے کے تجربات کا ایک سلسلہ ڈیزائن کیا جس نے اشارہ کرنے والی حکمت عملی کے مختلف پہلوؤں کو الگ تھلگ کیا۔

ایک ممکنہ وضاحت یہ ہے کہ سوچ چین کی شمولیت مددگار ہے کیونکہ یہ ماڈل کو جوابات پیدا کرنے سے پہلے ریاضیاتی مساوات پیدا کرنے کی ترغیب دیتی ہے۔ اگر یہ سچ تھا تو، فطری زبان کا اندازہ بذات خود ضروری نہ ہو۔

اس خیال کو جانچنے کے لیے، مصنفین نے اکیلے مساوات کے ساتھ قیاس قدم کو بدل دیا۔ نتائج ظاہر کرتے ہیں کہ یہ نقطہ نظر GSM8K جیسے پیچیدہ بینچ مارکس پر صرف محدود فائدہ فراہم کرتا ہے۔ مساوات آسان مسائل کے لیے مددگار ثابت ہو سکتی ہیں، لیکن وہ اکثر ایسے کاموں کے لیے کافی نہیں ہوتیں جن کے لیے سوال کو ریاضیاتی عمل میں تبدیل کرنے سے پہلے اس کے معنی کو سمجھنا ضروری ہوتا ہے۔ اس کا مطلب یہ ہے کہ سوچ کے اشارے کی ترتیب کی قدر علامتی حساب سے زیادہ ہوتی ہے۔

مصنفین نے پھر ایک اور مفروضے کی چھان بین کی۔ شاید ایک سوچ چین پرامپٹ کامیاب ہو سکتا ہے کیونکہ یہ ماڈل کو مزید ٹوکن بنانے کی اجازت دیتا ہے، اور مشکل مسائل پر مزید حساب کتاب کرنے کی اجازت دیتا ہے۔

اس عنصر کو الگ کرنے کے لیے، ہم نے ایک پرامپٹ بنایا ہے جو بغیر کسی معنی خیز مواد کے ایک اضافی ٹوکن تیار کرتا ہے۔ کارکردگی معیاری پرامپٹ بیس لائن کے قریب رہی، جس سے ظاہر ہوتا ہے کہ اکیلے اضافی حسابات مشاہدہ شدہ بہتری کی وضاحت نہیں کرتے۔ جو چیز اہم تھی وہ انٹرمیڈیٹ ٹوکنز کی تعداد نہیں تھی، بلکہ ان کے اندر ظاہر کیے گئے نتائج تھے۔

تیسرا امکان یہ ہے کہ فکر کی ٹرین نے ماڈل میں پہلے سے موجود متعلقہ علم کو محض متحرک کیا ہے۔ اگر ایسا ہے تو، جواب سے پہلے قیاس کے قدم کی ضرورت نہیں ہے۔

مصنفین نے حتمی جواب کے بعد استدلال کے عمل کو منتقل کرکے اس کا تجربہ کیا۔ ایک بار پھر، کارکردگی نمایاں طور پر بیس لائن پر گر جاتی ہے۔ یہ نتائج بتاتے ہیں کہ استدلال کے اقدامات کی ترتیب صرف حقیقت کے بعد کی وضاحت کے طور پر کام نہیں کرتی ہے، بلکہ ماڈل کو صحیح حل تک پہنچنے میں مدد کرنے میں ایک فعال کردار ادا کرتی ہے۔

ایک ساتھ لے کر، یہ تجربات کاغذ کی بنیادی دلیل کو مضبوط کرتے ہیں۔ مائنڈ سیٹ انڈکشنز کی ایک سیریز کی کامیابی کی وضاحت صرف مساوات کی تخلیق، اضافی حسابات، یا ذخیرہ شدہ علم تک آسان رسائی سے نہیں کی جا سکتی۔

اس کے بجائے، شواہد استدلال کے عمل کو خود اہم عنصر کے طور پر بتاتے ہیں۔ درمیانی اقدامات محض کاسمیٹک وضاحتیں نہیں ہیں۔ ایسا لگتا ہے کہ یہ ماڈل کو فیصلوں کی ایک سیریز کے ذریعے رہنمائی کرتا ہے جو پیچیدہ مسائل کو حل کرنے کو زیادہ موثر بناتے ہیں۔

سوچ کی زنجیر کی مضبوطی اشارہ کرتی ہے۔

پرامپٹ طریقہ کے بارے میں ایک دیرینہ تشویش اس کی پرامپٹ میں شامل مثالوں کے لیے حساسیت ہے۔ الفاظ میں چھوٹی تبدیلیاں، مثالوں کا انتخاب، یا مثالوں کی ترتیب بعض اوقات نمایاں طور پر مختلف نتائج پیدا کر سکتی ہے۔

اس بات کو قائم کرنے کے بعد کہ سوچ کا ایک سلسلہ استدلال کی کارکردگی کو بہتر بنانے کا اشارہ کرتا ہے، مصنفین نے تحقیق کی کہ آیا یہ فوائد مضبوط تھے یا مظاہروں کے مخصوص، احتیاط سے تیار کردہ سیٹ پر منحصر تھے۔

اس سوال کا جواب دینے کے لیے، محققین نے کئی کاغذی مصنفین سے کہا کہ وہ آزادانہ طور پر اسی کیس کے لیے استنباطی نشانات لکھیں۔ انہوں نے مزید جامع تحریری طرزوں کے ساتھ بھی تجربہ کیا اور مثالوں کے مکمل طور پر مختلف سیٹوں پر بنائے گئے پرامپٹس کا تجربہ کیا۔

مقصد اس بات کا تعین کرنا تھا کہ آیا سوچ کے اشارے کا ایک سلسلہ کسی خاص انتخاب کی نمائندگی کی وجہ سے کامیاب رہا یا اس وجہ سے کہ بنیادی استدلال کا ڈھانچہ حقیقت میں مفید تھا۔

نتائج نے زبردست ثبوت فراہم کیا کہ یہ تکنیک کسی مخصوص مصنف، طرز تحریر، یا مثالوں کے مجموعے سے منسلک نہیں ہے۔ اگرچہ مختلف پرامپٹس میں کارکردگی میں فطری فرق موجود ہے، تھیٹ چین پرامپٹ کے تمام ورژنز نے مستقل طور پر معیاری پرامپٹ کو نمایاں مارجن سے پیچھے چھوڑ دیا۔ چاہے تخمینہ کے اقدامات تفصیلی ہوں یا مختصر، دستی طور پر لکھے گئے ہوں یا آزاد ڈیٹاسیٹس سے نکالے گئے ہوں، مجموعی پیٹرن نمایاں طور پر مستحکم رہا۔

مصنفین نے اشارے میں استعمال ہونے والی مثالوں کی ترتیب اور تعداد کو مختلف کرکے تجزیہ کو مزید بڑھایا۔ ایک بار پھر، کلیدی نتائج برقرار رہے۔ اس کا مطلب یہ ہے کہ اگرچہ فوری ڈیزائن کا اب بھی کارکردگی پر کچھ اثر پڑتا ہے، لیکن ذہن سازی کے اشارے کی ایک سیریز کی تاثیر کسی ایک، احتیاط سے تیار کیے گئے پرامپٹ پر منحصر نہیں ہے۔

یہ مضبوطی کا تجزیہ اس مقالے کے سب سے اہم دعووں میں سے ایک کو تقویت دیتا ہے: کہ سوچ کے اشارے کی ایک سیریز کی کامیابی کسی خاص جملے یا تشریح کے انداز کا نمونہ نہیں ہے۔ اس کے بجائے، فوائد ماڈل کو خود قیاس کے عمل کے سامنے لانے سے پیدا ہوتے ہیں، یہ تجویز کرتے ہیں کہ یہ طریقہ فوری طور پر مخصوص چالوں کے بجائے زیادہ عام اصولوں کو حاصل کرتا ہے۔

عام فہم استدلال

اب تک، مقالے نے بنیادی طور پر ریاضیاتی استدلال پر توجہ مرکوز کی ہے۔ اگرچہ نتائج متاثر کن ہیں، لیکن اہم سوالات لا جواب ہیں۔ کیا زنجیر فکر کے اشارے صرف ریاضی کے مسائل کے لیے کارآمد ہیں، یا کیا وہ استدلال کو زیادہ وسیع پیمانے پر بہتر بنا سکتے ہیں؟

اس کی چھان بین کرنے کے لیے، مصنفین نے عام فہم استدلال کے کام کی طرف رجوع کیا۔ ریاضی کے مسائل کے برعکس، ان کاموں کے لیے اکثر دنیا کے بارے میں پس منظر کی معلومات، انسانی رویے کی سمجھ، یا کسی نتیجے پر پہنچنے سے پہلے معلومات کے ٹکڑوں کو جوڑنے کی صلاحیت کی ضرورت ہوتی ہے۔ بہت سے معاملات میں، مسئلہ حساب کا نہیں بلکہ ایسے حالات کے ذریعے استدلال کرنا ہے جو انسانوں کو بدیہی معلوم ہوتا ہے۔

تشخیص میں متعدد معیارات شامل ہیں، جن میں معمولی سوالات کے جوابات، ملٹی ہاپ استدلال، تاریخ کو سمجھنا، کھیلوں سے متعلق استدلال، اور یہاں تک کہ روبوٹ کی کارروائیوں میں قدرتی زبان کی ہدایات کا ترجمہ کرنا بھی شامل ہے۔

ان کے اختلافات کے باوجود، یہ کام مشترکہ ضروریات کا اشتراک کرتے ہیں. یعنی، کسی مسئلے کو حل کرنے کے لیے اکثر فوری جواب کی بجائے درمیانے درجے کے نتائج کی ضرورت ہوتی ہے۔

نتائج سے پتہ چلتا ہے کہ فکر کی ٹرینوں کو ہدایت کرنے کے فوائد ریاضی سے کہیں زیادہ ہیں۔ زیادہ تر بینچ مارکس میں، ماڈلز نے مستقل طور پر بہتر کارکردگی کا مظاہرہ کیا جب حتمی جواب تیار کرنے سے پہلے انٹرمیڈیٹ انفرنس کے اقدامات پیدا کرنے کی ترغیب دی جاتی ہے۔

یہ بہتری خاص طور پر بڑے ماڈلز میں نمایاں تھی، جو تجویز کرتی ہے کہ ریاضی کے استدلال کے لیے دیکھے گئے وہی نمونے عام فہم استدلال پر بھی لاگو ہوتے ہیں۔

کچھ مضبوط ترین فوائد ان کاموں میں دیکھے گئے جن کے لیے کثیر الجہتی استدلال کی ضرورت تھی۔ StrategyQA میں، مثال کے طور پر، سوچ کی ٹرین نے PaLM 540B کو ٹیکنالوجی کی پچھلی سطحوں کو پیچھے چھوڑنے کے قابل بنایا۔ اسی طرح، اسپورٹس انڈرسٹینڈنگ بینچ مارک پر، ماڈل نے ایسی کارکردگی حاصل کی جو غیر امدادی انسانی کھیلوں کے شائقین سے زیادہ تھی۔

یہ نتائج بتاتے ہیں کہ ترتیب وار سوچ کے اشارے کے ذریعے استدلال کے عمل کو ماڈلز کو حقائق سے جوڑنے، قابلیت کا اندازہ لگانے، اور فیصلہ سازی کے زیادہ پیچیدہ منظرناموں کو نیویگیٹ کرنے میں مدد مل سکتی ہے۔

ایک ہی وقت میں، تمام ڈیٹا سیٹوں میں بہتری یکساں نہیں تھی۔ CommonsenseQA کا حاصل نسبتاً کم تھا، جس سے ظاہر ہوتا ہے کہ تمام قیاس کاموں کو واضح قیاس سے باخبر رہنے سے یکساں طور پر فائدہ نہیں ہوتا۔ یہ ایک ابتدائی یاد دہانی کے طور پر کام کرتا ہے کہ اگرچہ سوچ کے اشارے کا ایک مجموعہ ترتیبات کی ایک وسیع رینج میں قیمتی ثابت ہوتا رہتا ہے، لیکن یہ ایک عالمگیر حل نہیں ہے۔

مزید وسیع طور پر، یہ سیکشن کاغذ کی بنیادی دلیل کو یہ دکھا کر مضبوط کرتا ہے کہ ترتیب وار سوچ کے اشارے محض ریاضی کے الفاظ کے مسائل کو حل کرنے کی تکنیک نہیں ہیں۔ عام فہم کاموں کی ایک قسم پر اس کی تاثیر بتاتی ہے کہ یہ طریقہ زیادہ عمومی تخمینہ کی صلاحیتوں سے فائدہ اٹھاتا ہے جو کافی بڑے زبان کے ماڈلز سے نکلتی ہیں۔

علامتی استدلال

حتمی تشخیص کو ریاضی اور عملی علم سے مکمل طور پر ہٹا دیا گیا ہے۔ اس کے بجائے، مصنفین علامتی استدلال کے کاموں پر توجہ مرکوز کرتے ہیں جن میں کامیابی کا انحصار حقائق کو یاد رکھنے یا حساب کتاب کرنے کے بجائے تجریدی اصولوں پر عمل کرنے پر ہوتا ہے۔ اگرچہ یہ کام انسانوں کے لیے آسان ہیں، لیکن یہ جانچنے کا ایک مفید طریقہ فراہم کرتے ہیں کہ آیا زبان کا ماڈل مستقل طور پر تخمینے کے مراحل کا ایک سیٹ لاگو کر سکتا ہے۔

اس سوال کو دریافت کرنے کے لیے، مصنفین نے دو کنٹرول شدہ کاموں کو ڈیزائن کیا۔ پہلے ماڈل کو کسی نام کے آخری لفظ کے حروف کو نکالنے اور جوڑنے کی ضرورت تھی۔ دوسرے نے ماڈل کو پلٹنے اور بغیر پلٹنے کی ایک سیریز کے بعد ایک سکے کی حالت کو ٹریک کرنے کو کہا۔

یہ کام آسان لگ سکتے ہیں، لیکن ان کے لیے ماڈل کو دنیا کے بارے میں حفظ علم پر بھروسہ کیے بغیر قطعی علامتی ہیرا پھیری کرنے کی ضرورت تھی۔

جس چیز نے ان تجربات کو خاص طور پر دلچسپ بنایا وہ ایک آف ڈیپلائمنٹ سیٹنگ کا تعارف تھا۔ ایک پیغام کی نمائش کے دوران، ماڈل نے صرف ایسی مثالیں دیکھی ہیں جن میں انفرنسز کا ایک مختصر سلسلہ شامل تھا۔ تشخیص میں، آپ سے اسی کام کے ایک ورژن کو حل کرنے کے لیے کہا گیا تھا جس کے لیے آپ کو پہلے سامنا کرنے والی کسی بھی مثال سے زیادہ اقدامات کی ضرورت تھی۔

اس سیٹ اپ نے مصنفین کو نہ صرف یہ جانچنے کی اجازت دی کہ آیا ماڈل تخمینہ کے طریقہ کار پر عمل کر سکتا ہے، بلکہ یہ بھی کہ آیا اس طریقہ کار کو طویل، کم واقف کیسوں تک بڑھایا جا سکتا ہے۔

نتائج نے ایک واقف نمونہ ظاہر کیا۔ جہاں بڑے ماڈلز نے فکر کی ٹرینوں کی رہنمائی کر کے اہم فوائد حاصل کیے ہیں، وہیں چھوٹے ماڈلز کو نقصان اٹھانا پڑا ہے حالانکہ استدلال کے عمل کی ضرورت سادہ ہے۔

ان ڈومین ٹاسک پر جہاں تشخیص پرامپٹ میں فراہم کردہ مثال سے قریب سے مماثل ہے، سب سے بڑے ماڈل نے سوچ کی زنجیر کے مطابق تقریباً کامل کارکردگی حاصل کی۔ اس سے ظاہر ہوتا ہے کہ وہ پرامپٹ میں بیان کردہ بنیادی طریقہ کار کو کامیابی سے سیکھ سکتے ہیں اور لاگو کر سکتے ہیں۔

مزید نتائج تقسیم سے باہر کی تشخیص سے آتے ہیں۔ اگر انفرنس چین اس سے لمبا ہے جو آپ مثال میں دیکھ سکتے ہیں، تو معیاری پرامپٹ شاندار طور پر ناکام ہو جائے گا۔ اس کے برعکس، چین آف تھنکنگ پرامپٹس کے استعمال سے کارکردگی میں بہتری آئی کیونکہ ماڈل کے سائز میں اضافہ ہوا، جس سے یہ ظاہر ہوتا ہے کہ پرامپٹ کے دوران پیش کیے گئے عین سیاق و سباق سے باہر سیکھے ہوئے انفرنس پیٹرن کو بڑھانا ہے۔

اگرچہ ڈومین کی ترتیبات کے مقابلے میں کم درست، ماڈل اب بھی ان طریقوں کو عام کرنے میں کامیاب تھا جو معیاری اشارے نہیں کر سکتے تھے۔

اس حصے نے کچھ مضبوط ترین ثبوت فراہم کیے ہیں کہ سوچ کی ٹرینوں کو تیز کرنا بینچ مارک کی کارکردگی کو بہتر بنانے سے زیادہ کام کرتا ہے۔ ماڈلز کو لمبے عرصے تک، پہلے نہ دیکھے گئے آدانوں پر قیاس کے طریقہ کار کو لاگو کرنے میں مدد کرتے ہوئے، ہم تجویز کرتے ہیں کہ پیدا ہونے والے تخمینے کے اقدامات جانی پہچانی مثالوں کے بہتر جوابات پیدا کرنے کے لیے محض ایک طریقہ کار کے بجائے منظم مسئلے کے حل کے لیے ایک اسپرنگ بورڈ کا کام کرتے ہیں۔

دلیل

اس مقالے کی سب سے اہم شراکت کوئی نیا ماڈل فن تعمیر، نیا تربیتی مقصد، یا بڑا ڈیٹاسیٹ نہیں تھا۔ اس کے بجائے، ہم نے دکھایا کہ پرامپٹ میں سادہ تبدیلیاں ان خصوصیات کو غیر مقفل کر سکتی ہیں جو معیاری اشارے اکثر ظاہر کرنے میں ناکام رہتے ہیں۔

ریاضی، عام فہم اور علامتی استدلال کے کاموں میں رہنمائی سوچ کے ایک سلسلے نے بڑے پیمانے پر زبان کے ماڈلز کو پہلے کے مشکل یا ناقابل رسائی مسائل کو مستقل طور پر حل کرنے کے قابل بنایا ہے۔

پورے کاغذ میں ایک بار بار چلنے والا تھیم تخمینہ اور پیمانے کے درمیان تعلق تھا۔ مصنفین نے بارہا مشاہدہ کیا ہے کہ ماڈل کے کافی سائز تک پہنچنے کے بعد ہی ترتیب وار سوچ کے اشارے موثر ہوتے ہیں۔ چھوٹے ماڈلز نے روانی سے اندازہ لگانے والے نشانات پیدا کیے، لیکن یہ نشانات اکثر منطقی طور پر متضاد تھے۔

اس کے برعکس، بڑے ماڈلز اس قابل تھے کہ انٹرمیڈیٹ انفرنس اقدامات کو اس طریقے سے استعمال کیا جا سکے جس سے صحیح معنوں میں مسئلہ حل کرنے کی کارکردگی میں بہتری آئی۔

اس دریافت نے اس وقت زبان کے ماڈل کی تحقیق سے وسیع تر اسباق کو تقویت دی۔ کچھ خصوصیات بتدریج ظاہر نہیں ہوتی ہیں، لیکن اس وقت ظاہر ہوتی ہیں جب ماڈل ایک مخصوص پیمانے کی حد سے گزرتا ہے۔

شاید سب سے دلچسپ مطلب یہ ہے کہ معیاری اشارے نمایاں طور پر اس بات کو کم کر سکتے ہیں کہ بڑے پیمانے پر زبان کے ماڈل کیا کر سکتے ہیں۔

اس کام سے پہلے، بہت سے انفرنس کاموں کو اپنی کارکردگی کی حد تک پہنچتے ہوئے دکھایا گیا تھا۔ سوچ کی ایک ٹرین نے انکشاف کیا کہ مسئلہ ہمیشہ ماڈل کے ساتھ نہیں ہوتا ہے، بلکہ ماڈل سے مسئلہ کو حل کرنے کے لئے کہا جاتا ہے. اس لحاظ سے، یہ مقالہ زیادہ قابل ماڈل بنانے سے توجہ ہٹاتا ہے تاکہ ان کے اندر پہلے سے موجود فعالیت کے ساتھ تعامل کے بہتر طریقے تلاش کرے۔

ایک ہی وقت میں، مصنفین محتاط تھے کہ وہ اپنے نتائج کو بڑھا چڑھا کر پیش نہ کریں۔ اگرچہ سوچ کی نتیجہ خیز ٹرین انسانی استدلال سے ملتی جلتی ہو سکتی ہے، لیکن یہ مقالہ یہ ثابت نہیں کرتا کہ زبان کے ماڈل انسانوں کی طرح استدلال کرتے ہیں۔ نتیجہ خیز استدلال کا سراغ اصل مسئلہ حل کرنے کے عمل، پوسٹ ہاک ریشنلائزیشن، یا اس کے درمیان کسی چیز کی عکاسی کر سکتا ہے۔ پیدا شدہ قیاسات اور اندرونی ماڈل کے حساب کتاب کے درمیان تعلق کا تعین ایک کھلا تحقیقی سوال ہے۔

مصنفین نے کچھ عملی حدود کو بھی تسلیم کیا۔ اعلیٰ معیار کے انفرنس ڈیمو کی تعمیر کے لیے اضافی کوشش کی ضرورت پڑ سکتی ہے، خاص طور پر اگر آپ کا نقطہ نظر چند اشارے سے آگے بڑھتا ہے۔

مزید برآں، سوچ کی تربیت پیدا کرنا اس بات کی ضمانت نہیں دیتا کہ استدلال خود درست ہے۔ ماڈل اب بھی قائل ہو سکتا ہے، لیکن یہ غلط اندازے کے راستے پیدا کر سکتا ہے، جو غلط جوابات کا باعث بن سکتا ہے۔

آخر میں، سب سے بڑا فائدہ صرف بہت بڑے ماڈلز کے لیے ظاہر ہوتا ہے، یہ سوال پیدا ہوتا ہے کہ کیا کمپیوٹیشنل لاگت اور اسی طرح کی انفرنس پاور چھوٹے سسٹمز میں حاصل کی جا سکتی ہے۔

تاریخی نقطہ نظر سے، یہ مقالہ لینگویج ماڈل انفرنس ریسرچ میں ایک اہم موڑ کی نشاندہی کرتا ہے۔ قیاس کو کسی ایسی چیز کے طور پر سمجھنے کے بجائے جس کی واضح طور پر ایک ماڈل کے طور پر تربیت کی جانی چاہیے، ہم نے تجویز پیش کی کہ صحیح اشارہ دینے والی حکمت عملی کے ذریعے استنباط کی صلاحیت کو حاصل کیا جا سکتا ہے۔

اس کے بعد آنے والے بہت سے بااثر نظریات، بشمول خود مستقل مزاجی، تخمینہ کی نگرانی، عمل کی نگرانی، اور بعد میں قیاس پر مبنی ماڈلز کا ظہور، ان کی فکری بنیادوں کے کچھ حصے کو یہاں متعارف کرائی گئی سادہ بصیرت تک پہنچا سکتے ہیں۔ کبھی کبھی ماڈل بہتر کارکردگی کا مظاہرہ کرتے ہیں جب ان کے کام کو دکھانے کے لیے حوصلہ افزائی کی جاتی ہے۔

فکر کی زنجیروں کو جنم دینے والے خیالات تنہائی میں ابھرے نہیں۔ اس کے بجائے، یہ مقالہ دو تحقیقی سمتوں کے چوراہے پر ہے جو کئی سالوں سے آزادانہ طور پر ترقی کر رہے ہیں۔

پہلی سمت ماڈلز کو درمیانی اندازے کے مراحل کے ذریعے پیچیدہ مسائل کو حل کرنے میں مدد کرنے پر مرکوز تھی۔ پچھلی تحقیق نے پہلے ہی دکھایا ہے کہ ریاضیاتی استدلال جیسے کام اس وقت آسان ہو جاتے ہیں جب ماڈلز براہ راست جوابات پیدا کرنے کے بجائے قدرتی زبان کے ثبوت پیدا کرتے ہیں۔ محققین نے حتمی حل پر پہنچنے سے پہلے وضاحتیں، انفرنس ٹریس، یا انٹرمیڈیٹ کمپیوٹیشن پیدا کرنے کے لیے ماڈلز کو تربیت دینے کے طریقے تلاش کیے ہیں۔

دیگر نقطہ نظر مسائل کو منظم مساوات یا منطقی شکلوں میں تبدیل کرنے کے لیے رسمی علامتی نمائندگی پر انحصار کرتے ہیں۔ ان کے اختلافات کے باوجود، ان کوششوں نے مشترکہ انتشارات کا اشتراک کیا۔ مشکل استدلال کے کاموں کو حل کرنا اکثر آسان ہوتا ہے جب اسے چھوٹے مراحل میں تقسیم کیا جائے۔

سوچ کا ایک سلسلہ اس وجدان کو وراثت میں دیتا ہے، لیکن اہم تبدیلیوں کے ساتھ۔ پچھلے طریقوں کے لیے عام طور پر وقف شدہ تربیتی طریقہ کار، خصوصی ڈیٹا سیٹس، یا کام کے لیے مخصوص فائن ٹیوننگ کی ضرورت ہوتی ہے۔

اس کے برعکس، اس مقالے سے پتہ چلتا ہے کہ اکیلے اشارے ہی قیاس کے نشانات کو نکال سکتے ہیں۔ مصنفین نے ظاہر کیا کہ اضافی تربیت کے ذریعے کسی ماڈل کو استدلال سکھانے کے بجائے، صرف چند مثالیں فراہم کرنا ان خصوصیات کو غیر مقفل کرنے کے لیے کافی ہو سکتا ہے جو پہلے سے کافی بڑے زبان کے ماڈل میں موجود ہیں۔

دوسری تحقیق کی سمت خود محرک ہے۔ GPT-3 اور چند شاٹ لرننگ کی کامیابی کے بعد، کام کا ایک بڑھتا ہوا جسم یہ تلاش کر رہا ہے کہ دوبارہ تربیت کے بغیر ماڈل کی کارکردگی کو بہتر بنانے کے لیے پرامپٹس کا استعمال کیسے کیا جائے۔

محققین نے تیز انجینئرنگ، تیز رفتار ٹیوننگ، اور قدرتی زبان کی ہدایات کے ساتھ تجربہ کیا تاکہ کاموں کو زبان کے ماڈلز تک بہتر طور پر پہنچایا جا سکے۔ ان میں سے زیادہ تر تکنیکوں نے ماڈل میں کاموں کو بیان کرنے کے طریقہ کو تبدیل کرکے تعامل کے ان پٹ پہلو کو بہتر بنانے پر توجہ مرکوز کی ہے۔

ترتیب وار سوچ کے اشارے ایک مختلف انداز اختیار کرتے ہیں۔ کام سے پہلے کی ہدایات میں ترمیم کرنے کے بجائے، یہ ان مثالوں کو مضبوط بناتا ہے جو ان پٹ اور آؤٹ پٹس کو جوڑنے والے استدلال کے عمل کو بے نقاب کر کے بعد میں آتی ہیں۔ یہ فرق ٹھیک ٹھیک لگ سکتا ہے، لیکن یہ کاغذ کی اہم بصیرت کی نمائندگی کرتا ہے۔ اس نے کہا، شراکت بہتر پرامپٹ ٹیمپلیٹس سے آگے ہے۔ اس بات کو تسلیم کرنے پر زور دیا جاتا ہے کہ استدلال کا طریقہ بتانا اتنا ہی اہم ہوسکتا ہے جتنا یہ بتانا کہ کن کاموں کو حل کرنے کی ضرورت ہے۔

اس وسیع تر سیاق و سباق میں دیکھا جائے تو یہ مقالہ استنباطی نشانات کے مطالعہ اور اشارے کے مطالعہ کے درمیان ایک پل کا کام کرتا ہے۔ یہ دونوں روایات میں سے بہترین کو یکجا کرتا ہے اور اس طرح زبان کے نمونے کے تخمینے میں بہت سی پیشرفتوں کی بنیاد رکھتا ہے، بشمول خود مستقل مزاجی، STaR، عمل کی نگرانی، اور تخمینہ پر مبنی نظام جو اس کے بعد کے سالوں میں پیش آئے۔

نتیجہ

سوچ کے پرامپٹ کے سلسلے نے ایک سادہ خیال متعارف کرایا جس نے بڑے پیمانے پر زبان کے ماڈلز کے بارے میں محققین کے سوچنے کے انداز کو بدل دیا۔ مصنفین نے ظاہر کیا کہ ماڈل کے فن تعمیر میں ترمیم کرنے یا اضافی تربیت پر انحصار کرنے کے بجائے، جواب پیدا کرنے سے پہلے انٹرمیڈیٹ انفرنس اقدامات پیدا کرنے کے لیے ماڈل کی حوصلہ افزائی کرکے انفرنس پاور کو کھولا جا سکتا ہے۔

نتائج سے پتہ چلتا ہے کہ بڑے پیمانے پر زبان کے ماڈل اس وقت بہت بہتر کارکردگی کا مظاہرہ کرتے ہیں جب وہ ریاضی، عام فہم اور علامتی استدلال کے کاموں میں مسائل سے گزر سکتے ہیں۔ مزید اہم بات یہ ہے کہ کاغذ سے پتہ چلتا ہے کہ ان میں سے بہت ساری بہتری بڑے پیمانے پر ظاہر ہوتی ہے، یہ تجویز کرتی ہے کہ اندازہ محض محرک کی پیداوار نہیں ہے بلکہ ایک ایسا فعل ہے جو ماڈلز کے زیادہ طاقتور ہونے کے ساتھ ساتھ تیزی سے قابل رسائی ہو جاتا ہے۔

جس چیز نے اس کام کو خاص طور پر متاثر کیا وہ طریقہ کار کی پیچیدگی نہیں بلکہ اس کے پیچھے کی بصیرت تھی۔ ایک ماڈل کے پاس کسی مسئلے کو حل کرنے کے لیے ضروری علم ہو سکتا ہے، لیکن جب فوری جواب طلب کیا جائے تو وہ اس علم کو مؤثر طریقے سے استعمال نہ کر سکے۔ استدلال کے عمل کو بے نقاب کرتے ہوئے، تھیٹ چین پرامپٹ نے یہ ظاہر کیا کہ ایک ماڈل جواب پر کیسے پہنچتا ہے اتنا ہی اہم ہو سکتا ہے جتنا کہ خود جواب۔

اس خیال نے AI تحقیق کی توجہ کو اس طرف منتقل کرنے میں مدد کی کہ کس طرح استدلال کیا جائے، منصوبہ بندی کی جائے اور مسائل کو حل کیا جائے جو زبان کے ماڈلز جانتے ہیں۔ اس کے بعد کی بہت سی تکنیکیں (بشمول خود مستقل مزاجی، عمل کی نگرانی، تصدیق پر مبنی طریقے، اور جدید قیاس پر مبنی نظام) اس مقالے میں قائم کی گئی بنیاد پر استوار ہیں۔

پیچھے مڑ کر دیکھا تو سوچا کہ چین جوڈو محض ایک جوڈو تکنیک سے زیادہ ہے۔ یہ زبان کے ماڈل کے استنباط کے مطالعہ میں ایک اہم موڑ تھا، جس سے ظاہر ہوتا ہے کہ کچھ خصوصیات ماڈل سے غائب نہیں ہیں بلکہ ظاہر ہونے کے لیے صرف صحیح حالات کی ضرورت ہے۔

نیچے دی گئی انفوگرافک ان سب سے زیادہ بااثر کاغذات اور سنگ میلوں پر روشنی ڈالتی ہے جنہوں نے جدید AI کی شکل دی ہے، GPT-1 کے تعارف اور GPT-2 اور GPT-3 کے توسیعی دور سے لے کر کمانڈ کوآرڈینیشن، فکری سلسلہ استدلال، خود کی مستقل مزاجی، عمل کی نگرانی، اور تازہ ترین جنریشن تک۔ یہ مطالعات یہ ظاہر کرتے ہیں کہ کس طرح فیلڈ تدریسی ماڈلز سے تیار ہوا ہے جو لوگوں کو تیزی سے پیچیدہ مسائل کا اندازہ لگانے، شناخت کرنے اور حل کرنے میں زبان کی پیش گوئی کرتے ہیں۔

وسائل

مجھ سے رابطہ کریں

مقالہ کا خاکہ

اشاریہ:

شرطیں

خلاصہ

تعارف

خیالات کا ایک سلسلہ پیدا کرنا

ریاضی کا استدلال

نتیجہ

پرہیز مطالعہ

سوچ کی زنجیر کی مضبوطی اشارہ کرتی ہے۔

عام فہم استدلال

علامتی استدلال

دلیل

نتیجہ

وسائل

متعلقہ پوسٹس