ڈیپ لرننگ ماڈلز کیوں نہیں سیکھ رہے ہیں: میڈیکل امیجنگ میں ڈیٹا کے مسائل کی تشخیص

ہم نے پبلک ایبڈومینل الٹراساؤنڈ ڈیٹاسیٹ پر میڈیکل اوپن نیٹ ورک فار AI (MONAI) کا استعمال کرتے ہوئے ایک صاف، اچھی ساخت والی گہری سیکھنے کی پائپ لائن بنائی۔

پائپ لائن میں شامل ہیں:

اور ماڈل کو ابھی بھی سیکھنے میں دشواری تھی۔

دلچسپ بات یہ نہیں ہے کہ ماڈل خراب کارکردگی کا مظاہرہ کرتا ہے۔ جو چیز اہم تھی وہ تشخیص تھی۔ یہ سادہ چیکوں کا ایک سلسلہ تھا جس نے ماڈل کے بجائے ڈیٹاسیٹ میں مسئلہ کا سراغ لگایا۔

یہ ٹیسٹ میڈیکل امیجنگ سے زیادہ کے لیے مفید ہیں۔ یہ تقریباً کسی بھی مشین لرننگ پروجیکٹ پر لاگو ہوتا ہے۔

اگر آپ ML میں نئے ہیں، تو یہ ہر پروجیکٹ پر لاگو کرنے کے قابل سبق ہے۔ اپنے ماڈل کو ٹیون کرنے سے پہلے اپنے ڈیٹا کو سمجھیں۔

میں نے میڈیکل امیج سیگمنٹیشن ٹیوٹوریل بنانا شروع کیا۔ میں نے ایک زیادہ قیمتی سبق سیکھا۔ سب سے اہم بات یہ ہے کہ محتاط انجینئرنگ کی کوئی مقدار کسی ماڈل کو ڈیٹاسیٹ سے نہیں بچا سکتی جو اس کے کام کی حمایت نہیں کر سکتی۔

اس مضمون کے اختتام تک، آپ سمجھ جائیں گے:

اس بات کا اندازہ کیسے لگایا جائے کہ آیا آپ کا ڈیٹا سیٹ واقعی آپ کے کام کو سپورٹ کر سکتا ہے۔
کیوں "ماڈل نہیں سیکھنا” اکثر ڈیٹا کا مسئلہ ہوتا ہے۔
اپنے ڈیٹا پر الزام لگانے سے پہلے انجینئرنگ کیڑے کو کیسے مسترد کریں۔
عملی تشخیص آپ منٹوں میں چلا سکتے ہیں۔
کیوں مصنوعی تربیتی ڈیٹا اکثر حقیقی دنیا کی تعیناتیوں میں جدوجہد کرتا ہے۔
ٹیوننگ کو کب روکنا ہے اور ڈیٹا سیٹ سے دور جانا ہے۔

یہ گہرے سیکھنے کا ابتدائی تعارف نہیں ہے۔ یہ فرض کیا جاتا ہے کہ آپ UNet فن تعمیر اور ٹریننگ لوپس جیسے تصورات سے واقف ہیں۔ تاہم، ڈیٹا کے معیار کے اسباق کا اطلاق بہت سے ML پروجیکٹس پر ہوتا ہے۔

ہم کیا احاطہ کریں گے:

ڈیٹا سیٹ

میں نے یو ایس سمولیشن اینڈ سیگمنٹیشن ڈیٹاسیٹ استعمال کیا، پیٹ کی الٹراساؤنڈ امیجز کا عوامی مجموعہ جس میں Kaggle سے آرگن سیگمنٹیشن لیبلز ہیں۔

ان میں شامل ہیں:

926 جامع الٹراساؤنڈ تصاویر – مکمل اعضاء کی تشریحات کے ساتھ سی ٹی اسکینز سے رے کاسٹنگ سمیلیٹر کے ساتھ تیار کیا گیا
617 اصلی الٹراساؤنڈ تصاویر – ایک حقیقی الٹراساؤنڈ اسکینر پر
8 تنظیموں کے لیبل جگر، گردے، پتتاشی، لبلبہ، تلی، ہڈیاں، خون کی نالیاں اور ایڈرینل غدود

پہلی نظر میں، ڈیٹا سیٹ مثالی لگ رہا تھا.

آیا یہ واقعی کام کی حمایت کرتا ہے ایک الگ سوال ہے۔

مرحلہ 1: ڈیٹا کی مذمت کرنے سے پہلے پائپ لائنوں کو ختم کریں۔

زمینی اصول: ڈیٹا کی مذمت کرنے سے پہلے ہمیشہ پائپ لائن کو مسترد کریں۔ ایک ماڈل جو بگی کوڈ کی وجہ سے ناکام ہو جاتا ہے بالکل ویسا ہی ہوتا ہے جیسا کہ خراب ڈیٹا کی وجہ سے ناکام ہو جاتا ہے۔ انجینئرنگ قابل اعتماد ہونا ضروری ہے.

موضوع کے لحاظ سے تقسیم کریں۔

میڈیکل امیجنگ میں ایک عام غلطی تصویروں کو تربیت اور ٹیسٹ سیٹ میں تصادفی طور پر تقسیم کرنا ہے۔

یہ نقطہ نظر مشکل ہے کیونکہ بہت سے فریم ایک ہی مریض سے آتے ہیں۔ یہ فریم اناٹومی، سکینر سیٹنگز، اور شور کے نمونوں کا اشتراک کرتے ہیں۔

اگر ایک ہی مریض کے فریم ٹریننگ اور ٹیسٹ سیٹ دونوں میں ظاہر ہوتے ہیں، تو ماڈل جزوی طور پر مریض کے مخصوص نمونوں کو یاد رکھنے کے قابل ہو سکتا ہے۔ اصل نادیدہ مریضوں کے لیے، ٹیسٹ کے اسکور مصنوعی طور پر اچھے لگتے ہیں حالانکہ ماڈل ناکام ہو جاتا ہے۔

اسے کہتے ہیں۔ موضوع لیک ہو گیا۔.

اس کا حل یہ ہے کہ تصویر کے بجائے مریض کے حساب سے سیگمنٹ کیا جائے۔

from sklearn.model_selection import GroupShuffleSplit

def assign_splits(manifest, val_fraction=0.15, seed=42):
    train_data = manifest[manifest["orig_split"] == "train"]
    groups = train_data["subject_id"].values

    gss = GroupShuffleSplit(n_splits=1, test_size=val_fraction, random_state=seed)
    train_idx, val_idx = next(gss.split(X=train_data, y=None, groups=groups))

    train_subjects = set(train_data.iloc[train_idx]["subject_id"].unique())
    val_subjects = set(train_data.iloc[val_idx]["subject_id"].unique())

    # Crash loudly if leakage ever sneaks in
    assert train_subjects.isdisjoint(val_subjects), "Subject leak detected!"
    return train_subjects, val_subjects

وہ دلیل اہم ہے۔ اگر تقسیم کرنے والی منطق ٹوٹ جاتی ہے، تو پائپ لائن خود بخود گمراہ کن میٹرکس پیدا کرنے کے بجائے زور سے ناکام ہو جائے گی۔

ماسک کو صحیح طریقے سے ڈی کوڈ کریں۔

ڈیٹاسیٹ لیبلز کو کلر کوڈڈ ماسک کے بطور اسٹور کرتا ہے۔ ہر عضو ایک مختلف RGB رنگ سے مطابقت رکھتا ہے۔

تربیت کے لیے، ہمیں ان رنگوں کو انٹیجر کلاس لیبلز میں تبدیل کرنے کی ضرورت ہے۔

ایک سادہ نفاذ میں رنگوں کے عین مطابق مماثلت کا استعمال کیا جاتا ہے، لیکن سائز تبدیل کرنے کے عمل سے ماسک کی حدود میں رنگ کی معمولی تبدیلیاں ہو سکتی ہیں۔

ایک زیادہ مضبوط نقطہ نظر ہر پکسل کو قریب ترین پیلیٹ رنگ میں نقش کرتا ہے۔

import numpy as np

PALETTE = np.array([
    [0, 0, 0],
    [100, 0, 100],
    [255, 255, 255],
    [0, 255, 0],
    [255, 255, 0],
    [0, 0, 255],
    [255, 0, 0],
    [255, 0, 255],
    [0, 255, 255],
], dtype=np.int32)

def decode_mask(mask_rgb):
    h, w = mask_rgb.shape[:2]
    flat = mask_rgb.reshape(-1, 3).astype(np.int32)
    d2 = (
        (flat[:, None, :] - PALETTE[None, :, :]) ** 2
    ).sum(-1)
    classes = d2.argmin(axis=1).astype(np.uint8)
    return classes.reshape(h, w)

تربیت سے پہلے، یہ ایک اچھا خیال ہے کہ اصل تصاویر کے خلاف کئی ڈی کوڈ شدہ ماسک کو بصری طور پر چیک کریں۔ یہ غلط پیلیٹس، RGB/BGR چینل کی تبدیلی، اور نمونے کا سائز تبدیل کرنے جیسے مسائل کو پکڑتا ہے جو خود بخود لیبلز کو خراب کر دیتے ہیں۔

یہ کیڑے شاذ و نادر ہی غلطیاں پیدا کرتے ہیں۔ اس کے بجائے، ماڈل صحیح طریقے سے سیکھنے میں ناکام رہتا ہے۔ اور "غلط لیبلنگ پر تعلیم یافتہ۔"یہ بالکل ویسا ہی لگتا ہے”ماڈل ڈیٹا نہیں سیکھ سکتا۔"

اپنے ماسک کو جلد چیک کرنے سے غیر یقینی صورتحال ختم ہوجاتی ہے۔

ڈیزائن اور کلاس وزن میں کمی

ہم تربیت کے لیے معیاری MONAI سیگمنٹیشن نقصان کا استعمال کرتے ہیں۔ مقصد جارحانہ طور پر کارکردگی کو زیادہ سے زیادہ کرنا نہیں تھا، بلکہ ایک مستحکم اور قابل اعتماد بیس لائن قائم کرنا تھا۔

ذیل میں تربیتی وکر ظاہر کرتا ہے کہ ماڈل اچھی طرح سے بہتر بنایا گیا ہے۔ اس کا مطلب یہ ہے کہ نقصانات میں مسلسل کمی آئی ہے اور تصدیقی ڈائس ہٹنے کے بجائے مستحکم ہو گیا ہے۔ اس نے خراب حتمی کارکردگی کی ایک بڑی وجہ کے طور پر اصلاح کے عدم استحکام کو مسترد کرنے میں مدد کی۔

تین انتخاب جان بوجھ کر کیے گئے۔

ڈائس + کراس اینٹروپی کا امتزاج: کراس اینٹروپی ابتدائی طور پر مستحکم سیکھنے کو برقرار رکھتی ہے۔ ڈائس براہ راست اچھے ایریا اسٹیک کو انعام دیتا ہے۔ وہ ایک دوسرے کے ساتھ توازن رکھتے ہیں۔
include_background=False بائنری تقسیم کے لیے: واحد عضو کے کام میں، پس منظر پکسلز کا 85-90% ہو سکتا ہے۔ اگر آپ اسے نقصان کے طور پر شمار کرتے ہیں، تو آپ ان اداروں کے لیے سگنل کھو دیں گے جن میں آپ کی دلچسپی ہے، اس لیے اسے چھوڑ دینا بہتر ہے۔
کثیر طبقاتی تقسیم کے لیے کلاس وزن: بہت مختلف سائز کے اعضاء کے لیے، بغیر وزن کے نقصان کا استعمال ماڈل کو چھوٹے اور نایاب اعضاء کو نظر انداز کرنے اور پھر بھی اچھے اسکور حاصل کرنے کی اجازت دیتا ہے۔ نایاب درجے کی غلطیوں کو زیادہ وزن دینا زیادہ ردعمل پیدا کرتا ہے۔

مرحلہ 2: ماڈل اب بھی جدوجہد کر رہا ہے۔

پہلا تجربہ جگر کی تقسیم پر مرکوز تھا، ہمارے ڈیٹاسیٹ میں واحد واحد عضو کا کام۔

ٹیسٹ سیٹ	جگر کا نرد
مصنوعی ٹیسٹ سیٹ	~0.68
اصلی الٹراسونک ٹیسٹ سیٹ	~0.48

ڈائس اسکورز 0 (کوئی اوورلیپ نہیں) سے 1 (کامل اوورلیپ) تک ہیں۔

قابلیت کے لحاظ سے، پیشین گوئیاں اکثر جگر کے کھردرے علاقوں کو پکڑتی ہیں لیکن اصل اسکینوں میں حد بندی اور ہم آہنگ ہونے میں ناکام رہتی ہیں۔

خاص طور پر اہم:

اس موقع پر، دو وضاحتیں ممکن تھیں۔

ماڈل یا پائپ لائن میں کوئی خامی تھی۔
ڈیٹاسیٹ ہی کارکردگی کو محدود کر رہا تھا۔

اب جب کہ انجینئرنگ کی احتیاط سے تصدیق ہو چکی ہے، دوسرا امکان سنجیدگی سے تفتیش کے لائق ہو جاتا ہے۔

یہیں سے اصل سبق شروع ہوا۔

مرحلہ 3: اپنے ڈیٹا سیٹ کی چھان بین کریں۔

ماڈلز کو مسلسل ٹیوننگ کرنے کے بجائے، ایک نتیجہ خیز عمل ڈیٹاسیٹ پر تشخیصی لینس کو تبدیل کرنا ہے۔

تین آسان ٹیسٹوں سے اصل مسئلہ سامنے آیا۔ دوبارہ تربیت یا مہنگے تجربات کی ضرورت نہیں تھی۔

تشخیصی 1: ڈیٹاسیٹ میں اصل میں کیا ہوتا ہے؟

پہلا قدم صرف ڈیٹاسیٹ کی ترتیب کو کھینچنا تھا۔

926 لیبل والی جامع تصاویر (تربیت کے اعداد و شمار کی بڑی مقدار)
صرف 60 لیبل والی اصلی تصاویر – ڈیٹا سیٹ کا 4% سے کم
557 اصلی، بغیر لیبل والی تصاویر — اگر حقیقی ڈیٹا موجود ہے لیکن اس پر کوئی لیبل نہیں ہے، تو اسے زیر نگرانی تربیت کے لیے استعمال نہیں کیا جا سکتا۔

اس سے ڈیٹا سیٹ کی تشریح فوری طور پر بدل گئی۔

اگرچہ ڈیٹاسیٹ میں بہت سے حقیقی الٹراساؤنڈ اسکین ہوتے ہیں، لیکن لیبل لگا ہوا تربیتی ڈیٹا تقریباً تمام مصنوعی ہوتا ہے۔

ماڈل کو مصنوعی الٹراساؤنڈ پر مؤثر طریقے سے تربیت دی گئی ہے اور توقع کی جاتی ہے کہ وہ حقیقی الٹراساؤنڈ کو عام کرے گا۔

یہ شروع سے ہی ایک مشکل منتقلی کا مسئلہ ہے۔

پابندیاں آسان ہیں۔ چونکہ اصلی تصاویر زیادہ تر لیبل نہیں ہوتی ہیں، اس لیے زیر نگرانی سیکھنے کے لیے بہت کم حقیقی ڈیٹا ہوتا ہے۔

کلاس: تربیت سے پہلے اپنے ڈیٹا سیٹ کی ترتیب کو چارٹ کریں۔ سرخی والی تصویر کی گنتی گمراہ کن ہو سکتی ہے۔ "1,500 امیجز” اس وقت تک بہت اچھی لگتی ہیں جب تک کہ آپ یہ دریافت نہ کر لیں کہ صرف ایک بہت ہی چھوٹے حصے پر ٹارگٹ ڈومین کی مثالوں کا لیبل لگا ہوا ہے۔

تشخیص 2: کیا مصنوعی اور حقیقی تصاویر ایک جیسی نظر آتی ہیں؟

اگلا سوال یہ تھا کہ کیا مصنوعی اور حقیقی الٹراساؤنڈ تصاویر درحقیقت اسی طرح کی بصری تقسیم کی پیروی کرتی ہیں۔

شدت کے ہسٹوگرام کی منصوبہ بندی سے واضح تضاد سامنے آیا۔

مصنوعی سمیلیٹر نے جسمانی جیومیٹری کو معقول حد تک گرفت میں لیا لیکن اصلی الٹراساؤنڈ کی ساخت اور شور کی خصوصیات کو دوبارہ پیش نہیں کیا۔

یہ ایک کلاسک ہے مصنوعی-حقیقی ڈومین گیپ۔

مصنوعی تصاویر کے مطابق بنائے گئے فیچرز کو سیکھنے کے بعد، ماڈل نے تشخیص کے دوران نمایاں طور پر مختلف ڈسٹری بیوشنز کو دریافت کیا۔ منتقلی کی خراب کارکردگی حیران کن ہونے کی بجائے متوقع تھی۔

کلاس: ہم براہ راست تعیناتی کی تبدیلیوں کی پیمائش کرتے ہیں کیونکہ تربیت اور تعیناتی مختلف ڈومینز میں ہوتی ہے: مصنوعی → اصلی، اسکینر A → اسکینر B، ہسپتال A → ہسپتال B، وغیرہ۔ ایک سادہ ہسٹوگرام موازنہ منٹوں میں اہم مسائل کی نشاندہی کرنے میں آپ کی مدد کرسکتا ہے۔

تشخیصی 3: کیا حقیقی ڈیٹا شامل کرنے سے خلا کو پورا کیا جا سکتا ہے؟

یہاں کچھ خیالات ہیں: اگر ہم تربیت کے دوران اصلی لیبل والے ڈیٹا کو شامل کریں تو کیا ہوگا؟

تاہم، اس نقطہ نظر کو لاگو کرنے سے پہلے، یہ تعین کرنا اچھا خیال ہوگا کہ کتنے انفرادی مریضوں کے پاس اصل میں لیبل ہیں۔

Labeled real images: 60
Distinct subjects (labeled real): 4

Frames per subject:
  subject h: 26
  subject a: 16
  subject g: 10
  subject b: 8

صرف ہاں مریض

نتیجے کے طور پر، صورتحال بنیادی طور پر تبدیل ہوگئی ہے.

طبی امیجنگ کی مناسب تشخیص کے لیے موضوعاتی مطالعہ/ٹیسٹ اسپلٹ کی ضرورت ہوتی ہے۔ تاہم، اگر صرف چار مریض ہیں، تو تمام اندازے شماریاتی طور پر غیر مستحکم ہو جاتے ہیں۔

2-3 مریضوں پر تربیت اور 1-2 مریضوں کی جانچ بہت ناقابل اعتماد میٹرکس تیار کرتی ہے جو بہت زیادہ انحصار کرتی ہے جس پر مریضوں کو خارج کر دیا جاتا ہے۔

اس وقت، ڈیٹا سیٹ قابل اعتماد حقیقی دنیا کے جائزوں کی حمایت نہیں کر سکتا تھا۔

کلاس: میڈیکل امیجنگ میں، حساب کتاب موضوع پر کیا جاتا ہے، تصویر پر نہیں۔ ڈیٹا سیٹ کے اصل سائز کا تعین آزاد مریضوں کی تعداد سے ہوتا ہے، فائلوں کی تعداد سے نہیں۔

مرحلہ 4: یہ جاننا کہ کب رکنا ہے۔

اس مقام پر مزید ٹیوننگ کا کوئی مطلب نہیں ہے۔

رکاوٹ فن تعمیر، اصلاح کار، یا سیکھنے کی رفتار نہیں تھی۔ رکاوٹ خود ڈیٹا سیٹ میں تھی۔

پائپ لائن اب بھی قیمتی اور دوبارہ قابل استعمال تھی۔ تاہم، یہ مخصوص ڈیٹاسیٹ قابل اعتماد طور پر مطلوبہ تقسیم کاری کے کام کی حمایت نہیں کر سکتا۔

یہ فرق اہم ہے۔ کبھی کبھی مسئلہ مشکل ہوتا ہے لیکن حل کیا جا سکتا ہے، اور بعض اوقات ڈیٹا اس نتیجے کی حمایت نہیں کرتا جس کو آپ نکالنے کی کوشش کر رہے ہیں۔

اختلافات کو پہچاننا سیکھنا ایک اہم ایم ایل ہنر ہے۔

پریکٹیکل ڈیٹا سیٹ ایویلیوایشن چیک لسٹ

ماڈل ڈیولپمنٹ میں کئی ہفتوں کی سرمایہ کاری کرنے سے پہلے، تمام ڈیٹا سیٹس پر درج ذیل چیک کو چلانے کے قابل ہے:

اپنے ڈیٹا سیٹ کی ترکیب چارٹ کریں۔ – لیبل لگا ہوا اور بغیر لیبل والا، کلاس کی تقسیم، ڈومین کی تقسیم
عنوانات شمار کریں، تصاویر نہیں۔ – مریض کی آزادی فریم شمار سے زیادہ اہم ہے۔
کلاس بیلنس چیک کریں۔ نایاب کلاسوں کو اکثر بغیر کسی وزن یا نمونے کی حکمت عملی کے نظر انداز کر دیا جاتا ہے۔
تربیت اور تعیناتی کی تعیناتی کا موازنہ – خاص طور پر کراس ڈومین کے مسائل کے لیے
بصری طور پر لیبل چیک کریں۔ – پری پروسیسنگ یا تشریح کی غلطیوں کو جلد پکڑیں۔
شائع شدہ بنیادی خطوط تلاش کریں۔ — ناقص اشاعتی کارکردگی ڈیٹا سیٹ کی حدود کی نشاندہی کر سکتی ہے۔

اس چیک میں صرف چند منٹ لگتے ہیں اور یہ آپ کو غیر ضروری مصالحت کے ہفتوں کو بچا سکتا ہے۔

اگلی بار کوشش کریں گے۔

نتائج کو بہتر بنانے کے لیے بڑے ماڈلز کے بجائے بہتر ڈیٹا کی ضرورت پڑ سکتی ہے۔ اگلے اقدامات جن کو میں ترجیح دینا چاہتا ہوں وہ ہیں:

مزید مخصوص مریضوں سے مزید لیبل والے اصلی الٹراساؤنڈ اسکین جمع کریں۔
تشریح کی مستقل مزاجی میں بہتری
اصلی، بغیر لیبل والی تصاویر کا استعمال کرتے ہوئے نیم زیر نگرانی سیکھنا
مصنوعی اور اصلی الٹراساؤنڈ کے درمیان ڈومین موافقت

یہ سبھی ڈیٹا کے معیار اور ڈیٹا کے تنوع کو ہدف بناتے ہیں، جو کہ حقیقی رکاوٹیں ہیں۔

بڑا سبق

مشین لرننگ میں، ہماری زیادہ تر توجہ فن تعمیر، ہائپر پیرامیٹرس، اصلاحی چالوں، اور جدید ترین ماڈلز پر مرکوز کرنا آسان ہے۔

تاہم، ڈیٹا سیٹ خاموشی سے ایک اوپری حد کی وضاحت کرتا ہے۔

کمزور ڈیٹا پر جدید ترین ماڈل اکثر مایوسی کا شکار ہوتے ہیں، جبکہ مضبوط ڈیٹا پر سادہ ماڈل حیرت انگیز طور پر اچھی کارکردگی کا مظاہرہ کرتے ہیں۔

یہ اس منصوبے کا اصل سبق تھا۔

سب سے قیمتی مہارت پائپ لائنوں کی تعمیر نہیں تھی۔ یہ اس بات کی تشخیص کرنے کے بارے میں تھا کہ ماڈل کیوں کامیاب نہیں ہوا اور ڈیٹا ہمیں جو کچھ بتا رہا ہے اس پر بھروسہ کرنے کو تیار ہے۔

ڈیٹاسیٹ کمپوزیشن کو چیک کرنے، عنوانات کا حساب لگانے، تقسیم کا موازنہ کرنے، انجینئرنگ کی خرابیوں کو مسترد کرنے، اور تقریباً کسی بھی ML پروجیکٹ میں منتقلی کو کب روکنا ہے اس کا فیصلہ کرنے کا ورک فلو۔

بہت سے منصوبوں کے لیے، ڈیٹا کے بارے میں بہتر فیصلہ بہتر ماڈلز سے زیادہ اہم ہے۔

پائپ لائن کوڈ اور تشخیصی نوٹ بک MONAI الٹراساؤنڈ ورکنگ گروپ کے ذخیرے میں دستیاب ہیں۔ سوالات، اصلاحات اور بہتری کا ہمیشہ خیرمقدم کیا جاتا ہے۔