ابزار جدید OpenAI تلاش می کند تا رفتارهای مدل های زبانی را توضیح دهد

اغلب گفته می‌شود که مدل‌های زبان بزرگ (LLM) در امتداد خطوط ChatGPT OpenAI یک جعبه سیاه هستند و مطمئناً حقیقتی در آن وجود دارد. حتی برای دانشمندان داده، دشوار است که بدانند چرا، همیشه، یک مدل به روشی که انجام می دهد، مانند اختراع حقایق از روی پارچه، پاسخ می دهد.

در تلاشی برای جدا کردن لایه‌های LLM، OpenAI در حال توسعه ابزاری برای شناسایی خودکار بخش‌های یک LLM است که مسئول کدام یک از رفتارهای آن است. مهندسان پشت آن تاکید می کنند که در مراحل اولیه است، اما کد اجرای آن از امروز صبح به صورت متن باز در GitHub در دسترس است.

ما سعی می کنیم [develop ways to] ویلیام ساندرز، مدیر تیم تفسیرپذیری OpenAI در مصاحبه ای تلفنی به TechCrunch گفت: مشکلات سیستم هوش مصنوعی را پیش بینی کنید. ما می‌خواهیم واقعاً بتوانیم بدانیم که می‌توانیم به کاری که مدل انجام می‌دهد و پاسخی که تولید می‌کند اعتماد کنیم.»

برای این منظور، ابزار OpenAI از یک مدل زبان (به طعنه) استفاده می‌کند تا عملکرد اجزای دیگر LLM‌های ساده‌تر از نظر معماری – به‌ویژه GPT-2 خود OpenAI را مشخص کند.

ابزار OpenAI تلاش می کند تا رفتارهای نورون ها را در یک LLM شبیه سازی کند.

چگونه؟ ابتدا یک توضیح سریع در مورد LLM برای پس زمینه. مانند مغز، آنها از «نورون‌ها» تشکیل شده‌اند که الگوی خاصی را در متن مشاهده می‌کنند تا بر آنچه که مدل کلی «می‌گوید» بعد تأثیر بگذارد. به عنوان مثال، با توجه به درخواستی در مورد ابرقهرمانان (مثلاً «کدام ابرقهرمانان مفیدترین ابرقدرت‌ها را دارند؟»)، یک «نرون ابرقهرمانی مارول» ممکن است احتمال نام‌گذاری ابرقهرمان‌های خاص فیلم‌های مارول را افزایش دهد.

ابزار OpenAI از این راه‌اندازی برای تجزیه مدل‌ها به تکه‌های جداگانه آنها استفاده می‌کند. ابتدا، این ابزار توالی‌های متنی را در مدل مورد ارزیابی اجرا می‌کند و منتظر مواردی می‌ماند که یک نورون خاص مکرراً «فعال می‌شود». در مرحله بعد، GPT-4، آخرین مدل هوش مصنوعی تولید متن OpenAI، این نورون‌های بسیار فعال را نشان می‌دهد و دارای GPT-4 است که توضیحی را ایجاد می‌کنند. برای تعیین دقیق بودن توضیح، این ابزار GPT-4 را با دنباله‌های متنی ارائه می‌کند و از آن می‌خواهد نحوه رفتار نورون را پیش‌بینی یا شبیه‌سازی کند. سپس رفتار نورون شبیه سازی شده را با رفتار نورون واقعی مقایسه می کند.

جف وو، سرپرست تیم تحقیق، می‌گوید: «با استفاده از این روش، اساساً می‌توانیم برای هر نورون، نوعی توضیح اولیه زبان طبیعی برای کاری که انجام می‌دهد و همچنین امتیازی برای اینکه چقدر این توضیح با رفتار واقعی مطابقت دارد، داشته باشیم. تیم تراز مقیاس پذیر در OpenAI گفت. ما از GPT-4 به عنوان بخشی از فرآیند برای تولید توضیحاتی در مورد آنچه که یک نورون به دنبال آن است استفاده می کنیم و سپس ارزیابی می کنیم که چقدر این توضیحات با واقعیت کاری که انجام می دهد مطابقت دارد.

محققان توانستند توضیحاتی را برای تمام 307200 نورون در GPT-2 ایجاد کنند که آنها را در مجموعه داده ای که در کنار کد ابزار منتشر شده است گردآوری کردند.

به گفته محققان، ابزارهایی مانند این می توانند روزی برای بهبود عملکرد یک LLM مورد استفاده قرار گیرند – به عنوان مثال برای کاهش سوگیری یا سمیت. اما آنها تصدیق می کنند که راه درازی در پیش است تا اینکه واقعاً مفید باشد. این ابزار در توضیحات خود برای حدود 1000 نورون، کسری کوچک از کل، مطمئن بود.

یک فرد بدبین نیز ممکن است استدلال کند که این ابزار اساساً یک تبلیغ برای GPT-4 است، با توجه به اینکه برای کار کردن به GPT-4 نیاز دارد. سایر ابزارهای تفسیرپذیر LLM کمتر به APIهای تجاری وابسته هستند، مانند DeepMind’s Tracr، کامپایلری که برنامه ها را به مدل های شبکه عصبی ترجمه می کند.

وو گفت که اینطور نیست – این واقعیت که ابزار از GPT-4 استفاده می کند صرفاً “تصادفی” است – و برعکس، ضعف های GPT-4 را در این زمینه نشان می دهد. او همچنین گفت که با برنامه های تجاری در ذهن ایجاد نشده است و از نظر تئوری، می تواند برای استفاده از LLM ها در کنار GPT-4 سازگار شود.

این ابزار نورون‌هایی را که در سراسر لایه‌های LLM فعال می‌شوند، شناسایی می‌کند.

وو گفت: “بیشتر توضیحات نمره بسیار ضعیفی دارند یا آنقدر از رفتار نورون واقعی را توضیح نمی دهند.” “برای مثال، بسیاری از نورون‌ها به‌گونه‌ای فعال هستند که تشخیص آن‌چه در حال رخ دادن است بسیار سخت است – مثل اینکه روی پنج یا شش چیز مختلف فعال می‌شوند، اما هیچ الگوی قابل تشخیصی وجود ندارد. گاهی اونجا است یک الگوی قابل تشخیص است، اما GPT-4 قادر به یافتن آن نیست.

این یعنی مدل‌های پیچیده‌تر، جدیدتر و بزرگ‌تر، یا مدل‌هایی که می‌توانند وب را برای کسب اطلاعات مرور کنند. اما در مورد دوم، وو معتقد است که مرور وب مکانیسم‌های اساسی ابزار را تغییر چندانی نمی‌دهد. او می‌گوید که می‌توان آن را به سادگی تغییر داد تا بفهمیم چرا نورون‌ها تصمیم می‌گیرند که جستجوهای خاصی را در موتورهای جستجو ایجاد کنند یا به وب‌سایت‌های خاصی دسترسی پیدا کنند.

وو گفت: “ما امیدواریم که این مسیر امیدوارکننده ای را برای پرداختن به تفسیرپذیری به روشی خودکار باز کند که دیگران بتوانند روی آن کار کنند و در آن مشارکت کنند.” “امید این است که ما واقعاً نه تنها توضیح خوبی در مورد اینکه نورون‌ها به چه چیزی پاسخ می‌دهند، بلکه به طور کلی، رفتار این مدل‌ها – چه نوع مدارهایی را محاسبه می‌کنند و چگونه نورون‌های خاصی بر روی دیگر نورون‌ها تاثیر می‌گذارند، داشته باشیم.”