زمینه تولید تصویر به سرعت پیش می رود. اگرچه ممکن است مدلهای انتشار که توسط ابزارهای محبوبی مانند Midjourney و Stable Diffusion استفاده میشوند، بهترین به نظر برسند، چیز بعدی همیشه در راه است – و OpenAI ممکن است با «مدلهای سازگاری» به آن ضربه زده باشد، که میتواند کارهای ساده را انجام دهد. مرتبه قدر سریعتر از امثال DALL-E.
این مقاله ماه گذشته بهعنوان پیشچاپ آنلاین قرار گرفت و با ذخایر کمحساب OpenAI برای نسخههای اصلی آن همراه نبود. این جای تعجب نیست: این قطعا فقط یک مقاله تحقیقاتی است و بسیار فنی است. اما نتایج این تکنیک اولیه و تجربی به اندازه کافی جالب توجه است.
توضیح مدل های سازگاری به خصوص آسان نیست، اما در مقایسه با مدل های انتشار منطقی تر است.
در دیفیوژن، یک مدل یاد میگیرد که چگونه به تدریج نویز را از یک تصویر شروع که تماماً از نویز ساخته شده است کم کند و آن را گام به گام به اعلان هدف نزدیکتر کند. این رویکرد چشمگیرترین تصاویر هوش مصنوعی امروزی را فعال کرده است، اما اساساً به انجام ده تا هزاران مرحله برای رسیدن به نتایج خوب متکی است. این بدان معناست که کار با آن گران است و همچنین آنقدر کند است که برنامه های بلادرنگ غیرعملی هستند.
هدف مدلهای سازگاری، ساخت چیزی بود که در یک مرحله محاسباتی یا حداکثر دو مرحله، نتایج مناسبی به دست آورد. برای انجام این کار، مدل، مانند یک مدل انتشار، آموزش می بیند که فرآیند تخریب تصویر را مشاهده کند، اما یاد می گیرد که یک تصویر در هر سطحی از تاریکی (یعنی با اطلاعات کمی از دست رفته یا زیاد) بگیرد و یک تصویر منبع کامل در آن تولید کند. فقط یک قدم
اما من عجله دارم اضافه کنم که این فقط موجی ترین توصیف از آنچه در حال رخ دادن است است. این نوع کاغذ است:

گزیده ای نماینده از مقاله سازگاری.
تصاویر به دست آمده شگفتانگیز نیستند – بسیاری از تصاویر را حتی نمیتوان خوب نامید. اما آنچه مهم است این است که آنها در یک مرحله تولید شده اند تا صد یا هزار. علاوه بر این، مدل سازگاری به وظایف مختلفی مانند رنگ آمیزی، ارتقاء مقیاس، تفسیر طرح، پر کردن، و غیره نیز با یک مرحله تعمیم می یابد (اگرچه اغلب یک ثانیه بهبود می یابد).

چه تصویر بیشتر نویز باشد یا بیشتر داده، مدلهای سازگاری مستقیماً به نتیجه نهایی میرسند.
این مهم است، اولاً، زیرا الگوی تحقیق در یادگیری ماشین عموماً این است که فردی تکنیکی را ایجاد میکند، شخص دیگری راهی برای بهتر کردن آن پیدا میکند، سپس دیگران آن را در طول زمان تنظیم میکنند در حالی که محاسبات را اضافه میکنند تا نتایج بسیار بهتری نسبت به آنچه شما شروع کردهاید تولید کنند. این کم و بیش چگونه به هر دو مدل انتشار مدرن و ChatGPT رسیدیم. این یک فرآیند خود محدودکننده است زیرا عملا شما فقط می توانید محاسبات زیادی را به یک کار معین اختصاص دهید.
با این حال، آنچه بعد اتفاق میافتد این است که یک تکنیک جدید و کارآمدتر شناسایی شده است که میتواند همان کاری را که مدل قبلی انجام میداد، در ابتدا بدتر و همچنین بسیار کارآمدتر انجام دهد. مدلهای سازگاری این را نشان میدهند، اگرچه هنوز به اندازه کافی زود است که نمیتوان آنها را مستقیماً با مدلهای انتشار مقایسه کرد.
اما در سطح دیگری اهمیت دارد، زیرا نشان میدهد که چگونه OpenAI، بهراحتی تاثیرگذارترین ابزار تحقیقاتی هوش مصنوعی در جهان در حال حاضر، به طور فعال در حال نگاه کردن به گذشته در موارد استفاده نسل بعدی است.
بله، اگر میخواهید 1500 تکرار را در طول یک یا دو دقیقه با استفاده از مجموعهای از پردازندههای گرافیکی انجام دهید، میتوانید نتایج خیرهکنندهای از مدلهای انتشار دریافت کنید. اما اگر بخواهید یک تولید کننده تصویر را روی گوشی شخصی خود بدون تخلیه باتری اجرا کنید، یا نتایج فوق العاده سریعی را در مثلاً یک رابط چت زنده ارائه دهید، چه؟ Diffusion به سادگی ابزار اشتباهی برای این کار است، و محققان OpenAI به طور فعال در جستجوی ابزار مناسب هستند – از جمله Ilya Sutskever، نام شناخته شده در این زمینه، نه اینکه مشارکت نویسندگان دیگر، یانگ سونگ، پرافولا دهیوال، و مارک چن.
این که آیا مدلهای سازگاری گام بزرگ بعدی برای OpenAI هستند یا فقط یک پیکان دیگر در تپش آن – تقریباً مطمئناً آینده هم چندوجهی و هم چند مدل است – به نحوه انجام تحقیقات بستگی دارد. من برای جزئیات بیشتر درخواست کرده ام و در صورت شنیدن پاسخ از محققان، این پست را به روز خواهم کرد.