OpenAI فراتر از انتشار با تولید کننده تصویر مبتنی بر “ثبات” به نظر می رسد

زمینه تولید تصویر به سرعت پیش می رود. اگرچه ممکن است مدل‌های انتشار که توسط ابزارهای محبوبی مانند Midjourney و Stable Diffusion استفاده می‌شوند، بهترین به نظر برسند، چیز بعدی همیشه در راه است – و OpenAI ممکن است با «مدل‌های سازگاری» به آن ضربه زده باشد، که می‌تواند کارهای ساده را انجام دهد. مرتبه قدر سریعتر از امثال DALL-E.

این مقاله ماه گذشته به‌عنوان پیش‌چاپ آنلاین قرار گرفت و با ذخایر کم‌حساب OpenAI برای نسخه‌های اصلی آن همراه نبود. این جای تعجب نیست: این قطعا فقط یک مقاله تحقیقاتی است و بسیار فنی است. اما نتایج این تکنیک اولیه و تجربی به اندازه کافی جالب توجه است.

توضیح مدل های سازگاری به خصوص آسان نیست، اما در مقایسه با مدل های انتشار منطقی تر است.

در دیفیوژن، یک مدل یاد می‌گیرد که چگونه به تدریج نویز را از یک تصویر شروع که تماماً از نویز ساخته شده است کم کند و آن را گام به گام به اعلان هدف نزدیک‌تر کند. این رویکرد چشمگیرترین تصاویر هوش مصنوعی امروزی را فعال کرده است، اما اساساً به انجام ده تا هزاران مرحله برای رسیدن به نتایج خوب متکی است. این بدان معناست که کار با آن گران است و همچنین آنقدر کند است که برنامه های بلادرنگ غیرعملی هستند.

هدف مدل‌های سازگاری، ساخت چیزی بود که در یک مرحله محاسباتی یا حداکثر دو مرحله، نتایج مناسبی به دست آورد. برای انجام این کار، مدل، مانند یک مدل انتشار، آموزش می بیند که فرآیند تخریب تصویر را مشاهده کند، اما یاد می گیرد که یک تصویر در هر سطحی از تاریکی (یعنی با اطلاعات کمی از دست رفته یا زیاد) بگیرد و یک تصویر منبع کامل در آن تولید کند. فقط یک قدم

اما من عجله دارم اضافه کنم که این فقط موجی ترین توصیف از آنچه در حال رخ دادن است است. این نوع کاغذ است:

گزیده ای نماینده از مقاله سازگاری.

تصاویر به دست آمده شگفت‌انگیز نیستند – بسیاری از تصاویر را حتی نمی‌توان خوب نامید. اما آنچه مهم است این است که آنها در یک مرحله تولید شده اند تا صد یا هزار. علاوه بر این، مدل سازگاری به وظایف مختلفی مانند رنگ آمیزی، ارتقاء مقیاس، تفسیر طرح، پر کردن، و غیره نیز با یک مرحله تعمیم می یابد (اگرچه اغلب یک ثانیه بهبود می یابد).

چه تصویر بیشتر نویز باشد یا بیشتر داده، مدل‌های سازگاری مستقیماً به نتیجه نهایی می‌رسند.

این مهم است، اولاً، زیرا الگوی تحقیق در یادگیری ماشین عموماً این است که فردی تکنیکی را ایجاد می‌کند، شخص دیگری راهی برای بهتر کردن آن پیدا می‌کند، سپس دیگران آن را در طول زمان تنظیم می‌کنند در حالی که محاسبات را اضافه می‌کنند تا نتایج بسیار بهتری نسبت به آنچه شما شروع کرده‌اید تولید کنند. این کم و بیش چگونه به هر دو مدل انتشار مدرن و ChatGPT رسیدیم. این یک فرآیند خود محدودکننده است زیرا عملا شما فقط می توانید محاسبات زیادی را به یک کار معین اختصاص دهید.

با این حال، آنچه بعد اتفاق می‌افتد این است که یک تکنیک جدید و کارآمدتر شناسایی شده است که می‌تواند همان کاری را که مدل قبلی انجام می‌داد، در ابتدا بدتر و همچنین بسیار کارآمدتر انجام دهد. مدل‌های سازگاری این را نشان می‌دهند، اگرچه هنوز به اندازه کافی زود است که نمی‌توان آنها را مستقیماً با مدل‌های انتشار مقایسه کرد.

اما در سطح دیگری اهمیت دارد، زیرا نشان می‌دهد که چگونه OpenAI، به‌راحتی تاثیرگذارترین ابزار تحقیقاتی هوش مصنوعی در جهان در حال حاضر، به طور فعال در حال نگاه کردن به گذشته در موارد استفاده نسل بعدی است.

بله، اگر می‌خواهید 1500 تکرار را در طول یک یا دو دقیقه با استفاده از مجموعه‌ای از پردازنده‌های گرافیکی انجام دهید، می‌توانید نتایج خیره‌کننده‌ای از مدل‌های انتشار دریافت کنید. اما اگر بخواهید یک تولید کننده تصویر را روی گوشی شخصی خود بدون تخلیه باتری اجرا کنید، یا نتایج فوق العاده سریعی را در مثلاً یک رابط چت زنده ارائه دهید، چه؟ Diffusion به سادگی ابزار اشتباهی برای این کار است، و محققان OpenAI به طور فعال در جستجوی ابزار مناسب هستند – از جمله Ilya Sutskever، نام شناخته شده در این زمینه، نه اینکه مشارکت نویسندگان دیگر، یانگ سونگ، پرافولا دهیوال، و مارک چن.

این که آیا مدل‌های سازگاری گام بزرگ بعدی برای OpenAI هستند یا فقط یک پیکان دیگر در تپش آن – تقریباً مطمئناً آینده هم چندوجهی و هم چند مدل است – به نحوه انجام تحقیقات بستگی دارد. من برای جزئیات بیشتر درخواست کرده ام و در صورت شنیدن پاسخ از محققان، این پست را به روز خواهم کرد.