گوگل مدل های مولد جدیدی از جمله Imagen را به Vertex AI می آورد

می 10, 2023 از 30pp

به تعبیر Andreessen Horowitz، هوش مصنوعی مولد، به ویژه در بخش متن به هنر، دنیا را می خورد. حداقل، سرمایه‌گذاران اینطور معتقدند – با قضاوت با میلیاردها دلاری که برای استارت‌آپ‌های توسعه‌دهنده هوش مصنوعی که متن و تصاویر را از طریق درخواست‌ها ایجاد می‌کند، سرمایه‌گذاری کرده‌اند.

Big Tech روی راه‌حل‌های هنری مولد هوش مصنوعی خود سرمایه‌گذاری می‌کند، چه از طریق مشارکت با استارت‌آپ‌های فوق‌الذکر یا R&D داخلی. (نگاه کنید به: همکاری مایکروسافت با OpenAI برای Image Creator.) Google، با استفاده از شاخه تحقیق و توسعه قوی خود، تصمیم گرفته است مسیر دوم را طی کند و کار خود را در زمینه هوش مصنوعی مولد برای رقابت با پلتفرم‌هایی که در حال حاضر وجود دارد، تجاری کند.

امروز در کنفرانس سالانه توسعه‌دهندگان I/O، گوگل مدل‌های هوش مصنوعی جدیدی را معرفی کرد که به سمت Vertex AI، سرویس هوش مصنوعی کاملاً مدیریت شده‌اش، از جمله مدل تبدیل متن به تصویر به نام Imagen، حرکت می‌کنند. Imagen، که گوگل در نوامبر گذشته از طریق برنامه AI Test Kitchen پیش‌نمایش آن را انجام داد، می‌تواند تصاویر را تولید و ویرایش کند و همچنین برای تصاویر موجود زیرنویس بنویسد.

ننشاد باردولیوالا، مدیر Vertex AI در Google Cloud در یک مصاحبه تلفنی به TechCrunch گفت: «هر توسعه‌دهنده‌ای می‌تواند با استفاده از Google Cloud از این فناوری استفاده کند. “نیازی نیست که دانشمند داده یا توسعه دهنده باشید.”

تصویر در Vertex

شروع کار با Imagen در Vertex در واقع یک فرآیند نسبتاً ساده است. یک رابط کاربری برای این مدل از چیزی که Google آن را باغ مدل می‌نامد، در دسترس است، مجموعه‌ای از مدل‌های توسعه‌یافته توسط Google در کنار مدل‌های منبع باز مدیریت‌شده. در داخل UI، مشابه پلتفرم‌های هنری مولد مانند MidJourney و Nightcafe، مشتریان می‌توانند درخواست‌هایی را وارد کنند (مثلاً “یک کیف دستی بنفش”) تا Imagen تعداد انگشت شماری از تصاویر نامزد تولید کند.

ابزارهای ویرایش و درخواست‌های بعدی، تصاویر تولید شده توسط Imagen را اصلاح می‌کنند، به عنوان مثال، رنگ اشیاء نشان داده شده در آنها را تنظیم می‌کنند. Vertex علاوه بر تنظیم دقیق که به مشتریان امکان می دهد Imagen را به سمت سبک ها و ترجیحات خاصی هدایت کنند، ارتقاء مقیاس را برای وضوح تصاویر ارائه می دهد.

همانطور که قبلا اشاره شد، Imagen همچنین می‌تواند برای تصاویر زیرنویس ایجاد کند و به صورت اختیاری آن زیرنویس‌ها را با استفاده از Google Translate ترجمه کند. برای مطابقت با قوانین حفظ حریم خصوصی مانند GDPR، تصاویر تولید شده که ذخیره نمی شوند ظرف 24 ساعت حذف می شوند. باردولیوالا می گوید.

ما شروع به کار با هوش مصنوعی مولد و تصاویر آنها را برای مردم بسیار آسان می کنیم. او اضافه کرد.

البته، انبوهی از چالش‌های اخلاقی و قانونی در ارتباط با همه اشکال هوش مصنوعی مولد وجود دارد – مهم نیست چقدر رابط کاربری صیقلی است. مدل‌های هوش مصنوعی مانند Imagen «یاد می‌گیرند» با «آموزش» روی تصاویر موجود، تصاویری را از پیام‌های متنی تولید کنند، که اغلب از مجموعه داده‌هایی می‌آیند که با تراش کردن وب‌سایت‌های میزبان تصویر عمومی به هم خراشیده شده‌اند. برخی از کارشناسان پیشنهاد می‌کنند که مدل‌های آموزشی با استفاده از تصاویر عمومی، حتی آنهایی که دارای حق چاپ هستند، تحت دکترین استفاده منصفانه در ایالات متحده قرار می‌گیرند، اما این موضوعی است که بعید به نظر می‌رسد به این زودی حل شود.

گوگل مدل های مولد جدیدی از جمله Imagen را به Vertex AI می آورد

مدل Imagen گوگل در عمل، در Vertex AI.

در عین حال، دو شرکت پشت ابزارهای هنری محبوب هوش مصنوعی، Midjourney و Stability AI، در تیررس یک پرونده قانونی هستند که ادعا می کند با آموزش ابزارهای خود بر روی تصاویر خراشیده شده در وب، حقوق میلیون ها هنرمند را نقض کرده اند. تامین‌کننده تصاویر استوک Getty Images به دلیل استفاده از میلیون‌ها تصویر از سایت خود بدون مجوز برای آموزش مدل تولیدکننده هنر Stable Diffusion، هوش مصنوعی Stability AI را جداگانه به دادگاه برده است.

من پرسیدم باردولیوالا آیا مشتریان Vertex باید نگران باشند که Imagen ممکن است در مورد مطالب دارای حق چاپ آموزش دیده باشد. قابل درک است که اگر چنین بود، ممکن است از استفاده از آن منصرف شوند.

باردولیوالا صراحتاً نگفت که Imagen در مورد تصاویر دارای علامت تجاری آموزش ندیده است – فقط گوگل “بررسی های گسترده حاکمیت داده” را انجام می دهد تا “داده های منبع” را در مدل های خود بررسی کند تا اطمینان حاصل کند که آنها “عاری از ادعای حق نسخه برداری” هستند. (با توجه به این که Imagen اصلی بر روی یک مجموعه داده عمومی، LAION، که دارای آثار دارای حق چاپ شناخته شده است، آموزش داده شده است، زبان محافظت شده چندان تعجب آور نیست.)

“ما باید اطمینان حاصل کنیم که کاملاً در تعادل احترام به همه قوانین مربوط به اطلاعات حق چاپ هستیم.” باردولیوالا ادامه داد. ما با مشتریان کاملاً واضح هستیم که مدل‌هایی را در اختیار آنها قرار می‌دهیم که می‌توانند از آن در کار خود استفاده کنند و اینکه IP تولید شده از مدل‌های آموزش‌دیده‌شان را به شیوه‌ای کاملاً ایمن در اختیار دارند.»

داشتن آی پی موضوع دیگری است. حداقل در ایالات متحده، روشن نیست که آیا هنر تولید شده توسط هوش مصنوعی دارای حق چاپ است یا خیر.

یک راه حل – نه برای مشکل مالکیت، بلکه برای سوالات مربوط به داده های آموزشی دارای حق چاپ – این امکان را به هنرمندان می دهد که به طور کلی از آموزش هوش مصنوعی “انصراف دهند”. استارت‌آپ هوش مصنوعی Spawning در تلاش است تا استانداردها و ابزارهای گسترده‌ای را برای انصراف از فناوری هوش مصنوعی مولد ایجاد کند. Adobe در حال پیگیری مکانیسم‌ها و ابزارهای انصراف خود است. DeviantArt نیز همینطور است، که در ماه نوامبر یک حفاظت مبتنی بر تگ HTML راه اندازی کرد تا ربات های نرم افزاری را از خزیدن در صفحات برای تصاویر منع کند.

اعتبار تصویر: گوگل

گوگل گزینه انصراف ارائه نمی دهد. (منصفانه بگوییم، یکی از رقبای اصلی آن، OpenAI نیز چنین نیست.) باردولیوالا نگفت که آیا این ممکن است در آینده تغییر کند یا خیر، فقط این که گوگل است.به شدت نگران این است که مطمئن شود که مدل‌ها را به روشی «اخلاقی و مسئولیت‌پذیر» آموزش می‌دهد.

فکر می‌کنم این مقدار کمی غنی است، از شرکتی می‌آید که هیئت علمی اخلاق هوش مصنوعی بیرونی را لغو کرد، محققان برجسته اخلاق هوش مصنوعی را مجبور به اخراج کرد و انتشار تحقیقات هوش مصنوعی را برای “رقابت و حفظ دانش در خانه” کاهش داد. اما تفسیر کنید سخنان باردولیوالا همانطور که می خواهید.

من هم پرسیدم باردولیوالا درباره گام‌هایی که گوگل برای محدود کردن میزان محتوای سمی یا مغرضانه ایجاد می‌کند، در صورت وجود، انجام می‌دهد – مشکل دیگری در سیستم‌های هوش مصنوعی مولد. اخیراً، محققان استارت‌آپ Hugging Face و دانشگاه لایپزیگ ابزاری را منتشر کردند که نشان می‌دهد مدل‌هایی مانند Stable Diffusion و OpenAI’s DALL-E 2 تصاویری از افراد سفیدپوست و مردانه تولید می‌کنند، به‌ویژه زمانی که از آنها خواسته می‌شود افرادی را در موقعیت‌های قدرتمند به تصویر بکشند.

Bardoliwalla پاسخ دقیق تری برای این سوال آماده کرده بود و ادعا می کرد که هر فراخوانی API به مدل های مولد میزبان Vertex از نظر “ویژگی های ایمنی” از جمله سمیت، خشونت و فحاشی ارزیابی می شود. Bardoliwalla گفت که Vertex مدل‌ها را بر اساس این ویژگی‌ها امتیاز می‌دهد و برای دسته‌های خاص، پاسخ را مسدود می‌کند یا به مشتریان اجازه می‌دهد چگونه ادامه دهند.

«ما از ویژگی‌های مصرف‌کننده خود حس خوبی نسبت به نوع محتوا داریم که ممکن است آن نوع محتوایی نباشد که مشتریان ما به دنبال این مدل‌های هوش مصنوعی مولد برای تولید هستند.» او ادامه داد. “این زمینه‌ای برای سرمایه‌گذاری قابل توجه و همچنین رهبری بازار برای Google است – برای اینکه مطمئن شویم مشتریان ما می‌توانند نتایجی را که به دنبال آن هستند تولید کنند که به ارزش نام تجاری آنها لطمه یا لطمه وارد نمی‌کند.»

برای این منظور، گوگل یادگیری تقویتی از بازخورد انسانی (RLHF) را به عنوان یک سرویس مدیریت شده در Vertex راه‌اندازی می‌کند، که ادعا می‌کند به سازمان‌ها کمک می‌کند عملکرد مدل را در طول زمان حفظ کنند و مدل‌های ایمن‌تر – و به‌طور قابل اندازه‌گیری دقیق‌تر – را در تولید به کار ببرند. RLHF، یک تکنیک محبوب در یادگیری ماشینی، یک «مدل پاداش» را مستقیماً از بازخورد انسانی آموزش می‌دهد، مانند درخواست از کارکنان قراردادی برای رتبه‌بندی پاسخ‌ها از یک ربات چت هوش مصنوعی. سپس از این مدل پاداش برای بهینه سازی یک مدل هوش مصنوعی مولد در امتداد خطوط Imagen استفاده می کند.

اعتبار تصویر: گوگل

Bardoliwalla می گوید که مقدار تنظیم دقیق مورد نیاز از طریق RLHF به دامنه مشکلی که مشتری برای حل آن تلاش می کند بستگی دارد. بحث‌هایی در دانشگاه وجود دارد که آیا RLHF همیشه رویکرد درستی است یا خیر – برای اولین بار، استارت‌آپ هوش مصنوعی Anthropic استدلال می‌کند که اینطور نیست، تا حدی به این دلیل که RLHF می‌تواند مستلزم استخدام تعداد زیادی پیمانکار کم‌درآمد باشد که مجبور به رتبه‌بندی محتوای بسیار سمی هستند. اما گوگل احساس متفاوتی دارد.

“با خدمات RLHF ما، مشتری می تواند یک روش و مدل را انتخاب کند و سپس به پاسخ هایی که از مدل می آید امتیاز دهد.” باردولیوالا گفت. “یک بار آنها این پاسخ‌ها را به سرویس یادگیری تقویتی ارسال کنید، این مدل را به گونه‌ای تنظیم می‌کند که پاسخ‌های بهتری را ایجاد کند که با … آنچه سازمان به دنبال آن است، همسو باشد.

مدل ها و ابزارهای جدید

گوگل امروز اعلام کرد که فراتر از Imagen، چندین مدل هوش مصنوعی مولد دیگر هم اکنون برای مشتریان انتخابی Vertex در دسترس هستند: Codey و Chirp.

Codey، پاسخ گوگل به Copilot GitHub، می تواند کد را به بیش از 20 زبان از جمله Go، Java، Javascript، Python و Typescript تولید کند. Codey می‌تواند چند خط بعدی را بر اساس زمینه کد وارد شده در یک اعلان پیشنهاد کند یا مانند ChatGPT OpenAI، این مدل می‌تواند به سؤالات مربوط به اشکال‌زدایی، اسناد و مفاهیم برنامه‌نویسی سطح بالا پاسخ دهد.

اعتبار تصویر: گوگل

در مورد Chirp، این یک مدل گفتاری است که میلیون‌ها ساعت صدا را آموزش داده و از بیش از 100 زبان پشتیبانی می‌کند و می‌تواند برای نوشتن شرح ویدیوها، ارائه کمک صوتی و به طور کلی قدرت بخشیدن به طیف وسیعی از وظایف گفتاری و برنامه‌ها استفاده شود.

گوگل در یک اعلامیه مرتبط در I/O، Embeddings API را برای Vertex در پیش‌نمایش راه‌اندازی کرد، که می‌تواند داده‌های متن و تصویر را به نمایش‌هایی به نام بردار تبدیل کند که روابط معنایی خاصی را ترسیم می‌کند. گوگل می گوید که از آن برای ایجاد قابلیت جستجوی معنایی و طبقه بندی متن مانند ربات های گفتگوی پرسش و پاسخ بر اساس داده های سازمان، تجزیه و تحلیل احساسات و تشخیص ناهنجاری استفاده می شود.

به گفته گوگل، Codey، Imagen، Embeddings API برای تصاویر و RLHF در Vertex AI برای «تست‌کنندگان مورد اعتماد» در دسترس هستند. در همین حال، Chirp، Embeddings API و Generative AI Studio، مجموعه‌ای برای تعامل و استقرار مدل‌های هوش مصنوعی، در پیش‌نمایش در Vertex برای هر کسی که حساب Google Cloud دارد، قابل دسترسی است.