همگام شدن با صنعتی که به سرعت هوش مصنوعی در حال حرکت است، امری دشوار است. بنابراین تا زمانی که یک هوش مصنوعی بتواند این کار را برای شما انجام دهد، در اینجا خلاصهای مفید از داستانهای هفته گذشته در دنیای یادگیری ماشین، همراه با تحقیقات و آزمایشهای قابلتوجهی است که به تنهایی پوشش ندادهایم.
این هفته، گوگل با طیف وسیعی از محصولات جدید که در کنفرانس سالانه توسعه دهندگان I/O عرضه شد، بر چرخه اخبار هوش مصنوعی تسلط یافت. آنها طیف وسیعی را از یک هوش مصنوعی تولید کننده کد برای رقابت با Copilot GitHub تا یک تولید کننده موسیقی هوش مصنوعی که پیام های متنی را به آهنگ های کوتاه تبدیل می کند، اجرا می کنند.
تعداد نسبتاً زیادی از این ابزارها صرفه جویی قانونی کار می کنند – به عبارتی بیشتر از کرک بازاریابی. من به ویژه مجذوب Project Tailwind هستم، یک برنامه یادداشت برداری که از هوش مصنوعی برای سازماندهی، خلاصه کردن و تجزیه و تحلیل فایل ها از یک پوشه شخصی Google Docs استفاده می کند. اما آنها همچنین محدودیت ها و کاستی های حتی بهترین فناوری های هوش مصنوعی امروزی را آشکار می کنند.
به عنوان مثال، PaLM 2، جدیدترین مدل زبان بزرگ گوگل (LLM) را در نظر بگیرید. PalM 2 ابزار به روز شده چت Bard گوگل را که رقیب این شرکت برای ChatGPT OpenAI است، نیرو می دهد و به عنوان مدل پایه اکثر ویژگی های جدید هوش مصنوعی گوگل عمل می کند. اما در حالی که PalM 2 می تواند مانند LLM های قابل مقایسه، کد، ایمیل و موارد دیگر بنویسد، به سوالات به روش های سمی و مغرضانه نیز پاسخ می دهد.
تولید کننده موسیقی گوگل نیز در کارهایی که می تواند انجام دهد نسبتاً محدود است. همانطور که در دستانم نوشتم، اکثر آهنگهایی که با صدای MusicLM ساختهام در بهترین حالت قابل عبور هستند – و در بدترین حالت مانند یک کودک چهار ساله که در DAW رها شده است.
بر اساس گزارش گلدمن ساکس، در مورد اینکه چگونه هوش مصنوعی جایگزین مشاغل خواهد شد – به طور بالقوه معادل 300 میلیون شغل تمام وقت، مطالب زیادی نوشته شده است. در نظرسنجی هریس، 40 درصد از کارگرانی که با ابزار چت ربات مبتنی بر هوش مصنوعی OpenAI، ChatGPT آشنا هستند، نگران هستند که این ابزار به طور کامل جایگزین مشاغل آنها شود.
هوش مصنوعی گوگل همه چیز نیست. در واقع، این شرکت احتمالاً در مسابقه هوش مصنوعی عقب است. اما این یک واقعیت غیرقابل انکار است که گوگل برخی از برترین محققان هوش مصنوعی در جهان را استخدام کرده است. و اگر این بهترین چیزی است که آنها می توانند مدیریت کنند، گواهی بر این واقعیت است که هوش مصنوعی به دور از یک مشکل حل شده است.
در اینجا سایر عناوین مورد توجه هوش مصنوعی در چند روز گذشته آمده است:
- متا هوش مصنوعی مولد را به تبلیغات می آورد: متا این هفته یک جعبه ایمنی هوش مصنوعی را برای تبلیغکنندگان معرفی کرد تا به آنها کمک کند تا نسخههای جایگزین، تولید پسزمینه از طریق پیامهای متنی و برش تصویر برای تبلیغات فیسبوک یا اینستاگرام ایجاد کنند. این شرکت گفت که این ویژگیها در حال حاضر برای تبلیغکنندگان منتخب در دسترس است و در ماه جولای دسترسی به تبلیغکنندگان بیشتری را گسترش خواهد داد.
- زمینه اضافه شده: Anthropic پنجره زمینه را برای Claude – مدل شاخص هوش مصنوعی تولید کننده متن که هنوز در پیش نمایش است – از 9000 توکن به 100000 توکن گسترش داده است. پنجره زمینه به متنی اشاره می کند که مدل قبل از تولید متن اضافی در نظر می گیرد، در حالی که نشانه ها متن خام را نشان می دهند (به عنوان مثال، کلمه “fantastic” به نشانه های “fan”، “tas” و “tic” تقسیم می شود). از لحاظ تاریخی و حتی امروز، حافظه ضعیف مانعی برای سودمندی هوش مصنوعی تولید متن بوده است. اما پنجره های زمینه بزرگتر می توانند این را تغییر دهند.
- Anthropic Touts ‘Costitutional AI’: پنجرههای زمینه بزرگتر تنها وجه تمایز مدلهای Anthropic نیستند. این شرکت در این هفته جزئیات «هوش مصنوعی قانونی»، تکنیک آموزش هوش مصنوعی داخلی خود را که هدف آن آغشتن به سیستمهای هوش مصنوعی با «ارزشهای» تعریفشده توسط «قانون اساسی» است، ارائه کرد. برخلاف سایر رویکردها، آنتروپیک استدلال میکند که هوش مصنوعی قانونی رفتار سیستمها را هم برای درک آسانتر و هم تنظیم آن را در صورت نیاز سادهتر میکند.
- LLM ساخته شده برای تحقیق: موسسه غیرانتفاعی آلن برای تحقیقات هوش مصنوعی (AI2) اعلام کرد که قصد دارد یک LLM متمرکز بر تحقیق به نام مدل زبان باز آموزش دهد و به کتابخانه بزرگ و رو به رشد منبع باز اضافه کند. AI2 مدل زبان باز یا به اختصار OLMo را بهعنوان یک پلتفرم میبیند و نه فقط یک مدل – مدلی که به جامعه تحقیقاتی اجازه میدهد هر مؤلفهای را که AI2 ایجاد میکند استفاده کند و یا خودش از آن استفاده کند یا به دنبال بهبود آن باشد.
- صندوق جدید برای هوش مصنوعی: در دیگر اخبار AI2، AI2 Incubator، صندوق راه اندازی هوش مصنوعی غیرانتفاعی، دوباره سه برابر اندازه قبلی خود رشد می کند – 30 میلیون دلار در مقابل 10 میلیون دلار. از سال 2017، 21 شرکت از انکوباتور عبور کرده اند و حدود 160 میلیون دلار سرمایه گذاری بیشتر و حداقل یک خرید عمده را جذب کرده اند: XNOR، یک ابزار شتاب و کارایی هوش مصنوعی که متعاقباً توسط اپل به قیمت حدود 200 میلیون دلار خریداری شد.
- قوانین اتحادیه اروپا برای هوش مصنوعی مولد: در یک سری رای گیری در پارلمان اروپا، نمایندگان پارلمان این هفته از مجموعه ای از اصلاحات در پیش نویس قانون هوش مصنوعی اتحادیه حمایت کردند – از جمله حل و فصل الزامات برای مدل های به اصطلاح بنیادی که زیربنای فناوری های هوش مصنوعی مولد مانند ChatGPT OpenAI است. این اصلاحات وظیفه ارائهدهندگان مدلهای بنیادی را برای اعمال بررسیهای ایمنی، اقدامات حاکمیتی دادهها و کاهش ریسک قبل از عرضه مدلهای خود به بازار میگذارد.
- یک مترجم جهانی: گوگل در حال آزمایش یک سرویس ترجمه قدرتمند جدید است که ویدیو را به زبانی جدید دوبله می کند و در عین حال لب های گوینده را با کلماتی که هرگز صحبت نکرده است همگام می کند. این می تواند به دلایل زیادی بسیار مفید باشد، اما این شرکت در مورد احتمال سوء استفاده و اقدامات انجام شده برای جلوگیری از آن پیشاپیش بود.
- توضیحات خودکار: اغلب گفته می شود که LLM ها در امتداد خطوط ChatGPT OpenAI یک جعبه سیاه هستند و مطمئناً حقیقتی در آن وجود دارد. OpenAI در تلاشی برای جدا کردن لایههای آنها، ابزاری را توسعه میدهد تا بهطور خودکار تشخیص دهد که کدام بخش از یک LLM مسئول کدام یک از رفتارهای آن است. مهندسان پشت آن تاکید می کنند که در مراحل اولیه است، اما کد اجرای آن به صورت متن باز در GitHub از این هفته در دسترس است.
- IBM خدمات جدید هوش مصنوعی را راه اندازی کرد: در کنفرانس سالانه Think، آیبیام IBM Watsonx را معرفی کرد، پلتفرمی جدید که ابزارهایی را برای ساخت مدلهای هوش مصنوعی و دسترسی به مدلهای از پیش آموزشدیدهشده برای تولید کد، متن و موارد دیگر را فراهم میکند. این شرکت میگوید انگیزه راهاندازی چالشهایی بود که بسیاری از کسبوکارها هنوز در استقرار هوش مصنوعی در محیط کار تجربه میکنند.
سایر یادگیری های ماشینی
شرکت جدید اندرو نگ، Landing AI، رویکرد شهودی تری برای ایجاد آموزش بینایی کامپیوتری در پیش گرفته است. این که یک مدل بفهمد چه چیزی را می خواهید در تصاویر شناسایی کنید بسیار پر زحمت است، اما تکنیک “تشویق بصری” آنها به شما این امکان را می دهد که فقط چند ضربه قلم مو انجام دهید و هدف شما را از آنجا مشخص کند. هرکسی که مجبور است مدلهای تقسیمبندی بسازد، میگوید “بالاخره خدای من!” احتمالاً بسیاری از دانشآموزان مقطع کارشناسی ارشد که در حال حاضر ساعتها را صرف پوشاندن اندامکها و اشیاء خانگی میکنند.
مایکروسافت مدلهای انتشار را به روشی منحصر به فرد و جالب به کار برده است و اساساً از آنها برای تولید یک بردار عمل به جای تصویر استفاده میکند و آن را بر روی بسیاری از اعمال مشاهده شده انسان آموزش داده است. هنوز خیلی زود است و انتشار راه حل واضحی برای این نیست، اما از آنجایی که آنها پایدار و همه کاره هستند، جالب است که ببینیم چگونه می توان آنها را فراتر از کارهای صرفاً بصری اعمال کرد. مقاله آنها اواخر امسال در ICLR ارائه می شود.
متا همچنین با ImageBind در حال پیشروی در لبه های هوش مصنوعی است، که ادعا می کند اولین مدلی است که می تواند داده ها را از شش حالت مختلف پردازش و یکپارچه کند: تصاویر و ویدئو، صدا، داده های عمق سه بعدی، اطلاعات حرارتی، و داده های حرکتی یا موقعیتی. این بدان معناست که در فضای کوچک تعبیهشده یادگیری ماشینی، یک تصویر ممکن است با یک صدا، شکل سهبعدی و توصیفهای متنی مختلف مرتبط باشد، که میتوان از هر یک از آنها برای تصمیمگیری سؤال کرد یا استفاده کرد. این یک گام به سمت هوش مصنوعی «عمومی» است، زیرا دادهها را بیشتر شبیه مغز جذب میکند و به هم مرتبط میکند – اما هنوز هم ابتدایی و تجربی است، بنابراین هنوز خیلی هیجانزده نشوید.
همه درباره AlphaFold هیجان زده شدند و دلیل خوبی هم داشت، اما ساختار واقعاً تنها بخش کوچکی از علم بسیار پیچیده پروتئومیکس است. نحوه تعامل آن پروتئین ها مهم است و پیش بینی آن دشوار است – اما این مدل جدید PeSTo از EPFL سعی در انجام این کار دارد. لوسین کراپ، توسعهدهنده اصلی این پروژه میگوید: «این روی اتمها و برهمکنشهای مهم در ساختار پروتئین تمرکز دارد. “به این معنی است که این روش به طور موثر برهمکنش های پیچیده در ساختارهای پروتئینی را برای پیش بینی دقیق رابط های اتصال پروتئین به تصویر می کشد.” حتی اگر دقیق یا 100٪ قابل اعتماد نباشد، عدم نیاز به شروع از صفر برای محققان بسیار مفید است.
فدرالها روی هوش مصنوعی پیش میروند. رئیسجمهور حتی در جلسهای با تعدادی از مدیران ارشد اجرایی هوش مصنوعی شرکت کرد تا بگوید انجام درست این موضوع چقدر مهم است. شاید گروهی از شرکتها لزوماً افراد مناسبی برای پرسیدن نباشند، اما حداقل ایدههایی دارند که ارزش بررسی کردن دارند. اما آنها از قبل لابی گر دارند، درست است؟
من بیشتر از مراکز تحقیقاتی جدید هوش مصنوعی که با بودجه فدرال ظاهر می شوند، هیجان زده هستم. تحقیقات اساسی برای متعادل کردن کار متمرکز بر محصول توسط شرکتهایی مانند OpenAI و Google به شدت مورد نیاز است – بنابراین وقتی مراکز هوش مصنوعی با مأموریتهایی برای بررسی مواردی مانند علوم اجتماعی (در CMU) یا تغییرات آب و هوایی و کشاورزی (در U of) دارید. مینه سوتا)، مانند مزارع سبز (هم به صورت مجازی و هم به معنای واقعی کلمه) احساس می شود. اگرچه من همچنین می خواهم کمی به این تحقیق متا در مورد اندازه گیری جنگلداری بگویم.
گفتگوهای جالب زیادی در مورد هوش مصنوعی وجود دارد. فکر میکردم این مصاحبه با جاکوب فاستر و دنی اسنلسون، دانشگاهیان UCLA (معلم من، برو بروینز) مصاحبه جالبی بود. در اینجا یک فکر عالی در مورد LLM وجود دارد تا وانمود کنید که این آخر هفته زمانی که مردم در مورد هوش مصنوعی صحبت میکنند به ذهنتان رسیده است:
این سیستمها نشان میدهند که بیشتر نوشتهها تا چه حد از نظر رسمی سازگار هستند. هرچه فرمتهایی که این مدلهای پیشبینی شبیهسازی میکنند عمومیتر باشد، موفقتر هستند. این تحولات ما را وادار می کند تا کارکردهای هنجاری اشکال خود را بشناسیم و به طور بالقوه آنها را تغییر دهیم. پس از معرفی عکاسی، که در ثبت یک فضای بازنمایی بسیار خوب است، محیط نقاش امپرسیونیسم را توسعه داد، سبکی که نمایش دقیق را به کلی رد می کرد تا با مادی بودن خود رنگ باقی بماند.
قطعا استفاده از آن!