در ماه مارس، Spotify اولین ویژگی مبتنی بر هوش مصنوعی خود را با اولین AI DJ خود راه اندازی کرد – راهنمای صوتی هوشمند با صدایی متقاعد کننده واقع گرایانه. همانطور که مشخص است، این شخصیت هوش مصنوعی در واقع بر اساس یک شخص واقعی بود – رئیس مشارکت فرهنگی Spotify، خاویر “X” Jernigan، که افتخار تبدیل شدن به اولین مدل صوتی برای ویژگی هوش مصنوعی را داشت.
TechCrunch با Jernigan به گفتگو نشست تا درباره فرآیند آموزش هوش مصنوعی و برنامههای آینده Spotify برای تلاشهای AI DJ خود اطلاعات بیشتری کسب کند.
دیجی جدید هوش مصنوعی تجربه گوش دادن به موسیقی را برای شنوندگان شخصیسازی میکند و مجموعهای از موسیقیها را بر اساس علایق آنها تنظیم میکند. همچنین درباره هر آهنگ تفسیری گفته است – بسیار شبیه یک مجری رادیویی واقعی.
علاوه بر نقش اصلی Jernigan در Spotify، او همچنین میزبان پادکست های مختلف Spotify از جمله “The Window”، “Showstopper” و همچنین پادکست در حال حاضر منقرض شده “The Get Up” است. بنابراین، او عادت دارد صدایش را میلیون ها شنونده بشنوند. با این حال، به یاد ماندن صدای او به عنوان یک هوش مصنوعی یک تجربه منحصر به فرد است.
Jernigan به TechCrunch گفت: Spotify جرنیگان را به عنوان اولین مدل صدا انتخاب کرد زیرا “صدا و شخصیت او قبلاً با بسیاری از شنوندگان ما طنین انداز شده بود.” “[The company was] کاملاً مطمئن هستم که در این راه نیز طنین انداز خواهم شد.»
برنامه صبحگاهی اسپاتیفای، «The Get Up»، نزدیک به 6 میلیون شنونده جمع کرد و قبل از پایان ناگهانی آن در سال 2022، جزو 10 پادکست برتر Spotify بود که نشان دهنده جذابیت جرنیگان بود.
با این حال، مجری پادکست اذعان داشت که در ابتدا به سختی می توان سرش را به عنوان مدل صدا برای دی جی قرار داد.
جرنیگان به ما گفت: “من تصمیم گرفتم این مدل صدا برای دی جی باشم و وقتی این موضوع برای من توضیح داده شد، ذهنم متحیر شد.” “تصور کنید اگر برای اولین بار این را می شنوید، چیزی برای نگاه کردن ندارید و من فقط می گویم “صبر کن، چی؟” این من خواهم بود، اما من نیستم، و متن و صدا است، اما شبیه من خواهد بود، و هوش مصنوعی است؟»
برای من، این یک تجربه جدید کار با هوش مصنوعی در این راه بود. او اضافه کرد که من فقط به شدت متحیر شدم.
Spotify میگوید DJ هوش مصنوعی آن با استفاده از فناوریهای Sonantic و OpenAI ساخته شده است.
Sonantic یک استارت آپ هوش مصنوعی است که Spotify سال گذشته آن را خریداری کرد. فناوری این شرکت مسئول ساخت صداهای واقع گرایانه مبتنی بر هوش مصنوعی بود، از جمله صدایی که برای صدای وال کیلمر در «Top Gun: Maverick» استفاده شد.
جرنیگان خاطرنشان کرد، قبل از خرید، Spotify چند سالی را صرف تحقیق در مورد فناوری مبتنی بر هوش مصنوعی کرده بود و بر روی ویژگی DJ “در برخی از تکرارها” کار کرده بود. او از توضیح دقیق مدت زمان این فرآیند خودداری کرد، اما گفت که ادغام فناوری Sonantic “واقعاً آن را به سرعت بالا برد.”
جرنیگان روند آموزش هوش مصنوعی را توضیح داد که مستلزم رفتن به استودیو، خواندن فیلمنامه، و صحبت کردن در آهنگها و انحرافات مختلف برای انتقال احساسات مختلف بود. او کلمات خاصی را به هوش مصنوعی داد که فقط خودش از آنها استفاده میکند تا تا حد امکان معتبر باشد.
ما از کلماتی استفاده میکنیم که من میگویم… من برای آهنگها «لحن» نمیگویم. من اینطوری صحبت نمی کنم.» او گفت. “من می گویم، “ضربه” یا “بنگر.” بنابراین، شما می شنوید که دی جی چنین کلماتی را بیان می کند، “جرنیگان ادامه داد. ما حتی یک فرآیند کامل مانند، چگونه می توانم بگویم “هی،” چگونه می توانم “سلام” را انجام دادیم. دفترچهای را در دست گرفتم و فقط این عبارات مختلف را که چیزی بود که میگفتم یادداشت میکردم.»
او افزود که تیم Spotify مطمئن شد که مکثها و نفسهای طبیعی خود را حفظ میکند تا صدای هوش مصنوعی واقعاً شبیه انسان باشد.
حتی مادر جرنیگان هم مهر تایید خود را به نتایج داد.
“[DJ] تست مامان را قبول کرد قبل از بیرون آمدن آن را برای او بازی کردم و برایش توضیح دادم و سعی میکنم او را وادار کنم که ذهنش را دور آن بپیچد.» او به تمام پادکستهای من گوش میداد، بنابراین به شنیدن صدای من که قبلاً ضبط و پخش شده بود عادت کرده بود و مثل این بود که دقیقاً شبیه شماست. مامانم گفت که این صدا شبیه من است، بنابراین میدانستم که درست است.»
اگرچه صداهای واقع گرایانه هوش مصنوعی در حال حاضر وجود دارد، اما ما استدلال می کنیم که دی جی Spotify در مقایسه با دیگرانی که شنیده ایم، آرام ترین و خنک ترین صدا است. اگرچه فناوری Duplex Google ممکن است معتبر به نظر برسد، اما لزوماً صدایی نیست که وقتی میخواهید در لیست پخش تابستانی خود احساس شادی کنید، شنیدن آن خوب نیست.
«برای من که اجرا را از دیدگاه صداپیشگی انجام میدادم، هدفم این بود که با مردم ارتباط برقرار کنم و با مردم صحبت کنم و به یک نفر فکر کنم. بنابراین، زمانی که من هوش مصنوعی را آموزش میدادم، زمانی که در استودیو بودم، یک نفر را به تصویر کشیدم که با آنها صحبت میکرد و دوست آنها بود.»
علاوه بر اینکه صدای هوش مصنوعی برای شنوندگان به نظر می رسد، طراحی خود دی جی نیز به گونه ای ساخته شده است که احساس راحتی کند.
دایره سبز متحرکی که کاربران هنگام گوش دادن به دی جی می بینند، اشاره ای به لوگوی Spotify است و زمانی که هوش مصنوعی صحبت می کند مانند یک دهان حرکت می کند.
امیلی گالووی، رئیس بخش طراحی محصول برای شخصی سازی در Spotify، “وقتی نوبت به طراحی رسید، ما به کل تجربه فکر کردیم – چگونه کار می کند، چگونه به نظر می رسد، چگونه به نظر می رسد، و چگونه آن را برای هر کاربر شخصی کنیم.” به TechCrunch گفت. در اوایل جنبه بصری، ما برخی از گزینهها را بررسی کردیم که فنیتر بودند (چیزهایی مانند امواج صوتی را تصور کنید). با این حال، از آنجایی که ما میخواستیم هوش مصنوعی را انسانی کنیم، این به نظر درست نبود…»
ما می خواستیم آن را منحصر به فرد جلوه دهیم و احساس کنیم. در واقع، آنقدر منحصر به فرد بود که حق اختراع طراحی به آن اعطا شد.» گالووی افزود.
جرنیگان علاوه بر ضبط صدای خود، از راه های دیگری نیز به دی جی کمک کرد.
برای اینکه هوش مصنوعی بتواند نظرات تخصصی درباره موسیقی ارائه دهد، اسپاتیفای اتاق نویسندگانی متشکل از متصدیان، کارشناسان فرهنگ و کارشناسان موسیقی را گردآوری کرد.
جرنیگان پیشینه گسترده ای در موسیقی دارد، بنابراین او در اتاق نویسنده نیز شرکت داشت. او قبلاً برای هنرمندان برجسته ای مانند دیدی، امی واینهاوس و 2 Chainz و دیگران کار کرده است.
و در حالی که Jernigan اولین مدل صدای DJ است، این پتانسیل برای شنوندگان وجود دارد که در آینده صداهای بیشتری بشنوند.
TechCrunch از Jernigan پرسید که آیا این شرکت برنامهای برای استخدام مدلهای صوتی که به زبانهای دیگر صحبت میکنند، دارد یا خیر.
او اشاره کرد: «در جریان باشید.
AI DJ در حال حاضر فقط به زبان انگلیسی برای مشترکین Premium در ایالات متحده و کانادا در دسترس است. از ماه فوریه، ویژگی DJ هنوز در مرحله آزمایش بتا است.
جرنیگان گفت: «ما یک دسته کامل از ویژگیهای جدید بسیار جالبی را دریافت کردیم که در سراسر صفحه نمایش داده میشوند. “ما چیزهای دوپینگی داریم که در حال بیرون آمدن است.”