تشخیص گفتار در چند سال گذشته با از کار افتادن بلندگوهای هوشمند و حالتهای کمک رانندگی از راحت به حیاتی تبدیل شده است – اما صدای همه به یک اندازه خوب تشخیص داده نمیشود. Speechmatics ادعا میکند که جامعترین و دقیقترین مدل را دارد، در حالی که صحبت از گفتار خارج از رایجترین لهجههای آمریکایی به میان میآید، آمازون، گوگل و دیگران را شکست میدهد.
این شرکت توضیح داد که با مطالعه سال 2019 استنفورد با عنوان «اختلافات نژادی در تشخیص گفتار» که دقیقاً همین موضوع را نشان میدهد، به سمت مسئله دقت هدایت شده است. موتورهای گفتاری آمازون، اپل، گوگل، آیبیام و مایکروسافت «اختلافهای نژادی قابلتوجهی را با میانگین نرخ خطای کلمه (WER) 0.35 برای بلندگوهای سیاهپوست در مقایسه با 0.19 برای بلندگوهای سفید نشان دادند. نه چندان خوب!
منبع این نابرابری ممکن است تا حدی به عدم تنوع در مجموعه داده های مورد استفاده برای آموزش این سیستم ها نسبت داده شود. به هر حال، اگر تعداد کمی بلندگوی سیاه در داده ها وجود داشته باشد، مدل آن الگوهای گفتاری را نیز یاد نخواهد گرفت. همین امر را می توان در مورد سخنرانان با لهجه ها، لهجه ها و غیره گفت – آمریکا (چه رسد به بریتانیا) پر از لهجه است و هر شرکتی که ادعا می کند خدماتی را برای “همه” ارائه می دهد باید از آن آگاه باشد.
به هر حال، Speechmatics مستقر در بریتانیا، دقت در رونویسی انگلیسی لهجهدار را در اولویت آخرین مدل خود قرار داده است و ادعا میکند که بقیه را از آب درآورده است. بر اساس همان مجموعه دادههای مورد استفاده در مطالعه استنفورد (اما با استفاده از آخرین نسخههای نرمافزار گفتار)، «Speechmatics دقت کلی 82.8 درصدی را برای صداهای آمریکایی آفریقاییتبار در مقایسه با گوگل (68.7 درصد) و آمازون (68.6 درصد) ثبت کرد. این شرکت در بیانیه مطبوعاتی خود نوشت.
این شرکت این موفقیت را ناشی از یک رویکرد نسبتا جدید برای ایجاد یک مدل تشخیص گفتار می داند. بهطور سنتی، سیستم یادگیری ماشینی با دادههای برچسبگذاری شده ارائه میشود – یک فایل صوتی از گفتار با یک فراداده یا فایل متنی همراه با آنچه گفته میشود، فکر کنید که معمولاً توسط انسان رونویسی و بررسی میشود. برای یک الگوریتم تشخیص گربه، شما باید تصاویر و داده هایی داشته باشید که می گویند کدام یک حاوی گربه هستند، گربه در هر تصویر کجاست و غیره. این هست تحت نظارت یادگیری، که در آن یک مدل همبستگی بین دو شکل از داده های آماده شده را می آموزد.
Speechmatics استفاده شده است تحت نظارت خود یادگیری، روشی است که در سالهای اخیر به دلیل افزایش مجموعه دادهها، کارایی یادگیری و قدرت محاسباتی، مورد استفاده قرار گرفته است. علاوه بر دادههای برچسبگذاریشده، از دادههای خام، بدون برچسب و خیلی بیشتر از آن استفاده میکند و «درک» خود را از گفتار با راهنمایی بسیار کمتر ایجاد میکند.
در این مورد، این مدل بر اساس حدود 30000 ساعت داده برچسبگذاری شده برای به دست آوردن نوعی سطح پایه از درک بود، سپس 1.1 میلیون ساعت صوتی در دسترس عموم که منبع آن از YouTube، پادکستها و سایر محتواها بود، تغذیه شد. این نوع مجموعه کمی منطقه خاکستری است، زیرا هیچ کس به صراحت موافقت نکرد که از پادکست خود برای آموزش موتور تشخیص گفتار تجاری شخصی استفاده شود. اما بسیاری از این روش استفاده میکنند، درست همانطور که از «کل اینترنت» برای آموزش GPT-3 OpenAI استفاده شده است، احتمالاً شامل هزاران مقاله خودم. (اگرچه هنوز به صدای منحصر به فرد من تسلط پیدا نکرده است.)
علاوه بر بهبود دقت برای سخنرانان سیاه پوست آمریکایی، مدل Speechmatics ادعا می کند که رونویسی بهتری برای کودکان (حدود 92٪ در مقابل حدود 83٪ در Google و Deepgram) و پیشرفت های کوچک اما قابل توجهی در زبان انگلیسی با لهجه هایی از سراسر جهان: هندی، فیلیپینی، آفریقای جنوبی و بسیاری دیگر – حتی اسکاتلندی.
آنها از ده ها زبان دیگر پشتیبانی می کنند و در بسیاری از آنها نیز رقابتی هستند. این فقط یک مدل تشخیص انگلیسی نیست، بلکه با توجه به استفاده از این زبان به عنوان یک مدل است زبان فرانسه (امروزه یک اصطلاح خنده دار نادرست)، لهجه ها برای آن اهمیت ویژه ای دارند.
Speechmatics ممکن است در معیارهایی که ذکر می کند جلوتر باشد، اما دنیای هوش مصنوعی با کلیپ فوق العاده سریع حرکت می کند و من تعجب نخواهم کرد که شاهد جهش های بیشتر در سال آینده باشم. به عنوان مثال، گوگل سخت در تلاش است تا مطمئن شود که موتورهایش برای افراد دارای اختلال گفتاری کار می کنند. گنجاندن بخش مهمی از همه کارهای هوش مصنوعی این روزها است و دیدن شرکتهایی که سعی میکنند در آن از یکدیگر پیشی بگیرند، خوب است.