Speechmatics تشخیص انگلیسی لهجه دار را به جلو می برد – TechCrunch

تشخیص گفتار در چند سال گذشته با از کار افتادن بلندگوهای هوشمند و حالت‌های کمک رانندگی از راحت به حیاتی تبدیل شده است – اما صدای همه به یک اندازه خوب تشخیص داده نمی‌شود. Speechmatics ادعا می‌کند که جامع‌ترین و دقیق‌ترین مدل را دارد، در حالی که صحبت از گفتار خارج از رایج‌ترین لهجه‌های آمریکایی به میان می‌آید، آمازون، گوگل و دیگران را شکست می‌دهد.

این شرکت توضیح داد که با مطالعه سال 2019 استنفورد با عنوان «اختلافات نژادی در تشخیص گفتار» که دقیقاً همین موضوع را نشان می‌دهد، به سمت مسئله دقت هدایت شده است. موتورهای گفتاری آمازون، اپل، گوگل، آی‌بی‌ام و مایکروسافت «اختلاف‌های نژادی قابل‌توجهی را با میانگین نرخ خطای کلمه (WER) 0.35 برای بلندگوهای سیاه‌پوست در مقایسه با 0.19 برای بلندگوهای سفید نشان دادند. نه چندان خوب!

منبع این نابرابری ممکن است تا حدی به عدم تنوع در مجموعه داده های مورد استفاده برای آموزش این سیستم ها نسبت داده شود. به هر حال، اگر تعداد کمی بلندگوی سیاه در داده ها وجود داشته باشد، مدل آن الگوهای گفتاری را نیز یاد نخواهد گرفت. همین امر را می توان در مورد سخنرانان با لهجه ها، لهجه ها و غیره گفت – آمریکا (چه رسد به بریتانیا) پر از لهجه است و هر شرکتی که ادعا می کند خدماتی را برای “همه” ارائه می دهد باید از آن آگاه باشد.

به هر حال، Speechmatics مستقر در بریتانیا، دقت در رونویسی انگلیسی لهجه‌دار را در اولویت آخرین مدل خود قرار داده است و ادعا می‌کند که بقیه را از آب درآورده است. بر اساس همان مجموعه داده‌های مورد استفاده در مطالعه استنفورد (اما با استفاده از آخرین نسخه‌های نرم‌افزار گفتار)، «Speechmatics دقت کلی 82.8 درصدی را برای صداهای آمریکایی آفریقایی‌تبار در مقایسه با گوگل (68.7 درصد) و آمازون (68.6 درصد) ثبت کرد. این شرکت در بیانیه مطبوعاتی خود نوشت.

این شرکت این موفقیت را ناشی از یک رویکرد نسبتا جدید برای ایجاد یک مدل تشخیص گفتار می داند. به‌طور سنتی، سیستم یادگیری ماشینی با داده‌های برچسب‌گذاری شده ارائه می‌شود – یک فایل صوتی از گفتار با یک فراداده یا فایل متنی همراه با آنچه گفته می‌شود، فکر کنید که معمولاً توسط انسان رونویسی و بررسی می‌شود. برای یک الگوریتم تشخیص گربه، شما باید تصاویر و داده هایی داشته باشید که می گویند کدام یک حاوی گربه هستند، گربه در هر تصویر کجاست و غیره. این هست تحت نظارت یادگیری، که در آن یک مدل همبستگی بین دو شکل از داده های آماده شده را می آموزد.

Speechmatics استفاده شده است تحت نظارت خود یادگیری، روشی است که در سال‌های اخیر به دلیل افزایش مجموعه داده‌ها، کارایی یادگیری و قدرت محاسباتی، مورد استفاده قرار گرفته است. علاوه بر داده‌های برچسب‌گذاری‌شده، از داده‌های خام، بدون برچسب و خیلی بیشتر از آن استفاده می‌کند و «درک» خود را از گفتار با راهنمایی بسیار کمتر ایجاد می‌کند.

در این مورد، این مدل بر اساس حدود 30000 ساعت داده برچسب‌گذاری شده برای به دست آوردن نوعی سطح پایه از درک بود، سپس 1.1 میلیون ساعت صوتی در دسترس عموم که منبع آن از YouTube، پادکست‌ها و سایر محتواها بود، تغذیه شد. این نوع مجموعه کمی منطقه خاکستری است، زیرا هیچ کس به صراحت موافقت نکرد که از پادکست خود برای آموزش موتور تشخیص گفتار تجاری شخصی استفاده شود. اما بسیاری از این روش استفاده می‌کنند، درست همانطور که از «کل اینترنت» برای آموزش GPT-3 OpenAI استفاده شده است، احتمالاً شامل هزاران مقاله خودم. (اگرچه هنوز به صدای منحصر به فرد من تسلط پیدا نکرده است.)

علاوه بر بهبود دقت برای سخنرانان سیاه پوست آمریکایی، مدل Speechmatics ادعا می کند که رونویسی بهتری برای کودکان (حدود 92٪ در مقابل حدود 83٪ در Google و Deepgram) و پیشرفت های کوچک اما قابل توجهی در زبان انگلیسی با لهجه هایی از سراسر جهان: هندی، فیلیپینی، آفریقای جنوبی و بسیاری دیگر – حتی اسکاتلندی.

آنها از ده ها زبان دیگر پشتیبانی می کنند و در بسیاری از آنها نیز رقابتی هستند. این فقط یک مدل تشخیص انگلیسی نیست، بلکه با توجه به استفاده از این زبان به عنوان یک مدل است زبان فرانسه (امروزه یک اصطلاح خنده دار نادرست)، لهجه ها برای آن اهمیت ویژه ای دارند.

Speechmatics ممکن است در معیارهایی که ذکر می کند جلوتر باشد، اما دنیای هوش مصنوعی با کلیپ فوق العاده سریع حرکت می کند و من تعجب نخواهم کرد که شاهد جهش های بیشتر در سال آینده باشم. به عنوان مثال، گوگل سخت در تلاش است تا مطمئن شود که موتورهایش برای افراد دارای اختلال گفتاری کار می کنند. گنجاندن بخش مهمی از همه کارهای هوش مصنوعی این روزها است و دیدن شرکت‌هایی که سعی می‌کنند در آن از یکدیگر پیشی بگیرند، خوب است.