ایجاد توازن بین مدل های قدرتمند و سوگیری های احتمالی – TechCrunch

همانطور که توسعه دهندگان ابزارهای جدید هوش مصنوعی را باز می کنند ، خطر تداوم سوگیری های مضر به طور فزاینده ای افزایش می یابد – به ویژه در سالی مانند 2020 ، که بسیاری از هنجارهای اجتماعی و فرهنگی ما را که مدتهاست الگوریتم های هوش مصنوعی آموزش دیده اند ، دوباره تصور می کند.

تعداد انگشت شماری از مدل های بنیادی در حال ظهور هستند که بر حجم وسیعی از داده های آموزشی تکیه می کنند که آنها را ذاتاً قدرتمند می کند ، اما بدون خطر جانبداری مضر نیست – و ما باید به طور جمعی به این واقعیت اذعان کنیم.

تشخیص به خودی خود آسان است. درک بسیار سخت تر است ، و کاهش خطرات آینده نیز بسیار دشوار است. این بدان معناست که ما ابتدا باید قدم هایی را برای اطمینان از درک ریشه های این سوگیری ها در جهت درک بهتر خطرات ناشی از توسعه مدل های هوش مصنوعی برداریم.

منشأ زیرکانه سوگیری

مدلهای هوش مصنوعی امروزی اغلب از قبل آموزش دیده و منبع باز هستند ، که به محققان و شرکتها اجازه می دهد تا هوش مصنوعی را به سرعت پیاده سازی کرده و آن را با نیازهای خاص خود مطابقت دهند.

در حالی که این رویکرد هوش مصنوعی را بیشتر در دسترس تجاری قرار می دهد ، یک نقطه ضعف واقعی وجود دارد – یعنی ، تعداد انگشت شماری از مدل ها اکنون اکثر برنامه های هوش مصنوعی را در صنایع و قاره ها پشتیبانی می کنند. این سیستم ها دارای سوگیری های ناشناخته یا ناشناخته هستند ، به این معنی که توسعه دهندگانی که آنها را برای برنامه های خود تطبیق می دهند ، از یک پایه شکننده کار می کنند.

بر اساس مطالعه اخیر مرکز تحقیقات مدلهای بنیادی استانفورد ، هرگونه سوگیری در این مدلهای بنیادی یا داده هایی که بر اساس آنها ساخته شده است ، توسط افرادی که از آنها استفاده می کنند به ارث می رسد و پتانسیل تقویت را ایجاد می کند.

به عنوان مثال ، YFCC100M یک مجموعه داده در دسترس عموم از Flickr است که معمولاً برای آموزش مدل ها استفاده می شود. هنگامی که تصاویر افراد موجود در این مجموعه داده را بررسی می کنید ، خواهید دید که توزیع تصاویر در سراسر جهان به شدت به سمت ایالات متحده منحرف شده است ، به این معنی که عدم نمایندگی از مردم مناطق دیگر و فرهنگ ها وجود دارد.

این نوع کج شدن در داده های آموزشی منجر به مدل های هوش مصنوعی می شود که در خروجی خود دارای سوگیری های کم یا بیش از حد هستند- یعنی خروجی ای که بیشتر برای فرهنگ های سفیدپوست یا غربی غالب است. وقتی مجموعه داده های متعددی برای ایجاد مجموعه های بزرگی از داده های آموزشی ترکیب می شوند ، شفافیت وجود ندارد و تشخیص اینکه آیا ترکیبی متعادل از مردم ، مناطق و فرهنگ ها را در اختیار دارید ، بسیار دشوار می شود. جای تعجب نیست که مدل های هوش مصنوعی حاصله با سوگیری های فاحش موجود در آن منتشر شوند.

علاوه بر این ، هنگامی که مدل های بنیادی هوش مصنوعی منتشر می شوند ، معمولاً اطلاعات کمی در مورد محدودیت های آنها ارائه می شود. کشف مسائل احتمالی برای آزمایش به کاربر نهایی واگذار می شود – مرحله ای که اغلب نادیده گرفته می شود. بدون شفافیت و درک کامل یک مجموعه داده خاص ، تشخیص محدودیت های مدل هوش مصنوعی ، مانند عملکرد پایین تر برای زنان ، کودکان یا کشورهای در حال توسعه ، چالش برانگیز است.

در گتی ایماژ ، ما ارزیابی می کنیم که آیا سوگیری در مدلهای بینایی رایانه ای ما وجود دارد با مجموعه ای از آزمایشها که شامل تصاویری از تجربیات واقعی و زنده است ، از جمله افرادی با سطوح مختلف توانایی ها ، سیالیت جنسیتی و شرایط سلامتی. در حالی که نمی توانیم همه سوگیری ها را درک کنیم ، اهمیت تجسم یک جهان فراگیر را درک می کنیم و احساس می کنیم مهم است که موارد موجود را درک کرده و در صورت امکان با آنها مقابله کنیم.

استفاده از ابرداده برای کاهش تعصبات

خب چطور اینکار رو انجام بدیم؟ هنگام کار با هوش مصنوعی در Getty Images ، شروع به بررسی تجزیه و تحلیل افراد در مجموعه داده های آموزشی ، از جمله سن ، جنسیت و قومیت می کنیم.

خوشبختانه ، ما می توانیم این کار را انجام دهیم زیرا به محتوای خلاقانه ای که مجوز داریم نیاز به نسخه مدل داریم. این به ما امکان می دهد اطلاعات خود شناسایی شده را در فراداده خود (یعنی مجموعه ای از داده ها که سایر داده ها را توصیف می کند) قرار دهیم ، که به تیم هوش مصنوعی ما این امکان را می دهد تا به طور خودکار میلیون ها تصویر را جستجو کرده و به سرعت کج شدن داده ها را شناسایی کند. مجموعه داده های منبع باز اغلب به دلیل فقدان فراداده محدود می شوند ، مشکلی که هنگام ترکیب مجموعه داده ها از منابع متعدد برای ایجاد یک مجموعه بزرگتر تشدید می شود.

اما بگذارید واقع بین باشیم: همه تیم های هوش مصنوعی به فراداده های گسترده دسترسی ندارند و تیم ما نیز کامل نیست. یک مبادله ذاتی وجود دارد – داده های آموزشی بزرگتر که منجر به مدلهای قدرتمندتری در ازای درک ابهامات و سوگیری های آن داده ها می شود.

به عنوان یک صنعت هوش مصنوعی ، بسیار مهم است که راهی برای غلبه بر این تجارت پیدا کنیم ، زیرا صنایع و مردم در سطح جهان به آن وابسته هستند. نکته اصلی افزایش تمرکز ما بر روی مدل های هوش مصنوعی داده محور است ، حرکتی که شروع به قدرت گرفتن می کند.

از اینجا به کجا می رویم؟

مقابله با سوگیری ها در هوش مصنوعی کار کوچکی نیست و در سال های آینده همکاری در سراسر صنعت فناوری را می طلبد. با این حال ، اقدامات پیشگیرانه ای وجود دارد که پزشکان می توانند در حال حاضر برای ایجاد تغییرات کوچک اما قابل توجه انجام دهند.

به عنوان مثال ، هنگامی که مدلهای بنیادی منتشر می شوند ، می توانیم داده های مربوطه را که داده های آموزشی اصلی را توصیف می کند ، منتشر کنیم و آمار توصیفی از آنچه در مجموعه داده ها وجود دارد را ارائه دهیم. انجام این کار به کاربران بعدی حس نقاط قوت و محدودیت های مدل را می دهد و آنها را در تصمیم گیری آگاهانه توانمند می کند. تاثیر می تواند بسیار بزرگ باشد.

مطالعه فوق در مورد مدلهای بنیادی این س posال را مطرح می کند: “مجموعه آماری مناسب از داده ها برای ارائه اسناد کافی ، بدون هزینه زیاد یا دستیابی به آن چیست؟” برای داده های بصری به طور خاص ، محققان به طور ایده آل توزیع سن ، جنس ، نژاد ، دین ، ​​منطقه ، توانایی ها ، گرایش جنسی ، شرایط سلامتی و موارد دیگر را ارائه می دهند. اما ، بدست آوردن این ابرداده در مجموعه داده های بزرگ از منابع متعدد پرهزینه و دشوار است.

یک رویکرد مکمل این است که توسعه دهندگان هوش مصنوعی به فهرستی از سوگیری های شناخته شده و محدودیت های معمول برای مدل های بنیادی دسترسی داشته باشند. این می تواند شامل ایجاد پایگاه داده ای از آزمایش های آسان در دسترس برای سوگیری ها باشد که محققان هوش مصنوعی می توانند به طور منظم در آنها مشارکت داشته باشند ، مخصوصاً با توجه به نحوه استفاده مردم از این مدل ها.

به عنوان مثال ، توییتر اخیراً مسابقه ای را برگزار کرده است که متخصصان هوش مصنوعی را به چالش کشیدن الگوریتم های خود (به یاد داشته باشید زمانی که من گفتم تشخیص و آگاهی کلیدی برای کاهش است؟) به یاد داشته باشید. ما در همه جا به این بیشتر نیاز داریم. تمرین این چنینی به صورت منظم می تواند به کاهش بار تمرین کنندگان کمک کند.

ما هنوز همه پاسخ ها را نداریم ، اما به عنوان یک صنعت ، باید داده هایی را که به عنوان راه حلی برای مدلهای قدرتمندتر استفاده می کنیم ، دقیق بررسی کنیم. انجام این کار با هزینه- تقویت تعصبات- همراه است و ما باید نقشی را که در راه حل ایفا می کنیم بپذیریم. ما باید به دنبال راه هایی برای درک بیشتر داده های آموزشی مورد استفاده خود باشیم ، به ویژه هنگامی که سیستم های هوش مصنوعی برای نشان دادن یا تعامل با افراد واقعی استفاده می شوند.

این تغییر تفکر به شرکت های مختلف در هر اندازه و اندازه ای کمک می کند تا سریعاً کج ها را تشخیص داده و در مرحله توسعه با آنها مقابله کرده و تعصبات را کاهش دهند.