15 میلیون وب سایت موجود در مجموعه داده های C4 گوگل را جستجو کنید

آیا از وب سایت یا محتوای شما برای کمک به آموزش سیستم های هوش مصنوعی به عنوان بخشی از مجموعه داده های C4 گوگل استفاده شده است؟ یک ابزار جستجوی جدید از واشنگتن پست به شما امکان می دهد این موضوع را پیدا کنید.

چرا ما اهمیت می دهیم. مجموعه داده شامل انواع وب سایت ها و تولیدکنندگان محتوا است که هوش مصنوعی مولد می تواند به طور بالقوه بر آنها تأثیر منفی بگذارد یا حتی آنها را از بین ببرد، مانند ناشران اخبار و رسانه ها، وبلاگ ها و بازاریابی.

جستجو کردن. ابزار جستجوی جدید را می‌توانید در مقاله Post Inside لیست مخفی وب‌سایت‌هایی که هوش مصنوعی مانند ChatGPT را هوشمند می‌کنند، پیدا کنید. این لیست را «بر اساس تعداد «توکن‌هایی» که از هر کدام در مجموعه داده ظاهر می‌شود، ایجاد کرد. توکن ها تکه های کوچکی از متن هستند که برای پردازش اطلاعات بهم ریخته – معمولاً یک کلمه یا عبارت استفاده می شوند.

به عنوان مثال، Search Engine Land استفاده شد.

C4 Searchengineland

مانند Marketing Land (نام تجاری که دیگر وجود ندارد، اما در سال 2019 وجود داشت) و رویدادهای Marketing Land، که میزبان سایت های کنفرانس SMX و MarTech ما بودند.

C4 Marketingland

و سایت شرکت مادر Search Engine Land، رسانه درب سوم.

C4 Thirddoormedia

همچنین از میزگرد موتور جستجو بری شوارتز استفاده شد.

میز سرو C4

فقط بخشی از داده ها به عنوان یادآوری، C4 (که مخفف Colossal Clean Crawled Corpus است) تنها بخشی از داده های مورد استفاده توسط Google Bard و سایر مدل های زبان بزرگ است. همچنین از ویکی‌پدیا، ردیت و منابع دیگر استفاده می‌کند.

صحبت از Reddit شد. نیویورک تایمز گزارش داد، Reddit می خواهد زمانی که هر شرکتی بخواهد از داده های آن برای آموزش مدل های هوش مصنوعی استفاده کند، پول دریافت کند. Reddit شرایط API خود را به روز کرده است و اکنون برای دسترسی برخی از شرکت ها (به عنوان مثال، Google، OpenAI) هزینه دریافت می کند. استیو هافمن، مدیرعامل و یکی از بنیانگذاران Reddit گفت:

  • مجموعه داده‌های Reddit واقعاً ارزشمند است. اما نیازی نیست که همه این ارزش ها را به صورت رایگان به برخی از بزرگترین شرکت های جهان بدهیم. خزیدن در Reddit، ایجاد ارزش و بازگرداندن هیچ یک از آن ارزش به کاربران، چیزی است که ما با آن مشکل داریم. زمان خوبی است که ما شرایط را سخت تر کنیم.»

از قضا، خود Reddit حتی هیچ یک از این ارزش ها را ایجاد نکرد. کاربران آن انجام دادند.