آیا از وب سایت یا محتوای شما برای کمک به آموزش سیستم های هوش مصنوعی به عنوان بخشی از مجموعه داده های C4 گوگل استفاده شده است؟ یک ابزار جستجوی جدید از واشنگتن پست به شما امکان می دهد این موضوع را پیدا کنید.
چرا ما اهمیت می دهیم. مجموعه داده شامل انواع وب سایت ها و تولیدکنندگان محتوا است که هوش مصنوعی مولد می تواند به طور بالقوه بر آنها تأثیر منفی بگذارد یا حتی آنها را از بین ببرد، مانند ناشران اخبار و رسانه ها، وبلاگ ها و بازاریابی.
جستجو کردن. ابزار جستجوی جدید را میتوانید در مقاله Post Inside لیست مخفی وبسایتهایی که هوش مصنوعی مانند ChatGPT را هوشمند میکنند، پیدا کنید. این لیست را «بر اساس تعداد «توکنهایی» که از هر کدام در مجموعه داده ظاهر میشود، ایجاد کرد. توکن ها تکه های کوچکی از متن هستند که برای پردازش اطلاعات بهم ریخته – معمولاً یک کلمه یا عبارت استفاده می شوند.
به عنوان مثال، Search Engine Land استفاده شد.
مانند Marketing Land (نام تجاری که دیگر وجود ندارد، اما در سال 2019 وجود داشت) و رویدادهای Marketing Land، که میزبان سایت های کنفرانس SMX و MarTech ما بودند.
و سایت شرکت مادر Search Engine Land، رسانه درب سوم.
همچنین از میزگرد موتور جستجو بری شوارتز استفاده شد.
فقط بخشی از داده ها به عنوان یادآوری، C4 (که مخفف Colossal Clean Crawled Corpus است) تنها بخشی از داده های مورد استفاده توسط Google Bard و سایر مدل های زبان بزرگ است. همچنین از ویکیپدیا، ردیت و منابع دیگر استفاده میکند.
صحبت از Reddit شد. نیویورک تایمز گزارش داد، Reddit می خواهد زمانی که هر شرکتی بخواهد از داده های آن برای آموزش مدل های هوش مصنوعی استفاده کند، پول دریافت کند. Reddit شرایط API خود را بهروزرسانی کرده است و اکنون برای دسترسی از برخی شرکتها (به عنوان مثال، Google، OpenAI) هزینه دریافت میکند. استیو هافمن، مدیرعامل و یکی از بنیانگذاران Reddit گفت:
- مجموعه دادههای Reddit واقعاً ارزشمند است. اما نیازی نیست که همه این ارزش ها را به صورت رایگان به برخی از بزرگترین شرکت های جهان بدهیم. خزیدن در Reddit، ایجاد ارزش و بازگرداندن هیچ یک از آن ارزش به کاربران، چیزی است که ما با آن مشکل داریم. زمان خوبی است که ما شرایط را سخت تر کنیم.»
از قضا، خود Reddit حتی هیچ یک از این ارزش ها را ایجاد نکرد. کاربران آن انجام دادند.