Teknologi

Wikipedia Menyediakan Data untuk Pelatihan AI melalui Keggle

Wikipedia Menyediakan Data untuk Pelatihan AI melalui Keggle

CUPERTINOWikipedia Enterprise berkolaborasi dengan Keggle untuk menyediakan kumpulan data Wikipedia bagi perusahaan yang ingin melatih model kecerdasan buatan (AI).

Data tersebut telah dioptimalkan agar dapat melatih model tanpa menyertakan tautan dan kode pemformatan teks, yang mengatasi masalah lalu lintas halaman yang dipengaruhi oleh bot.

Keggle, sebagai anak perusahaan Google, akan memberikan kompensasi kepada Wikipedia Enterprise untuk data ini, dan semua data akan diatribusikan di bawah lisensi Creative Commons dan Lisensi Dokumentasi Bebas GNU (GFDL).

Kerja sama ini menyediakan kumpulan data terpilih dalam bahasa Inggris dan Prancis. Keputusan untuk menyediakan data ini dilakukan karena lalu lintas situs Wikipedia terganggu oleh bot yang mengakses artikel untuk melatih model AI secara tidak sah.

Bulan lalu, Wikipedia mencatat peningkatan lalu lintas konten multimedia sebesar 50% dibanding tahun sebelumnya, yang sebagian besar disebabkan oleh aktivitas bot.

Keggle akan memberikan kompensasi kepada Wikipedia Enterprise untuk penggunaan data ini, dan semua informasi yang dimanfaatkan akan dikaitkan kembali di bawah lisensi Creative Commons Attribution-Share-Alike 4.0 serta Lisensi Dokumentasi Bebas GNU (GFDL).