Meta Diduga Gunakan Buku Bajakan Dalam Pelatihan AI

Pahamtekno.com - Meta mengakui bahwa mereka menggunakan dataset Books3 dan berbagai sumber daya lainnya untuk melatih large language model (LLM) Llama 1 dan Llama 2.

Pengakuan ini muncul sebagai respons terhadap gugatan beberapa penulis buku terhadap Meta. Penulis-penulis tersebut menuduh Meta menggunakan sumber daya yang dilindungi hak cipta untuk mengembangkan Llama 1 dan Llama 2.

Books3 adalah dataset terkenal yang berisi teks dari 195 ribu buku yang dilindungi hak cipta dengan ukuran mencapai 37 GB. Dataset ini dibuat pada tahun 2020 oleh peneliti AI Shawn Presser, dengan tujuan menyediakan data yang lebih baik untuk melatih algoritma pembelajaran mesin.


Situs bajakan buku Bibliotik merupakan sumber utama dari banyak buku dalam kumpulan ini. Rights Alliance, sebuah organisasi anti pembajakan asal Denmark, juga menggugat dataset ini pada tahun 2023. Dalam gugatan tersebut, arsip digital dari dataset Books3 diharapkan diblokir sesuai dengan peraturan yang ditetapkan oleh Digital Millennium Copyright Act (DMCA).

Dataset Books3 kemudian digunakan untuk melatih kecerdasan buatan, termasuk oleh perusahaan teknologi besar seperti Meta. Mereka menggunakan Books3 dan sejumlah dataset kontroversial lainnya untuk melatih produk kecerdasan buatan komersialnya.

Dalam konteks ini, New York Times menggugat OpenAI dan Microsoft, menuduh keduanya membangun chatbot ChatGPT menggunakan jutaan artikel yang dilindungi hak cipta.

OpenAI secara terbuka menyatakan bahwa melatih model AI tanpa menggunakan materi yang dilindungi hak cipta tidak mungkin dilakukan, dan mereka meminta hakim menolak gugatan dari pemegang hak cipta yang menuntut kompensasi.

Namun, Meta berpendapat bahwa penggunaan konten yang dilindungi hak cipta untuk melatih LLM tidak memerlukan izin, kompensasi, atau kredit dari pemilik hak cipta.

Mereka mengklaim bahwa penggugat melanggar hak cipta, dan Meta percaya bahwa duplikat buku tanpa izin, seperti yang ditemukan dalam dataset Books3, dapat digunakan secara bebas. Hal ini dikutip dari Techspot pada hari Kamis (18/1/2024).

0 Comments

DomaiNesia