Kelangkaan Data Pelatihan AI Bukanlah Masalah Seperti yang Diperkirakan
Singkatnya Kekhawatiran tentang kekurangan data untuk melatih model AI semakin meningkat, tetapi internet publik menawarkan sumber data yang luas dan terus berkembang, sehingga kecil kemungkinan AI akan menghadapi kelangkaan data yang sebenarnya.
Model kecerdasan buatan masa kini dapat melakukan beberapa hal yang menakjubkan. Seolah-olah mereka memiliki kekuatan ajaib, tetapi tentu saja tidak. Alih-alih menggunakan trik sulap, model AI sebenarnya berjalan pada data – banyak sekali data.
Namun, ada kekhawatiran yang berkembang bahwa kelangkaan data ini dapat mengakibatkan laju inovasi AI yang cepat menjadi tidak bertenaga. Dalam beberapa bulan terakhir, telah terjadi banyak peringatan dari para ahli yang mengklaim bahwa dunia sedang kehabisan pasokan data baru untuk melatih model generasi berikutnya.
Kurangnya data akan menjadi tantangan tersendiri bagi pengembangan model bahasa berskala besar, yang merupakan mesin penggerak chatbot AI generatif dan generator gambar. Mereka dilatih pada sejumlah besar data, dan dengan setiap lompatan baru dalam kinerja, semakin banyak data yang dibutuhkan untuk mendorong kemajuan mereka.
Kekhawatiran kelangkaan data pelatihan AI ini telah menyebabkan beberapa bisnis mencari solusi alternatif, seperti menggunakan AI untuk membuat data sintetis untuk pelatihan AI, bermitra dengan perusahaan media untuk menggunakan konten mereka, dan menggunakan perangkat “internet of things” yang memberikan wawasan waktu nyata tentang perilaku konsumen.
Namun, ada alasan yang meyakinkan untuk menganggap ketakutan ini berlebihan. Kemungkinan besar, industri AI tidak akan pernah kekurangan data, karena pengembang selalu dapat mengandalkan sumber informasi terbesar yang pernah dikenal dunia – internet publik.
Pegunungan Data
Sebagian besar pengembang AI mengambil data pelatihan mereka dari internet publik. Dikatakan bahwa OpenAI'S GPT-3 model, mesin di balik virus ChatGPT chatbot yang pertama kali memperkenalkan AI generatif kepada masyarakat luas, dilatih menggunakan data dari Common Crawl, arsip konten yang bersumber dari seluruh internet publik. Sekitar 410 miliar token atau informasi yang bernilai berdasarkan hampir semua hal yang diposting secara daring hingga saat itu, dimasukkan ke dalam ChatGPT, memberinya pengetahuan yang dibutuhkan untuk menjawab hampir semua pertanyaan yang terpikir untuk kami ajukan.
Data web adalah istilah umum yang mencakup hampir semua hal yang diunggah secara daring, termasuk laporan pemerintah, penelitian ilmiah, artikel berita, dan konten media sosial. Data ini sangat kaya dan beragam, yang mencerminkan segala hal mulai dari sentimen publik hingga tren konsumen, keadaan ekonomi global, dan konten instruksional DIY.
Internet adalah tempat yang ideal untuk mengembangkan model AI, bukan hanya karena sangat luas, tetapi juga karena sangat mudah diakses. Dengan menggunakan alat khusus seperti Bright Data, Menggores Browser , ada kemungkinan untuk mendapatkan informasi dari jutaan situs web secara real-time untuk datanya, termasuk banyak yang secara aktif mencoba mencegah bot melakukan hal itu.
Dengan fitur-fitur seperti pemecah Captcha, percobaan ulang otomatis, API, dan jaringan IP proxy yang luas, pengembang dapat dengan mudah menghindari mekanisme pemblokiran bot yang paling tangguh yang digunakan di situs-situs seperti eBay dan Facebook, dan membantu diri mereka sendiri untuk mendapatkan banyak sekali informasi. Platform Bright Data juga terintegrasi dengan alur kerja pemrosesan data, yang memungkinkan penataan, pembersihan, dan pelatihan yang lancar dalam skala besar.
Sebenarnya tidak jelas berapa banyak data yang tersedia di internet saat ini. Pada tahun 2018, International Data Corp. memperkirakan bahwa jumlah total data yang diunggah secara online akan mencapai 175 zettabyte pada akhir tahun 2025, sementara angka terbaru dari Statista menaikkan estimasi tersebut menjadi 181 zettabytes Cukuplah untuk mengatakan, itu adalah segunung informasi, dan jumlahnya bertambah secara eksponensial seiring berjalannya waktu.
Tantangan dan Pertanyaan Etika
Pengembang masih menghadapi tantangan besar dalam memasukkan informasi ini ke dalam model AI mereka. Data web terkenal berantakan dan tidak terstruktur, dan sering kali memiliki ketidakkonsistenan serta nilai yang hilang. Diperlukan pemrosesan dan "pembersihan" intensif sebelum dapat dipahami oleh algoritme. Selain itu, data web sering kali berisi banyak detail yang tidak akurat dan tidak relevan yang dapat mendistorsi keluaran model AI dan memicu apa yang disebut "halusinasi".
Ada pula pertanyaan etika seputar pengumpulan data internet, terutama yang berkaitan dengan materi berhak cipta dan apa yang dimaksud dengan “penggunaan wajar.” Sementara perusahaan seperti OpenAI berpendapat bahwa mereka seharusnya diizinkan untuk mengambil semua informasi yang tersedia bebas untuk dikonsumsi daring, banyak pembuat konten mengatakan bahwa melakukan hal itu jauh dari adil, karena perusahaan-perusahaan tersebut pada akhirnya mendapat untung dari pekerjaan mereka – sementara berpotensi membuat mereka kehilangan pekerjaan.
Meskipun masih ada ambiguitas mengenai data web apa yang dapat dan tidak dapat digunakan untuk melatih AI, hal tersebut tidak dapat dikesampingkan. Dalam Laporan Keadaan Data Web Publik terbaru dari Bright Data, 88% pengembang yang disurvei sepakat bahwa data web publik “penting” untuk pengembangan model AI, karena aksesibilitasnya dan keragamannya yang luar biasa.
Itu menjelaskan mengapa 72% pengembang khawatir bahwa data ini mungkin akan semakin sulit diakses dalam lima tahun ke depan, karena upaya perusahaan Big Tech seperti Meta, Amazon, dan Google, yang lebih suka menjual datanya secara eksklusif kepada mitra perusahaan mahal.
Alasan Menggunakan Data Web
Tantangan-tantangan di atas menjelaskan mengapa banyak pembicaraan tentang penggunaan data sintetis sebagai alternatif dari apa yang tersedia secara daring. Bahkan, ada perdebatan yang muncul mengenai manfaat data sintetis dibandingkan dengan pengikisan internet, dengan beberapa argumen kuat yang mendukung yang pertama.
Para pendukung data sintetis menunjukkan manfaat seperti peningkatan privasi, berkurangnya bias, dan akurasi yang lebih tinggi yang ditawarkannya. Selain itu, data ini terstruktur secara ideal untuk model AI sejak awal, yang berarti pengembang tidak perlu menginvestasikan sumber daya untuk memformat ulang dan memberi label dengan benar agar dapat dibaca oleh model AI.
Di sisi lain, ketergantungan berlebihan pada kumpulan data sintetis dapat menyebabkan keruntuhan model, dan terlepas dari itu, kita dapat mengajukan argumen yang sama kuatnya tentang keunggulan data web publik. Pertama-tama, sulit untuk mengalahkan keragaman dan kekayaan data berbasis web, yang sangat berharga untuk melatih model AI yang perlu menangani kompleksitas dan ketidakpastian skenario dunia nyata. Hal ini juga dapat membantu menciptakan model AI yang lebih tepercaya, karena perpaduan antara perspektif manusia dan kesegarannya, terutama saat model dapat mengaksesnya secara real time.
Jadi satu wawancara terakhir CEO Bright Data, Or Lenchner, menekankan bahwa cara terbaik untuk memastikan keakuratan dalam keluaran AI adalah dengan mengambil data dari berbagai sumber publik yang memiliki keandalan yang mapan. Ketika model AI hanya menggunakan satu atau beberapa sumber, pengetahuannya kemungkinan tidak lengkap, katanya. “Memiliki banyak sumber memberikan kemampuan untuk melakukan referensi silang data dan membangun kumpulan data yang lebih seimbang dan terwakili dengan baik,” kata Lenchner.
Terlebih lagi, pengembang memiliki keyakinan yang lebih besar bahwa penggunaan data yang diimpor dari web dapat diterima. Dalam keputusan hukum musim dingin lalu, seorang hakim federal memerintah mendukung Bright Data, yang telah dituntut oleh Meta atas aktivitas web scraping-nya. Dalam kasus tersebut, ia menemukan bahwa meskipun ketentuan layanan Facebook dan Instagram melarang pengguna dengan akun untuk melakukan scraping pada situs web mereka, tidak ada dasar hukum untuk melarang pengguna yang tidak login untuk mengakses data yang tersedia untuk umum di platform tersebut.
Data publik juga memiliki kelebihan karena bersifat organik. Dalam kumpulan data sintetis, budaya yang lebih kecil dan kerumitan perilaku mereka cenderung diabaikan. Di sisi lain, data publik yang dihasilkan oleh orang-orang di dunia nyata seotentik mungkin, dan karenanya diterjemahkan menjadi model AI yang lebih baik untuk kinerja yang lebih unggul.
Tidak Ada Masa Depan Tanpa Web
Terakhir, penting untuk dicatat bahwa sifat AI juga berubah. Seperti yang ditunjukkan Lenchner, agen AI memainkan peran yang jauh lebih besar dalam penggunaan AI, membantu mengumpulkan dan memproses data untuk digunakan dalam pelatihan AI. Keuntungan dari hal ini lebih dari sekadar menghilangkan beban kerja manual bagi pengembang, katanya, karena kecepatan agen AI beroperasi berarti model AI dapat memperluas pengetahuan mereka secara real-time.
“Agen AI dapat mengubah industri karena memungkinkan sistem AI mengakses dan belajar dari kumpulan data yang terus berubah di web alih-alih mengandalkan data statis yang diproses secara manual,” kata Lenchner. “Hal ini dapat mengarah pada chatbot AI perbankan atau keamanan siber, misalnya, yang mampu menghasilkan keputusan yang mencerminkan realitas terkini.”
Saat ini, hampir semua orang terbiasa menggunakan internet secara terus-menerus. Internet telah menjadi sumber daya yang penting, yang memberi kita akses ke ribuan layanan penting dan memungkinkan pekerjaan, komunikasi, dan banyak lagi. Jika sistem AI ingin melampaui kemampuan manusia, mereka memerlukan akses ke sumber daya yang sama, dan web adalah yang terpenting dari semuanya.
Disclaimer: Konten pada artikel ini hanya merefleksikan opini penulis dan tidak mewakili platform ini dengan kapasitas apa pun. Artikel ini tidak dimaksudkan sebagai referensi untuk membuat keputusan investasi.
Kamu mungkin juga menyukai
Pria dijatuhi hukuman 30 tahun karena mendanai ISIS dengan cryptocurrency
Ringkasan Singkat Seorang pria Virginia dijatuhi hukuman lebih dari 30 tahun penjara federal karena mengumpulkan dana untuk Negara Islam Irak dan Syam (ISIS) menggunakan transfer kawat, media sosial, dan cryptocurrency. Kantor Lapangan FBI di Washington memimpin penyelidikan tersebut.

Menteri Keuangan AS Bessent mengecam Senat karena memblokir RUU stablecoin, menyebutnya sebagai 'kesempatan yang terlewatkan' bagi kepemimpinan Amerika
Tinjauan Cepat Para senator AS memberikan suara pada hari Kamis untuk menghentikan kemajuan pada undang-undang regulasi stablecoin di tengah ketegangan yang meningkat terkait keterlibatan kripto Presiden Donald Trump. Menteri Keuangan Scott Bessent mengatakan kepemimpinan Amerika diperlukan agar stablecoin dan aset digital lainnya dapat berkembang secara global, mengkritik "kesempatan yang terlewatkan" oleh Senat.

Senat Demokrat menuntut jawaban tentang hubungan kripto Trump dan transaksi Binance
Tinjauan Cepat Demokrat menyuarakan kekhawatiran mereka atas kombinasi antara kebutuhan Binance untuk mematuhi sebagai bagian dari penyelesaian dan keterlibatan Trump dalam perusahaan asing Beberapa Demokrat semakin mengkhawatirkan hubungan Trump dengan aset digital, yang pada gilirannya mempersulit upaya legislatif

Wakil Presiden Vance akan berbicara di Bitcoin 2025 di Las Vegas
Wakil Presiden J.D. Vance dijadwalkan untuk berbicara di konferensi Bitcoin 2025 mendatang di Las Vegas, NV, menurut pengumuman pada hari Jumat. Tahun lalu, Donald Trump berbicara di konferensi tahunan BTC Inc. di Nashville, TN, saat sedang dalam kampanye.

Berita trending
LainnyaHarga kripto
Lainnya








