Krisis Reproduksibilitas dalam Riset Kecerdasan Buatan

Riset AI didominasi oleh raksasa teknologi, tetapi batas antara terobosan nyata dan iklan produk komersial perlahan-lahan mulai kabur. Beberapa ilmuwan berpikir sudah waktunya menghentikan ini.







Bulan lalu, jurnal Nature menerbitkan ulasan kasar yang ditandatangani oleh 31 ilmuwan. Mereka tidak menyukai studi Google Health yang muncul sebelumnya di jurnal yang sama. Di dalamnya, Google menggambarkan hasil sukses tes kecerdasan buatan (AI) yang mencari tanda-tanda kanker payudara dalam foto medis. Kritikus berpendapat bahwa tim Google memberikan begitu sedikit informasi tentang kode dan kemajuan pengujian sehingga studi tersebut tampak lebih seperti deskripsi promosi dari teknologi kepemilikan tertutup.



“Kami tidak tahan lagi,” kata Benjamin Haibe-Caines, peninjau utama yang mempelajari genomik komputasi di University of Toronto. "Dan ini bukan tentang studi khusus ini - kami telah mengamati tren serupa selama bertahun-tahun berturut-turut, dan itu benar-benar mengganggu kami."



Haibe-Kains dan rekannya termasuk di antara sejumlah ilmuwan yang menolak kurangnya transparansi dalam penelitian AI. “Setelah melihat karya ini dari Google, kami menyadari bahwa ini hanyalah contoh lain dari serangkaian publikasi yang antusias dalam jurnal yang sangat dihormati yang tidak ada hubungannya dengan sains,” katanya. - Ini lebih merupakan iklan untuk teknologi keren. Kami tidak bisa berbuat apa-apa. "



Sains didasarkan pada kepercayaan, termasuk mengungkapkan detail tentang bagaimana penelitian dilakukan dengan cukup detail agar orang lain dapat mereplikasi dan memvalidasi temuan mereka. Inilah cara sains mengoreksi dirinya sendiri dan mencabut hasil yang belum dikonfirmasi. Reprodusibilitas memungkinkan orang lain untuk mendasarkan pekerjaan mereka pada hasil tersebut, yang membantu memajukan bidang pengetahuan. Sains yang tidak dapat direproduksi menemukan dirinya di sela-sela sejarah.



Setidaknya dalam teori. Dalam praktiknya, beberapa penelitian dapat direproduksi sepenuhnya, karena sebagian besar peneliti lebih tertarik untuk mendapatkan hasil baru daripada mengulang yang lama. Namun, dalam bidang seperti biologi, fisika, ilmu komputer, peneliti berharap penulis dapat memberikan informasi yang cukup untuk dibagikan sehingga eksperimen ini dapat diulang - meskipun hal ini jarang dilakukan.



Pemula yang ambisius



AI dimarahi karena beberapa alasan. Pertama, ini pemula. Ini telah menjadi ilmu eksperimental dalam sepuluh tahun terakhir, kata Joel Pigno, seorang ilmuwan komputer di Facebook AI Research dan McGill University, salah satu penulis keluhan tersebut. “Awalnya itu adalah bidang teoritis murni, tapi sekarang kami melakukan lebih banyak eksperimen,” katanya. "Dan komitmen kami terhadap metodologi yang ketat tertinggal di belakang ambisi eksperimen kami."



Ini bukan hanya masalah akademis. Kurangnya transparansi membuat tidak mungkin untuk menguji model dan teknologi AI baru dengan benar untuk keandalan, tidak adanya distorsi dan keamanan. AI dengan cepat berpindah dari laboratorium penelitian ke dunia nyata, secara langsung mempengaruhi kehidupan manusia. Namun, model pembelajaran mesin (ML) yang bekerja dengan baik di lab dapat rusak di dunia nyata, berpotensi menyebabkan konsekuensi yang berbahaya. Mereproduksi hasil eksperimen oleh peneliti berbeda dalam kondisi berbeda akan lebih cepat mengungkap kemungkinan masalah, yang akan membuat AI lebih andal untuk semua orang.



AI sudah mengalami masalah "kotak hitam": terkadang tidak mungkin untuk mengatakan bagaimana atau mengapa model ML menghasilkan hasil yang persis seperti ini. Kurangnya transparansi dalam penelitian hanya memperburuk keadaan. Model besar membutuhkan sebanyak mungkin pengamat untuk membuat lebih banyak orang mengalami dan memahami pekerjaan mereka. Ini adalah bagaimana Anda dapat menggunakan AI dalam perawatan kesehatan lebih aman, dalam ketertiban umum lebih adil, di ruang obrolan lebih sopan.



Reproduksibilitas normal AI terhambat oleh kurangnya tiga hal: kode, data, dan perangkat keras. Status AI 2020"Analisis tahunan yang diverifikasi oleh investor Nathan Benaich dan Ian Hogarth, menemukan bahwa hanya 15% dari penelitian AI yang berbagi kode. Peneliti industri lebih cenderung berperilaku buruk daripada ilmuwan universitas. Secara khusus, perusahaan OpenAI disorot dalam laporan tersebut. dan DeepMind, yang paling tidak mungkin membagikan kode mereka.



Kurangnya alat yang diperlukan untuk reproduktifitas dirasakan lebih tajam jika dikaitkan dengan dua pilar AI - data dan perangkat keras. Data sering kali disimpan secara pribadi - misalnya, data yang dikumpulkan Facebook tentang penggunanya - atau bersifat sensitif, seperti halnya dengan rekam medis. Raksasa teknologi melakukan lebih banyak penelitian tentang cluster komputer yang sangat besar dan sangat mahal yang hanya dapat diakses oleh sejumlah kecil universitas atau perusahaan kecil.



Misalnya, melatih generator bahasa GPT-3, menurut beberapa perkiraan, OpenAI berharga $ 10- $ 12 juta - dan ini hanya jika kita memperhitungkan model terbaru, tanpa memperhitungkan biaya atau pengembangan dan pelatihan prototipe. “Kemudian angka itu mungkin bisa ditingkatkan satu atau dua kali lipat,” kata Benayh, pendiri perusahaan modal ventura Air Street Capital, yang berinvestasi di startup AI. Sebagian kecil dari perusahaan teknologi besar mampu membelinya, katanya: "Tidak ada orang lain yang dapat mengeluarkan anggaran sebesar itu untuk eksperimen semacam itu."





Pertanyaan hipotetis: beberapa orang memiliki akses ke GPT-3 dan beberapa tidak. Apa yang terjadi ketika kita melihat pekerjaan baru muncul di mana orang-orang di luar proyek OpenAI menggunakan GPT-3 untuk mendapatkan hasil yang canggih?

Dan masalah utamanya adalah: apakah OpenAI memilih peneliti yang menang dan kalah?




Kecepatan kemajuan sangat memusingkan. Ribuan karya diterbitkan setiap tahun. Namun, jika Anda tidak tahu siapa yang harus dipercaya, sangat sulit untuk mempromosikan pembangunan daerah ini. Replikasi memungkinkan peneliti lain untuk memverifikasi bahwa penulis tidak secara manual mencocokkan hasil terbaik dan bahwa teknologi baru memang bekerja seperti yang dijelaskan. “Semakin sulit membedakan hasil yang dapat diandalkan dari yang lain,” kata Piño.



Apa yang bisa dilakukan di sini? Seperti banyak peneliti AI lainnya, Pigno membagi waktunya antara laboratorium universitas dan perusahaan. Dalam beberapa tahun terakhir, dia secara aktif memengaruhi sistem publikasi penelitian AI. Misalnya, tahun lalu dia membantu mempromosikan daftar item yang harus dipastikan peneliti dalam pengiriman makalah ke salah satu konferensi AI terbesar, NeurIPS. Ini termasuk kode, deskripsi rinci tentang eksperimen.



Reprodusibilitas itu sendiri berharga



Pinho juga membantu meluncurkan beberapa kontes pengulangan di mana para peneliti mencoba meniru hasil dari para peneliti yang diterbitkan. Peserta memilih makalah yang diterima di konferensi dan bersaing satu sama lain dengan menjalankan eksperimen berdasarkan informasi yang diberikan. Benar, mereka hanya menerima pengakuan sebagai hadiah.



Kurangnya motivasi tidak mendorong penyebaran praktik semacam itu di semua bidang penelitian, tidak hanya di AI. Reproduksi adalah hal yang perlu, tetapi tidak didorong dengan cara apa pun. Salah satu solusi untuk masalah ini adalah dengan melibatkan siswa dalam pekerjaan ini. Dalam beberapa tahun terakhir, Rosemary Ke, Ph.D. dari Mila, sebuah lembaga penelitian Montreal yang didirikan oleh Yoshua Benjio, telah menyelenggarakan kompetisi reproduktifitas, dalam kerangka di mana siswa mencoba mereproduksi penelitian yang diajukan ke NeurIPS dalam kerangka pelatihan. Beberapa upaya yang berhasil ditinjau sejawat dan dipublikasikan di ReScience.



"Mereproduksi pekerjaan orang lain dari awal membutuhkan banyak usaha," kata Ke. "Kompetisi Reprodusibilitas menghargai upaya ini dan menghormati orang-orang yang melakukan pekerjaan dengan baik." Ke dan yang lainnya berbicara tentang upaya ini di konferensi AI, menyelenggarakan lokakarya untuk mendorong peneliti menambahkan transparansi pada pekerjaan mereka. Tahun ini, Pinho dan Ke telah memperluas persaingan mereka dengan menyertakan tujuh konferensi AI terbesar, termasuk ICML dan ICLR.



Proyek lain yang mempromosikan transparansi disebut Makalah dengan Kode. Ini diselenggarakan oleh peneliti AI Robert Stoinik ketika dia bekerja di Universitas Cambridge. Sekarang dia dan Pinho bekerja sama di Facebook. Proyek ini pertama kali diluncurkan sebagai situs web mandiri tempat para peneliti dapat menautkan pekerjaan mereka ke kode mereka. Tahun ini, proyek tersebut telah bermitra dengan server pracetak arXiv yang populer. Sejak Oktober, semua karya pada pembelajaran mesin yang diterbitkan di arXiv memiliki bagian Makalah dengan Kode, di mana terdapat tautan ke kode yang siap dipublikasikan oleh penulis karya tersebut. Tujuan dari proyek ini adalah menjadikan distribusi kode tersebut sebagai norma.



Apakah upaya ini memengaruhi sesuatu? Pigno menemukan bahwa tahun lalu, ketika daftar prasyarat keluar, jumlah makalah yang dikirimkan kode yang dikirimkan ke konferensi NeurIPS telah tumbuh dari 50% menjadi 75%. Ribuan pengulas mengatakan bahwa mereka menggunakan kode tersebut untuk menilai kiriman. Jumlah peserta dalam kompetisi reproduktifitas semakin bertambah.



Iblis ada dalam detailnya



Tapi ini baru permulaan. Haibe-Kains menunjukkan bahwa kode saja seringkali tidak cukup untuk menjalankan kembali eksperimen. Untuk membangun model AI, Anda harus membuat banyak perubahan kecil - tambahkan parameter di sana, nilai di sini. Semua ini dapat membuat model kerja tidak berfungsi. Tanpa metadata yang menjelaskan bagaimana model dilatih dan diubah, kode tersebut dapat menjadi tidak berguna. “Setan benar-benar ada dalam hal-hal kecil,” katanya.



Juga tidak selalu jelas kode apa yang akan didistribusikan. Banyak laboratorium menggunakan program khusus untuk menjalankan model. Terkadang itu adalah perangkat lunak berpemilik. Terkadang juga sulit untuk membedakan bagian kode mana yang akan dibagikan, kata Haibe-Kains.



Pinho tidak terlalu peduli dengan kendala seperti itu. “Banyak yang bisa diharapkan dari pendistribusian kode,” katanya. Berbagi data lebih sulit, tetapi ada solusinya. Jika peneliti tidak dapat membagikan data, mereka dapat memberikan panduan tentang cara mengumpulkan sendiri kumpulan data yang sesuai. Atau, Anda dapat mengatur sejumlah kecil peninjau untuk mengakses data dan memvalidasi hasilnya untuk orang lain, kata Khaibe-Kains.



Masalah terbesar adalah dengan perangkat keras. DeepMind mengklaim bahwa proyek besar seperti AlphaGo atau GPT-3 yang menghabiskan uang oleh lab besar akan menguntungkan semua orang pada akhirnya. Tidak dapat diakses oleh peneliti lain pada tahap awal, AI, yang membutuhkan daya komputasi yang besar, seringkali menjadi lebih efisien dan lebih mudah diakses selama pengembangan. “AlphaGo Zero melampaui pendahulunya, AlphaGo, menggunakan daya komputasi yang jauh lebih sedikit,” kata Koray Kavukchuoglu, wakil presiden riset di DeepMind.



Secara teori, ini berarti bahwa meskipun penelitian terlambat dilakukan ulang, hal itu masih memungkinkan. Kavukchuoglu mencatat bahwa Jean-Carlo Pascutto, seorang programmer Mozilla Belgia yang menulis program catur dan go di waktu luangnya, mampu mereplikasi varian AlphaGo Zero yang disebut Leela Zero menggunakan algoritma yang dijelaskan dalam makalah DeepMind. Pigno juga percaya bahwa studi unggulan seperti AlphaGo dan GPT-3 jarang ditemukan. Dia mengatakan bahwa sebagian besar penelitian AI bekerja pada komputer yang tersedia untuk lab rata-rata. Dan masalah seperti itu tidak hanya terjadi pada AI. Pinho dan Benayhom menunjuk pada fisika partikel, di mana beberapa eksperimen hanya dapat dilakukan pada peralatan mahal seperti Large Hadron Collider.



Namun, eksperimen fisika dilakukan di LHC oleh beberapa laboratorium bersama-sama. Dan eksperimen AI besar biasanya dilakukan pada peralatan yang dimiliki dan dikendalikan oleh perusahaan swasta. Tapi Pinho mengatakan ini juga berubah. Misalnya, Compute Canada merakit cluster komputasi untuk memungkinkan universitas melakukan eksperimen AI yang besar. Beberapa perusahaan, termasuk Facebook, memberi universitas akses terbatas ke peralatan mereka. “Situasinya belum sepenuhnya terselesaikan,” katanya. "Tapi beberapa pintu mulai terbuka."





, . . Google, , Nature , , Google - .

: , , ( ). . .




Keraguan Haibe-Kain. Ketika dia meminta tim Google Health untuk membagikan kode dari AI yang mendiagnosis kankernya, dia diberi tahu bahwa kode tersebut masih memerlukan pengujian lebih lanjut. Tim tersebut mengulangi alasan yang sama ini dalam tanggapan resmi atas kritik Haibe-Kains, yang juga diterbitkan di Nature. “Kami akan menerapkan program kami melalui pengujian yang ketat sebelum digunakan dalam pengaturan klinis, bekerja dengan pasien, penyedia layanan, dan regulator untuk membuat semuanya bekerja secara efisien dan aman.” Para peneliti juga menyatakan bahwa mereka tidak diperbolehkan membagikan semua data medis yang mereka gunakan.



Tidak akan berhasil seperti itu, kata Khaibe-Kains. "Jika mereka ingin membuat produk komersial dari ini, maka saya mengerti mengapa mereka tidak ingin mengungkapkan semua informasi." Namun, dia percaya bahwa jika Anda menerbitkan di jurnal ilmiah atau di konferensi, adalah tugas Anda untuk menerbitkan kode yang dapat dijalankan orang lain. Terkadang dimungkinkan untuk merilis versi yang dilatih kepada kami dengan data yang lebih sedikit, atau menggunakan perangkat keras yang lebih murah. Hasilnya mungkin lebih buruk, tetapi orang bisa mengutak-atiknya. “Batas antara manufaktur produk komersial dan penelitian terus-menerus kabur,” kata Haibe-Kains. "Saya pikir bidang keahlian ini pada akhirnya akan kalah."



Kebiasaan penelitian sulit untuk dilepaskan



Jika perusahaan dikritik karena pekerjaan penerbitan, mengapa repot-repot melakukannya? Sebagian darinya, tentu saja, berkaitan dengan PR. Namun, ini terutama karena laboratorium komersial terbaik dipenuhi oleh peneliti universitas. Sampai batas tertentu, budaya tempat-tempat seperti Facebook AI Research, DeepMind, dan OpenAI dibentuk oleh kebiasaan akademis tradisional. Selain itu, perusahaan teknologi mendapat manfaat dari berpartisipasi dalam komunitas penelitian yang lebih luas. Semua proyek AI besar di laboratorium swasta dibangun di atas berbagai hasil dari penelitian yang dipublikasikan. Dan beberapa peneliti AI telah menggunakan alat ML open source seperti PyTorch Facebook atau TensorFlow Google.



Semakin banyak penelitian dilakukan di perusahaan raksasa teknologi, semakin banyak trade-off yang harus dilakukan antara persyaratan bisnis dan penelitian. Pertanyaannya adalah bagaimana peneliti akan mengatasi masalah ini. Haibe-Kains ingin jurnal seperti Nature membagi publikasi mereka menjadi beberapa aliran terpisah - penelitian yang dapat direplikasi dan demonstrasi kemajuan teknologi.



Pinho lebih optimis tentang masa depan. “Saya tidak akan bekerja di Facebook jika tidak ada pendekatan terbuka untuk penelitian,” katanya.



Laboratorium perusahaan lain juga menuntut komitmen terhadap keterbukaan. “Karya ilmiah membutuhkan studi yang cermat dan kemampuan reproduksi para peneliti lain,” kata Kavukchuoglu. "Ini adalah bagian penting dari pendekatan penelitian kami di DeepMind."



“OpenAI telah berkembang menjadi sesuatu yang sangat berbeda dari laboratorium tradisional,” kata Kayla Wood, juru bicara perusahaan. "Tentu, pertanyaan muncul untuknya." Dia mencatat bahwa OpenAI bekerja dengan lebih dari 80 organisasi komersial dan akademik melalui Kemitraan pada inisiatif AI untuk memikirkan norma jangka panjang untuk menerbitkan penelitian.



Pinho mengira ada sesuatu dalam hal ini. Dia yakin perusahaan AI mendemonstrasikan cara ketiga dalam melakukan penelitian, di suatu tempat di antara dua aliran Haibe-Kains. Dia membandingkan hasil cerdas laboratorium AI swasta dengan perusahaan farmasi - yang terakhir menginvestasikan miliaran dalam pengembangan obat dan menyimpan sebagian besar hasilnya untuk diri mereka sendiri.



Dampak jangka panjang dari praktik yang diadopsi oleh Pinho dan lainnya masih harus dilihat. Akankah kebiasaan berubah secara permanen? Bagaimana hal ini akan memengaruhi penggunaan AI di luar penelitian? Banyak hal tergantung ke arah mana AI menuju. Tren ke arah model dan kumpulan data yang lebih besar - yang diikuti, misalnya, oleh OpenAI - akan mempertahankan situasi di mana opsi AI tingkat lanjut tidak tersedia untuk sebagian besar peneliti. Di sisi lain, teknologi baru seperti kompresi model dan pembelajaran beberapa langkah dapat mematahkan tren ini dan memungkinkan lebih banyak peneliti untuk bekerja dengan AI yang lebih kecil dan lebih efisien.



Bagaimanapun, perusahaan besar akan terus mendominasi penelitian AI. Dan jika dilakukan dengan benar, tidak ada yang salah dengan itu, kata Pigno: "AI mengubah cara kerja laboratorium penelitian." Kuncinya adalah memastikan masyarakat luas memiliki kesempatan untuk berpartisipasi dalam penelitian. Karena kepercayaan pada AI, yang menjadi sandaran banyak hal, dimulai dari ujung tombak.



All Articles