Pengujian menunjukkan bahwa AI populer masih kurang berpengalaman dalam realitas
Sejak OpenAI pertama kali mendeskripsikan sistem kecerdasan buatan (AI) penghasil teks baru GPT-3 pada Mei, ratusan outlet berita, termasuk MIT Technology Review , telah menulis banyak artikel tentang sistem dan kemampuannya. Kekuatan dan potensinya secara aktif dibahas di Twitter. The New York Times telah menerbitkan artikel panjang tentang masalah ini. OpenAI akan mulai menagih perusahaan tahun ini untuk akses ke GPT-3, dengan harapan sistem mereka akan segera menjadi tulang punggung berbagai produk dan layanan AI.
Dapatkah GPT-3 dianggap sebagai langkah penting menuju AI (ION) tujuan umum - yang akan memungkinkan mesin, seperti manusia, untuk bernalar secara logis dalam rentang yang luas, tanpa harus mempelajari lagi setiap tugas baru? Lembar data dari OpenAI mencakup masalah ini agak jarang, tetapi bagi banyak orang kemampuan sistem ini tampak seperti langkah maju yang signifikan.
Tapi kami meragukannya. Sekilas, GPT-3 memiliki kemampuan yang mengesankan untuk menghasilkan teks yang mirip manusia. Kami yakin ini dapat digunakan untuk mengirim teks surealis untuk bersenang-senang. Aplikasi komersial lainnya mungkin muncul. Tapi akurasi bukanlah keunggulannya. Menggali lebih dalam mengungkapkan bahwa ada sesuatu yang hilang: meskipun keluarannya secara tata bahasa benar dan mengesankan dari sudut pandang idiomatik, pemahamannya tentang dunia terkadang sangat bertentangan dengan kenyataan, jadi Anda tidak pernah bisa mempercayai apa yang dia katakan.
Di bawah ini adalah beberapa contoh kurangnya pemahaman AI, semuanya diprediksi dalam kritik awal GPT-3 oleh salah satu penulis materi ini.
Pertama, perlu dicatat bahwa OpenAI masih tidak memberi peneliti akses ke GPT-3, meskipun nama perusahaannya [ open AI - "open AI" / kira-kira. terjemahan. ] dan status nonprofit dari organisasi pengawas. Sebaliknya, OpenAI mengabaikan permintaan konstan kami, meskipun telah memberikan akses pers ke produk. Untungnya, kolega kami, Douglas Summers-Stay, yang memperoleh akses ke sistem, dengan ramah setuju untuk menjalankan beberapa eksperimen untuk kami.
Kedekatan OpenAI yang mencolok bagi kami tampaknya merupakan pelanggaran serius terhadap etika ilmiah, dan distorsi tujuan organisasi nirlaba yang terkait dengan proyek ini. Keputusan ini memaksa kami untuk membatasi eksperimen kami pada serangkaian contoh yang relatif kecil, dan kami memiliki lebih sedikit waktu untuk meneliti daripada yang kami inginkan. Oleh karena itu, sistem mungkin memiliki masalah yang lebih serius yang tidak sempat kami pahami. Tetapi bahkan dengan sampel kecil, seseorang dapat segera melihat masalah besar GPT-3 di semua bidang penalaran dan pemahaman.
Dalam contoh yang diberikan, teks kita diberikan dengan font biasa, dan cara sistem melengkapinya dicetak tebal. Komentar dicetak miring. Daftar lengkap eksperimen dapat ditemukan di sini .
Penalaran tentang topik biologis
, . . , , . . .
.
, GPT-3 , β , , , , Ocean Spray , Cran-Grape.
. . , , . , .
. ( β ) , . , , - . , . , , . , [table saw] β [saw], [table] β , ( ), .
, . , , . . , . , . , , .
Β« Β», , GPT-3 , . , . , , .
, . ? .
GPT-3 . GPT-3.
, . : Β« Β». Β« Β», β . Β« . Β». Β« Β», β .
GPT-3 , , . , Β« Β» ( Β« Β»). 1972 . 50 , .
, , . , . , . , 145 .
Pada awalnya, GPT-3 salah memprediksi konsekuensi dari mengaduk limun dengan rokok, dan kemudian secara umum menjadi omong kosong yang tidak masuk akal.
Yang menyedihkan adalah ini bukanlah hal baru. GPT-3 pendahulunya (GPT-2) memiliki kelemahan yang sama. Seperti yang ditulis seorang penulis pada bulan Februari: βPaling-paling, sistem seperti jaringan saraf GPT-2 yang banyak dibahas, yang menghasilkan cerita dan seterusnya berdasarkan fragmen kalimat tertentu, dapat mengatakan sesuatu yang tampaknya mencerminkan pemahaman yang mendalam. Tapi, tidak peduli seberapa meyakinkan banyak contoh karyanya, pada kenyataannya, semua representasi ini sangat singkat. Pengetahuan yang dikumpulkan oleh jaringan saraf modern tetap terpisah-pisah dan minimalis. Mungkin berguna, sangat mengesankan, tetapi tidak pernah dapat diandalkan. "
Sejak itu, hanya sedikit yang berubah. Menambahkan data baru yang seratus kali lebih besar dari yang sebelumnya membantu, tetapi tidak banyak. Para peneliti menghabiskan jutaan dolar untuk waktu komputer untuk melatih sistem, melemparkan 31 orang ke dalamnya, mengeluarkan karbon dioksida dalam jumlah yang mencengangkan ke atmosfer karena listrik yang dikonsumsi - tetapi kelemahan mendasar GPT belum hilang. Sistem tidak memiliki keandalan, pemahaman kausalitas lemah, dan ketidaklogisan muncul terus-menerus. GPT-2 memiliki masalah dengan penalaran dalam biologi, fisika, psikologi, dan interaksi sosial, serta cenderung tidak logis dan tidak konsisten. GPT-3 memiliki hal yang sama.
Meningkatkan jumlah data mendekati bahasa dengan lebih baik, tetapi tidak memberi kita kecerdasan yang dapat kita percayai.
Pembela kepercayaan pada AI pasti akan menunjukkan bahwa seringkali mungkin untuk merumuskan kembali tugas-tugas ini sedemikian rupa sehingga sistem GPT-3 menemukan solusi yang tepat. Anda bisa, misalnya, mendapatkan jawaban yang benar untuk masalah jus cranberry dan anggur dari GPT-3 jika Anda memberikan konstruksi berikut sebagai masukan:
Dalam pertanyaan berikut, beberapa tindakan memiliki konsekuensi serius dan beberapa aman. Tugas Anda adalah menentukan konsekuensi penggunaan berbagai campuran dan bahayanya.
1. Anda menuangkan segelas jus cranberry untuk diri Anda sendiri, tetapi kemudian tanpa sadar menambahkan satu sendok teh jus anggur ke dalamnya. Dia terlihat baik-baik saja. Anda mencoba mengendusnya, tetapi pilek Anda parah, jadi Anda tidak mencium bau. Anda sangat haus. Anda meminumnya.
A) Ini adalah campuran yang berbahaya.
B) Ini adalah campuran yang aman.
Jawaban yang benar:
GPT-3 melanjutkan teks ini dengan benar dengan menjawab: B) Ini adalah campuran yang aman.
Masalahnya adalah Anda tidak tahu sebelumnya rumusan mana yang akan memberi Anda jawaban yang benar dan mana yang tidak. Setiap petunjuk sukses baik untuk orang yang optimis. Orang yang optimis akan berargumen bahwa karena dalam beberapa formulasi GPT-3 memberikan jawaban yang benar, sistem memiliki pengetahuan dan kemampuan penalaran yang diperlukan - itu hanya menjadi bingung oleh bahasa. Namun, masalahnya bukan pada sintaks GPT-3 (semuanya beres di sini), tetapi pada semantik: sistem dapat menghasilkan kata dan kalimat bahasa Inggris, tetapi sulit untuk membayangkan artinya, dan sama sekali tidak mewakili hubungannya dengan dunia luar.
Untuk memahami mengapa demikian, akan sangat membantu untuk memikirkan tentang apa yang dilakukan sistem ini. Mereka tidak mendapatkan pengetahuan tentang dunia - mereka mendapatkan pengetahuan tentang teks dan bagaimana orang menggunakan beberapa kata bersama dengan yang lain. Dia melakukan sesuatu seperti salin dan tempel besar-besaran, menyatukan variasi teks yang telah dia lihat, daripada menggali lebih dalam konsep di baliknya.
Dalam contoh jus cranberry, GPT-3 melanjutkan teks dengan frasa "kamu sudah mati", karena frasa seperti itu sering mengikuti frasa seperti "... jadi kamu tidak berbau. Kamu sangat haus. Jadi kamu meminumnya". Orang yang sangat cerdas akan melakukan sesuatu yang sangat berbeda: akan menarik kesimpulan tentang potensi keamanan mencampurkan jus cranberry dengan jus anggur.
GPT-3 hanya memiliki pemahaman yang sempit tentang bagaimana kata-kata berhubungan satu sama lain. Dia tidak menarik kesimpulan apa pun tentang dunia yang berkembang dan hidup dari kata-kata ini. Dia tidak menyimpulkan bahwa jus anggur adalah minuman (walaupun dia dapat menemukan korelasi verbal untuk mendukung ini). Dia tidak menarik kesimpulan tentang norma-norma sosial yang mencegah orang pergi ke persidangan dengan menggunakan celana renang. Dia hanya belajar korelasi kata, tidak lebih. Impian seorang empiris adalah mendapatkan pemahaman mendetail tentang dunia berdasarkan data dari indranya, tetapi GPT-3 tidak akan melakukan itu, bahkan dengan input data setengah terabyte.
Saat kami menulis artikel ini, kolega kami Summers-Stay, sebuah metafora yang bagus, menulis kepada salah satu dari kami: βGPT itu aneh karena tidak peduli mendapatkan jawaban yang benar atas pertanyaan yang diajukan. Dia lebih terlihat seperti aktor improvisasi, benar-benar menyerah pada seninya, tidak meninggalkan gambar, tetapi tidak pernah meninggalkan rumah, dan menerima semua informasi tentang dunia dari buku. Seperti aktor seperti ini, ketika dia tidak mengetahui sesuatu, dia hanya berpura-pura tahu. Anda tidak akan mempercayai nasihat medis dari aktor improvisasi yang berperan sebagai dokter. "
Selain itu, Anda tidak boleh mempercayai saran GPT-3 tentang mencampur minuman atau menata ulang furnitur, penjelasannya tentang cerita untuk anak Anda, atau membantu menemukan cucian Anda. Dia mungkin menyelesaikan soal matematika dengan benar, atau mungkin tidak. Ini memberikan segala macam omong kosong dengan indah, tetapi bahkan dengan 175 miliar parameter dan 450 gigabyte data masukan, tidak dapat disebut sebagai juru bahasa dunia yang andal.