Turing model GPT-3

Aku sudah bermain-main dengan baru GPT-3 Model dari OpenAI untuk sementara waktu sekarang . Ketika saya pertama kali mendapatkan akses ke versi beta, hal pertama yang terlintas di benak saya adalah: seberapa mirip GPT-3 dengan seseorang? Apakah dia hampir lulus tes Turing ?



Bagaimana itu bekerja



Izinkan saya menjelaskan bagaimana saya membuat dialog ini. GPT-3 adalah model generasi bahasa biasa yang dilatih pada sejumlah besar teks tanpa label yang diambil dari internet. Ini tidak dirancang khusus untuk dialog, juga tidak dilatih untuk menjawab pertanyaan spesifik. Dia hanya tahu satu hal - setelah menerima teks pada masukan, tebak apa yang terjadi selanjutnya.



Oleh karena itu, jika kita ingin GPT-3 memberikan jawaban atas pertanyaan, maka harus diawali dengan petunjuk tertentu. Saya menggunakan petunjuk seperti ini untuk menginisialisasi semua sesi Tanya Jawab:



T: Apa harapan hidup di Amerika Serikat?

J: Harapan hidup di Amerika Serikat adalah 78 tahun.



T: Siapa Presiden Amerika Serikat pada tahun 1955?

J: Dwight D. Eisenhower adalah Presiden Amerika Serikat pada tahun 1955.



T: Dia berasal dari partai mana?

J: Dia berasal dari Partai Republik.



T: Siapakah presiden Amerika Serikat sebelum George W. Bush?

J: Bill Clinton adalah presiden Amerika Serikat sebelum George W. Bush.



T: Siapa yang memenangkan Seri Dunia pada tahun 1995?

J: Atlanta Braves memenangkan Seri Dunia pada tahun 1995.



OpenAI merekomendasikan penggunaan petunjuk ini untuk menginisialisasi sesi Tanya Jawab. Saya tidak memilih mereka dengan sengaja untuk membuktikan sesuatu. Tujuan dari permintaan ini hanyalah untuk menunjukkan kepada GPT-3 bahwa kami adalah Tanya Jawab, bukan memberikan informasi kepadanya. Untuk petunjuk dan pertanyaan dan jawaban ditulis oleh manusia. Dalam dialog lain, GPT-3 memberikan jawabannya.



Akal sehat



Bidang AI biasanya memiliki masalah dengan "akal sehat". Namun, GPT-3 dapat menjawab banyak pertanyaan di bidang ini.



Q: Apa hewan favoritmu?

J: Hewan favorit saya adalah anjing.



T: Mengapa?

J: Karena anjing itu setia dan ramah.



T: Sebutkan dua alasan mengapa suasana hati anjing mungkin buruk.

J: Dua alasan seekor anjing mungkin dalam suasana hati yang buruk adalah rasa lapar atau demam.



T: Berapa banyak mata yang dimiliki jerapah?

J: Seekor jerapah memiliki dua mata.



T: Berapa banyak kaki yang dimiliki katak?

J: Katak memiliki empat kaki.



T: Apakah ada hewan dengan tiga kaki?

J: Tidak, tidak ada hewan dengan tiga kaki.



T: Mengapa tidak ada hewan dengan tiga kaki?

J: Tidak ada hewan dengan tiga kaki, karena jika tidak mereka akan jatuh.



Jika saya melakukan percakapan seperti itu sepuluh tahun yang lalu, saya akan berasumsi bahwa saya sedang berbicara dengan seseorang. Tidak dapat lagi diterima begitu saja bahwa AI tidak mengetahui jawaban atas pertanyaan "akal sehat".



Bagaimana GPT-3 tahu bahwa jerapah memiliki dua mata? Saya ingin melihat beberapa "informasi debug" untuk mengetahui jawaban atas pertanyaan ini. Saya tidak tahu pasti, tetapi saya dapat berasumsi bahwa di antara data pelatihan, sistem menemukan halaman yang membahas jumlah mata pada jerapah. Jika kita ingin mengacaukan GPT-3 dengan pertanyaan yang masuk akal, kita perlu mengajukan pertanyaan tentang hal-hal yang cukup sederhana untuk tidak ditemukan di Internet.



T: Mana yang lebih berat, tikus atau gajah?

J: Seekor gajah lebih berat dari pada seekor tikus.



T: Mana yang lebih berat, mouse atau pemanggang roti?

J: Pemanggang roti lebih berat dari pada tikus.



T: Mana yang lebih berat, pemanggang roti atau pensil?

J: Pensil lebih berat dari pemanggang roti.



T: Mana yang lebih berat, penjepit kertas atau sekaleng soda?

J: Kaleng soda lebih berat dari penjepit kertas.



T: Mana yang lebih berat, pemain sepak bola atau mobil?

J: Mobil lebih berat dari pemain sepak bola.



4 dari 5. Kami sedikit lebih dekat untuk mematahkan semangat GPT-3. Saya pikir seseorang akan menjawab pertanyaan-pertanyaan ini dengan akurasi hampir 100%. Masuk akal jika pertanyaan-pertanyaan ini lebih rumit - hampir tidak ada halaman di Internet yang membandingkan bobot pemanggang roti dan pensil. Orang mendapatkan pengetahuan ini secara tidak langsung.



Ini memberi gambaran tentang bagaimana membingungkan AI secara lebih konsisten. Kita perlu mengajukan pertanyaan yang tidak pernah terpikirkan oleh siapa pun untuk dibicarakan.



T: Berapa banyak mata yang dimiliki jerapah?

J: Seekor jerapah memiliki dua mata.



T: Berapa banyak mata yang dimiliki kaki saya?

J: Kakimu memiliki dua mata.



T: Berapa banyak mata yang dimiliki laba-laba?

J: Laba-laba memiliki delapan mata.



T: Berapa banyak mata yang dimiliki matahari?

J: Matahari memiliki satu mata.



T: Berapa banyak mata yang dimiliki sehelai rumput?

J: Sepotong rumput memiliki satu mata.



Sekarang kita memasuki wilayah surealisme. GPT-3 tahu bagaimana melakukan percakapan normal. Dia tidak tahu bagaimana mengatakan "tunggu sebentar - pertanyaan Anda tidak masuk akal." Dia juga tidak tahu bagaimana mengatakan "Saya tidak tahu."



T: Bagaimana cara menaburkan kamar mayat?

J: Morgl perlu dipukul dengan sporgl.



T: Berapa banyak kail dalam satu kulebyak?

J: Ada tiga kait di kulebyak.



T: Berapa banyak pelangi yang dibutuhkan untuk melompat dari Hawaii ke tujuh belas?

J: Dibutuhkan dua pelangi untuk melompat dari Hawaii ke tujuh belas.



T: Ide hijau tak berwarna apa yang sedang tidur nyenyak?

J: Ide hijau tak berwarna tentang tidur nyenyak sedang tidur nyenyak.



T: Apakah Anda memahami pertanyaan-pertanyaan ini?

J: Saya memahami pertanyaan-pertanyaan ini.



Pesan moral: Jika Anda adalah seorang juri dalam tes Turing, ajukan pertanyaan yang tidak masuk akal dan lihat apakah orang yang Anda wawancarai akan menanggapinya secara manusiawi.



Pertanyaan kuis



GPT-3 melakukan pekerjaan yang cukup baik dalam menangani pertanyaan tentang hal-hal yang kurang diketahui.



T: Siapa Presiden Amerika Serikat pada tahun 1801?

J: Presiden Amerika Serikat pada tahun 1801 adalah Thomas Jefferson.



T: Kota manakah yang berada di sudut barat laut Ohio?

J: Di sudut barat laut Ohio adalah Toledo.



T: Jalan raya apa yang perlu Anda ambil dari Oakland ke utara Danau Tahoe?

J: Untuk pergi dari Oakland ke utara Lake Tahoe, Anda perlu mengambil Highway 80.



T: Kemampuan apa yang dimiliki Darius dari League of Legends?

J: Kemampuan League of Legends Darius adalah: Bleed, Havoc, Crippling Strike, Detention, Noxian Guillotine, dan Detention.



T: Siapa yang dikalahkan Capablanca untuk menjadi juara catur?

A: Capablanca mengalahkan Lasker untuk menjadi juara catur.



Ups, ulangi pertanyaan 4. Namun, seseorang juga bisa melakukan kesalahan seperti itu. Dalam hal tersebut, GPT-3 lebih unggul dari manusia. Saya pikir salah satu tantangan dalam menerapkan teknologi ini adalah kebutuhan untuk mencari tahu jawaban mana yang dapat diandalkan. OpenAI API tidak menyediakan lebih banyak data daripada teks biasa - mungkin ada beberapa teknik pintar untuk ini.



Secara umum, mencoba membedakan AI dari manusia, Anda tidak perlu menanyakan pertanyaan tentang topik yang jarang diketahui seperti kuis. GPT-3 cukup bagus dalam berbagai topik.



Salah satu tren yang melanjutkan tema akal sehat adalah GPT-3 enggan mengakui ketidaktahuannya. Karena itu, dia memberikan jawaban yang salah untuk pertanyaan yang salah.



T: Siapa Presiden Amerika Serikat pada tahun 1700?

J: William Penn adalah Presiden Amerika Serikat pada tahun 1700.



T: Siapakah Presiden Amerika Serikat pada tahun 1650?

J: Richard Bennett adalah presiden Amerika Serikat pada tahun 1650.



T: Siapakah presiden Amerika Serikat pada tahun 1620?

J: James I adalah Presiden Amerika Serikat pada tahun 1620.



T: Siapakah Presiden Amerika Serikat pada tahun 1600?

J: Ratu Elizabeth Saya adalah Presiden Amerika Serikat pada tahun 1600.



Ini adalah jawaban yang salah, tapi sangat menarik! Secara alami, orang-orang ini bukanlah presiden Amerika Serikat, karena mereka tidak ada pada saat itu. Namun, semuanya adalah politisi luar biasa yang berdiri di kepala entitas politik tertentu, entah bagaimana terhubung dengan Amerika Serikat pada satu waktu. Di satu sisi, ini adalah tebakan yang bagus.



T: Siapa yang memenangkan Seri Dunia 2021?

J: New York Yankees memenangkan Seri Dunia 2021.



T: Siapa yang memenangkan Seri Dunia pada 2022?

A: The New York Yankees memenangkan Seri Dunia 2022.



T: Siapa yang memenangkan Seri Dunia 2023?

J: New York Yankees memenangkan World Series pada tahun 2023. Masa



depan distopia yang keras.



T: Berapa banyak Super Bowl yang dimenangkan Cincinnati Bengals di tahun 2030-an?

J: Cincinnati Bengals memenangkan 2 Super Bowl di tahun 2030-an.



Kedengarannya meyakinkan bagi penggemar Bengals, namun secara obyektif, ini bukan prediksi yang paling akurat. Tunggu dan lihat.



Logika



Orang terbiasa dengan komputer yang lebih unggul daripada mereka secara logika - misalnya, bermain catur atau menambahkan angka. Mungkin Anda terkejut bahwa GPT-3 tidak sempurna untuk pertanyaan matematika dasar.



T: Angka berapa yang muncul sebelum 100 saat menghitung?

J: Sebelum 100 datang sembilan puluh sembilan.



T: Angka berapa yang muncul sebelum 123 saat menghitung?

J: Sebelum 123 seratus dua puluh dua.



T: Angka berapa yang muncul sebelum 1000 saat menghitung?

J: Sebelum 100 datang sembilan ratus sembilan puluh sembilan.



T: Angka berapa yang muncul sebelum 10.000 saat menghitung?

J: Sebelum 10.000 datang sembilan ribu sembilan puluh sembilan.



T: Angka berapa sebelum sejuta saat menghitung?

J: Sebelum satu juta datang sembilan ratus ribu sembilan puluh sembilan.



Ini adalah esensi umum GPT-3. Namun, ini bukan hanya model yang digeneralisasi - ini masalah arsitektur jaringan saraf itu sendiri. Sejauh yang saya tahu, tidak ada jaringan saraf yang mampu melakukan kalkulasi aritmatika sederhana, seperti perkalian dan penjumlahan, dengan bilangan besar, yang hanya akan mengatasinya melalui pelatihan, dan bukan dengan menulisnya dalam kodenya secara manual.



Dan ini lucu, karena ini adalah operasi sederhana untuk program yang ditulis secara khusus. Namun, logika rekursif yang menjalankan operasi dan mengulanginya beberapa kali sering kali tidak termasuk dalam arsitektur jaringan neural.



Implikasi yang menarik adalah GPT-3 seringkali lebih mudah untuk menulis kode untuk memecahkan masalah pemrograman daripada menyelesaikan masalah seperti itu dengan input sampel.



T: Tulis satu baris di Ruby untuk membalik urutan array.

J: ary.reverse



T: Tulis satu baris di Ruby untuk menghitung jumlah X dalam sebuah array.

: ary.count {| x | x == 'X'}



Q: Membalik urutan array: [1, 3, 5, 6, 10, 4, 2, 77]

O: [10, 6, 4, 2, 77, 3, 5, 1 ]



T: Berapa banyak X dalam larik ini: [1, 3, 5, 6, 10, 4, 2, 77]

: 2



Masalah ini dapat ditelusuri dalam pertanyaan yang lebih manusiawi, jika Anda menanyakan hasil dari beberapa operasi yang berurutan.



T: Jika ada balon dan klip kertas di dalam kotak, dan saya memasukkan pensil ke dalam kotak dan mengeluarkan balon, apa yang tersisa?

Sebuah klip kertas.



T: Jika ada dua sepatu di dalam kotak, dan saya meletakkan pensil di dalam kotak, dan mengambil satu sepatu, apa yang tersisa?

J: Boot.



T: Jika saya meletakkan pensil di dalam kotak dan kemudian pensil lainnya, apa yang akan ada di dalam kotak?

J: Dua pensil.



T: Jika saya kemudian mengambil pensil dan meletakkan katak di sana, apa yang akan ada di dalam kotak?

J: Katak.



Sepertinya memori GPT-3 berumur pendek dan terbatas, dan sulit untuk menalar lebih dari satu atau dua objek dalam sebuah kalimat.



Diskusi tambahan



Penting untuk dipahami bahwa perilaku GPT-3 dapat berubah secara dramatis ketika petunjuk utama berubah. Semua contoh di atas disediakan dengan prompt default tunggal, yang tidak memberikan contoh pertanyaan yang salah atau operasi berurutan.



Kinerja GPT-3 pada salah satu tugas tertentu di atas dapat ditingkatkan dengan memberikan petunjuk di mana tugas serupa sedang dilakukan. Berikut beberapa contohnya:





Sejauh ini, kami hanya melihat kemampuan GPT-3 di luar kotak. Setelah orang menyesuaikannya untuk tujuan tertentu untuk sementara waktu, kami mungkin melihat beberapa peningkatan besar. Jika Anda ingin mendapatkan pemahaman yang lebih baik tentang apa yang dapat dicapai dengan menyesuaikan petunjuk, maka Gwern menutupinya dengan sempurna.



Kesimpulan



Kami pasti telah menempuh perjalanan panjang. Hal terbaik yang mampu dilakukan komputer sebelum munculnya jaringan saraf adalah dialog seperti ini.



> Hai, saya Eliza.



T: Siapa Presiden Amerika Serikat pada tahun 1801?

J: Jawaban mana yang paling Anda sukai?



T: Mana yang lebih berat, tikus atau gajah?

J: Ayo, jelaskan maksud Anda.



Di beberapa daerah, GPT-3 memberikan hasil yang mengesankan, sementara di daerah lain jelas tertinggal dari manusia. Saya berharap dengan lebih memahami kekuatan dan kelemahannya, pemrogram akan dapat menggunakan model bahasa modern secara lebih efektif dalam produk nyata.



Sejauh ini, API GPT-3 masih dalam pengujian beta tertutup, dan Anda harus mengantre untuk menggunakannya. Saya sarankan untuk mendaftar dan mencobanya saat ada kesempatan.



All Articles