Cara mengekang GPT-3
OpenAI bersiap untuk membuka API komersial untuk GPT-3, jaringan neural terbaru dan terbesar untuk pembuatan teks. Dalam persiapannya, perusahaan membuat sistem pemfilteran konten untuk mencegahnya mempublikasikan informasi pribadi orang.
Insinyur mengembangkan sistem ini, misalnya, agar tidak memberikan telepon pribadi orang. Pekerjaan telah berlangsung selama lebih dari setahun sekarang, dan lab pembelajaran mesin San Francisco berharap untuk merilis API tersebut akhir tahun ini.
Mengapa Anda membutuhkan filter seperti itu?
Pada Desember 2020, ilmuwan komputer dari berbagai institusi dan perusahaan pendidikan - misalnya, Stanford, UC Berkeley, OpenAI, dan Google - berkolaborasi untuk menunjukkan bahwa GPT-2, pendahulu GPT-3, dapat diprovokasi untuk dimasukkan ke dalam teks itu menghasilkan informasi pribadi orang. Informasi tersebut mungkin termasuk nama orang, alamat, nomor telepon, dan nomor jaminan sosial.
Terlebih lagi, tim menemukan bahwa setidaknya 0,1% dari semua teks yang dihasilkan GPT-2 - dan itu diperkirakan secara konservatif - mengutip potongan teks yang panjang dari dokumen dalam set data pelatihan. Dengan kata lain, jutaan halaman teks yang tersedia untuk umum yang dikumpulkan dari Internet untuk pelatihan jaringan saraf berisi informasi pribadi yang bocor atau keliru diterbitkan, atau konten berhak cipta. Dan semua data ini masuk ke keluaran teks oleh GPT-2.
Tim peneliti juga mencatat bahwa informasi pribadi juga dapat diambil dari percakapan dengan GPT-2, meskipun entri ini hanya muncul sekali dalam data pelatihan.
Dan tidak hanya para peneliti ini yang memperhatikan masalah ini.
Hilary Mason, salah satu pendiri Hidden Door, platform online untuk permainan teks, sedang bermain dengan akses publik ke GPT-2 ketika dia melihat sesuatu yang aneh. Di akhir catatan berita kejahatan yang dibuat oleh jaringan saraf, sebuah nomor telepon diberikan, dan tertulis bahwa itu adalah milik departemen kepolisian di Oregon. Tiga digit pertamanya, 503, menunjukkan bahwa itu mungkin bilangan real - itu adalah kode area yang mencakup Portland, Salem, dan Beaverton. Ternyata nomor tersebut benar-benar nyata, hanya saja bukan milik polisi.
“Menurut saya aneh,” kata Mason kepada kami. - Saya ingin tahu apakah itu bilangan real, dan saya mencarinya di Internet. Ternyata itu bukan nomor kantor polisi, tapi pusat komunitas dari Oregon. ”
Jaringan saraf OpenAI dilatih untuk menghasilkan teks dengan menemukan pola dalam apa yang telah ditulis manusia. Pengetahuan ini digunakan untuk memprediksi kata yang kemungkinan mengikuti teks yang disediakan pengguna. Hal ini memungkinkan seseorang untuk menanyakan program kalimat pertama dari sebuah cerita atau puisi, atau memasukkan pertanyaan, dan kode akan menghasilkan teks yang menurut program harus dilanjutkan selanjutnya. Jaringan saraf akan menyusun kalimat dan paragraf, artikel, dan jawaban dalam obrolan, sehingga sekilas tampak koheren, tetapi jika diamati lebih dekat, ternyata hanya sampah.
Beberapa kata lebih erat kaitannya daripada yang lain, dan pola ini tidak diabaikan oleh GPT-2 dan GPT-3. Misalnya, kata "kertas" lebih cenderung muncul di samping kata "tulis" atau "kayu" dibandingkan dengan kata "beton" atau "sepatu". Dengan mengetik kata-kata seperti "telepon" atau "telepon", Anda meningkatkan kemungkinan bahwa pola bahasa ini akan menghasilkan sesuatu yang berkaitan erat dengan konsep ini - misalnya, nomor telepon orang.
Penggunaan memori secara kreatif?
Sulit untuk mengetahui apakah model memuntahkan nomor telepon seseorang yang diambil dari data pelatihan, atau hanya mengumpulkan beberapa nomor acak yang secara tidak sengaja terlipat menjadi nomor yang benar. Dalam contoh di atas, dengan nomor telepon kantor polisi yang seharusnya di Oregon, Mason tidak memberikan model masukan yang secara langsung akan memicu nomor telepon diambil dari memori. Dia hanya meminta GPT-2 untuk membuat cuplikan teks, dan menerima artikel fiksi dengan nomor telepon pusat komunitas.
Dia yakin bahwa dalam kasus ini nomor tersebut ada di data pelatihan GPT-2, dan jaringan saraf menyimpannya. Dia percaya bahwa kata-kata "Oregon" dan "kontak" dalam teks menyebabkan jaringan saraf memberikan nomor telepon. Sepertinya kata-kata ini muncul di sebelah sepuluh digit nomor telepon pada halaman yang disimpan ke set data pelatihan.
Mason ingin melihat seberapa besar kemungkinan GPT-2 akan menghasilkan nomor telepon yang sebenarnya, dan karena penasaran meminta jaringan saraf untuk membuat nomor yang berisi angka 617 - kode panggilan untuk Boston, Massachusetts. Dan GPT-2 memang memberikan daftar nomor seperti 617-XXX-XXXX, meskipun kebanyakan dari mereka bukanlah telepon yang valid. Sulit untuk mengatakan apakah jaringan saraf mengingat angka yang benar, atau mereka muncul secara tidak sengaja saat GPT-2 mengisi ruang kosong dengan angka acak. Ada kemungkinan kadang dia bisa memberikan urutan yang ternyata adalah nomor telepon seseorang.
“Ini membingungkan kemampuan untuk membuat data dari templat dan mengambilnya dari memori,” kata Mason. - Dia mungkin memberikan nomor telepon asli tanpa alasan, tetapi kemungkinan ini meningkat jika Anda bertanya secara langsung. Konstruksi bahasa yang memanggil nomor telepon tidak terlalu beragam, jadi tidak mengherankan jika kami mendapatkan nomor ini saat keluar. "
Jika GPT-3 memberikan nomor telepon dalam obrolan atau artikel fiksi, ini mungkin karena nomor-nomor ini ditemukan di suatu tempat di Internet, dan masuk ke data pelatihan, meskipun ada kemungkinan kecil bahwa jaringan saraf menciptakannya secara tidak sengaja, tanpa bertemu mereka sebelumnya. Menemukan angka yang tepat dalam data pelatihan mungkin dapat menyelesaikan pertanyaan ini.
Masalahnya adalah bahwa model-model ini, yang bekerja berdasarkan prinsip pembelajaran mesin, dalam produk komersial - misalnya, dalam obrolan dukungan - dapat memberikan data pribadi nyata dari seseorang yang tidak ingin, atau tidak lagi ingin mempublikasikannya. , dan tentu saja tidak membagikannya untuk tujuan penggunaan di bot obrolan. Bayangkan seorang penyerang ingin menipu korban atau memanfaatkan identitas mereka, dan yang dia butuhkan hanyalah menjalankan program dari OpenAI, atau menemukan versi yang berfungsi dari beberapa penyedia, dan mencari tahu data pribadi dalam percakapan dengan bot.
Ilmuwan dan insinyur telah mencatat bahwa teknologi semacam itu dapat melanggar hukum yang melindungi data pribadi, seperti GDPR di Eropa atau CCPA di California. Apakah data pribadi yang disimpan di basis jaringan saraf sebagai basis pelatihan, karena bobot atau jumlah lain cukup terlindungi? Bagaimana jika seseorang meminta untuk menghapus datanya - apakah saya harus melatih ulang jaringan? Atau bisakah kita menghapusnya dari database? Peneliti menganggap area ini kabur secara hukum.
Perlu dicatat bahwa saat ini risiko bahaya minimal - cukup sulit untuk memastikan bahwa data pribadi muncul dalam keluaran model bahasa, terlebih lagi, sistem dilatih berdasarkan data, yang sebagian besar bersifat publik. Namun, ada kekhawatiran bahwa seiring waktu, sistem ini akan menjadi lebih kuat, mengonsumsi lebih banyak data dari semakin banyak sumber. Akibatnya, jika para insinyur tidak memikirkan dengan hati-hati tentang bagaimana kreasi mereka dapat digunakan untuk tujuan yang buruk, ada risiko alat AI yang tersedia untuk semua orang akan memberikan data pribadi orang-orang.
Ariel Herbert-Voss, salah satu peneliti yang mempelajari OpenAI, mengatakan bahwa GPT-2 dan GPT-3 menghasilkan teks berisi informasi yang mirip dengan data pribadi sekitar 20% dari waktu. Selain itu, datanya sendiri ternyata nyata dalam 1% kasus. Upaya untuk mendapatkan nomor telepon spesifik seseorang berhasil sekitar 1% dari waktu.
Peluangnya mungkin tampak remeh bagi Anda, tetapi jika Anda menskalakannya menjadi ribuan dan jutaan percakapan, kebocoran informasi bisa menjadi masalah. OpenAI, bersiap untuk merilis GPT-3 ke publik, tidak menghitung secara kebetulan, dan membuat filter yang akan menghapus teks yang dihasilkan tidak hanya dari nomor telepon, tetapi juga dari data pribadi yang bermasalah.
Berpura-puralah Anda Bisa Sampai Berhasil
Mengumpulkan data dengan program pembelajaran mesin adalah pedang bermata dua. Tidaklah baik jika suatu model tiba-tiba mengingat nomor telepon Anda, tetapi teknologi di baliknya dapat bermanfaat.
Brad Dwyer, pendiri dan CTO dari startup computer vision Roboflow, mengerjakan proyek terkait yang disebut Stack Roboflow. Dia melatih model GPT-2 di situs Tanya Jawab Stack Overflow untuk melihat apakah model tersebut dapat memberikan jawaban yang berguna untuk pertanyaan pengkodean. Ia ingin membuat model bahasa yang tidak hanya dapat memahami bahasa alami tetapi juga bahasa pemrograman, sehingga dapat membantu orang memecahkan masalah pemrograman. Namun, eksperimen awal menunjukkan bahwa ekspektasi model terlalu tinggi.
Alat Stack Roboflow yang menghasilkan jawaban atas pertanyaan hanya berguna jika pertanyaannya akurat dan diajukan dengan benar - lagipula, topik pemrograman sangat bersifat teknologi. Oleh karena itu, penting untuk mengingat informasi yang diperlukan secara harfiah: misalnya, untuk memberikan kutipan yang tepat dari program, atau untuk menyediakan tautan yang berfungsi ke repositori dan dokumentasi yang sebenarnya. Sejauh ini, model GPT-2 tidak dapat mengatasi hal ini karena variabilitas outputnya.
"Dia tidak cocok dengan tugasnya," kata Dwyer. “Sekilas, teksnya tampak dapat dipercaya, tampak seperti bahasa kutu buku, berisi tautan ke dokumentasi dan situs web, tetapi seringkali tautan ini hanya dibuat-buat. Namun, terkadang sistem juga mengembalikan URL yang sebenarnya. "
“Model bahasa harus bisa belajar banyak sambil menyediakan data secara selektif. Kami ingin mendapatkan alat berguna yang tidak membuang data secara tidak sengaja - aliran data harus dikontrol. Dia mungkin tahu banyak nomor telepon, tapi kami ingin dia tidak memberikan informasi pribadi. Pemfilteran konten tetap merupakan tugas terbuka. "
Secara umum, teknologi OpenAI tidak dapat diandalkan untuk mengingat detail tertentu - seperti tautan ke perpustakaan dan dokumentasi - untuk dijalankan dalam aplikasi seperti Stack Roboflow. Tetapi pada saat yang sama, dia cukup baik untuk secara tidak sengaja mengeluarkan informasi pribadi seseorang dalam percakapan.
Berbicara dengan mobil dalam jangka waktu yang lama akan membuat dialog menjadi aneh. Jaringan saraf masif untuk menghasilkan teks dapat menghasilkan cerita fantastis tentang unicorn berbicara. Mereka bisa tertipu untuk menulis esai distopia yang memperingatkan tentang bahaya AI. Atau, untuk penggunaan yang lebih praktis, mereka terkadang memuntahkan nomor telepon orang.
Kemunculan informasi pribadi yang nyata dalam data yang dihasilkan oleh model AI telah membuat kami takut sebelumnya. Peneliti telah memperingatkan kami selama bertahun-tahun bahwa model pembelajaran mesin dapat menghasilkan informasi yang terdapat dalam data pelatihan. Semua jenis jaringan neural dipengaruhi oleh fitur ini, tidak hanya raksasa seperti GPT-2 dan GPT-3 dari OpenAI atau Meena dari Google.
Filter GPT-3 OpenAI akan memeriksa keluaran dengan menulis ulang teks dan mengganti nomor telepon yang mungkin asli dengan nomor acak. Misalnya, jika dia melihat angka sepuluh digit yang diawali dengan kode area asli, dia akan menggantinya dengan angka yang jelas-jelas palsu, seperti 111-111-1111 atau 012-345-6789. Jenis informasi lain, seperti alamat, tidak memiliki struktur yang jelas, dan oleh karena itu akan lebih sulit untuk disaring. OpenAI mencari beberapa solusi yang lebih cerdas dan lebih elegan daripada hanya sekumpulan ekspresi reguler dalam kode.
Alamat berisi angka dan kata dalam berbagai format, panjang dan ejaan. Filter keluar harus jelas tentang kapan kumpulan karakter terlihat seperti alamat atau bentuk data pribadi lainnya, dan kapan kumpulan karakter terlihat lebih polos. Mungkin ada petunjuk dalam teks seperti kata "jalan", atau nomor yang terlihat seperti kode pos. Namun, ini tidak selalu jelas, dan filter mungkin akan membiarkan beberapa pengecualian berlalu.
Selain itu, data pribadi tidak dapat dihapus dari data pelatihan - karena itu, konteks berguna yang penting untuk melatih jaringan saraf mungkin hilang. Dia mungkin perlu mempertimbangkan hubungan antara alamat, nomor telepon dan nama, dan kata-kata di sekitarnya - misalnya, untuk memahami apakah suatu bagian tentang bisnis atau keluarga, orang yang dicintai, atau keluhan tentang suatu organisasi. Dan seterusnya - itulah mengapa filter keluaran diperlukan.
“Dengan banyak model, Anda harus sangat berhati-hati dalam menyajikan teks yang dihasilkan langsung kepada pengguna tanpa memprosesnya, atau membuatnya tersedia untuk umum,” kata Mason.
“Masalah khusus dengan informasi pribadi ini tidak seberbahaya jumlah bias dan pernyataan yang tidak tepat yang dapat dihasilkan oleh jaringan saraf. Anda perlu bekerja dengan hati-hati dan memikirkan di mana dan apa yang mungkin salah. Untuk aplikasi nyata, pengujian multi-tahap akan diperlukan. "
Saat ini, hanya beberapa penguji beta terpilih yang memiliki akses ke GPT-3 melalui API, dan OpenAI berencana menagih uang kepada pengguna untuk mengakses model tersebut. Perusahaan tidak mengomentari masalah yang dijelaskan.