Dunia teknologi telah menerima sensasi baru - GPT-3.

Model bahasa besar (seperti GPT-3) semakin mengejutkan kami dengan kemampuannya. Sementara kepercayaan bisnis pada mereka belum cukup untuk mempresentasikannya kepada pelanggan mereka, model ini menunjukkan permulaan dari kecerdasan yang akan mempercepat pengembangan otomatisasi dan kemampuan sistem komputasi "pintar". Mari kita keluarkan aura misteri dari GPT-3 dan cari tahu bagaimana ia belajar dan cara kerjanya.

Model bahasa yang terlatih menghasilkan teks. Kami juga dapat mengirim beberapa teks ke input model dan melihat bagaimana output berubah. Yang terakhir ini dihasilkan dari apa yang telah "dipelajari" model selama periode pelatihan dengan menganalisis teks dalam jumlah besar.

Pembelajaran adalah proses mentransfer sejumlah besar teks ke model. Untuk GPT-3, proses ini selesai dan semua eksperimen yang Anda lihat berjalan pada model yang sudah dilatih. Diperkirakan bahwa pelatihan akan memakan waktu 355 tahun GPU (355 tahun pelatihan pada satu kartu grafis) dan biaya $ 4,6 juta.

02-gpt3-pelatihan-model-bahasa

Kumpulan data 300 miliar token teks digunakan untuk menghasilkan contoh untuk melatih model. Misalnya, seperti inilah tampilan tiga contoh pelatihan, yang diturunkan dari satu kalimat di atas.

, , .

gpt3-pelatihan-contoh-jendela-geser