Pustobrёkh GPT-2: Edisi Rusia

gambar


Setelah terjun ke topik DL NLP, saya menemukan repositori yang menarik di Internet . Ini tidak banyak tidak cukup - GPT-2 Rusia ! Ya, begitulah Berbahasa Rusia. Dan bukan 117M kecil, tapi cukup 1250M, yang sudah cukup serius. Penulis telah melakukan banyak pekerjaan untuk mengadaptasi model asli dan mempersiapkan korpus untuk pelatihan. Dan pelatihan itu sendiri, saya kira, membutuhkan banyak waktu dan tenaga. Secara umum, hormati kamerad l4rz ! Saya berencana untuk mengikuti jejaknya dan melatih sistem pada kasus saya (yang saat ini saya sedang dalam proses persiapan) - untungnya, penulis meninggalkan instruksi yang agak rinci tentang bagaimana mendekati tugas berskala besar ... Saya akan melaporkan kembali hasilnya! ;)



Sementara itu, murni untuk bersenang-senang, saya mengusulkan kepada publik beberapa eksperimen dengan sistem, berdasarkan postingan tentang GPT-3 yang lebih dingin (meskipun penulis, jelas, tidak menganggap GPT-3 sebagai sesuatu yang luar biasa di sana). Di satu sisi, sistem yang disajikan di sini jauh lebih sederhana daripada GPT-3, di sisi lain, masih merupakan model bahasa Rusia yang terlatih! Saya pikir itu lucu.



Penolakan. Hasilnya sangat ditentukan oleh korpus yang dipelajari jaringan. Inilah yang dikatakan penulis tentangnya: Saya mengikis beberapa situs pers Rusia , mengurai HTML dengan beautifulsoup4 dan menyimpan teks parsing serta metadata (header, TL; DRs, cap waktu) untuk penyortiran lebih lanjut dan postprocessing di PKL ... Untuk mendorong berbagai hal selanjutnya dataset 4Gb (token 415 juta) ditambah dengan 3Gb fanfics yang difilter , menjadi yang 7Gb (token 862 juta).



Teknik eksperimental sederhana: Saya menjalankan jaringan tiga kali dengan masukan yang sama. Output jaringan ditandai dengan huruf tebal... Saya tidak melakukan pengeditan apa pun, kecuali yang murni kosmetik - seperti spasi yang hilang (yang dihilangkan karena gangguan saya pada kode *). Secara keseluruhan, percobaan mengulangi yang dijelaskan dalam artikel tentang GPT-3, dan saya memutuskan untuk tidak mengomentarinya dengan cara apa pun ...;)



Eksperimen # 1

. >>>

Anda menuangkan segelas jus cranberry untuk diri Anda sendiri, tetapi kemudian tanpa sadar menambahkan satu sendok teh jus anggur ke dalamnya. Dia terlihat baik-baik saja. Anda mencoba mengendusnya, tetapi pilek Anda parah, jadi Anda tidak mencium bau. Anda sangat haus. Karena itu, minumlah kopi dengan madu dan gula.
>>> baru

Anda menuangkan segelas jus cranberry untuk diri Anda sendiri, tetapi kemudian tanpa sadar menambahkan satu sendok teh jus anggur ke dalamnya. Dia terlihat baik-baik saja. Anda mencoba mengendusnya, tetapi pilek Anda parah, jadi Anda tidak mencium bau. Anda sangat haus. Jadi, Anda menuangkan kopi untuk diri sendiri lagi. Anda merasa mual. Tidak ada yang salah dengan itu, Anda juga tidak tahu cara meminumnya. Anda merasakan sesuatu yang sangat buruk, tetapi tidak ada yang memperhatikan Anda.
>>> baru

Anda menuangkan segelas jus cranberry untuk diri Anda sendiri, tetapi kemudian tanpa sadar menambahkan satu sendok teh jus anggur ke dalamnya. Dia terlihat baik-baik saja. Anda mencoba mengendusnya, tetapi pilek Anda parah, jadi Anda tidak mencium bau. Anda sangat haus. Jadi Anda tetap makan jika Anda mau, tapi tidak tahu seperti apa bentuknya.


Eksperimen # 2

. >>>

Anda telah menyelenggarakan pesta kecil. Anda ingin menyajikan makan malam di ruang tamu. Meja ruang makan lebih lebar dari ambang pintu, dan Anda harus minum segelas susu panas untuk memindahkannya ke ruang tamu .
>>> baru

Anda telah menyelenggarakan pesta kecil. Anda ingin menyajikan makan malam di ruang tamu. Meja ruang makan lebih lebar dari ambang pintu dan butuh beberapa langkah untuk pindah ke ruang tamu .
>>> baru

Anda telah menyelenggarakan pesta kecil. Anda ingin menyajikan makan malam di ruang tamu. Meja ruang makan lebih lebar dari ambang pintu, dan butuh kerja keras untuk memindahkannya ke ruang tamu .


Eksperimen # 3

. >>>

Anda adalah pengacara pembela dan Anda harus pergi ke pengadilan hari ini. Saat berpakaian di pagi hari, Anda menemukan bahwa celana dari setelan Anda sangat kotor. Namun, celana renang Anda bersih dan sangat bergaya. Ini adalah celana renang kelas atas dari Prancis yang diberikan Isabelle untuk ulang tahunmu. Apakah Anda memutuskan apa yang akan dikenakan untuk uji coba ?

Oh ya*
>>> baru

Anda adalah pengacara pembela dan Anda harus pergi ke pengadilan hari ini. Saat berpakaian di pagi hari, Anda menemukan bahwa celana dari setelan Anda sangat kotor. Namun, celana renang Anda bersih dan sangat bergaya. Ini celana renang kelas atas dari Prancis yang diberikan Isabelle untuk ulang tahunmu. Anda memutuskan apa yang akan dikenakan untuk persidangan . Jika Anda tidak menyukai sesuatu, bawalah pakaian dari lemari Anda.
>>> baru

Anda adalah pengacara pembela dan Anda harus pergi ke pengadilan hari ini. Saat berpakaian di pagi hari, Anda menemukan bahwa celana dari setelan Anda sangat kotor. Namun, celana renang Anda bersih dan sangat bergaya. Ini adalah celana renang kelas atas dari Prancis yang diberikan Isabelle untuk ulang tahunmu. Apakah Anda memutuskan apa yang akan dikenakan untuk uji coba ?

- Saya punya banyak pertanyaan untuk pengacara.


Eksperimen # 4

. >>>

Kemarin saya meninggalkan pakaian saya di dry cleaner, dan hari ini saya masih harus mengambilnya. Dimana pakaianku?

- Idiot, aku harus mendapatkannya kembali, tidak melakukan semuanya sesuai rencana.
>>> baru

Kemarin saya meninggalkan pakaian saya di dry cleaner, dan hari ini saya masih harus mengambilnya. Dimana pakaianku?

- Tidak, saya tidak tahu apa ini, tapi saya selalu bisa mengambilnya, dan ini tidak selalu menyenangkan.
>>> baru

Kemarin saya meninggalkan pakaian saya di dry cleaner, dan hari ini saya masih harus mengambilnya. Dimana pakaianku?

- Baik. Saya tidak akan mengganggunya, ”jawab saya.



Percobaan # 5

. >>>

Janet dan Penny pergi ke toko untuk membeli hadiah untuk Jack. Janet berkata, "Aku akan membeli atasan untuk Jack." "Jangan membeli atasan untuk Jack," kata Penny. “Dia punya atasan. Dia akan mendapatkan dariku saat kita memilih, dan jika kamu tidak membeli Jack, kamu akan menjual Jack.
>>> baru

Janet dan Penny pergi ke toko untuk membeli hadiah untuk Jack. Janet berkata, "Aku akan membeli atasan untuk Jack." "Jangan membeli atasan untuk Jack," kata Penny. “Dia punya atasan. Dia akan mendapatkan bagiannya dari Jack.
>>> baru

Janet dan Penny pergi ke toko untuk membeli hadiah untuk Jack. Janet berkata, "Aku akan membeli atasan untuk Jack." "Jangan membeli atasan untuk Jack," kata Penny. “Dia punya atasan. Dia akan menerima . Aku akan mengambilnya. Dia selalu ada. Dan saya tidak akan menjual. Hanya tidak seperti Jack. Dia tidak tertarik pada apa yang tidak menyenangkannya. Dia tidak akan membeli apapun selain membeli dirinya sendiri.


Percobaan # 6

. >>>

Di pesta itu, saya menuangkan segelas limun untuk diri saya sendiri, tapi rasanya terlalu asam, jadi saya menambahkan sedikit gula. Tidak ada sendok di tangan, jadi saya mengaduk minuman dengan sebatang rokok. Tapi itu ternyata ide yang sangat buruk karena saya sudah lama minum. Wow, rasanya enak sekali!
>>> baru

Di pesta itu, saya menuangkan segelas limun untuk diri saya sendiri, tapi rasanya terlalu asam, jadi saya menambahkan sedikit gula. Tidak ada sendok di tangan, jadi saya mengaduk minuman dengan sebatang rokok. Tapi itu ternyata ide yang sangat buruk karena limun membuat saya tidak bisa minum.
>>> baru

Di pesta itu, saya menuangkan segelas limun untuk diri saya sendiri, tapi rasanya terlalu asam, jadi saya menambahkan sedikit gula. Tidak ada sendok di tangan, jadi saya mengaduk minuman dengan sebatang rokok. Tapi ternyata itu ide yang sangat buruk karena terlalu panas, jadi saya mulai minum dari tenggorokan saya.


Eksperimen # 7

. >>>

, . – .



1. , . . , , . . .



) .

) .



: 2. )



* Penyimpangan liris kecil. Saya tidak suka GPT-2 dengan pembuatan teks tak terbatas (setengah halaman sekaligus), seperti yang ada di sumbernya. Dan saya menusuk output ke minimum , tetapi memungkinkan untuk melanjutkan secara rekursif (ketika output sebelumnya dimasukkan ke input). Jadi, saya curang sedikit , karena Saya sendiri yang menentukan kapan Anda bisa / harus berhenti. Dalam hal ini, jaringan benar-benar memberikan hasil yang dapat diartikan dengan beberapa rentang sebagai jawaban (meskipun paradoks), tetapi jika kita melanjutkan kesimpulan, maka ... Nilailah sendiri:
Jawaban yang benar:

2. A) Anda TIDAK perlu mengetahui sisanya.

3. B) Ketergantungan.

4. Atas dasar apa Anda ingin meminumnya?


>>> baru





Jawaban yang benar: ini adalah zat beracun.
>>> baru

...



Jawaban yang benar adalah: "Semuanya sudah siap."


Untuk sim ini, itu saja ...



NB. Jika komunitas memberi tahu saya di mana menempatkan Model 5Gb (sehingga dapat diakses oleh sesuatu seperti wget ) - Saya akan menambahkan tautan ke notebook Colab ke artikel dan siapa saja yang ingin dapat menjalankan sistem secara langsung ...; ) Dan kemudian "tuan rumah" saya, saya khawatir, tidak akan tahan dengan efek habr. Sementara itu, saya dapat mencoba apa yang terjadi dengan teks Anda sebagai masukan, jika ada yang tertarik!



UPDATE: Komunitas diwakili olehgrigorov.dllmenjawab, jadi inilah Notepad yang dijanjikan ! Sekarang Anda dapat bereksperimen sendiri, bandingkan dengan yang asli (tautan dari postingDesertFlow Jaringan saraf GPT-2 dari OpenAI. Mulai cepat ) dan mungkin menarik beberapa kesimpulan. ;) Misalnya: apakah bahasa itu penting saat mengajar model bahasa?



KOMENTAR PENULIS : Hai,



ya, tentu saja, saya tidak keberatan - jika tidak, saya tidak akan mengunggah modelnya di sini.



>>> Apakah bahasa penting saat mengajar model bahasa?



Tentu saja - saya perhatikan bahwa model dengan sejumlah kecil parameter bekerja lebih buruk dengan bahasa Rusia. Saya berasumsi bahwa ini disebabkan oleh semantik bahasa Rusia yang lebih kompleks (kurang formal) dibandingkan dengan bahasa Inggris; Saya menulis tentang itu dalam tulisan saya. Selain itu, cara mentransmisikan dialog, yang diadopsi dalam bahasa Rusia, ketika setiap replika dimulai pada baris baru dan didahului dengan tanda hubung, tanpa menentukan milik siapa replika ini, sama sekali tidak membantu model untuk mengidentifikasi struktur dialog dengan benar (dan selain itu menyulitkan untuk dilatih, karena model belajar menyusun teks seperti cara - efek yang sama diamati saat markup bocor ke dalam data pelatihan).



Hal lain yang saya lewatkan (tampak jelas bagi saya) - jika Anda ingin menyempurnakan model ini, maka Anda perlu menggunakan kamus sentencepiece (sp. *) Yang disertakan dengan model.



Juga, ketika pelatihan 1250M, terutama berita, pers, dan fiksi penggemar yang kemudian digunakan, yang tercermin dalam sifat hasil.



All Articles