Pra-pelatihan model NLP yang lebih efisien dengan ELECTRA

Perkembangan terkini dalam model bahasa pra-belajar telah menyebabkan kemajuan signifikan dalam Natural Language Processing (NLP), sehingga menimbulkan model yang sangat efisien seperti Bert , Roberta , XLNet , ALBERT , T5 dan banyak lainnya. Namun, metode ini, yang memiliki arsitektur berbeda, disatukan oleh gagasan untuk menggunakan data teks tak berlabel dalam jumlah besar untuk membuat model umum pemahaman bahasa alami, yang kemudian dilatih lebih lanjut dan disetel dengan cermat untuk memecahkan masalah terapan tertentu, seperti analisis sentimen atau membangun sistem tanya jawab.



Metode pra-pelatihan yang ada sebagian besar terbagi dalam dua kategori:



  • Model Bahasa (LM) seperti GPT , yang memproses teks dalam masukan dari kiri ke kanan, memprediksi kata berikutnya dalam konteks yang telah ditentukan sebelumnya;
  • Model Masked Language (MLM) seperti BERT, RoBERTa, dan ALBERT, yang mencoba memprediksi kata-kata bertopeng dari teks sumber.


Keuntungan dari MLM adalah ia bekerja secara dua arah, yaitu. Mereka "melihat" teks di kedua sisi token yang diprediksi, berbeda dengan LM, yang hanya menghadap satu arah. Namun, MLM (dan model seperti XLNet) juga memiliki kelemahan yang berasal dari tugas pra-pelatihan mereka: alih-alih memprediksi setiap kata dari urutan masukan, mereka memprediksi hanya bagian kecil yang terselubung - hanya sekitar 15%, yang mengurangi jumlah informasi yang diterima dari satu kalimat.



gambar3



. () . : (, GPT), . : (, BERT), , .



«ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators» , BERT’, . ELECTRA – , (Efficiently Learning an Encoder that Classifies Token Replacements Accurately) — , , . , ELECTRA , RoBERTa XLNet GLUE, , , ¼ , - SQuAD. ELECTRA , : 1 GPU , (accuracy), GPT, 30 . ELECTRA TensorFlow .





ELECTRA – (replaced token detection, RTD), ( MLM) ( LM). - (generative adversarial network, GAN), ELECTRA «» «» . , , «[MASK]» ( BERT’), RTD , . , , «cooked» «ate». , , . (.. ) , , . , , (15% BERT). RTD , MLM – ELECTRA «» , , .. . , RTD , .. , .



image4



.



, . , , ELECTRA ( BERT- ), . , , , GAN, , , - GAN . . , ( ELECTRA) NLP . .



gambar1



. MLM , ELECTRA.





ELECTRA c NLP , , , RoBERTa XLNet 25% , .



gambar2



x , ( FLOPs), y – GLUE. ELECTRA , NLP . , GLUE, T5, , .. ( 10 , RoBERTa).



, ELECTRA-Small, , GPU 4 . , , TPU , ELECTRA-Small GPT, 1/30 .



, , ELECTRA , ELECTRA-Large ( RoBERTa 10% T5). - SQuAD 2.0 (. ) RoBERTa, XLNet ALBERT GLUE. T5-11b GLUE, ELECTRA 30 10% , T5.



gambar5



ELECTRA-Large SQuAD 2.0 ( ).



ELECTRA



Kode dari prapelatihan ELECTRA dan fine tuning pada tugas-tugas NLP yang diterapkan, seperti klasifikasi teks, tugas tanya jawab dan markup urutan, telah dipublikasikan dalam akses terbuka . Kode mendukung pelatihan cepat model ELECTRA kecil pada satu GPU. Bobot model terlatih seperti ELECTRA-Large, ELECTRA-Base dan ELECTRA-Small juga diposting. Meskipun ELECTRA hanya tersedia untuk bahasa Inggris, di masa mendatang, pengembang berencana untuk melatih model dalam bahasa lain.



Penulis






All Articles