👨🏼‍🏭 🚔 📚 Proyek akhir dari kursus Deep Learning dalam Natural Language Processing (oleh DeepPavlov Lab) 🕌 🤕 🍽️

Baru saja menyelesaikan " Pembelajaran Mendalam dalam Pemrosesan Bahasa Alami ", kursus pendidikan terbuka tentang pemrosesan bahasa alami. Biasanya, kurator kursus adalah karyawan proyek DeepPavlov , perpustakaan terbuka untuk kecerdasan buatan lisan, yang sedang dikembangkan di Laboratorium Sistem Saraf dan Pembelajaran Mendalam MIPT. Kursus ini dilakukan dengan dukungan informasi dari komunitas Open Data Science . Jika Anda memerlukan detail lebih lanjut tentang format kursus, buka di sini . Salah satu elemen kunci DL di NLP adalah kesempatan untuk merasa seperti peneliti dan mengimplementasikan proyek Anda sendiri.

Kami berbicara secara berkala di Mediumtentang proyek yang dibuat peserta sebagai bagian dari program pendidikan kami, misalnya, bagaimana membangun oracle lisan . Hari ini kami siap membagikan hasil mata kuliah semester musim semi 2020.

Beberapa data dan analitik

Tahun ini kami telah memecahkan semua rekor jumlah kursus: pada awal Februari, ada sekitar 800 orang yang mendaftar . Jujur saja, kami tidak siap untuk begitu banyak peserta, jadi kami memiliki banyak momen saat bepergian bersama mereka. Tapi kami akan menulis tentang ini lain kali.

Mari kembali ke peserta. Apakah semua orang sudah menyelesaikan kursus? Jawabannya tentu saja jelas. Dengan setiap tugas baru, jumlah orang yang bersedia menjadi semakin sedikit. Akibatnya, entah karena karantina, atau karena alasan lain, tetapi di tengah jalan hanya separuh yang tersisa. Nah, kemudian saya harus memutuskan proyek. Tujuh puluh karya diumumkan oleh para peserta. Dan proyek paling populer - ekstraksi sentimen Tweet - sembilan belas tim mencoba menyelesaikan tugas di Kaggle .

Lebih lanjut tentang proyek yang disajikan

Minggu lalu kami mengadakan sesi terakhir kursus di mana beberapa tim mempresentasikan proyek mereka. Jika Anda melewatkan seminar terbuka, maka kami telah menyiapkan rekamannya . Dan di bawah ini kami akan mencoba menjelaskan secara singkat kasus yang diterapkan.

Kaggle Jigsaw: Klasifikasi Komentar Beracun Multilingual

Roman Shchekin (QtRoS), Denis Grushentsev (evilden), Maxim Talimanchuk (mtalimanchuk.dll)

Ini kompetisi merupakan kelanjutan dari kompetisi populer untuk Jigsaw untuk menentukan teks beracun, tetapi dalam kasus ini pelatihan berlangsung pada data bahasa Inggris, dan pengujian data multibahasa (termasuk Rusia). Penilaian tersebut didasarkan pada metrik AUC ROC. Tim meraih perunggu (132 dari 1621) dengan AUC ROC ~ 0,9463. Model terakhir adalah ansambel pengklasifikasi:

XLMRoberta besar
Bayes naif
Basis Bert
Bert basis multibahasa
GUNAKAN multibahasa

XLMRoberta besar dengan lapisan linier 1024 * 1 dilatih pada kumpulan data dasar dengan pengoptimal AdamW. Model multibahasa USE digunakan dalam versi dasar (dilatih dalam 16 bahasa) tanpa pelatihan tambahan. Penggunaan basis Bert dimungkinkan karena terjemahan otomatis dari set data uji ke dalam bahasa Inggris. Set pelatihan telah diperluas dengan set data tambahan.

Presentasi proyek tersedia di sini .

GitHub proyek tersedia di tautan ini .

Pada distilasi bert

Nikita Balagansky

Seperti yang Anda ketahui, model yang didasarkan pada arsitektur BERT, sementara mencapai peringkat kualitas yang mengesankan, masih jauh tertinggal dalam kinerja. Hal ini dikarenakan BERT merupakan model dengan bobot yang banyak. Ada beberapa cara untuk mereduksi model tersebut, salah satunya dengan distilasi. Ide di balik distilasi adalah untuk membuat model "siswa" yang lebih kecil yang meniru perilaku model "guru" yang lebih besar. Model pelajar Rusia dilatih pada empat kartu 1080ti selama 100 jam, pada kumpulan data berita. Hasilnya, model siswa menjadi 1,7 kali lebih kecil dari model aslinya.... Perbandingan kualitas model siswa dan guru dilakukan pada dataset untuk mengetahui pewarnaan emosional teks Mokoron. Hasilnya, model siswa dilakukan sebanding dengan model guru. Naskah pelatihan ditulis dengan menggunakan paket katalis . Anda dapat membaca lebih lanjut tentang proyek ini di Medium .

Presentasi proyek tersedia di sini .

GitHub proyek tersedia di tautan ini .

Gambar: rasa.com

Menjawab Pertanyaan Sains Data Terbuka

Ilya Sirotkin, Yuri Zelensky, Ekaterina Karpova

Semuanya dimulai dengan postingan di ODS dari Ekaterina Karpova. Idenya cukup ambisius - untuk membuat penjawab otomatis untuk pertanyaan di komunitas slack ODS berdasarkan kumpulan data Q&A yang dikumpulkan. Namun, analisis awal mengungkapkan bahwa sebagian besar pertanyaan cukup unik, dan membuat set pengujian berlabel untuk menilai kualitas adalah tugas yang agak melelahkan. Oleh karena itu, diputuskan untuk membuat pengklasifikasi terlebih dahulu untuk menentukan apakah pertanyaan yang diajukan termasuk dalam saluran kendur ODS. Dia akan membantu pemula ODS untuk mengajukan pertanyaan tentang topik saluran yang relevan. Metrik pwROC-AUC dipilih sebagai penilaian kualitas.

Dalam kerangka kerja proyek, analisis komparatif model klasifikasi teks populer dilakukan. Yang terbaik dari mereka - model berbasis RuBERT dari DeepPavlov - menunjukkan kualitas 0,995 pwROC-AUC. Jumlah kualitas model yang tinggi menunjukkan tingkat pemisahan (dan keterpisahan) yang tinggi dari data asli. Satu-satunya saluran yang bermasalah untuk semua model yang telah saya uji adalah _call_4_colaboration. Tapi kenapa tepatnya dia, itu belum mungkin untuk mengetahuinya.

Setelah menangani tugas ini, tim tidak meninggalkan harapan untuk kembali ke tugas awal menjawab pertanyaan dari pengguna ODS.

Presentasi proyek tersedia di sini .

GitHub proyek tersedia di tautan ini .

Analisis Sentimen Berbasis Aspek Rusia

Dmitry Bunin

Dalam kerangka proyek ini, masalah penentuan sentimen relatif terhadap objek tertentu dalam teks diselesaikan (masalah C dari kompetisi Dialogue Evaluation 2015). Baik data Rusia dan Inggris digunakan sebagai kumpulan data. Pada dasarnya, model modern berdasarkan arsitektur ELM (dari paket RusVectores) dan BERT (dari paket DeepPavlov ) dibandingkan . Model ELM + CNN dalam bahasa Rusia menunjukkan kualitas yang sebanding dengan model terbaik dari kompetisi, meskipun sampel pelatihan kecil dan ketidakseimbangan data yang kuat.

Presentasi proyek tersedia di sini .

GitHub proyek tersedia di tautan ini .

Kaggle: Ekstraksi Sentimen Tweet

Kirill Gerasimov

Menurut ketentuan kompetisi , tugasnya adalah mengekstrak kata kunci atau frase dari teks tweet yang akan menentukan mood tweet ini. Skor Jaccard tingkat kata digunakan sebagai metrik kualitas. Dalam kompetisi ini, semua peserta dihadapkan pada data yang berisik dan markup yang ambigu. Tim menggunakan model laptop publik berdasarkan basis RoBERTa sebagai model dasar. Model ini menggunakan pendekatan pemahaman bacaan, di mana bagian awal dan akhir frasa kunci diberi tanda (dengan syarat harus diakhiri setelah awal). Menurut tradisi yang diterima, ansambel berbagai model tampil lebih cepat daripada model individual. Hasilnya, perunggu (peringkat ke-135 dari 2100)... Dalam pengalaman pemenang kompetisi, anotasi dua tingkat memberikan kecepatan yang lebih baik.

Presentasi proyek tersedia di sini .

GitHub proyek tersedia di tautan ini .

Solusi otomatis dari ujian

Mikhail Teterin dan Leonid Morozov

Tujuan proyek ini adalah untuk meningkatkan kualitas metrik pada tiga tugas kompetisi AI Journey 2019 (solusi otomatis ujian), yaitu:

mencari informasi utama dalam teks;
menentukan arti sebuah kata dalam konteks tertentu;
penempatan tanda baca dalam kalimat.

Dalam ketiga masalah tersebut, solusi terbaik dalam kompetisi terlampaui. Sebagian besar peningkatan disebabkan oleh penggunaan data pelatihan tambahan. Dalam solusinya, model berdasarkan RuBERT dari DeepPavlov menunjukkan kualitas terbaik .

Presentasi proyek tersedia di sini .

GitHub proyek tersedia di tautan ini .

Pada artikel kali ini, kami mencoba menceritakan tentang beberapa proyek yang dipresentasikan pada seminar tersebut, namun tentunya masih banyak lagi yang lainnya.

Terima kasih kepada semua orang yang telah berpartisipasi aktif dalam kursus ini dan tidak menyerah. Nah, bagi yang baru belajar dan mencari tugas menarik di bidang NLP, kami sarankan untuk mempertimbangkan project DeepPavlov Contribute .Masa depan Conversational AI ada di tangan Anda!

Proyek akhir dari kursus Deep Learning dalam Natural Language Processing (oleh DeepPavlov Lab)