🦍 🎳 🤾🏿 Analisis sentimen dalam teks berbahasa Rusia, bagian 3: tantangan dan prospek 🛫 🤠 🐆

Analisis sentimen telah berhasil digunakan untuk media sosial, ulasan, berita, dan bahkan buku teks. Berdasarkan penelitian utama untuk bahasa Rusia yang dijelaskan di artikel sebelumnya , di sini kita melihat tantangan utama yang dihadapi para peneliti, serta arah yang menjanjikan untuk masa depan. Tidak seperti karya sebelumnya, saya berfokus pada aplikasi terapan, dan bukan pada pendekatan itu sendiri dan kualitas klasifikasinya.

NB: Artikel itu ditulis untuk jurnal ilmiah, jadi banyak link ke sumbernya.

1. Panggilan yang sedang berlangsung

Berdasarkan analisis artikel penelitian, diidentifikasi sepuluh masalah umum. Secara umum, peneliti biasanya menghadapi banyak tantangan, termasuk akses ke data historis yang representatif dan data pelatihan, serta memberi catatan emosi, mendeskripsikan batasan penelitian secara mendalam, dan mengekstraksi topik dari teks.

1.1. Akses ke data historis yang representatif dalam sumber yang dianalisis

Data historis - seperti publikasi dan ulasan - dikumpulkan melalui API sumber atau platform agregasi, sering digunakan dan dianalisis dalam penelitian sentimen. Terkadang pengembang API hanya memberikan akses sebagian ke data yang dipublikasikan. Misalnya, API inti Twitter mengikuti kebijakan bahwa hanya API Twitter historis yang menyediakan akses ke semua kiriman terbuka. Sedangkan untuk platform agregasi, meskipun mereka mengklaim bahwa mereka memiliki akses penuh ke data dari sumber tertentu, hal ini tidak mungkin untuk diverifikasi. Oleh karena itu, hanya ada dua cara untuk memastikan bahwa data tersebut mewakili survei:

API , . , API .
. , OK Data Science Lab [98].

1.2.

Meskipun bahasa Rusia adalah salah satu bahasa yang paling banyak digunakan di Internet, jumlah sumber di dalamnya jauh lebih sedikit daripada bahasa Inggris, terutama di bidang analisis sentimen. Meskipun banyak penelitian telah dikhususkan untuk klasifikasi emosi dalam teks berbahasa Rusia, hanya penulis beberapa di antaranya yang membuat kumpulan data mereka tersedia untuk umum. Jika tidak ada set yang tersedia yang dapat diterapkan ke topik penelitian, maka penulis menandai set pelatihan secara manual. Setelah menganalisis sumber-sumber sastra dan karya ilmiah [142], [173], saya mengidentifikasi dan mendeskripsikan 14 kumpulan data yang tersedia untuk umum untuk analisis sentimen teks-teks berbahasa Rusia (lihat Tabel 2). Saya hanya mempertimbangkan kit yang dapat diakses sesuai dengan instruksi yang dijelaskan dalam makalah ilmiah terkait atau di situs resmi. Dalam hal ini, mereka tidak termasuk dalam daftar,misalnya, ROMIP set [174], [175], karena tidak mungkin mengakses data melalui situs resminya.

Tabel 2. Dataset bahasa Rusia untuk analisis sentimen.

Himpunan data	Deskripsi	Anotasi	Kelas	Mengakses
RuReviews [143]	Satu set dengan contoh suasana hati dari ulasan produk dalam kategori "Pakaian dan Aksesori Wanita" di toko online besar Rusia.	Otomatis	3	Halaman GitHub
RuSentiment [142]	Satu set terbuka dengan contoh suasana hati dari publikasi di jejaring sosial VKontakte.	Manual	lima	Halaman proyek
Kumpulan Data Ulasan Hotel Rusia [171]	Kumpulan contoh suasana hati aspek dari 50.329 ulasan hotel berbahasa Rusia.	Otomatis	lima	Google Drive
RuSentRel [172]	Seperangkat artikel analitik dari situs InoSMI, yang menyajikan pendapat penulis tentang topik yang dibahas dan banyak tautan yang disebutkan oleh peserta dalam situasi yang dijelaskan.	Manual	2	Halaman GitHub
LINIS Kerumunan [26]	Kumpulan contoh sentimen open source, dikumpulkan dari artikel sosial dan politik di berbagai situs media.	Manual	lima	Halaman proyek
Twitter Sentiment for 15 European Languages [173]	, 1,6 Twitter- ( ID) 15 , .		3
SemEval-2016 Task 5: Russian [49]	, , . SentiRuEval-2015 [2017].		3
SentuRuEval-2016 [18]	, Twitter- .		3
SentuRuEval-2015 [17]	, .		4
RuTweetCorp [141]	, , . Twitter [144].		3
Kaggle Russian News Dataset	.		3	Kaggle
Kaggle Sentiment Analysis Dataset	.		3	Kaggle
Kaggle IS161AIDAY	, Alem Research.		3	Kaggle
Kaggle Russian_twitter_sentiment	Twitter-.		2	Kaggle

1.3. .

Menggunakan sistem analisis pihak ketiga seperti SentiStrength [22], algoritma Medialogy atau POLYARNIK [107], penulis biasanya tidak menulis tentang kualitas klasifikasi pada teks yang dianalisis, sehingga menjadi sulit untuk memverifikasi keakuratan hasil penelitian. Saya berasumsi bahwa penggunaan solusi pihak ketiga juga disebabkan oleh fakta bahwa para peneliti tidak memberikan anotasi pada kumpulan teks pengujian untuk menghitung metrik klasifikasi. Namun, tampaknya pengenalan tahap ini secara signifikan akan meningkatkan nilai ilmiah dari karya tersebut. Oleh karena itu, saya sangat menyarankan agar penulis membuat anotasi sampel data target secara manual untuk mengukur metrik klasifikasi dalam analisis sentimen.

1.4. Mengekstrak topik dari teks

Untuk mengekstrak topik, kebanyakan studi menggunakan teknik pemodelan topik. Tetapi jika bagian teks yang terkait dengan topik yang diminati secara signifikan lebih rendah dari 1%, maka pemodelan topik tidak akan memungkinkan bekerja dengan ekstraksi topik [54]. Selain itu, pemodelan topik menunjukkan keakuratan yang rendah saat menganalisis teks pendek, terutama jika teks tersebut mewakili percakapan sehari-hari [54]. Oleh karena itu, pendekatan yang lebih akurat dan tidak terlalu bergantung pada kebisingan perlu dikembangkan.

1.5. Panduan anotasi sentimen untuk markup manual.

Karena perlengkapan pelatihan bahasa Rusia yang relevan tentang topik yang diminati tidak selalu tersedia, peneliti biasanya membuat anotasi teks dengan tangan. Tanpa deskripsi manual dan detail lain dari proses anotasi, sulit untuk memvalidasi kualitas markup untuk sebuah dataset. Petunjuk langkah demi langkah yang jelas dan sederhana sangat penting untuk mendapatkan penjelasan berkualitas tinggi dari ahli bahasa bersertifikat dan penilai non-linguistik [176]. Beberapa jenis teks sangat sulit untuk dianotasi nada suara, misalnya, keadaan emosional pembicara, komunikasi netral informasi berharga, sarkasme, ejekan, dan lain-lain [162].

Sebagai contoh panduan untuk membuat anotasi sentimen untuk bahasa Rusia, penelitian lebih lanjut dapat menggunakan panduan yang dikembangkan dengan anotasi RuSentiment [142]. Jika Anda tidak memiliki ahli bahasa bersertifikat untuk memberi anotasi, Anda dapat menggunakan bantuan penilai dari Yandex.Toloka, platform crowdsourcing untuk membuat anotasi data secara manual. Ini telah digunakan dalam beberapa studi akademis teks bahasa Rusia [177] - [180]. Juga sangat disarankan untuk menerbitkan perjanjian antara anotator, seperti Fleiss 'kappa [181] atau Krippendorff's alpha [182], serta detail lain dari proses anotasi.

1.6 Deskripsi batasan yang komprehensif

Sebagian besar makalah yang dianalisis memberikan daftar batasan yang tidak lengkap. Selain keterbatasan teknis dan metodologis, sangat disarankan untuk menjelaskan:

Prevalensi Internet di negara tersebut. Salah satu keterbatasan kritis, karena kelompok orang tertentu tidak akan tercakup dalam penelitian. Menurut hasil jajak pendapat Omnibus GFK pada Desember 2018 [9], prevalensi Internet di Rusia mencapai 75,4%, digunakan oleh 90 juta orang Rusia berusia 16 tahun ke atas. Penggunaan internet oleh orang muda (16-29 tahun) dan orang paruh baya (20-54 tahun) mendekati tingkat saturasi - masing-masing 99% dan 88%. Namun meskipun terjadi peningkatan yang signifikan dalam prevalensi, hanya 36% orang di atas 55 yang menggunakan Internet.
. , [183]. , . , . , , , , .
. , , . , , . , , , , ; ; ; , , , , ; . , . , .
. Freedom House 2018- [184], 53 65. 2012- , IP-, URL. 2019- . , , . , , .

1.7. .

Karena orang dapat mengungkapkan pendapat mereka tentang sejumlah besar topik, menganalisis semua pendapat ini dapat menjadi sumber daya yang intensif, karena set pelatihan harus diberi keterangan untuk setiap topik [186]. Tidak adanya kumpulan teks beranotasi untuk melatih model analisis sentimen semua tematik menyebabkan penurunan keakuratan analisis. Menurut sebuah penelitian [187], analisis antar topik memiliki tiga masalah penting. Pendapat yang diungkapkan dalam konteks satu topik mungkin memiliki makna yang berlawanan dalam konteks topik lain. Masalah kedua berkaitan dengan perbedaan antara kosakata emosi untuk berbagai topik yang perlu dipertimbangkan dalam analisis. Dan terakhir, masuk akal untuk menetapkan penanda kekuatan emosi ke setiap token dalam kamus emosi.

1.8. Definisi sarkasme dan ironi

Komunikasi online sering kali mengandung frase sarkastik dan ironis [188] yang bahkan tidak selalu mudah dikenali oleh manusia, apalagi algoritma pemrosesan bahasa alami. Sejauh ini, sangat sedikit penelitian [189] yang dikhususkan untuk definisi ironi dan sarkasme dalam bahasa Rusia. Oleh karena itu, untuk pemrosesan yang benar dari berbagai macam pendapat, diperlukan pengembangan dan penerapan lebih banyak pendekatan dengan klasifikasi otomatis dari teknik-teknik bicara yang kompleks.

1.9. Mendefinisikan bot

Bot memiliki dampak yang kuat pada berbagai aspek media sosial, terutama jika mereka menjadi mayoritas pengguna. Mereka dapat digunakan untuk berbagai tugas berbahaya yang terkait dengan opini publik. Misalnya, untuk mendongkrak popularitas selebritas atau menyebarkan informasi palsu tentang politisi [190]. Akibatnya, metode identifikasi bot perlu dikembangkan dan diterapkan dalam studi sentimen.

1.10. Efisiensi hasil analisis

Masih terdapat ketidaksepakatan yang cukup besar tentang keefektifan pengukuran tanggapan melalui analisis otomatis data di web. Beberapa penelitian [191], [192] percaya bahwa pendekatan media sosial kurang akurat daripada penelitian tradisional. Yang lain mengklaim [193] bahwa pendekatan ini menunjukkan kinerja yang lebih baik daripada metode tradisional. Oleh karena itu, jika memungkinkan, sangat disarankan untuk membandingkan hasil penelitian dengan hasil yang diperoleh dengan menggunakan metode lain.

2. Bidang penelitian yang menjanjikan

Setelah meninjau literatur, saya mengidentifikasi tujuh peluang untuk penelitian di masa depan.

Secara keseluruhan, penelitian di masa depan harus dengan cermat memeriksa pendekatan untuk memantau sentimen yang disajikan dalam artikel ini untuk mengidentifikasi potensi sinergi antara pendekatan individu untuk analisis sentimen yang lebih lengkap yang diungkapkan dalam sumber teks yang berbeda.

2.1 Belajar dengan transfer pengetahuan model bahasa

Sebagian besar pekerjaan menggunakan pendekatan pembelajaran mesin berbasis aturan atau sederhana. Hanya dua penelitian [69], [72] yang menggunakan jaringan saraf. Namun, pekerjaan terbaru telah menunjukkan bahwa belajar dengan transfer pengetahuan dari model bahasa pra-terlatih dapat secara efektif memecahkan masalah klasifikasi emosi, percaya diri mencapai hasil yang baik [43], [194] - [198].

Dengan demikian, penggunaan model bahasa yang disetel dengan baik dapat secara signifikan meningkatkan kualitas analisis sentimen, dan karenanya meningkatkan akurasi hasil pemantauan sentimen. Penelitian awal dilakukan pada [199], penulisnya melatih jaringan saraf konvolusional yang dangkal dan lebar dengan ELMo-embeddings [42] dan memperoleh metrik klasifikasi catatan baru pada dataset RuSentiment [142], melampaui semua pendekatan jaringan saraf sebelumnya. Sebagai langkah pertama ke arah ini, peneliti dapat melatih dan memublikasikan kecepatan transfer pembelajaran dasar untuk kumpulan teks bahasa Rusia yang berbeda.

2.2. Analisis sentimen teks multibahasa

Rusia adalah negara multinasional, dan karenanya multibahasa. Oleh karena itu, orang dan kelompok orang yang berbeda dapat mengungkapkan pendapat mereka dalam bahasa yang berbeda. Ahli bahasa menghitung lebih dari 150 bahasa di Rusia, dimulai dengan bahasa Rusia, yang dituturkan oleh 96,25% populasi, dan diakhiri dengan Negidal, yang dituturkan oleh beberapa ratus orang di wilayah Amur. Beberapa penelitian menganalisis teks dalam berbagai bahasa, memungkinkan penulis untuk mencakup sumber yang lebih luas dan membandingkan ekspresi opini tentang topik yang sama dalam bahasa yang berbeda.

Untuk mengklasifikasikan emosi dalam berbagai bahasa, beberapa peneliti menerjemahkan semua teks ke dalam satu bahasa dan melakukan analisis sentimen satu bahasa (misalnya, [72]). Yang lain telah mengembangkan model klasifikasi multibahasa (misalnya, [79]). Sebagai pengembangan dari pendekatan yang terakhir, peneliti dapat menggunakan model bahasa yang sudah dilatih sebelumnya, sebagai contoh, Representasi Bidirectional Encoder dari Transformers [43] dan Multilingual Universal Sentence Encoder [198].

2.3. Ekstraksi dari teks topik subjek umum

Di sebagian besar studi pemodelan kasus, penulis hanya memilih beberapa topik untuk ekstraksi dan analisis di masa mendatang. Namun, pendekatan ini tidak memungkinkan penggalian topik yang relevan dari kumpulan teks yang besar, misalnya, ketika bagian teks yang terkait dengan topik yang diminati jauh kurang dari 1% [54]. Selain itu, pemodelan topik menunjukkan akurasi rendah dalam analisis teks pendek, terutama jika pidato sehari-hari [54]. Tugas penggalian topik dapat dipersempit tidak hanya untuk pemodelan topik, tetapi juga untuk masalah klasifikasi teks, jika tersedia kumpulan data pelatihan yang ekstensif tentang penggalian topik subjek umum.

Pembuatan set data semacam itu tampaknya merupakan proses yang memakan waktu dan banyak sumber daya dalam kasus pendekatan dasar dengan anotasi dengan tim ahli bahasa atau crowdsourcing. Namun, beberapa platform media sosial memberi pengguna kemampuan untuk menandai postingan mereka, seperti Reddit dan Pikabu. Artinya, pengguna jejaring sosial tersebut mengambil alih proses anotasi, oleh karena itu, dengan verifikasi tambahan, data ini berpotensi dapat digunakan untuk membuat set pelatihan guna mengekstrak topik subjek umum dari pesan.

2.4. Suka dan jenis reaksi lainnya terhadap konten sebagai cara tidak langsung untuk mengekspresikan emosi

Dalam kebanyakan studi, ekspresi pendapat dinilai hanya dari isi publikasi. Namun, suka dan jenis reaksi lain terhadap postingan dapat menjadi sumber emosi yang diungkapkan oleh pembaca. Oleh karena itu, informasi ini dapat diperhitungkan saat memantau sentimen. Dalam studi [200], pekerjaan pendahuluan dilakukan pada studi tentang hubungan antara suka posting dan emosi tentang publikasi: para peneliti mempelajari peran konten publikasi, hubungan antara penulis publikasi dan kepribadian pengguna. Berdasarkan penelitian online, penulis berpendapat bahwa postingan dengan emosi positif biasanya secara otomatis Disukai tanpa membaca dengan cermat. Juga dicatat bahwa kepositifan publikasi berkorelasi dengan motif relatif dan literal.Selain tombol Suka sederhana, beberapa platform media sosial telah memperkenalkan fungsi responsif untuk memungkinkan pengguna dengan mudah menunjukkan reaksi emosional mereka terhadap suatu pesan. Misalnya, rangkaian reaksi Facebook terdiri dari Suka, Cinta, Wow, Haha, Marah, dan Sedih.

Dalam studi mereka tentang rangsangan emosional dalam perilaku reaksioner pengguna Facebook berbahasa Rusia, Smolyarova dkk [201] menunjukkan bahwa reaksi Cinta biasanya digunakan secara langsung, menjadi alternatif dari Suka tradisional. Sebaliknya, postingan yang memicu reaksi Wow kemungkinan besar akan ditandai dengan emosi lain juga. Reaksi seperti Cinta, Haha, dan Wow cenderung mengurangi keinginan untuk berinteraksi lebih lanjut dengan kiriman melalui komentar atau tombol bagikan [202]. Dengan demikian, area penelitian yang berpotensi signifikan adalah hubungan antara reaksi, suasana hati orang, dan suasana publikasi, yang dapat digunakan di masa depan dalam memantau suasana hati.

2.5. Klasifikasi kontekstual emosi

Reaksi emosional pengguna dalam teks sangat bergantung pada konteksnya: teks yang sama dalam satu konteks dapat mengekspresikan nada positif, dan dalam konteks lain - yang negatif [203]. Oleh karena itu, ketika menganalisis nada percakapan, misalnya tanggapan dalam komentar, sangat penting untuk menangkap konteks percakapan selain reaksi emosional itu sendiri. Peneliti harus memperhatikan klasifikasi kontekstual emosi ketika mereka menganalisis percakapan.

2.6. Analisis konten dari sumber yang kurang diteliti

Sebagian besar penelitian beroperasi pada data dari VKontakte, Twitter, LiveJournal, dan YouTube, meskipun ada jejaring sosial populer lainnya yang dapat digunakan sebagai sumber data, misalnya, Odnoklassniki, Moi Mir, dan RuTube. Dengan demikian, peneliti dapat memperhatikan Odnoklassniki, karena ini adalah jaringan sosial Rusia terbesar kedua, yang digunakan oleh 42% populasi negara [98]. Platform ini populer dengan pengguna di atas 35 tahun, sehingga dapat menjadi sumber opini yang berguna dari generasi yang lebih tua. Selain itu, statistik perwakilan Odnoklassniki dapat diakses melalui OK Data Science Lab, sebuah platform yang dikembangkan oleh Odnoklassniki untuk penelitian.

2.7. Analisis otomatis konten media sosial sebagai alternatif survei tradisional

Saat ini, hasil analisis teks online tidak dapat dianggap sebagai alternatif penuh pendekatan klasik untuk menilai pendapat berdasarkan jajak pendapat massal [204]. Untuk mengatasi kendala tersebut, diperlukan landasan teori untuk menggeneralisasi data ke tingkat kelompok populasi yang lebih besar [205]. Jajak pendapat tradisional mengasumsikan adanya keterkaitan pendapat dengan kelompok sosio-demografis, dan informasi demografis yang dapat diandalkan biasanya tidak tersedia di media sosial. Peneliti dapat menggunakan informasi geolokasi, data profil pengguna, dan jenis kelamin serta sistem prediksi usia [206] - [211] untuk membandingkan temuan mereka dengan jajak pendapat tradisional.

2.8. Memantau indeks sentimen dari segmen jejaring sosial berbahasa Rusia

Dalam makalah inovatif tahun 2010 [212], Mislov dkk. Menyelidiki dinamika sentimen sepanjang hari dengan menganalisis lebih dari 300 juta pesan Twitter berbasis lokasi dari Amerika Serikat menggunakan pendekatan berbasis kamus. Beberapa tren menarik dicatat, seperti kebahagiaan tertinggi di pagi dan sore hari. Akhir pekan jauh lebih bahagia daripada hari kerja. Pola yang terungkap dikonfirmasi oleh sebuah penelitian tentang suasana hati orang Brasil di Twitter [213], yang menggunakan klasifikasi suasana hati Bayesian yang naif [30]. Dzogang juga menyelidiki pola sirkadian dalam perubahan suasana hati [214]. Jika untuk banyak bahasa studi semacam itu telah dilakukan, maka teks berbahasa Rusia sejauh ini hanya sedikit dipelajari [93], [137]. Mereka dapat dieksplorasi lebih luas dan lebih dalam dalam hal jumlah data yang dianalisis,kualitas model klasifikasi emosi dan metode untuk menghitung indeks sosial.

Selain itu, beberapa penelitian telah dikhususkan untuk pengembangan sistem pemantauan emosi di jejaring sosial berbahasa Rusia, tetapi penulis biasanya tidak melaporkan hasil pemantauan tersebut. Sebagai contoh, para peneliti dari ITMO University menggambarkan pendekatan untuk menilai sentimen emosional dari opini publik [215], penulis [216] mempertimbangkan prinsip umum pemantauan jaringan sosial menggunakan analisis cerdas pesan teks, dan dalam artikel [148], penulis menggambarkan pengembangan perangkat lunak untuk memantau sentimen publik melalui Pesan Twitter berbahasa Rusia.

3. Kesimpulan

Seperti yang bisa kita lihat, sudah ada basis penelitian yang bagus untuk bahasa Rusia, yang mencakup berbagai tujuan penelitian dan sumber yang dianalisis. Namun, ada juga sejumlah tantangan dan bidang menjanjikan yang harus dipertimbangkan saat melakukan penelitian baru.

4. Sumber

Daftar lengkap sumber dapat ditemukan di sini .

Analisis sentimen dalam teks berbahasa Rusia, bagian 3: tantangan dan prospek