🚐 📀 🧓🏼 Analisis sentimen dalam teks berbahasa Rusia, bagian 2: penelitian dasar 🐵 💎 🎅

Para peneliti menerapkan analisis sentimen ke teks berbahasa Rusia yang sama sekali berbeda: postingan dari jejaring sosial, ulasan, artikel berita, dan buku. Akibatnya, hasil penelitian mereka juga sangat berbeda dan sangat menarik. Misalnya, siapa sangka bahwa teks dengan nada positif membuat pembelajaran bahasa asing lebih menarik, tetapi kurang efektif? Dalam rangkaian artikel ini, kita akan melihat bagaimana dan untuk tujuan apa pendekatan analisis sentimen digunakan untuk teks berbahasa Rusia, hasil apa yang dicapai, masalah apa yang muncul, dan juga berbicara sedikit tentang arah yang menjanjikan.

Tidak seperti karya sebelumnya, saya berfokus pada aplikasi terapan, dan bukan pada pendekatan itu sendiri dan kualitas klasifikasinya. Di artikel pertamakami membahas apa itu "analisis sentimen", apa itu, dan bagaimana itu digunakan selama 8 tahun terakhir untuk menganalisis teks-teks berbahasa Rusia. Pada bagian ini, kita akan melihat lebih dekat masing-masing dari 32 studi utama yang saya temukan. Pada bagian ketiga dan terakhir (minggu depan), kita akan berbicara tentang tantangan umum yang dihadapi oleh para peneliti, serta arahan yang menjanjikan untuk masa depan.

NB: Artikel itu ditulis untuk jurnal ilmiah, jadi banyak link ke sumbernya.

Banyak penelitian menggunakan data dari jejaring sosial dan platform agregasi Rusia. Di bawah ini adalah uraian singkat tentang sumber daya Rusia dan asing yang paling populer dan statistik penggunaannya.

90 , . Deloitte [98], , 70 % . 16—24 , .
YouTube , 62 % . 16—24 , 58—64 %.
Twitter [98], 5 % . 25—65 , 55—64 .
LiveJournal , 3 % . 35—44 , .
Medialogia — , . 500 . 100 . 52 000 900 .
IQBuzz adalah layanan pemantauan yang memproses informasi dari lebih dari 10.000 sumber di media, dari Facebook, Twitter, VKontakte, My World, Instagram, 4sq, LiveJournal, LiveInternet, Google, YouTube, RuTube, dan lainnya. Sistem ini dapat secara otomatis mengidentifikasi pesan positif dan negatif, menghapus duplikat, dan melakukan pencarian kompleks dalam database yang terkumpul.

Di bawah ini saya akan menjelaskan studi yang ditemukan, hasil yang diperoleh di dalamnya dan kesimpulan yang diambil oleh penulis, yang mungkin tidak sesuai dengan posisi saya.

1. UGC di media sosial

Banyak jaringan sosial telah berubah menjadi alat modern untuk keterlibatan sosial [53]. Data yang dihasilkan pengguna merupakan sumber opini publik yang penting dan dapat diakses, atau setidaknya merupakan cerminannya, sehingga dapat melengkapi atau menggantikan jajak pendapat [54]. Data yang dihasilkan pengguna diperiksa menurut tiga kriteria:

Sikap terhadap topik yang berbeda.
Indeks suasana hati sosial.
Fitur interaksi pengguna dengan data yang mengekspresikan suasana hati yang berbeda.

1.1. Sikap terhadap topik yang berbeda

Topik yang paling sering dalam studi teks bahasa Rusia adalah masalah hubungan antaretnis dan migrasi, serta krisis Ukraina. Perhatian yang cukup besar diberikan pada analisis ketegangan sosial, serta topik lainnya.

1.1.1 Kelompok etnis dan pendatang

Masalah hubungan antaretnis dan migrasi, serta topik terkait, telah dieksplorasi secara mendalam dengan menggunakan metode sosiologis yang berkembang dengan baik. Namun, perkembangan pesat internet dan pemrosesan bahasa alami telah memungkinkan penelitian dengan pendekatan yang relatif baru. Media sosial memungkinkan individu dan kelompok untuk berpartisipasi secara terbuka dalam konflik. Di Internet, penilaian tentang masalah migrasi dan etnis dapat menyebar lebih cepat dan menjangkau audiens yang jauh lebih luas daripada sebelum era Internet [54]. Lebih banyak penelitian akademis telah membuktikan bahwa konten online yang negatif memengaruhi konflik etnis offline [99] dan kejahatan rasial [100]. Lewat sini,Dengan perkembangan teknologi internet, pentingnya menganalisis masalah hubungan antaretnis dan migrasi berdasarkan konten online semakin meningkat.

Sebuah studi oleh Bodrunova dan koleganya berfokus pada sikap komunitas online berbahasa Rusia terhadap migran dalam wacana publik [81]. Penulis mengumpulkan 363.579 postingan dari blogger terkemuka Rusia dari 4 Februari hingga 19 Mei 2013. Menerapkan strategi yang dijelaskan dalam [59], [101], para peneliti menggunakan Latent Dirichlet Allocation [102] telah mengidentifikasi diskusi yang relevan. Kami kemudian secara manual memetakan beberapa diskusi dan kelas sentimen. Kemudian kami melatih model regresi logistik binomial (Regresi Logistik Binomial [32]) untuk sejumlah masalah klasifikasi teks, termasuk klasifikasi emosi. Menurut hasil, semua migran dianggap negatif, dan kebanyakan mereka yang datang dari Kaukasus Utara dibandingkan dengan imigran dari Asia Tengah dan Amerika.Tidak ada sikap positif terhadap orang Eropa atau Amerika. Pada saat yang sama, orang Eropa, Amerika, dan Kaukasia dianggap sebagai agresor, bukan korban. Orang Asia Tengah digambarkan sebagai alien dengan konotasi negatif. Secara umum, orang Eropa tidak dianggap sebagai orang asing atau pasangan, orang Amerika dianggap berbahaya, dan orang Yahudi sama sekali tidak berbahaya. Para penulis studi tersebut berpendapat bahwa pembagian mental populasi pasca-Soviet tidak sepenuhnya bertepatan dengan batas geografis saat ini, karena kelompok yang sebelumnya dekat sudah dianggap sebagai negara yang terpisah dengan agenda politik mereka sendiri. Salah satu kelemahan utama dari pekerjaan ini adalah kurangnya penilaian kualitas deskripsi data dan spesifikasi metrik klasifikasi.Orang Asia Tengah digambarkan sebagai alien dengan konotasi negatif. Secara umum, orang Eropa tidak dianggap sebagai orang asing atau pasangan, orang Amerika dianggap berbahaya, dan orang Yahudi sama sekali tidak berbahaya. Para penulis studi tersebut berpendapat bahwa pembagian mental populasi pasca-Soviet tidak sepenuhnya bertepatan dengan batas geografis saat ini, karena kelompok yang sebelumnya dekat sudah dianggap sebagai negara yang terpisah dengan agenda politik mereka sendiri. Salah satu kelemahan utama dari pekerjaan ini adalah kurangnya penilaian kualitas deskripsi data dan spesifikasi metrik klasifikasi.Orang Asia Tengah digambarkan sebagai alien dengan konotasi negatif. Secara umum, orang Eropa tidak dianggap sebagai orang asing atau pasangan, orang Amerika dianggap berbahaya, dan orang Yahudi sama sekali tidak berbahaya. Para penulis studi tersebut berpendapat bahwa pembagian mental populasi pasca-Soviet tidak sepenuhnya sesuai dengan batas geografis saat ini, karena kelompok yang sebelumnya dekat sudah dianggap sebagai negara yang terpisah dengan agenda politik mereka sendiri. Salah satu kelemahan utama dari pekerjaan ini adalah kurangnya penilaian kualitas deskripsi data dan spesifikasi metrik klasifikasi.bahwa pembagian mental penduduk pasca-Soviet tidak sepenuhnya sesuai dengan batas-batas geografis saat ini, yang karenanya kelompok-kelompok dekat sebelumnya sudah dianggap sebagai negara yang terpisah dengan agenda politik mereka sendiri. Salah satu kelemahan utama dari pekerjaan ini adalah kurangnya penilaian kualitas deskripsi data dan spesifikasi metrik klasifikasi.bahwa pembagian mental penduduk pasca-Soviet tidak sepenuhnya bertepatan dengan batas-batas geografis saat ini, yang karenanya kelompok-kelompok dekat sebelumnya sudah dianggap sebagai negara-negara yang terpisah dengan agenda politik mereka sendiri. Salah satu kelemahan utama dari pekerjaan ini adalah kurangnya penilaian kualitas deskripsi data dan spesifikasi metrik klasifikasi.

Tim yang dipimpin oleh Koltsova [82], menggunakan metode yang diadaptasi dari karya-karya sebelumnya ([103], [104]), memperkirakan volume total diskusi yang terkait dengan hubungan antaretnis di situs jejaring sosial berbahasa Rusia. Untuk membuat korpus utama 2.660.222 teks, penulis mengembangkan daftar kompleks etnonim dan bigram, yang mencakup 97 kelompok etnis di wilayah pasca-Soviet. Kemudian, dengan menggunakan markup manual, set data pelatihan sebanyak 7.181 teks dibuat, yang masing-masing diberi keterangan oleh tiga pakar tentang beberapa kriteria, termasuk adanya konflik antarkelompok, kontak antarkelompok yang positif, dan nada negatif atau positif secara keseluruhan. Untuk mengklasifikasikan emosi, penulis melatih model regresi logistik pada dataset berlabel [32] dan mencapai F ₁ = 0,75 untuk sentimen positif dan F₁ = 0,68 untuk negatif. Para penulis menemukan bahwa perhatian terhadap kelompok etnis sangat bervariasi antara kelompok dan wilayah yang berbeda. Berdasarkan penelitian ini, tim yang dipimpin oleh Koltsova meningkatkan kualitas hasil yang diperoleh dan meningkatkan jumlah prasangka, yang dapat ditemukan dalam karya berikut [83]. Untuk memulai, penulis meningkatkan dataset untuk pemrosesan manual dari 7.181 menjadi 14.998 teks unik. Kemudian teks tersebut ditandai oleh setidaknya tiga ahli independen. Selanjutnya, penulis mengajarkan model regresi logistik untuk membagi teks menjadi tiga kategori (sikap positif, netral dan negatif) dengan menggunakan hyperparameter terbaik yang diambil dari penelitian sebelumnya. Ini membantu meningkatkan metrik klasifikasi secara signifikan. Nilai rata-rata untuk suasana hati adalah: P = 0,67, R = 0,55 dan F ₁= 0,58.

Nagorny dalam karyanya [84] menyelidiki tema struktur diskusi etnis di jejaring sosial berbahasa Rusia. Berdasarkan daftar lebih dari 4000 kata yang berhubungan dengan diskusi etnis, penulis mengumpulkan 2.659.849 teks dari VKontakte dan IQBuzz untuk periode Januari 2014 hingga Desember 2016. Selanjutnya, penulis menggunakan ISLDA [26], modifikasi dari algoritme LDA yang dikembangkan di HSE Internet Research Laboratory. Untuk menghitung kelas sentimen, Nagorny menerapkan SentiStrength [22] dengan kamus emosi bahasa Rusia LINIS Crowd [26]. Untuk setiap topik, indeks polaritas dihitung sebagai jumlah produk probabilitas topik ini dalam teks dengan nilai emosi yang sesuai, dibagi dengan kepentingan topik secara keseluruhan. Setelah menganalisis profil tematik diskusi etnis yang diperoleh dengan bantuan LDA, Nagorny mengidentifikasi topik yang paling negatif dan penting. Itu terungkap,bahwa sebagian besar diskusi terkait dengan hubungan Rusia-Ukraina sehubungan dengan konflik baru-baru ini antara kedua negara. Akibatnya, sulit untuk memisahkan topik antaretnis dari politik, karena konflik mempengaruhi polaritas diskusi di Internet. Diskusi paling negatif terkait dengan kewarganegaraan Uzbek dan hubungan Turki-Armenia dalam konteks Genosida Armenia. Namun, penelitian ini memiliki kekurangan. Pertama, tidak jelas persis bagaimana data dikumpulkan. Meskipun IQBuzz mengklaim melacak semua sebutan di Internet, tidak mungkin untuk memverifikasi ini tanpa akses penuh ke pesan VK. Kedua, metrik klasifikasi tidak diukur pada kumpulan teks yang besar, sehingga sulit untuk menguji kualitas emosi yang diklasifikasikan.Akibatnya, sulit untuk memisahkan topik antaretnis dari politik, karena konflik mempengaruhi polaritas diskusi di Internet. Diskusi paling negatif terkait dengan kewarganegaraan Uzbek dan hubungan Turki-Armenia dalam konteks Genosida Armenia. Namun penelitian ini memiliki kekurangan. Pertama, tidak jelas persis bagaimana data dikumpulkan. Meskipun IQBuzz mengklaim melacak semua sebutan di Internet, tidak mungkin untuk memverifikasi ini tanpa akses penuh ke pesan VK. Kedua, metrik klasifikasi tidak diukur pada kumpulan teks yang besar, sehingga sulit untuk menguji kualitas emosi yang diklasifikasikan.Akibatnya, sulit untuk memisahkan topik antaretnis dari politik, karena konflik mempengaruhi polaritas diskusi di Internet. Diskusi paling negatif terkait dengan kewarganegaraan Uzbek dan hubungan Turki-Armenia dalam konteks genosida Armenia. Namun, penelitian ini memiliki kekurangan. Pertama, tidak jelas persis bagaimana data dikumpulkan. Meskipun IQBuzz mengklaim melacak semua sebutan di Internet, tidak mungkin untuk memverifikasi ini tanpa akses penuh ke pesan VK. Kedua, metrik klasifikasi tidak diukur pada kumpulan teks yang besar, sehingga sulit untuk menguji kualitas emosi yang diklasifikasikan.Diskusi paling negatif terkait dengan kewarganegaraan Uzbek dan hubungan Turki-Armenia dalam konteks genosida Armenia. Namun penelitian ini memiliki kekurangan. Pertama, tidak jelas persis bagaimana data dikumpulkan. Meskipun IQBuzz mengklaim melacak semua sebutan di Internet, tidak mungkin untuk memverifikasi ini tanpa akses penuh ke pesan VK. Kedua, metrik klasifikasi tidak diukur pada kumpulan teks yang besar, sehingga sulit untuk menguji kualitas emosi yang diklasifikasikan.Diskusi paling negatif terkait dengan kewarganegaraan Uzbek dan hubungan Turki-Armenia dalam konteks Genosida Armenia. Namun penelitian ini memiliki kekurangan. Pertama, tidak jelas persis bagaimana data dikumpulkan. Meskipun IQBuzz mengklaim melacak semua sebutan di Internet, tidak mungkin untuk memverifikasi ini tanpa akses penuh ke pesan VK. Kedua, metrik klasifikasi tidak diukur pada kumpulan teks yang besar, sehingga sulit untuk menguji kualitas emosi yang diklasifikasikan.oleh karena itu, sulit untuk menguji kualitas emosi yang diklasifikasikan.oleh karena itu, sulit untuk menguji kualitas emosi yang diklasifikasikan.

Peneliti Borodkina dan Sibirev dari Universitas St. Petersburg meneliti diskusi di Twitter berbahasa Rusia terkait dengan masalah migrasi internasional, serta berbagai masalah yang terkait dengan migrasi [55]. Penulis menggunakan 13.200 postingan yang diterbitkan antara November 2017 dan Februari 2018. Data ini dikumpulkan pada topik "migrasi" dan kata kunci terkait. Kemudian penulis, dengan menggunakan koefisien Ohai, mengukur kemiripan tag dan, dengan menggunakan prinsip Pareto, menghapus tautan lemah yang tidak signifikan dari grafik jaringan. Untuk analisis sentimen, pengklasifikasi dilatih berdasarkan model vektor dukungan [33]. Dan untuk menentukan hubungan antara karakteristik (misalnya, emosi, karakteristik konten), metode analisis yang sesuai digunakan. Ternyata di antara orang Rusia yang tinggal di negara berbeda, ada sikap yang sangat mirip terhadap para migran.Sebagian besar pengguna menunjukkan sikap negatif terhadap migran dari negara lain. Topik utama yang dibahas: risiko budaya dan keamanan yang terkait dengan terorisme dan migrasi ilegal, hak asasi manusia secara umum, pelanggaran hak-hak imigran di Rusia dalam bidang sosial dan ekonomi. Studi ini memiliki beberapa kelemahan kecil. Pendekatan analisis sentimen dijelaskan secara singkat, tanpa detail tahap preprocessing, model hyperparameter dan kualitas akhir klasifikasi menggunakan model yang dilatihkan. Selain itu, API inti Twitter hanya menyediakan akses parsial ke semua kiriman, sehingga keterwakilan data yang dianalisis dipertanyakan.terkait terorisme dan migrasi ilegal, hak asasi manusia secara umum, pelanggaran hak imigran di Rusia dalam bidang sosial dan ekonomi. Studi ini memiliki beberapa kelemahan kecil. Pendekatan analisis sentimen dijelaskan secara singkat, tanpa detail tahap preprocessing, hyperparameter model, dan kualitas akhir klasifikasi model yang dilatihkan. Selain itu, API inti Twitter hanya menyediakan akses parsial ke semua kiriman, sehingga keterwakilan data yang dianalisis dipertanyakan.terkait terorisme dan migrasi ilegal, hak asasi manusia secara umum, pelanggaran hak imigran di Rusia dalam bidang sosial dan ekonomi. Studi ini memiliki beberapa kelemahan kecil. Pendekatan analisis sentimen dijelaskan secara singkat, tanpa detail tahap preprocessing, model hyperparameter dan kualitas akhir klasifikasi menggunakan model yang dilatihkan. Selain itu, API inti Twitter hanya menyediakan akses parsial ke semua kiriman, sehingga keterwakilan data yang dianalisis dipertanyakan.model hyperparameter dan kualitas akhir klasifikasi menggunakan model yang dilatih. Selain itu, API inti Twitter hanya menyediakan akses parsial ke semua kiriman, sehingga keterwakilan data yang dianalisis dipertanyakan.model hyperparameter dan kualitas akhir klasifikasi menggunakan model terlatih. Selain itu, API inti Twitter hanya menyediakan akses parsial ke semua kiriman, sehingga keterwakilan data yang dianalisis dipertanyakan.

Jadi, dalam konteks studi migrasi dan hubungan antaretnis, sebagian besar peneliti mempelajari data yang dihasilkan pengguna dari jejaring sosial, menggunakan kombinasi pemodelan tematik dan analisis sentimen. Konsep etnisitas diteliti dengan baik dalam literatur akademis, tetapi dari sudut pandang linguistik komputasi, definisi kebangsaan dalam teks yang dibuat pengguna direduksi menjadi tugas mengidentifikasi penanda etnis yang digunakan oleh penulis teks-teks ini [54]. Oleh karena itu, untuk mengidentifikasi teks yang relevan, peneliti sering membuat daftar penanda status etnis dan mencari teks yang mengandung penanda tersebut. Namun, mengekstrak data representatif sulit karena tidak semua platform memberikan akses penuh ke semua informasi mereka.Sentimen kemudian biasanya dianalisis di tingkat dokumen atau aspek. Karena bahasa negatif mungkin berisi informasi yang dapat diidentifikasi secara pribadi, serta perkataan yang menyinggung atau kebencian, konten tersebut dapat disensor sesuai dengan pedoman media sosial dan persyaratan hukum. KUHP Federasi Rusia memiliki kerangka peraturan yang mengatur seruan publik untuk tindakan radikal, yang akan mempengaruhi volume pernyataan negatif yang kuat baik dalam diskusi online maupun offline. Semua fitur ini perlu dijelaskan secara eksplisit di bagian tentang pembatasan.data tersebut dapat disensor sesuai dengan aturan media sosial dan persyaratan hukum. KUHP Federasi Rusia memiliki kerangka peraturan yang mengatur seruan publik untuk tindakan radikal, yang akan mempengaruhi volume pernyataan negatif yang kuat baik dalam diskusi online maupun offline. Semua fitur ini perlu dijelaskan secara eksplisit di bagian tentang pembatasan.data tersebut dapat disensor sesuai dengan aturan media sosial dan persyaratan hukum. KUHP Federasi Rusia memiliki kerangka peraturan yang mengatur seruan publik untuk tindakan radikal, yang akan mempengaruhi volume pernyataan negatif yang kuat baik dalam diskusi online maupun offline. Semua fitur ini perlu dijelaskan secara eksplisit di bagian tentang pembatasan.

1.1.2. Krisis Ukraina

Hubungan antara Rusia dan Ukraina menjadi tegang setelah revolusi tahun 2014, masuknya Krimea ke dalam Federasi Rusia, dan konflik bersenjata di wilayah Donetsk dan Luhansk. Karena banyak platform media sosial telah berevolusi menjadi alat modern untuk keterlibatan sosial [53], sejumlah studi dalam linguistik komputasi telah dilakukan, penulisnya telah mencoba untuk mengeksplorasi kemungkinan menggunakan wacana online untuk menganalisis pendapat dan karakteristik peserta wacana. Menurut sensus 2001 Ukraina, 67,5% penduduknya menganggap bahasa Ukraina sebagai bahasa ibu mereka, dan 29,6% - bahasa Rusia. Oleh karena itu, selain, atau alih-alih, bahasa Ukraina, para peneliti biasanya menganalisis teks berbahasa Rusia.

Sekelompok peneliti yang dipimpin oleh Duvanova mempelajari dampak konflik bersenjata Ukraina pada hubungan sosial online antara semua wilayah Ukraina [85]. Penulis menggunakan VKontakte sebagai sumber, karena ini adalah jejaring sosial paling populer di Ukraina. Pertama, berdasarkan kata kunci, mereka mengidentifikasi daftar komunitas yang relevan - 14.777. Kemudian, berdasarkan daftar ini, 19.430.445 publikasi dan 62.193.711 komentar dikumpulkan menggunakan perangkat lunak untuk memantau jejaring sosial yang disajikan dalam karya Semyonov dan Vejyalainen [105], serta Semyonov dan rekan penulis [106]. Untuk mengklasifikasikan teks menjadi positif dan negatif, penulis menerapkan pendekatan berbasis aturan dengan kamus yang terdiri dari 8.863 kata positif dan 24.299 kata negatif dalam bahasa Rusia dan Ukraina. Ternyata diskusi di Ukraina menjadi lebih terpolarisasi akibat tindakan militer, misalnya,di wilayah timur negara itu, jumlah pernyataan negatif dan positif meningkat. Namun, di bagian lain Ukraina, permusuhan tidak berdampak nyata pada intensitas ekspresi emosi. Dengan demikian, permusuhan menimbulkan reaksi emosional yang kuat di negara tersebut, tetapi tidak ada peningkatan kohesi sosial yang tak terhindarkan dalam komunikasi internal antar daerah. Namun, penulis tidak memberikan rincian tentang preprocessing dan pelatihan model, atau metrik klasifikasi.tetapi tidak ada peningkatan kohesi sosial yang tak terelakkan dalam komunikasi internal antardaerah. Namun, penulis tidak memberikan detail tentang preprocessing dan pelatihan model, serta metrik klasifikasi.tetapi tidak ada peningkatan kohesi sosial yang tak terelakkan dalam komunikasi internal antardaerah. Namun, penulis tidak memberikan rincian tentang preprocessing dan pelatihan model, atau metrik klasifikasi.

Pekerjaan tim yang dipimpin oleh Volkova [86] mempelajari ekspresi opini publik di VKontakte selama krisis Rusia-Ukraina. Berdasarkan daftar kata kunci, penulis mengumpulkan dari VKontakte sebanyak 5.970.247 publikasi yang muncul pada periode September 2014 hingga Maret 2015. Untuk prediksi pendapat yang disengaja, para peneliti menggunakan sistem klasifikasi POLYARNIK [107] berdasarkan aturan morfologi dan sintaksis, kosakata emosional dan model pembelajaran yang diawasi [108]. Untuk mengklasifikasikan emosi, penulis menyusun satu set diskusi Twitter independen terkait krisis tersebut. Dengan bantuan pendekatan yang dijelaskan dalam [109] dan [110], penulis telah menerapkan penandaan otomatis teks menurut enam emosi Ekman dasar [111].Mereka kemudian secara manual memeriksa ulang anotasi otomatis dengan penutur asli Rusia dan Ukraina. Hasilnya adalah set 5.717 posting Twitter yang mengungkapkan kemarahan, kesenangan, ketakutan, kesedihan, jijik, dan kejutan, serta 3.947 posting non-emosional. Klasifikasi akhir emosi yang diekspresikan dalam teks dilakukan dalam dua tahap. Pada awalnya, teks diklasifikasikan sebagai emosional dan non-emosional. Kemudian, dengan menggunakan model regresi logistik [32], teks emosional dibagi menjadi enam kelas berdasarkan stilistika, kosakata, dan unigram biner. F tertimbangdilakukan dalam dua tahap. Pada awalnya, teks diklasifikasikan sebagai emosional dan non-emosional. Kemudian, dengan menggunakan model regresi logistik [32], teks emosional dibagi menjadi enam kelas berdasarkan stilistika, kosakata, dan unigram biner. F tertimbangdilakukan dalam dua tahap. Pada awalnya, teks diklasifikasikan sebagai emosional dan non-emosional. Kemudian, dengan menggunakan model regresi logistik [32], teks emosional dibagi menjadi enam kelas berdasarkan stilistika, kosakata, dan unigram biner. F tertimbang₁-ukuran model klasifikasi emosional mencapai 58%. Menurut hasil yang diperoleh, pangsa opini positif tentang Euromaidan lebih tinggi di Ukraina dibandingkan di Rusia. Sebagai perbandingan, pangsa pernyataan positif tentang Putin dan Krimea lebih tinggi di Rusia daripada di Ukraina. Selain itu, beberapa hasil bertentangan dengan kesalahpahaman media yang umum. Misalnya, di Rusia ada publikasi yang penulisnya berbicara secara positif mendukung Amerika Serikat dan menentang Putin, sedangkan di Ukraina ada publikasi yang menyatakan dukungan untuk Putin, bukan Euromaidan. Kelemahan utama dari penelitian ini adalah penulis menggunakan POLYARNIK untuk menganalisis sentimen tanpa menilai kualitas klasifikasi teks pada topik yang dipilih. Selain itu, penulis menerapkan model yang dilatih pada pesan Twitter untuk mengenali emosi dalam pesan dari VKontakte,yang memiliki ciri kebahasaan berbeda, setidaknya rata-rata panjang teks. Selain itu, banyak pertanyaan muncul tentang kualitas anotasi oleh penilai tunggal, karena tidak mungkin mengukur metrik dari kesepakatan antar pakar.

Mengambil dasar konflik Rusia-Ukraina tahun 2014, Rumshisky dan rekan penulisnya menganalisis dinamika refleksi konflik politik di jejaring sosial [87]. Berbeda dengan studi oleh Volkova [86], para peneliti tidak mengandalkan data berisik di lokasi penulis saat membuat korpus untuk analisis. Sebaliknya, mereka berfokus pada identifikasi diri kelompok pengguna yang terkait dengan krisis. Setelah menganalisis data VKontakte, peneliti secara manual memilih 51 kelompok anti-Pembantu dengan 1.942.918 pengguna unik, dan 47 kelompok promosi dengan 2.445.661 pengguna. Kemudian kami memilih semua publikasi di dinding grup ini, menambahkan publikasi dari dinding pengguna aktif dan mereka yang menyukai publikasi ini. Hanya publikasi tersebut yang ditambahkan ke koleksidi mana setidaknya satu kata kunci dari daftar yang ditentukan sebelumnya ditemukan. Untuk memprediksi sentimen teks berbahasa Rusia, para peneliti menggunakan versi perbaikan dari perpustakaan SentiMental, yang merupakan sistem analisis sentimen berbasis kamus. Hasil penelitian menegaskan bahwa peningkatan intensitas konflik disertai dengan pernyataan negatif. Analisis tersebut menguji hubungan antara sentimen dominan dan ukuran kontroversi random walk. Ketika jumlah perselisihan meningkat, begitu pula deviasi standar dari keseluruhan sentimen yang diungkapkan oleh kelompok yang berlawanan, serta ukuran pengembaraan acak diskusi. Kelemahan utama dari penelitian ini adalah penulisnya tidak memberikan rincian apapun tentang preprocessing dan pelatihan.Untuk memprediksi sentimen teks berbahasa Rusia, para peneliti menggunakan versi perbaikan dari perpustakaan SentiMental, yang merupakan sistem analisis sentimen berbasis kamus. Hasil penelitian menegaskan bahwa peningkatan intensitas konflik disertai dengan pernyataan negatif. Analisis tersebut menguji hubungan antara sentimen dominan dan ukuran kontroversi random walk. Ketika jumlah perselisihan meningkat, begitu pula deviasi standar dari keseluruhan sentimen yang diungkapkan oleh kelompok yang berlawanan, serta ukuran jalannya diskusi secara acak. Kelemahan utama dari penelitian ini adalah penulisnya tidak memberikan rincian apapun tentang preprocessing dan pelatihan.Untuk memprediksi sentimen teks berbahasa Rusia, para peneliti menggunakan versi perbaikan dari perpustakaan SentiMental, yang merupakan sistem analisis sentimen berbasis kamus. Hasil penelitian menegaskan bahwa peningkatan intensitas konflik disertai dengan pernyataan negatif. Analisis tersebut menguji hubungan antara sentimen dominan dan ukuran kontroversi random walk. Ketika jumlah perselisihan meningkat, begitu pula deviasi standar dari keseluruhan sentimen yang diungkapkan oleh kelompok yang berlawanan, serta ukuran jalannya diskusi secara acak. Kelemahan utama dari penelitian ini adalah penulisnya tidak memberikan rincian apapun tentang preprocessing dan pelatihan.

Zaeziev menyarankan mempelajari proses mobilisasi politik dengan menganalisis konten jejaring sosial [88]. Revolusi Ukraina 2013-2014 diambil sebagai basis. Penulis fokus pada protes tahap pertama, dari 21 Februari 2013 hingga 22 Februari 2014. Ia menganalisis publikasi di jejaring sosial paling populer di Ukraina: VKontakte dan Facebook. Zaeziev mengidentifikasi sekumpulan kata kunci yang relevan berdasarkan rekomendasi umum Godbowl [112], dan kemudian mengumpulkan lebih dari 124.000 pesan menggunakan IQBuzz. Dengan menggunakan algoritma pengenalan sentimen IQBuzz, peneliti mengklasifikasikan teks ke dalam kategori: negatif, netral, positif, dan campuran. Dengan asumsi bahwa pendukung Euromaidan akan mengungkapkan sikap positif terhadap acara ini, penulis menghapus semua pesan tidak positif dari koleksi.Kemudian kami menyaring koleksi dengan daftar kata kunci yang telah ditentukan, menyisakan 4255 posting. Analisis data ini mengungkapkan bahwa pada malam pertama protes, jaringan sosial digunakan terutama sebagai alat untuk mobilisasi politik, dan kemudian sebagai alat untuk liputan media. Kelemahan utama dari studi ini adalah tidak menggambarkan metrik klasifikasi sentimen, sehingga sulit untuk memverifikasi keakuratan hasil.

Peneliti Tokarev dari Moscow State Institute of International Relations mempelajari wacana di antara blogger utama Ukraina mengenai wilayah dan populasi Donbass pada periode 2009 hingga 2018 [56]. Penulis menganalisis semantik, frekuensi, dan emosionalitas diskusi di segmen Ukraina di Facebook. Penelitian terdiri dari beberapa tahap. Pertama, tokoh opini diidentifikasi dan publikasinya diunduh dari 1 Januari 2009 hingga 15 Februari 2018. Kemudian, berdasarkan kata kunci yang telah ditentukan dari wacana tersebut, penulis mengidentifikasi publikasi yang didedikasikan untuk Donbass. Pada tahap selanjutnya dibuat kamus emosi yang kemudian digunakan untuk membedakan diskusi menurut derajat emosi mereka. Dengan bantuan relawan, kosakata dari 566 kata penanda untuk wilayah dan populasi dikumpulkan.Setiap kata disajikan dalam bahasa Rusia dan Ukraina. Sebuah tim yang terdiri dari 69 penilai kemudian membubuhi keterangan kosakata menjadi lima tingkatan: positif, netral-positif, netral, netral-negatif, dan negatif. Akhirnya, tingkat ekspresi emosi dan dinamika diskusi dinilai. Korpus 1.069.687 publikasi dari 376 blogger utama dalam tujuh bahasa dianalisis. Ternyata awal diskusi tentang wilayah dan penduduk Donbass dimulai pada pergantian tahun 2013-2014. Sebelumnya, frekuensi penyebutan kawasan ini hampir nol. Sikap negatif yang signifikan terhadap penduduk diungkapkan, dan praktis tidak ada diskusi negatif tentang wilayah tersebut. Nada netral menang. Jumlah diskusi positif dan negatif tentang wilayah tersebut jauh lebih sedikit dibandingkan dengan diskusi penduduk.Hal ini memungkinkan kami untuk menyimpulkan bahwa ada tingkat ketidakpastian yang tinggi di antara blogger utama mengenai wilayah tersebut, serta kemungkinan wacana yang rendah untuk berubah dari nada netral menjadi positif. Kekurangan dari penelitian ini sama dengan penelitian Zaeziev [88], tidak ada deskripsi metrik klasifikasi.

Jadi, selama studi tentang krisis Ukraina, peneliti menggunakan informasi tidak hanya tentang sentimen, tetapi juga tentang lokasi penulis publikasi untuk mempelajari pengikatan teritorial pengguna. Untuk menentukan teks yang relevan, daftar kata penanda konflik dikumpulkan dan teks yang mengandung penanda ini dicari. Saat menganalisis kelompok etnis atau masalah yang terkait dengan migrasi, sulit untuk mengekstrak data perwakilan dan menjelaskan secara mendalam tentang pembatasan yang menyertainya.

1.1.3. Ketegangan sosial

Proses yang diamati dalam masyarakat Rusia modern menciptakan kebutuhan untuk menempatkan konflik sosial dalam kerangka tertentu [113]. Mengingat meluasnya penggunaan media sosial dengan manfaat dan risiko bagi masyarakat sipil, [114] analisis konten online harus diberikan sebagaimana mestinya dan perhatian yang tepat, termasuk untuk mengidentifikasi ketegangan sosial. Anda dapat mengukur ketegangan sosial online menggunakan indeks dan metrik, dan kemudian menggunakan informasi tersebut untuk melacak pecahnya ketegangan, yang merupakan bentuk tata kelola antisipatif [115].

Tim yang dipimpin oleh Donchenko menganalisis komentar di VKontakte tentang topik sensitif secara sosial untuk periode Januari hingga Juni 2017 [89]. Peneliti mengumpulkan daftar topik populer yang terkait dengan masalah ketegangan sosial, dan mengumpulkan publikasi pengguna yang relevan melalui API VKontakte. Kemudian teks diproses sebelumnya: stemming kata (stemming) dipilih, tanda baca dihapus, singkatan standar dan kata-kata gaul diganti dengan kata-kata normal yang sesuai. Untuk kategorisasi berdasarkan topik, penulis melatih model vektor dukungan (SVM) [33] dengan vektorisasi TF-IDF [116]. Topik hangat sosial: pengangguran, korupsi dan kenaikan harga barang-barang konsumsi. Juga, dengan menggunakan model SVM, polaritas nada suara diklasifikasikan. Ternyata mood protes biasanya terkonsentrasi di pusat-pusat daerah padat penduduk.Salah satu kelemahan utama pekerjaan ini adalah kurangnya penilaian terhadap kualitas anotasi data dan tidak adanya spesifikasi metrik klasifikasi sentimen. Koltsova dan Nagorny menemukan topik apa yang diklasifikasikan sebagai masalah sosial dengan menganalisis komentar pembaca media regional Rusia [57]. Penulis mengumpulkan 33.887 berita dan 258.107 komentar dari situs media Omsk (Gorod55, BK55, NGS Omsk dan Omsk-Inform) untuk periode September 2013 hingga September 2014. Untuk menentukan topik teks berita, penulis menggunakan Gensim- implementasi [117] dari algoritma alokasi Dirichlet laten [102] dengan metrik yang dikembangkan oleh Arun, Suresh, Madhavan dan Murthy [118]. Untuk mengklasifikasikan sentimen komentar, penulis menggunakan SentiStrength [22] dengan kosakata PolSentiLex. Koltsova dan Nagorny menemukan bahwa topik seperti itu,bagaimana hiburan, budaya, olahraga, dan liburan paling sering membangkitkan emosi positif, dan sebagian besar emosi negatif dikaitkan dengan kejahatan dan bencana. Peneliti menghitung indeks kepentingan dan polaritas untuk setiap topik. Masalah mendasar penggunaan SentiStrength dalam penelitian ini adalah penulis tidak mendeskripsikan metrik untuk mengklasifikasikan data untuk topik yang dipilih, sehingga sulit untuk memverifikasi keakuratan hasil.

Dengan demikian, penulis menggunakan dua pendekatan untuk mengidentifikasi topik sosial yang akut. Dalam kasus pertama, data disaring berdasarkan daftar kata kunci, dan yang kedua, pengelompokan semua data tanpa pengawasan diterapkan, diikuti dengan identifikasi topik sosial yang akut. Saat menggunakan data dari jejaring sosial, penulis menghadapi kesulitan yang sama dalam mengekstraksi data yang representatif. Namun, hal ini tidak relevan saat menganalisis data dari situs berita, karena biasanya tidak ada batasan akses ke informasi yang dipublikasikan. Karena wacana tentang topik sensitif dapat disertai dengan pernyataan kasar, yang terakhir dapat disensor sesuai dengan perjanjian dan undang-undang pengguna.

1.1.4. Topik lainnya

Sejumlah penelitian berfokus pada topik-topik dari bidang lain. Peneliti Ruleva mempelajari reaksi di Twitter dan pengguna YouTube berbahasa Rusia terhadap ledakan meteor di Chelyabinsk pada Februari 2013 [58]. Selama 100 tahun terakhir, itu telah menjadi benda langit terbesar yang memasuki atmosfer bumi. Seperti yang diharapkan, acara tersebut memicu debat emosional di media tradisional dan platform online. Peneliti mengumpulkan 495 posting Twitter dari 15-20 Februari 2013 menggunakan tagar "meteorit", serta sejumlah video YouTube yang tidak ditentukan. Penekanan ditempatkan pada analisis komparatif konten dari kedua situs dalam konteks perbedaan antara genre lisan primer dan sekunder [119]. Namun, liriknya juga memberikan interpretasi tertentu tentang perasaan dan emosi.

Ruleva menemukan bahwa konten YouTube memberikan data yang lebih berguna untuk penelitian sentimen daripada Twitter. Penulis mengandalkan analisis genre dan campuran analisis linguistik dan semiotik. Artinya, dia menganalisis teks itu sendiri dan bagaimana teks itu disajikan. Penulis percaya bahwa pengguna YouTube dan Twitter sering kali termasuk dalam kelompok sosial yang berbeda, dan karena itu mungkin memiliki pola ekspresi emosi yang berbeda. Meskipun studi secara keseluruhan secara tidak langsung terkait dengan aspek emosional teks, Ruleva adalah salah satu orang pertama yang menyelidiki perbedaan antara berbagai jenis informasi berbahasa Rusia. Namun, tidak ada penjelasan rinci tentang metode perbandingan sentimen dan prosedur pengumpulan data di YouTube. Untuk mencari data di Twitter, pemfilteran dasar diterapkan, yang mengabaikan sebagian besar pesan,yang tidak memiliki tagar "meteorit". Selain itu, tanpa menggunakan API Historis, alat pencarian Twitter hanya memberikan akses sebagian ke semua pesan yang tersedia untuk umum.

Kirilenko dan Stepchenkova melakukan studi perbandingan wacana bahasa Rusia dan bahasa Inggris di Twitter tentang Olimpiade 2014 di Sochi [90]. Lebih dari 400.000 pesan dikumpulkan melalui API Twitter selama periode enam bulan yang mencakup Olimpiade [120] dan kemudian dilakukan analisis klaster dan sentimen untuk kompetisi tersebut. Para penulis mengevaluasi pendekatan Deeply Moving [121], Pattern dan SentiStrength [22] pada 600 posting Twitter berbahasa Inggris dan 3.000 berbahasa Rusia. Terlepas dari peningkatan ekspresi sikap positif terhadap Olimpiade selama pertandingan, peningkatan ini hanya signifikan untuk pesan-pesan Rusia. Namun, penulis tidak memberikan metrik klasifikasi untuk model yang dievaluasi, juga tidak menjelaskan langkah preprocessing.

Tim yang dipimpin oleh Spicer mempelajari gelombang protes massa terkait dengan pemilihan Duma dan presiden Federasi Rusia periode 2011-2012 [91]. Para peneliti menganalisis pesan Twitter berbahasa Rusia yang relevan dari 17 Maret 2011 hingga 12 Maret 2012, yang dikumpulkan melalui API Streaming Twitter. Data tersebut dipilih sesuai dengan daftar kata kunci. 690.297 pesan berbahasa Rusia yang terkait dengan politik dikumpulkan. Untuk mengidentifikasi pendukung dan penentang Putin, penulis menggunakan kombinasi daftar kata kunci dan SentiStrength [22], dan kemudian mengklasifikasikan 1.000 pengguna teratas berdasarkan skor sentimen rata-rata dan afiliasi partai mereka. Dengan membandingkan anotasi manual dari 100 pengguna di kedua sisi dengan klasifikasi otomatis, para peneliti menemukan bahwa sekitar 70% peserta diklasifikasikan dengan benar.Akhirnya, penulis menerapkan metode penelitian kualitatif [122] dan secara manual mengkodekan kunci n-gram yang diekstraksi. Salah satu temuan utamanya adalah wacana di Twitter awalnya secara aktif didukung oleh oposisi, dan kemudian mobilisasi oposisi menurun secara signifikan dan dukungan untuk Putin meningkat. Namun, penelitian ini memiliki beberapa kekurangan. Pertama, keterwakilan data sampel tidak jelas, karena Twitter Streaming API hanya menyediakan akses parsial ke semua publikasi. Kedua, metrik klasifikasi tidak diukur pada kumpulan teks target, sehingga sulit untuk memverifikasi kualitas klasifikasi sentimen.dan kemudian, mobilisasi oposisi menurun secara signifikan dan dukungan untuk Putin meningkat. Namun studi ini memiliki beberapa kekurangan. Pertama, keterwakilan data sampel tidak jelas, karena Twitter Streaming API hanya menyediakan akses sebagian ke semua publikasi. Kedua, metrik klasifikasi tidak diukur pada kumpulan teks target, sehingga sulit untuk memeriksa kualitas klasifikasi sentimen.dan kemudian, mobilisasi oposisi menurun secara signifikan dan dukungan untuk Putin meningkat. Namun studi ini memiliki beberapa kekurangan. Pertama, keterwakilan data sampel tidak jelas, karena Twitter Streaming API hanya menyediakan akses sebagian ke semua publikasi. Kedua, metrik klasifikasi tidak diukur pada kumpulan teks target, sehingga sulit untuk memverifikasi kualitas klasifikasi sentimen.

Nenko dan Petrova melakukan analisis komparatif dari distribusi emosi di St. Petersburg berdasarkan komentar pengguna tentang objek perkotaan di Google Places dan data dari sistem GIS terbuka Ketidakprecilan [92]. Dataset berisi 1.800 penanda emosi dari Ketidakprecayaan dan 2.450 komentar dengan referensi tempat dari Google Places. Dua penilai menandai komentar menjadi enam emosi dan memprosesnya menggunakan pengklasifikasi Bayesian yang naif [123]. Berdasarkan analisis sentimen dan kumpulan data dari Imprecity, penulis membuat peta panas emosi negatif dan positif di St. Petersburg. Kecenderungan umum adalah konsentrasi emosi positif dan negatif di pusat sejarah di selatan kota, di ujung barat Pulau Vasilievsky dan di tengah Pulau Petrogradsky.Namun, penulis tidak menjelaskan metodologi preprocessing dan metrik klasifikasi.

Jadi, ketika memeriksa sikap terhadap peristiwa atau tempat yang berbeda, peneliti menghadapi kesulitan yang sama dalam menemukan data yang representatif dan menjelaskan kendala secara mendalam. Selain itu, kelemahan utama dari sebagian besar penelitian adalah kurangnya penilaian terhadap model analisis sentimen pada teks topik terpilih, sehingga sulit untuk memverifikasi kualitas klasifikasi.

1.2. Indeks Sentimen Sosial

Saat mengukur kebahagiaan dan kepuasan hidup, misalnya, menggunakan Indeks Kesejahteraan Subyektif (SWB) [124], pendekatan psikologis modern mengandalkan skala penilaian diri. Pendekatan ini memiliki kekurangan. Misalnya, terbatasnya jumlah wawancara, mahalnya biaya wawancara responden, dan ketergantungan pada memori peserta membuat sulit untuk mempresentasikan status responden secara real time [125] - [127]. Sebagai alternatif, para peneliti telah mencoba mengukur berbagai indeks sentimen sosial menggunakan analisis sentimen karena berbagai opini diekspresikan dalam data yang dihasilkan pengguna di media sosial [2], [127] - [133].

Dalam karyanya [93], Panchenko menghitung indeks sentimen di Facebook berbahasa Rusia sebagai tingkat emosi rata-rata dalam serangkaian teks. Kami menganalisis 573 juta publikasi dan komentar anonim untuk periode dari 5 Agustus 2006 hingga 13 November 2013, disediakan untuk penelitian oleh Digsolab LLC. Penulis telah memfilter seluruh kumpulan teks berbahasa Rusia menggunakan modul langid.py [134]. Indeks sentimen sosial dihitung dengan menggunakan pendekatan berbasis kamus [135], [136], mirip dengan Dodd [129]. Penulis telah mengembangkan kamus emosi sendiri dari istilah 1511, yang ditandai oleh dua spesialis ke dalam kelas positif dan negatif. Untuk menilai kualitas klasifikasi, Panchenko menerapkan pendekatan kosakata pada dataset ROMIP 2012 [15]. Penulis mengklaim bahwa pada serangkaian ulasan film dia mencapai nilai rata-rata makro F ₁-poin hingga 0,383 dan akurasi hingga 0,465. Untuk mengukur sentimen, penulis mengusulkan empat indeks: Word Sentiment Index, Word Emotion Index, Text Sentiment Index dan Text Emotion Index. Dua yang pertama beroperasi dengan nada suara kata-kata, dan dua yang kedua - dengan nada suara teks. Menurut analisis, konten positif lebih unggul daripada konten negatif. Nilai maksimum indeks bertepatan dengan hari libur umum, dan nilai minimum - dengan hari yang tak terlupakan dan tragedi nasional. Secara umum, pengguna mengungkapkan sentimen positif 3,8 kali lebih banyak daripada sentimen negatif. Orang-orang menggunakan lebih sedikit kata-kata emosional dalam postingan dan lebih banyak dalam komentar. Batasan terpenting adalah itubahwa penulis memeriksa kualitas klasifikasi pada resensi film dan menerapkannya pada teks umum, sehingga sulit untuk memverifikasi keakuratan hasilnya. Selain itu, proses pengumpulan data internal Digsolab tidak dijelaskan dan oleh karena itu pertanyaan tentang keterwakilan muncul.

Tim yang dipimpin oleh Shchekotin mengusulkan metode baru penilaian subjektif kesejahteraan, yang didasarkan pada data VKontakte pada aktivitas pengguna [68]. Mengambil model indikator kualitas hidup yang dikembangkan oleh Gavrilova [137], penulis memilih beberapa indikator untuk pemantauan dalam penelitian mereka. Berfokus pada keterwakilan geografis dan sosio-ekonomi, mereka memilih 43 wilayah Rusia dari 85. Kemudian, di wilayah yang dipilih, mereka mengidentifikasi tiga kota terbesar dan memilih masing-masing 10 komunitas VKontakte, menyatukan penduduk kota-kota ini - komunitas perkotaan. Kemudian, menggunakan kumpulan data dari jejaring sosial dan platform analitik dari Konsorsium Peneliti Big Data Universitas, yang dikembangkan di Tomsk State University,penulis mengekstrak informasi yang diterbitkan oleh komunitas ini untuk periode dari 1 Januari hingga 31 Desember 2018. Setelah itu, mereka menghapus data yang tidak relevan - publikasi iklan dan teks yang tidak terkait dengan topik penelitian (lowongan, olahraga, acara budaya). Pemfilteran data yang tidak relevan dilakukan dalam dua tahap: analisis manual terhadap 60.000 pesan dan pembersihan otomatis, di mana algoritme dilatih pada pesan yang dibersihkan secara manual. Setelah itu, tersisa sekitar 1.700.000 publikasi. Selama pembersihan, publikasi diberi anotasi secara manual pada 19 topik dan tiga kelas sentimen (positif, negatif, dan netral). Dalam proses preprocessing, kata-kata dan simbol langka yang tidak termasuk dalam abjad Rusia dan Latin dihilangkan, dan semua kata lain direduksi menjadi stemming (stemming). Kemudian beberapa algoritme pembelajaran mesin dilatih.Kualitas klasifikasi terbaik ditunjukkan oleh algoritma peningkatan gradien dari LightGBM [138] - hingga 68% untuk klasifikasi kategori dan 79% untuk klasifikasi sentimen. Untuk menghitung indeks kesejahteraan subjektif [124], [139] untuk setiap wilayah, penulis mengusulkan metode yang didasarkan pada indikator aktivitas online. Hasil studi menunjukkan bahwa di daerah terpilih topik pembangunan infrastruktur daerah paling aktif dibahas secara positif. Aktivitas paling tidak positif dikaitkan dengan penilaian keadaan emosional umum dan kebebasan media. Yang paling aktif dibahas secara negatif adalah topik keamanan, yaitu penilaian atas tindakan aparat keamanan dan organisasi negara lainnya yang terkait dengan penjaminan keamanan di kawasan.Indikator negatif terendah dari aktivitas online juga tipikal untuk keadaan emosional umum dan kebebasan media. Selain itu, penulis menyusun daftar lengkap batasan, termasuk keterwakilan sampel data, audiens jejaring sosial yang dianalisis, dan potensi dampak bot.

Namun saat menyusun dataset training, penulis tidak mendeskripsikan distribusi kelas sentimen. Jika dataset belum seimbang, maka kualitas klasifikasi disarankan untuk diukur menggunakan metrik yang lebih kompleks, seperti Precision, Recall dan F-measure.

1.3. Perilaku pengguna

Konten media sosial dapat menjadi sumber informasi yang berharga tidak hanya tentang sikap terhadap topik yang berbeda, tetapi juga tentang pola perilaku pengguna saat berinteraksi dengan konten ini.

Svetlov dan Platonov telah mengidentifikasi pengaruh nada suara dalam menerima umpan balik dari penonton [69]. Sumber datanya adalah 46.293 publikasi dan 2.197.063 komentar dari akun paling populer politisi Rusia di VKontakte untuk periode Januari 2017 hingga April 2019. Para peneliti melatih BiGRU [140] pada set data RuTweetCorp [141] dan RuSentiment [142], menerima masing-masing dengan rata-rata makro F ₁ = 0,91 dan F ₁= 0,77. Berdasarkan hasil analisis sentimen, penulis mengidentifikasi beberapa pola respon. Postingan diklasifikasikan sebagai positif jika memiliki lebih banyak tampilan dan suka dari pengguna. Posting dengan repost dan komentar dalam jumlah besar diklasifikasikan sebagai negatif. Namun, penggunaan data pelatihan dari satu area dan penerapan model yang dilatih di area lain menimbulkan banyak pertanyaan. RuTweetCorp adalah kumpulan posting singkat dari Twitter, dan RuSentiment adalah kumpulan topik umum dari VKontakte, dengan studi yang sedang dibahas difokuskan pada politik. Jalan keluar yang baik dalam situasi ini adalah dengan memberi anotasi secara manual pada sekumpulan teks kecil tentang topik target dan menguji model terlatih padanya.

2. Umpan balik tentang produk dan layanan

Di era Internet, ulasan produk dan layanan telah menjadi alat yang ampuh untuk mengekspresikan validasi sosial yang mendorong orang untuk membeli dari toko online yang berbeda [143]. Testimoni dapat menjadi sumber informasi yang berharga tidak hanya untuk pembeli dan penjual, tetapi juga untuk peneliti. Pada bab ini, sumber pustaka dibagi menurut topik yang dianalisis: karakteristik pembeli, karakteristik produk dan jasa, karakteristik pedagang.

2.1. Karakteristik peninjau

Sebuah kelompok riset dari Universitas St. Petersburg menganalisis tema dan nada ulasan 989 perusahaan yang mempekerjakan yang beroperasi di 12 industri Rusia yang padat pengetahuan [70]. Para peneliti mengambil Otrude, salah satu portal Rusia terbesar dengan ulasan pemberi kerja, sebagai sumber data utama. Setelah memfilter dan menghapus data yang tidak perlu, kami mendapat satu set 6145 ulasan. Proses preprocessing dilakukan dalam beberapa tahap yaitu: lemmatization menggunakan MyStem, penghapusan tanda baca dan stop word. Penulis secara otomatis mengklasifikasikan teks menjadi dua kategori berdasarkan peringkat ulasan: mereka yang menerima setidaknya tiga bintang dianggap positif, sisanya dianggap negatif. Para peneliti kemudian menganalisis sentimen menggunakan penempatan Dirichlet laten [102] - atau pemodelan topik - dan model klasifikasi yang tidak ditentukan.Tim yang dipimpin oleh Sokolov menemukan enam faktor utama yang mempengaruhi kepuasan kerja: urutan dan jadwal kerja, kondisi kerja, sifat pekerjaan, gaji, pengembangan karir, iklim psikologis, hubungan interpersonal dengan rekan kerja. Dua faktor terakhir - lingkungan mental dan hubungan interpersonal - paling sering didiskusikan oleh orang-orang secara online saat membahas kepuasan kerja. Oleh karena itu, penulis menyarankan bahwa ketika seseorang memutuskan untuk berhenti, ia cenderung tahan terhadap faktor ekonomi (misalnya, dengan prospek pengembangan karir dan kenaikan gaji), dan bukan dengan sosio-emosional (misalnya, dengan sifat pekerjaan yang buruk, hubungan yang buruk dengan rekan kerja). Masalah utama dari penelitian ini adalah ketepatan penggunaan analisis sentimen. Semua review di situs Otrude berisi penilaian penulis,oleh karena itu, dari sudut pandang formal, klasifikasi sentimen tidak diperlukan untuk mengevaluasi tinjauan ini. Kelemahan lainnya adalah penulis tidak mendeskripsikan pendekatan mereka terhadap analisis dan hasil klasifikasi sentimen pada dataset pengujian.

2.2.

Tim yang dipimpin oleh Seliverstov, berdasarkan data dari portal Autostrada, menilai sikap terhadap keadaan jalan di Distrik Federal Barat Laut Federasi Rusia [71]. Untuk pelatihan, penulis menggunakan RuTweetCorp [141], kumpulan teks beranotasi otomatis terbesar dengan sedikit pemfilteran manual, dikumpulkan di Twitter berbahasa Rusia. Untuk tujuan klasifikasi, diambil model linier reguler dengan penurunan gradien stokastik dan model Bag of Words dengan vektorisasi TF-IDF. Setelah pelatihan, model menunjukkan akurasi klasifikasi biner sebesar 72%. Setelah menganalisis ulasan untuk periode 1 Maret 2009 hingga 1 November 2018, penulis menemukan bahwa panjang semua jalan yang dinilai positif adalah 9874 km (75% dari total panjang), dan panjang jalan yang dinilai negatif adalah 3385 km (25%).Namun studi ini memiliki beberapa kekurangan. Pertama, penulis tidak mendeskripsikan proses preprocessing yang sangat penting saat belajar di RuTweetCorp. Faktanya adalah bahwa set ini pada awalnya dirancang untuk membuat leksikon emosi, dan bukan untuk klasifikasi sentimen secara langsung. Himpunan itu dirakit secara otomatis sesuai dengan strategi tertentu [144], yaitu, setiap teks dikaitkan dengan beberapa kelas emosi tergantung pada emotikon yang terkandung di dalamnya. Jadi, bahkan pendekatan berbasis aturan yang sederhana pun dapat memberikan hasil yang luar biasa. Misalnya, jika model mengklasifikasikan teks sebagai positif karena adanya karakter di dalamnya (atau negatif karena tidak adanya karakter ini, maka dalam klasifikasi biner kita mendapatkan Fyang sangat penting saat belajar di RuTweetCorp. Faktanya adalah bahwa set ini pada awalnya dirancang untuk membuat leksikon emosi, dan bukan untuk klasifikasi sentimen secara langsung. Himpunan itu dirakit secara otomatis sesuai dengan strategi tertentu [144], yaitu, setiap teks dikaitkan dengan beberapa kelas emosi tergantung pada emotikon yang terkandung di dalamnya. Jadi, bahkan pendekatan berbasis aturan yang sederhana pun dapat memberikan hasil yang luar biasa. Misalnya, jika model mengklasifikasikan teks sebagai positif karena adanya karakter di dalamnya (atau negatif karena tidak adanya karakter ini, maka dalam klasifikasi biner kita mendapatkan Fyang sangat penting saat belajar di RuTweetCorp. Faktanya adalah bahwa set ini pada awalnya dirancang untuk membuat leksikon emosi, dan bukan untuk klasifikasi sentimen secara langsung. Himpunan itu dirakit secara otomatis sesuai dengan strategi tertentu [144], yaitu, setiap teks dikaitkan dengan beberapa kelas emosi tergantung pada emotikon yang terkandung di dalamnya. Jadi, bahkan pendekatan berbasis aturan yang sederhana pun dapat memberikan hasil yang luar biasa. Misalnya, jika model mengklasifikasikan teks sebagai positif karena adanya karakter di dalamnya (atau negatif karena tidak adanya karakter ini, maka dalam klasifikasi biner kita mendapatkan Fartinya, setiap teks dikaitkan dengan beberapa kelas emosi, bergantung pada emotikon yang dikandungnya. Jadi, bahkan pendekatan berbasis aturan yang sederhana pun dapat memberikan hasil yang luar biasa. Misalnya, jika model mengklasifikasikan teks sebagai positif karena adanya karakter di dalamnya (atau negatif karena tidak adanya karakter ini, maka dalam klasifikasi biner kita mendapatkan Fartinya, setiap teks dikaitkan dengan beberapa kelas emosi bergantung pada emotikon yang dikandungnya. Jadi, bahkan pendekatan berbasis aturan yang sederhana pun dapat memberikan hasil yang luar biasa. Misalnya, jika model mengklasifikasikan teks sebagai positif karena adanya karakter di dalamnya (atau negatif karena tidak adanya karakter ini, maka dalam klasifikasi biner kita mendapatkan F₁ = 97,39%. Untuk mengatasi masalah analisis sentimen otomatis, penulis kumpulan data merekomendasikan untuk menghapus emotikon selama praproses. Menurut [145], dalam hal ini, dengan menggunakan mesin vektor dukungan [33], skor rata-rata makro F ₁= 75,95%. Sehingga tanpa mengetahui proses preprocessing, sulit untuk menilai kebenaran penelitian tersebut. Kedua, banyak pertanyaan tentang keefektifan penggunaan data dari satu bidang untuk pembelajaran di wilayah lain. Dalam hal ini, dimungkinkan untuk secara manual menganotasi set data kecil tentang topik yang diminati (ulasan pengguna dari portal transport) dan menguji model yang dilatih di atasnya. Ketiga, RuTweetCorp terdiri dari tiga kelas, namun penulis tidak memperhitungkan kelas netral dalam studinya. Pesan positif dan negatif diposting di situs resmi RuTweetCorp, dan pesan netral diposting di situs terpisah. Saya rasa inilah mengapa beberapa penelitian [146] - [150] hanya menggunakan pesan positif dan negatif untuk klasifikasi biner. Itu bisa diasumsikankelas netral itu dapat mengubah keseluruhan distribusi tinjauan jalan negatif dan positif. Terakhir, sebagian besar ulasan dari Jalan Tol memiliki peringkat hak cipta, jadi dari sudut pandang formal, klasifikasi sentimen tidak diperlukan untuk menilai ulasan ini. Dalam hal ini, akan menarik untuk membandingkan skor berdasarkan peringkat dari ulasan dan label klasifikasi sentimen.

2.3

Lee dan Chen dari Universitas Arizona mengembangkan kerangka kerja pembelajaran mesin untuk menentukan kualitas produk yang dijual berdasarkan umpan balik pelanggan [72]. Kerangka kerja ini terdiri dari tiga modul utama: sampling bola salju dengan menggunakan kata kunci dan pengguna yang relevan, klasifikasi topik berdasarkan entropi maksimum, dan analisis sentimen menggunakan pembelajaran yang dalam. Salah satu fitur khas dari modul terakhir adalah modul ini pertama-tama menerjemahkan teks Rusia ke dalam bahasa Inggris menggunakan Google Terjemahan, dan baru kemudian mengklasifikasikan sentimen menggunakan jaringan tensor saraf rekursif dengan kata-kata yang direpresentasikan sebagai bank pohon sintaks [121]. Kerangka yang diusulkan diuji di forum berbahasa Rusia yang didedikasikan untuk penipuan kartu bank.Hasilnya, penjual utama malware dan pencuri data kartu bank teridentifikasi. Melalui analisis yang lebih rinci, penulis menemukan bahwa pedagang kartu cenderung memiliki peringkat yang lebih rendah daripada pedagang perangkat lunak. Penulis yakin alasannya adalah kualitas perangkat lunak lebih mudah ditentukan daripada kualitas data yang dicuri. Para penulis menyebutkan bahwa pengklasifikasi sentimen dilatih dari survei online, yang sesuai dengan topik minat mereka, tetapi mereka tidak menjelaskan detail penggunaan kumpulan data dan metrik kualitas klasifikasi. Penerjemahan ke bahasa lain dapat secara signifikan mengubah makna atau nada teks, oleh karena itu, hampir tidak mungkin untuk menilai kualitas analisis tanpa menguji teks berbahasa Rusia.bahwa pedagang kartu biasanya memiliki peringkat yang lebih rendah daripada pedagang perangkat lunak. Penulis yakin alasannya adalah kualitas perangkat lunak lebih mudah ditentukan daripada kualitas data yang dicuri. Para penulis menyebutkan bahwa pengklasifikasi sentimen dilatih dari survei online, yang sesuai dengan topik minat mereka, tetapi mereka tidak menjelaskan detail penggunaan kumpulan data dan metrik kualitas klasifikasi. Penerjemahan ke dalam bahasa lain dapat secara signifikan mengubah makna atau nada teks, oleh karena itu, hampir tidak mungkin untuk menilai kualitas analisis tanpa menguji teks berbahasa Rusia.bahwa pedagang kartu biasanya memiliki peringkat yang lebih rendah daripada pedagang perangkat lunak. Penulis yakin alasannya adalah kualitas perangkat lunak lebih mudah ditentukan daripada kualitas data yang dicuri. Para penulis menyebutkan bahwa pengklasifikasi sentimen dilatih dari survei online, yang sesuai dengan topik minat mereka, tetapi mereka tidak menjelaskan detail penggunaan kumpulan data dan metrik kualitas klasifikasi. Penerjemahan ke bahasa lain dapat secara signifikan mengubah makna atau nada suara teks, oleh karena itu, tanpa pengujian pada teks berbahasa Rusia, hampir tidak mungkin untuk menilai kualitas analisis.namun, mereka tidak memberikan rincian tentang penggunaan dataset dan metrik kualitas klasifikasi. Penerjemahan ke bahasa lain dapat secara signifikan mengubah makna atau nada teks, oleh karena itu, hampir tidak mungkin untuk menilai kualitas analisis tanpa menguji teks berbahasa Rusia.namun, mereka tidak memberikan rincian tentang penggunaan dataset dan metrik kualitas klasifikasi. Penerjemahan ke bahasa lain dapat secara signifikan mengubah makna atau nada teks, oleh karena itu, hampir tidak mungkin untuk menilai kualitas analisis tanpa menguji teks berbahasa Rusia.

3.

Ulasan yang dibuat oleh pengguna dan konten media sosial biasanya subjektif karena penulis bebas mengungkapkan pendapatnya. Namun, situasinya berbeda dengan analisis berita. Kantor berita mencoba menghindari penilaian dan bias langsung, mencoba menghilangkan keraguan dan ambiguitas. Filsafat mereka didasarkan pada objektivitas, atau setidaknya netralitas yang dapat diterima secara luas [73]. Oleh karena itu, jurnalis sering menahan diri untuk tidak menggunakan kosakata negatif atau positif, tetapi menggunakan cara lain untuk mengekspresikan pendapat mereka [74]. Misalnya, jurnalis dapat menekankan beberapa fakta dan menghilangkan yang lain, memasukkan pernyataan ke dalam struktur wacana yang kompleks, dan menunjukkan kutipan yang sesuai dengan sudut pandang mereka. Ketertarikan orang yang luas terhadap berita telah diketahui berabad-abad yang lalu [151], [152].Berita digunakan sebagai sumber data untuk analisis sentimen di berbagai bidang. Misalnya, untuk menilai sentimen berita itu sendiri [153], [154], memprediksi harga saham [155], [156], hasil pemilihan [157], [158], harga barang di toko online [159] dan perilaku pelanggan di masa depan [154]. Berkenaan dengan berita berbahasa Rusia, saya telah mengidentifikasi dua kategori penelitian: penilaian sentimen berita dan perkiraan ekonomi dan bisnis.penilaian sentimen berita dan prakiraan ekonomi dan bisnis.penilaian sentimen berita dan prakiraan ekonomi dan bisnis.

3.1. Konten berita

Belyakov menyediakan beberapa artikel [94], [95] untuk menganalisis sentimen laporan berita dari situs Kementerian Luar Negeri Rusia. Penulis menggunakan artikel dari bagian "Berita", yang diterbitkan dari 1 sampai 28 Februari 2015. Unit teks ditetapkan ke kategori berikut:

Pertanyaan Ukraina;
Kerja sama antara Rusia dan China;
Hubungan antara Rusia dan Ukraina;
Konflik di Suriah;
Kerja sama dengan Turkmenistan;
Hubungan antara Rusia dan Yunani;
Sanksi terhadap Rusia;
Diplomasi Hari Ini.

Penulis telah membuat pengklasifikasi berbasis aturan dasar yang merangkum polaritas kata-kata emosional dalam teks dan memprediksi kelas biner akhir. Selain itu, kamus 300 akar kata positif dan 300 kata negatif telah disusun. Berdasarkan hasil analisis, kategori “Kerjasama Rusia-China”, “Kerjasama dengan Turkmenistan”, “Hubungan Rusia dan Yunani”, dan “Diplomasi Hari Ini” memiliki warna yang positif. Kategori "Pertanyaan Ukraina", "Hubungan antara Rusia dan Ukraina", dan "Sanksi terhadap Rusia" memiliki warna negatif. Yang penting kajian ini hanya mengkaji konten artikel yang ditulis oleh jurnalis, yakni ungkapan posisi resmi Kementerian Luar Negeri pada topik tertentu. Kedepannya, Anda bisa menambahkan reaksi pembaca dan komentar untuk artikel berita yang dipublikasikan di situs. Dalam hal analisis sentimen,kelemahan utama dari penelitian Belyakov adalah kurangnya evaluasi model. Tanpa mengetahui metrik kualitas pada data pengujian, kami tidak dapat mengevaluasi kinerja model, dan karenanya kualitas hasil analisis.

Sebuah kelompok penelitian dari Akademi Ilmu Pengetahuan Rusia mempelajari sikap terhadap teknologi dan inovasi yang disebutkan di media [96]. Dengan bantuan Exactus Expert [160], penulis memilih dari 16 sumber lebih dari 240.000 artikel tentang inovasi dan teknologi yang diterbitkan dari tahun 2005 hingga 2015. Kemudian, berdasarkan kata kunci yang dipilih secara manual, mereka mengkategorikan artikel menurut 11 tren teknologi dari Daftar Teknologi Kritis Federasi Rusia. Selanjutnya, penulis memilih 120 artikel dan secara manual menjelaskan setiap objek sentimen yang disebutkan dalam artikel sebagai positif atau negatif. Berdasarkan set pelatihan dari 346 pasangan beranotasi, para peneliti membuat kosakata emosi dan mengembangkan algoritma klasifikasi berbasis aturan. Secara umum, media cenderung menulis tentang teknologi secara netral, yang mungkin disebabkan oleh konsistensi gaya pemberitaan.Bagian yang relatif rendah dari referensi negatif tentang TI dan bioteknologi dan keseluruhan cakupan positifnya dalam artikel menunjukkan bahwa masyarakat tidak khawatir tentang potensi konsekuensi negatif dari teknologi ini. Pada saat yang sama, pangsa ulasan negatif tentang teknologi militer lebih tinggi daripada di wilayah lain. Namun, penulis tidak mendeskripsikan metrik klasifikasi dalam algoritma yang dikembangkan. Apalagi, sebagaimana telah disebutkan, artikel-artikel ini ditulis oleh para jurnalis yang tidak hanya bisa mengungkapkan kepada publik, tetapi juga dari sudut pandang resmi. Untuk menilai sikap masyarakat terhadap berbagai topik, reaksi masyarakat terhadap artikel berita perlu diteliti lebih jauh.pangsa ulasan negatif tentang teknologi militer lebih tinggi daripada di wilayah lain. Namun, penulis tidak mendeskripsikan metrik klasifikasi dalam algoritma yang dikembangkan. Apalagi, sebagaimana telah disebutkan, artikel-artikel ini ditulis oleh para jurnalis yang tidak hanya bisa mengungkapkan kepada publik, tetapi juga dari sudut pandang resmi. Untuk menilai sikap masyarakat terhadap berbagai topik, reaksi masyarakat terhadap artikel berita perlu diteliti lebih lanjut.pangsa ulasan negatif tentang teknologi militer lebih tinggi daripada di wilayah lain. Namun, penulis tidak mendeskripsikan metrik klasifikasi dalam algoritma yang dikembangkan. Apalagi, sebagaimana telah disebutkan, artikel-artikel ini ditulis oleh para jurnalis yang tidak hanya bisa mengungkapkan kepada publik, tetapi juga dari sudut pandang resmi. Untuk menilai sikap masyarakat terhadap berbagai topik, reaksi masyarakat terhadap artikel berita perlu diteliti lebih jauh.

Kazun dan Kazun [75] menganalisis liputan media Rusia tentang aktivitas Trump selama dan setelah pemilu. Penulis menggunakan database Integrum untuk analisis jaringan dan database Medialogy untuk analisis sentimen. Untuk studi ini, diambil tiga interval waktu: satu bulan sebelum pemilihan, satu bulan setelah, dan 7 bulan setelah. Dengan menggunakan pendekatan Medialogi, teks dibagi menjadi tiga kelas: positif, negatif dan netral. Ternyata liputan media tentang aktivitas Trump sebelum pemilu lebih negatif daripada positif. Namun, dalam beberapa bulan, liputan kampanye Clinton bahkan lebih positif daripada liputan tentang Trump, meskipun dalam empat bulan sebelum pemilihan, artikel terkait Clinton sangat kritis. Salah satu kelemahan dari penelitian ini adalahbahwa penulis tidak menjelaskan kualitas klasifikasi data pada topik yang diminati, sehingga sulit untuk memverifikasi keakuratan hasil.

Studi serupa dikhususkan untuk analisis berita yang berkaitan dengan politik dan pemerintahan. Berbeda dengan konten di media sosial, tidak ada kesulitan dalam mengakses data lama, karena biasanya media tidak mencegahnya. Namun, beberapa penulis penelitian berita telah mencoba untuk mendefinisikan opini publik tentang topik tertentu yang saya yakin memerlukan penjelasan lebih lanjut. Media tentu saja dapat dianggap sebagai cerminan opini publik, namun dalam beberapa kasus, kebijakan penerbit dapat memengaruhi penyampaiannya, sehingga berita tidak selalu mencerminkan opini publik.

3.2. Prakiraan ekonomi dan bisnis

Yakovleva mengusulkan penghitungan indikator frekuensi tinggi dari aktivitas ekonomi di Rusia berdasarkan artikel berita yang dikombinasikan dengan analisis sentimen teks [76]. Selama studi, dua komponen dibuat: yang pertama dirancang untuk mencerminkan jumlah topik, dan yang kedua adalah untuk mengidentifikasi nada berita. Proses preprocessing terdiri dari beberapa tahapan: stemming dengan MyStem, menghilangkan tanda baca, stop word dan spasi yang tidak perlu. Sebagai model klasifikasi sentimen, Yakovleva menggunakan algoritma vektor dukungan [33] dan melatihnya pada data beranotasi manual yang berisi 3438 artikel berita positif dan negatif. Akurasi pada set tes adalah 64%. Penulis menyebutkan bahwa jika model menentukan tonalitas teks dengan probabilitas kurang dari 60%, maka tonalitas dianggap netral dan teks dikeluarkan dari analisis. Semua topik,diperoleh dengan komponen pertama digabungkan dengan informasi sentimen dari model kedua. Berdasarkan data gabungan ini, model regresi dikembangkan untuk memprediksi Indeks Manajer Pembelian (PMI). Data pengujian mencakup periode dari Februari 2017 hingga Agustus 2018. Model tersebut menunjukkan kemampuan peramalan yang relatif baik, mendekati secara akurat indeks aktual untuk periode baru. Hasil penelitian menunjukkan bahwa model tersebut dapat memantau kinerja ekonomi dengan cermat, membantu dengan cepat menanggapi situasi keuangan saat ini dan membuat keputusan dengan cepat. Namun, studi ini memiliki beberapa kekurangan. Pertama, tidak jelas probabilitas apa yang digunakan,karena implementasi mesin vektor dukungan dasar tidak memberikan perkiraan probabilitas secara langsung. Selain itu, metodologi untuk memilih ambang batas belum dijelaskan. Kedua, data pelatihan Yakovleva hanya dijelaskan oleh satu spesialis, yang tidak sesuai dengan praktik yang diterima secara umum [142], [161], [162]. Akhirnya, penulis menerbitkan representasi grafis dari perbandingan yang diprediksi dan nilai PMI aktual, tetapi tidak menyebutkan metrik kualitas regresi apa pun.tetapi tidak menyebutkan metrik kualitas regresi apa pun.tetapi tidak menyebutkan metrik kualitas regresi apa pun.

4. Buku

Selama 60 tahun terakhir, analisis literatur ilmiah telah berkembang pesat, dari penghitungan kutipan manual dan analisis frekuensi kata hingga metode modern analisis teks dalam otomatis [163]. Salah satu topik topikal di bidang ini adalah analisis sentimen materi pendidikan.

4.1. Isi buku

Kelompok penelitian Soloviev mempelajari nada suara buku teks tentang studi sosial dan sejarah yang digunakan di sekolah dasar dan menengah Rusia [77]. Untuk studi ini, Academic Corpus of the Russian Language disusun berdasarkan 14 buku teks berbahasa Rusia yang diedit oleh Bogolyubov dan Nikitin. Pra-pemrosesan termasuk tokenisasi kalimat, tokenisasi kata, dan markup bagian dari ucapan menggunakan TreeTagger [164]. Dengan menggunakan kamus bahasa Rusia RuSentiLex [25], penulis menghitung frekuensi kata-kata emosional dalam setiap dokumen dan mengukur jumlah spesifiknya per 1000 kata dalam dokumen. Setelah menganalisis korpus, penulis menemukan bahwa wacana dalam buku teks sejarah untuk sekolah menengah atas, serta dalam buku teks IPS untuk sekolah menengah pertama yang ditulis oleh Nikitin, sebagian besar diwakili oleh nada negatif:kata-kata yang terpolarisasi negatif digunakan dan contoh negatif disajikan. Dan buku teks yang ditulis oleh Bogolyubov umumnya bernada positif. Namun, sumber signifikan dari tidak dapat diandalkan adalah keakuratan dan relevansi kata-kata emosional yang diambil dari korpus, karena RuSentiLex pada awalnya dibuat untuk topik lain. Selain itu, RuSentiLex menyediakan representasi polaritas emosional yang tidak tergantung konteks, terlepas dari di mana kata tersebut muncul dalam kalimat dan terlepas dari kemungkinan artinya. Oleh karena itu, pendekatan ini tidak memungkinkan Anda untuk memahami arti kata yang berbeda berdasarkan konteks kalimat.sumber signifikan dari tidak dapat diandalkan adalah keakuratan dan relevansi kata-kata emosional yang diambil dari korpus, karena RuSentiLex pada awalnya dibuat untuk topik lain. Selain itu, RuSentiLex menyediakan representasi polaritas emosional yang tidak tergantung konteks, terlepas dari di mana kata tersebut muncul dalam kalimat dan terlepas dari kemungkinan artinya. Oleh karena itu, pendekatan ini tidak memungkinkan Anda untuk memahami arti kata yang berbeda berdasarkan konteks kalimat.sumber signifikan dari tidak dapat diandalkan adalah keakuratan dan relevansi kata-kata emosional yang diambil dari korpus, karena RuSentiLex pada awalnya dibuat untuk topik lain. Selain itu, RuSentiLex menyediakan representasi polaritas emosional yang tidak tergantung konteks, terlepas dari di mana kata tersebut muncul dalam kalimat dan terlepas dari kemungkinan artinya. Oleh karena itu, pendekatan ini tidak memungkinkan Anda untuk memahami arti kata yang berbeda berdasarkan konteks kalimat.Oleh karena itu, pendekatan ini tidak memungkinkan Anda untuk memahami arti kata yang berbeda berdasarkan konteks kalimat.Oleh karena itu, pendekatan ini tidak memungkinkan Anda untuk memahami arti kata yang berbeda berdasarkan konteks kalimat.

4.2. Proses pendidikan

Kolmogorova melakukan percobaan mengajar bahasa Rusia untuk siswa Cina [78]. Dia mengukur hubungan antara sentimen teks pendidikan, penilaian subjektif oleh siswa asing tentang daya tarik dan keefektifan kursus pelatihan, serta keberhasilan aktual mengajar pada teks semacam itu. Untuk menganalisis sentimen, penulis menggunakan pengklasifikasi emosi berbasis pembelajaran mesin yang dikembangkan di Laboratory for Applied Linguistics and Cognitive Research, Siberian Federal University. Model analisis sentimen mengklasifikasikan teks menjadi 9 kelas dengan rata-rata makro F ₁-poin 50%. Delapan tingkatan sesuai dengan emosi dasar L¨ovheim [165], dan yang terakhir adalah teks yang netral secara emosional. Untuk set pelatihan, teks dipilih dalam grup VKontakte `` Mendengar '' terbuka. 231 Penutur asli Rusia menandai teks tersebut, secara subyektif menilai tingkat ekspresi suatu emosi, sementara setiap teks diberi hanya satu emosi. Semua teks ditandai oleh setidaknya tiga penilai. Jika dua atau tiga penilai menetapkan kelas yang sama untuk teks, maka emosi ini ditugaskan ke teks. Jika tidak, teks telah dihapus dari set pelatihan untuk kelas ini. Kolmogorova menggunakan teks-teks yang emosi utamanya adalah kesenangan / kegembiraan dan kesedihan / kerinduan. Percobaan dilakukan dengan partisipasi 30 siswa dari China, yang dibagi menjadi tiga kelompok yang sama besar.Setiap kelompok mempelajari dan meneliti topik "Tanda Baca". Satu kelompok belajar dari teks yang menggembirakan, kelompok kedua dari teks sedih, dan kelompok ketiga dari teks netral. Setelah menyelesaikan studi eksperimental dan ujian, siswa mengisi kuesioner di mana mereka mencatat tingkat minat umum dalam kursus dan keefektifannya, serta tingkat kepuasan mereka terhadap proses pembelajaran. Setelah menganalisis hasil angket dan ujian, Kolmogorova menemukan bahwa nada suara teks pendidikan sangat mempengaruhi penilaian subjektif dari proses pendidikan dan efektivitas objektifnya. Rata-rata, siswa membuat lebih sedikit kesalahan pada teks sedih daripada yang menyenangkan dan netral, tetapi bekerja dengan mereka membawa kepuasan paling sedikit. Minat terbesar dibangkitkan oleh pekerjaan dengan teks-teks yang menggembirakan, tetapi pada saat yang sama efektivitas pelatihan lebih rendah.Sumber ketidakpastian yang signifikan dalam penelitian ini adalah metode yang digunakan untuk mengklasifikasikan polaritas emosional teks. Model ini dilatih pada teks dari satu area, dan diterapkan pada teks dari area lain tanpa verifikasi tambahan kualitas klasifikasi. Penulis tidak menjelaskan detail apa pun mengenai model klasifikasi, juga tidak memberikan informasi lebih lanjut tentang preprocessing dan pelatihan.

Dengan demikian, kesulitan utama dalam analisis buku teks adalah tidak adanya kosa kata emosional dan perangkat pelatihan tentang topik ini. Ketika peneliti menganalisis teks pada tingkat kata menggunakan kosakata emosional, biasanya satu representasi polaritas emosional yang tidak tergantung konteks diambil untuk setiap kata, terlepas dari lokasi kata dalam kalimat dan terlepas dari kemungkinan arti lainnya. Selain itu, untuk analisis teks pada level dokumen, menjadi sulit untuk mengasosiasikan teks dengan kelas emosi, karena teks dalam buku teks panjang, dan emosi yang berbeda dapat diekspresikan dalam satu teks.

5. Sumber data campuran

Untuk mencakup materi yang lebih luas, beberapa penelitian menggunakan teks dari sumber yang berbeda. Misalnya, jika penulis menggunakan berita dan konten media sosial, mereka tidak hanya dapat mengukur polaritas liputan peristiwa tertentu oleh kantor berita dan lembaga pemerintah, tetapi mereka juga dapat mengukur sikap orang terhadap berbagai topik yang dibahas.

Dalam sebuah makalah yang diterbitkan di Berkman Center for Internet & Society [97], Etling mengeksplorasi nada diskusi protes Ukraina selama periode Euromaidan di berbagai media online dan tradisional berbahasa Rusia dan Inggris, serta jejaring sosial. Studi ini menggunakan perangkat lunak Crimson Hexagon [166], yang didasarkan pada metode analisis yang dikembangkan oleh Hopkins dan King [167]. Teks diklasifikasikan menjadi empat kelas dalam hal sikap terhadap protes: positif, netral, negatif dan tidak relevan. Sumber datanya adalah publikasi berbahasa Rusia dan Inggris di Twitter, Facebook, blog, forum, dan situs berita untuk periode 21 November 2013 hingga 26 Februari 2014. Karena pembatasan Crimson Hexagon, teks dalam bahasa Ukraina tidak dipertimbangkan. Itu terungkap,bahwa sumber dan pengguna berbahasa Rusia menyatakan lebih banyak dukungan untuk protes daripada yang diharapkan. Teks berbahasa Inggris di AS dan Inggris lebih negatif daripada yang diharapkan berdasarkan dukungan ideologis dari pemerintah Barat. Pada saat yang sama, konten jejaring sosial di Inggris, AS, dan Ukraina lebih positif dibandingkan dengan media tradisional di negara-negara tersebut. Kelemahan utama dari studi ini terkait dengan model klasifikasi sentimen. Pertama, dia melatih jumlah data minimum, yaitu sekitar 120-140 publikasi yang diberi markup. Kedua, data pelatihan hanya dianotasi oleh satu penilai, yang bertentangan dengan praktik terbaik [142], [161], [162]. Keandalan dan kualitas klasifikasi belum diuji, yang bertentangan dengan prinsip dasar model pembelajaran mesin yang diawasi [168]. Selanjutnya,daftar lengkap sumber yang dianalisis tidak tersedia, sehingga sulit untuk memvalidasi keandalan pemilihannya. Selain itu, teks Ukraina tidak dipertimbangkan, dengan demikian mengecualikan berbagai pendapat.

Kazun menganalisis intensitas dan nada liputan di media dan jejaring sosial aktivitas Alexei Navalny berdasarkan data untuk 2014-2016 [80]. Dengan bantuan Medialogia, penulis menerima lebih dari 145.000 artikel berita tentang Navalny dari surat kabar Rusia, situs web, dan tiga saluran TV federal terbesar. Untuk menganalisis sentimen, Kazun menggunakan algoritme yang dikembangkan dalam Medialogi (klasifikasi menjadi kelas positif, negatif, atau netral), setelah sebelumnya memeriksanya pada dua ratus artikel yang ditandai secara manual. Ternyata media tradisional cenderung mengabaikan Navalny kecuali sesekali publikasi dokumen atau berita untuk merendahkan oposisi Rusia pada umumnya atau Navalny secara pribadi. Secara keseluruhan, Navalny mendapat liputan yang lebih positif di blog daripada di media lain. Namun, diskusi dalam artikel ini sebagian besar bersifat kritis.Penulis juga menjelaskan secara spesifik dari setiap jenis media, menjelaskan karakteristik strategi penerbitan dan pola nada. Terlepas dari negativitas umum, liputan berita tentang kegiatan Navalny menjadi lebih positif dari tahun ke tahun. Alasan tren ini adalah penurunan jumlah artikel kritis dan peningkatan jumlah artikel positif. Seperti dalam semua contoh yang ditemukan menggunakan algoritme analisis sentimen medialogi, penulis tidak menjelaskan metrik klasifikasi untuk topik target.Seperti dalam semua contoh yang ditemukan menggunakan algoritme analisis sentimen medialogi, penulis tidak menjelaskan metrik klasifikasi untuk topik target.Seperti dalam semua contoh yang ditemukan menggunakan algoritme analisis sentimen medialogi, penulis tidak menjelaskan metrik klasifikasi untuk topik target.

Dalam penelitiannya [79] Brantley menganalisis revolusi Ukraina 2013-2014 berdasarkan konten Twitter, Facebook, YouTube, blog, forum, dan situs berita. Dengan bantuan platform Crimson Hexagon, ia telah mengumpulkan koleksi 2.809.476 teks dalam bahasa Rusia, Ukraina, dan Inggris. Kami hanya mempertimbangkan teks yang diterbitkan dari Ukraina dalam periode dari 21 November 2013 hingga 1 Maret 2014. Dua penilai, yang fasih dalam ketiga bahasa tersebut, memberi anotasi pada set data pelatihan untuk algoritme BrightView, yang merupakan bagian dari Crimson Hexagon dan merupakan algoritme analisis data nonparametrik. dijelaskan dalam [166]. Teks dibagi menjadi tiga kategori: positif, netral dan negatif. Pengujian pada Crimson Hexagon menunjukkan kecocokan 92% dengan penilaian manual.Bersama-sama dengan data yang terkumpul, penulis menggunakan informasi dari Kumpulan Data Grafik Pengetahuan Global Nada dan Set Data Peristiwa dan dataset Bahasa Peristiwa Global [169]. Ternyata di Ukraina ada perbedaan yang mencolok antara asosiasi politik dan preferensi yang terkait dengan karakteristik linguistik. Hal ini selanjutnya dikonfirmasi oleh hasil pemungutan suara sebelumnya, ketika penutur bahasa Ukraina secara tradisional menyatakan lebih banyak dukungan untuk oposisi. Dengan membandingkan keterlibatan online dan offline secara langsung, Brantley menyimpulkan bahwa media sosial berpengaruh signifikan terhadap perkembangan fisik aksi protes, yaitu menyebabkan peningkatan jumlah pengunjuk rasa di jalanan.bahwa di Ukraina terdapat perbedaan mencolok antara asosiasi politik dan preferensi yang terkait dengan karakteristik linguistik. Hal ini selanjutnya dikonfirmasi oleh hasil pemungutan suara sebelumnya, ketika penutur bahasa Ukraina secara tradisional menyatakan lebih banyak dukungan untuk oposisi. Dengan membandingkan keterlibatan online dan offline secara langsung, Brantley menyimpulkan bahwa media sosial berpengaruh signifikan terhadap perkembangan fisik aksi protes, yaitu menyebabkan peningkatan jumlah pengunjuk rasa di jalanan.bahwa di Ukraina terdapat perbedaan mencolok antara asosiasi politik dan preferensi yang terkait dengan karakteristik linguistik. Hal ini selanjutnya dikonfirmasi oleh hasil pemungutan suara sebelumnya, ketika penutur bahasa Ukraina secara tradisional menyatakan lebih banyak dukungan untuk oposisi. Dengan membandingkan keterlibatan online dan offline secara langsung, Brantley menyimpulkan bahwa media sosial memiliki pengaruh yang signifikan terhadap perkembangan fisik protes, yaitu menyebabkan peningkatan jumlah pengunjuk rasa di jalanan.bahwa media sosial secara signifikan mempengaruhi perkembangan fisik protes, yang menyebabkan peningkatan jumlah pengunjuk rasa di jalanan.bahwa media sosial secara signifikan mempengaruhi perkembangan fisik protes, yang menyebabkan peningkatan jumlah pengunjuk rasa di jalanan.

Kerugian utama menggunakan sumber dari jenis yang berbeda adalah bahwa, selain berbagai pendapat yang diungkapkan, penulis menghadapi kesulitan dan keterbatasan yang merupakan karakteristik dari jenis sumber tertentu. Hal tersebut dapat dikaitkan dengan akses ke data perwakilan, deskripsi lengkap tentang batasan, kurangnya data pelatihan untuk topik yang dipilih. Dalam beberapa penelitian, analisis sentimen dan agregasi indeks emosi dilakukan atas dasar berbagai teks tanpa membedakan jenis sumber. Misalnya, ketika menggabungkan emosi, penulis menganggap publikasi media sosial dan artikel berita sebagai unit yang setara. Mungkin, dalam kasus seperti itu, lebih logis menggunakan model yang lebih kompleks yang menggunakan bobot untuk menganalisis teks dari berbagai jenis sumber dengan lebih tepat.

6. Selanjutnya

Dalam beberapa hari, bagian terakhir akan dirilis, di mana kami akan berbicara tentang kesulitan umum yang dihadapi oleh para peneliti, serta arahan yang menjanjikan untuk masa depan. Jika Anda ingin membaca seluruh artikel sekaligus dan dalam bahasa Inggris, buka di sini .

7. Sumber

Daftar lengkap sumber dapat ditemukan di sini .

Analisis sentimen dalam teks berbahasa Rusia, bagian 2: penelitian dasar