
Analisis sentimen telah menjadi alat yang ampuh untuk memproses opini berskala besar yang diungkapkan dalam sumber teks apa pun. Aplikasi praktis alat ini dalam bahasa Inggris cukup berkembang, yang tidak bisa dikatakan tentang Rusia. Dalam rangkaian artikel ini, kami akan membahas bagaimana dan untuk tujuan apa pendekatan analisis sentimen digunakan untuk teks berbahasa Rusia, hasil apa yang dicapai, masalah apa yang muncul, dan juga berbicara sedikit tentang arah yang menjanjikan. Tidak seperti karya sebelumnya, saya berfokus pada aplikasi terapan, dan bukan pada pendekatan itu sendiri dan kualitas klasifikasinya. Bagian pertama adalah pengantar. Kami akan mempertimbangkan apa itu "analisis sentimen", apa itu analisis sentimen, dan bagaimana analisis tersebut digunakan selama 8 tahun terakhir untuk menganalisis teks berbahasa Rusia. Di bagian keduaMari kita lihat lebih dekat masing-masing dari 32 studi utama yang saya temukan. Pada bagian ketiga dan terakhir (sekali lagi, minggu depan), kita akan berbicara tentang kesulitan umum yang dihadapi oleh para peneliti, serta tentang arah yang menjanjikan untuk masa depan.
NB: Artikel itu ditulis untuk jurnal ilmiah, jadi banyak link ke sumbernya.
1. Perkenalan
Analisis sentimen adalah kelas metode analisis isi dalam linguistik komputasi, yang tugas utamanya adalah mengklasifikasikan teks menurut moodnya. Dengan menggunakan analisis sentimen, peneliti dapat menggeneralisasi sentimen teks dan menarik kesimpulan tentang berbagai topik. Misalnya, analisis ini memungkinkan untuk memprediksi pasar sekuritas [1], menghitung indeks kesejahteraan subjektif [2], memprediksi hasil pemilihan [3], menilai reaksi terhadap beberapa peristiwa atau berita [4]. Analisis sentimen untuk bahasa Inggris sudah berkembang dengan baik [5] - [7], sementara bahasa lain, terutama bahasa Rusia, kurang mendapat perhatian sejauh ini. Menurut sebuah studi oleh Omnibus GFK [9], 75,4 orang Rusia (90 juta orang) berusia di atas 16 tahun menggunakan Internet. Ada diaspora berbahasa Rusia di semua benua, tetapi sebagian besar dari mereka tinggal di CIS,kebanyakan di Rusia dan Ukraina. Menurut sebuah studi oleh W3Techs, bahasa Rusia adalah salah satu bahasa terkemuka dalam hal prevalensi di Internet. Pada April 2020, 8,6% dari 10 juta situs web paling populer di dunia menggunakan bahasa Rusia. Oleh karena itu, teks berbahasa Rusia merupakan sumber data penting untuk analisis otomatis, khususnya analisis sentimen.
Hanya satu studi survei [10] yang dilakukan oleh Viksna dan Jekabsons yang dikhususkan untuk analisis sentimen teks berbahasa Rusia. Beberapa orang lain [11] - [14] menyebutkannya dalam konteks perbandingan umum dengan pendekatan yang ada. Beberapa penelitian lain dikhususkan untuk aspek spesifik dari analisis sentimen teks berbahasa Rusia. Misalnya, penilaian pendekatan terbaik [15] - [18], perbandingan arsitektur jaringan saraf untuk analisis sentimen [19], [20], perbandingan pilihan kosakata bahasa Rusia terbuka untuk penilaian sentimen [21]. Namun, semua studi ini berfokus pada pendekatan itu sendiri dan kecepatan klasifikasinya, daripada pada aplikasi praktis dan hasil analisis. Saya hanya mempertimbangkan karya-karya itu, yang hasil analisisnya didapat berdasarkan data nyata. Dan saya tidak menganggap mereka yang dikhususkan hanya untuk pengklasifikasi pelatihan.Artikel ini adalah terjemahan singkat dari artikel yang diterbitkan di IEEE Access. Jika Anda ingin lebih detail, atau hanya membaca dalam bahasa Inggris - Andadisini .
Bagian kedua menjelaskan secara singkat tugas analisis sentimen dan pendekatan saat ini, jika Anda sudah terbiasa dengan hal ini, silakan lewati. Bagian ketiga adalah salah satu utama, membahas penggunaan analisis sentimen untuk teks-teks berbahasa Rusia, juga menjelaskan 32 studi utama, wawasan dan kelemahan mereka. Bagian keempat berfokus pada tantangan saat ini, dan bagian kelima pada bidang yang menjanjikan.
2. Secara singkat tentang metode analisis sentimen
Analisis sentimen adalah kelas metode analisis isi dalam linguistik komputasi, yang tugas utamanya adalah mengklasifikasikan teks menurut mood-nya. Dalam kasus sederhana, masalah analisis sentimen direduksi menjadi klasifikasi biner teks menjadi positif dan negatif. Dalam beberapa kasus, tambahkan kelas teks netral lainnya. Pendekatan yang lebih maju mencoba untuk mengidentifikasi keadaan emosional yang terkait dengan teks, seperti ketakutan, kemarahan, kesedihan, atau kebahagiaan. Dalam sejumlah pendekatan, teks diberi nilai dari skala yang telah ditentukan: misalnya, dari -2 untuk negatif ke 2 untuk positif; dengan demikian, analisis direduksi menjadi masalah regresi. Analisis sentimen berbasis aspek adalah bagian dari analisis sentimen, yang tugasnya menentukan sikap terhadap aspek tertentu dari subjek utama diskusi.Semua pendekatan untuk analisis sentimen dapat dibagi menjadi tiga kelompok.
Yang pertama adalah pendekatan berbasis aturan(berbasis aturan). Paling sering, mereka menggunakan aturan klasifikasi yang ditentukan secara manual dan kosakata yang ditandai secara emosional. Aturan ini biasanya menghitung kelas teks [22] - [24] berdasarkan kata kunci emosional dan kombinasinya dengan kata kunci lainnya. Meskipun sangat efektif pada materi pelajaran, metode berbasis aturan tidak dapat digeneralisasikan dengan baik. Selain itu, pembuatannya sangat memakan waktu, terutama bila tidak ada akses ke kamus sentimen yang sesuai. Yang terakhir ini merupakan ciri khas bahasa Rusia, karena sumber di dalamnya tidak sebanyak dalam bahasa Inggris, terutama di bidang analisis sentimen. Kamus sentimen bahasa Rusia terbesar adalah RuSentiLex [25] dan LINIS Crowd [26]. Tetapi mereka hanya memuat informasi tentang nada suara dari positif ke negatif, tanpa ciri-ciri emosi. Lewat sini,tidak ada alternatif untuk kompilasi bahasa Inggris yang kuat dengan karakteristik emosional yang luas seperti SenticNet [27], SentiWordNet [28] dan SentiWords [29].
Kelompok kedua - pendekatan pembelajaran mesin... Mereka menggunakan ekstraksi fitur otomatis dari teks dan menerapkan algoritma pembelajaran mesin. Algoritma klasik untuk klasifikasi polaritas adalah Naive Bayes Classifier [30], Decision Tree [31], Logistic Regression [32], dan Support Vector Machine [33]. Dalam beberapa tahun terakhir, perhatian para peneliti telah tertarik dengan metode pembelajaran mendalam, yang secara signifikan lebih unggul daripada metode tradisional dalam analisis sentimen [34]. Hal ini dikonfirmasi oleh kronologi kompetisi SemEval, di mana solusi terkemuka berhasil menggunakan jaringan saraf konvolusional (CNN) dan berulang (RNN) [35] - [37], serta metode pembelajaran transfer [38].Salah satu fitur utama sistem berbasis pembelajaran mesin adalah ekstraksi fitur otomatis dari teks. Pendekatan sederhana untuk merepresentasikan teks dalam ruang vektor biasanya menggunakan model bag of words. Dalam sistem yang lebih kompleks, model semantik distribusi digunakan untuk menghasilkan embeddings kata, misalnya, Word2Vec [39], GloVe [40] atau FastText [41]. Ada juga algoritme untuk menghasilkan embeddings pada level kalimat atau paragraf, yang dirancang untuk mentransfer pembelajaran ke berbagai tugas pemrosesan bahasa alami. Algoritma ini termasuk ELMo [42], Universal Sentence Encoder (USE) [27], Representasi Bidirectional Encoder dari Transformers (BERT) [43], Enhanced Language Representation with Informative Entities (ERNIE) [44], dan XLNet [45].Salah satu kelemahan utama mereka dalam hal menghasilkan embeddings adalah kebutuhan akan teks dalam jumlah besar untuk pelatihan. Namun, ini berlaku untuk semua metode pembelajaran mesin, karena semua algoritme pembelajaran yang diawasi memerlukan kumpulan data berlabel untuk dilatih.
Kelompok ketiga - pendekatan hibrida... Mereka menggabungkan pendekatan dari dua tipe sebelumnya. Misalnya, Kumar dan rekan-rekannya telah mengembangkan kerangka hibrid untuk analisis sentimen dalam bahasa Persia yang menggabungkan aturan linguistik, jaringan saraf konvolusional, dan LSTM untuk klasifikasi sentimen [46]. Meskele dan Frasincar mengusulkan model analisis aspek hybrid ALDONAr yang menggabungkan ontologi sentimen untuk menangkap informasi sentimen, BERT untuk embeddings kata, dan dua lapisan CNN untuk klasifikasi sentimen yang diperluas [47]. Model tersebut menunjukkan akurasi 83,8% pada dataset SenEval 2015 Task 12 [48] dan 87,1% pada dataset SemEval 2016 Task 5 [49]. Model bahasa sering digunakan dalam algoritma hybrid, seperti solusi berbasis aturan [50] - [52]. Satu sisi,kombinasi metode berbasis aturan dan pembelajaran mesin biasanya menghasilkan hasil yang lebih akurat. Di sisi lain, pendekatan hybrid mewarisi kesulitan dan keterbatasan algoritme penyusunnya.
3.
Untuk menemukan publikasi utama tentang analisis sentimen terapan teks berbahasa Rusia, saya mencari database ilmiah yang mencakup jurnal dan konferensi ilmu komputer terkemuka: IEEE Xplore, ACM Digital Library, ScienceDirect, SAGE Journals Online, dan Springer Link . Untuk memperluas jangkauan sumber, selain artikel berbahasa Inggris, saya juga mempelajari artikel berbahasa Rusia dari Russian Science Citation Index (RSCI). Pencarian dilakukan dengan query (('' SENTIMENT '' OR '' POLARITY '') AND ('' ANALYSIS '' OR '' DETECTION '' OR '' CLASSIFICATION '' OR '' OPINION MINING '' OR '' TOPIC MODELING ' ') DAN (' 'RUSIA' 'atau' 'RUSIA' ')).Sebagian besar artikel yang relevan ditemukan di ScienceDirect , Springer Link, dan RSCI... Saya juga meninjau publikasi awal dari karya peneliti terkemuka agar tidak ketinggalan perkembangan baru. Hasilnya, beberapa ribu artikel yang berpotensi relevan dikumpulkan, tidak termasuk literatur abu-abu dan pracetak. Karya terbaru dan paling banyak dikutip lebih disukai. Kemudian saya menganalisis judul, kata kunci, dan perkenalan dari sisa publikasi untuk mempersempit pilihan sumber saya. Pencarian dilakukan hanya pada artikel peer-review untuk meningkatkan kualitas sampel. Saya telah mengecualikan sumber abu-abu (misalnya, pekerjaan yang sedang berlangsung, editorial, disertasi apa pun), serta sumber yang tidak sesuai untuk penelitian saya (yang tidak menerapkan model klasifikasi sentimen). Kemudian, untuk penjelasan rinci lebih lanjut dalam artikel ini, saya memilih 32 publikasi besar secara manual,yang menjelaskan setidaknya satu pendekatan praktis untuk analisis sentimen dalam teks berbahasa Rusia.
4.

. 1. .
Saya memutuskan untuk mengkategorikan pendekatan berdasarkan sumber data, karena dalam hal ini pendekatan dalam kategori akan memiliki tujuan, tantangan dan keterbatasan yang serupa. Meskipun beberapa kategori hanya berisi satu studi, saya memutuskan untuk menyoroti mereka karena perbedaan mendasar dalam pendekatan yang digunakan, hasil, dan kesulitan. Juga, jangan lupa bahwa bahasa Rusia kurang banyak dipelajari dalam hal analisis sentimen, sehingga jumlah karyanya terbatas. Dalam gambar. 1 menyajikan serangkaian kategori. Sebagian besar pendekatan mengandalkan analisis data media sosial untuk mengukur sikap pengguna terhadap berbagai topik. Misalnya sikap dan pendapat tentang konflik di Ukraina dan masalah yang berkaitan dengan migran. Dalam dekade terakhir, banyak jejaring sosial telah berubah menjadi alat modern untuk keterlibatan sosial [53],Oleh karena itu, mereka dapat dianggap sebagai sumber opini publik yang terbuka dan tersedia secara luas, atau setidaknya sebagai semacam refleksi dari opini publik [54]. UGC dari jejaring sosial, sebagai sumber informasi yang paling umum, diperiksa menurut tiga kriteria: sikap terhadap topik yang berbeda; indeks suasana hati sosial; fitur interaksi pengguna dengan data yang mengekspresikan suasana hati yang berbeda. Sikap terhadap topik yang berbeda dipelajari dari sudut pandang yang berbeda. Misalnya, sikap terhadap migran dan kelompok etnis (misalnya, [55]), ekspresi sentimen selama krisis Ukraina (misalnya, [56]), mengukur tingkat ketegangan sosial (misalnya, [57]), atau berfokus pada wacana tentang beberapa pertanyaan (misalnya, [58]). Biasanya pendekatan ini menggunakan kombinasi pemodelan topik dan analisis sentimen,untuk menyoroti tema dan suasana hati terkait. Dalam banyak penelitian (misalnya, [59] - [67]) di mana pemodelan topik diterapkan tanpa klasifikasi polaritas lebih lanjut (dan oleh karena itu tidak dipertimbangkan dalam artikel ini), analisis sentimen disebut sebagai tahap pengembangan lebih lanjut. Di bagian lain dari penelitian (misalnya, [68]) indeks sikap sosial dihitung berdasarkan opini yang diungkapkan dalam jaringan sosial untuk mendapatkan alternatif dari indeks tradisional kesejahteraan subjektif. Akhirnya, penelitian lain (misalnya, [69]) meneliti pola interaksi pengguna dengan konten tergantung pada warna emosionalnya. Salah satu kesulitan utama dalam studi semacam itu adalah ekstraksi sampel data yang representatif dan pemilihan teks yang relevan untuk analisis lebih lanjut.Dalam banyak penelitian (misalnya, [59] - [67]), di mana pemodelan topik diterapkan tanpa klasifikasi polaritas lebih lanjut (dan karena itu tidak tercakup dalam artikel ini), analisis sentimen disebut sebagai tahap pengembangan lebih lanjut. Di bagian lain dari penelitian (misalnya, [68]) indeks sikap sosial dihitung berdasarkan opini yang diungkapkan dalam jaringan sosial untuk mendapatkan alternatif dari indeks tradisional kesejahteraan subjektif. Akhirnya, penelitian lain (misalnya, [69]) meneliti pola interaksi pengguna dengan konten tergantung pada warna emosionalnya. Salah satu kesulitan utama dalam studi tersebut adalah ekstraksi sampel data yang representatif dan pemilihan teks yang relevan untuk analisis selanjutnya.Dalam sebagian besar penelitian (misalnya, [59] - [67]), di mana pemodelan topik diterapkan tanpa klasifikasi polaritas lebih lanjut (dan karena itu tidak tercakup dalam artikel ini), analisis sentimen disebut sebagai tahap pengembangan lebih lanjut. Di bagian lain dari penelitian (misalnya, [68]), indeks sikap sosial dihitung berdasarkan opini yang diungkapkan dalam jaringan sosial untuk mendapatkan alternatif dari indeks tradisional kesejahteraan subjektif. Akhirnya, penelitian lain (misalnya, [69]) meneliti pola interaksi pengguna dengan konten tergantung pada warna emosionalnya. Salah satu kesulitan utama dalam studi semacam itu adalah ekstraksi sampel data yang representatif dan pemilihan teks yang relevan untuk analisis lebih lanjut.di mana pemodelan tematik diterapkan tanpa klasifikasi polaritas lebih lanjut (dan karena itu tidak tercakup dalam artikel ini), analisis sentimen disebut sebagai tahap pengembangan lebih lanjut. Di bagian lain dari penelitian (misalnya, [68]) indeks sikap sosial dihitung berdasarkan opini yang diungkapkan dalam jaringan sosial untuk mendapatkan alternatif dari indeks tradisional kesejahteraan subjektif. Akhirnya, penelitian lain (misalnya, [69]) meneliti pola interaksi pengguna dengan konten tergantung pada warna emosionalnya. Salah satu kesulitan utama dalam studi semacam itu adalah ekstraksi sampel data yang representatif dan pemilihan teks yang relevan untuk analisis lebih lanjut.di mana pemodelan tematik diterapkan tanpa klasifikasi polaritas lebih lanjut (dan karena itu tidak tercakup dalam artikel ini), analisis sentimen disebut sebagai tahap pengembangan lebih lanjut. Di bagian lain dari penelitian (misalnya, [68]), indeks sikap sosial dihitung berdasarkan opini yang diungkapkan di jaringan sosial untuk mendapatkan alternatif dari indeks kesejahteraan subjektif tradisional. Akhirnya, penelitian lain (misalnya, [69]) meneliti pola interaksi pengguna dengan konten tergantung pada warna emosionalnya. Salah satu kesulitan utama dalam studi tersebut adalah ekstraksi sampel data yang representatif dan pemilihan teks yang relevan untuk analisis selanjutnya.
Sumber informasi paling umum berikutnya adalah ulasan produk dan layanan. Mereka dianalisis dalam hal karakteristik peninjau itu sendiri (misalnya, [70]), karakteristik produk dan layanan (misalnya, [71]), dan karakteristik penjual (misalnya, [72]). Berbeda dengan analisis data yang dihasilkan pengguna dari jejaring sosial, tidak ada kesulitan dalam mengakses data lama. Situs yang didedikasikan untuk ulasan sering kali memungkinkan pengguna untuk menilai peringkat selain teks ulasan, jadi tidak ada kebutuhan formal untuk membuat model klasifikasi sentimen, karena kita sudah mengetahui kelas peringkat. Namun, dalam beberapa studi, model klasifikasi sentimen hanya digunakan untuk kepentingan akademis. Karena data pengguna media sosial dan ulasan pengguna sering kali mencerminkan sudut pandang subjektif,menganalisis data ini berbeda dengan menganalisis berita. Biasanya, jurnalis mencoba menghindari penilaian dan bias langsung, keraguan dan ambiguitas, karena objektivitas adalah inti dari profesi mereka. atau setidaknya netralitas [73]. Oleh karena itu, jurnalis seringkali tidak menggunakan kata-kata yang berhubungan dengan kosakata positif atau negatif, tetapi menggunakan cara lain untuk mengungkapkan pendapatnya [74].
Sumber utama ketiga adalah berita dari media, yang dianalisis menurut dua kriteria: sentimen (misalnya, [75]) dan pembentukan prakiraan ekonomi dan bisnis berdasarkan sentimen berita (misalnya, [76]). Berbeda dengan analisis data yang dihasilkan pengguna dari jejaring sosial, tidak ada kesulitan dalam mengakses data lama, karena biasanya media tidak membatasi aksesnya. Namun, penulis beberapa studi telah mencoba untuk mengetahui sikap masyarakat terhadap topik tertentu, yang menurut saya memerlukan elaborasi lebih lanjut. Tentu, media bisa dianggap sebagai cerminan opini publik. Namun dalam beberapa kasus, kebijakan editorial mungkin memengaruhi penyampaian, sehingga berita tidak selalu mencerminkan opini publik. Para peneliti kurang memperhatikan arah terbaru: analisis sentimen buku teks,studi semacam itu hanya muncul pada 2019. Karya-karya ini fokus pada perbandingan sentimen yang diekspresikan dalam buku teks yang berbeda (misalnya, [77]) dan dampak sentimen ini pada proses pendidikan (misalnya, [78]). Tantangan utama berasal dari kurangnya kosa kata khusus suasana hati dan kumpulan data pembelajaran yang berorientasi pada buku teks. Selain itu, dalam kasus teks analitik pada tingkat dokumen, menjadi sulit untuk mengasosiasikan teks dengan kelas suasana hati tertentu, karena teks dalam buku teks panjang dan mungkin berisi beberapa emosi yang berbeda sekaligus.berorientasi buku teks. Selain itu, dalam kasus teks analitik pada tingkat dokumen, menjadi sulit untuk mengasosiasikan teks dengan kelas suasana hati tertentu, karena teks dalam buku teks panjang dan dapat berisi beberapa emosi yang berbeda sekaligus.berorientasi buku teks. Selain itu, dalam kasus teks analitik pada tingkat dokumen, menjadi sulit untuk mengasosiasikan teks dengan kelas suasana hati tertentu, karena teks dalam buku teks panjang dan mungkin berisi beberapa emosi yang berbeda sekaligus.
Untuk mendapatkan opini yang lebih luas, beberapa studi beroperasi dengan sumber data yang beragam. Dalam kelompok ini, peneliti biasanya mempelajari sikap terhadap topik yang berbeda, seperti krisis Ukraina (misalnya [79]) atau liputan media tentang Alexei Navalny (misalnya [80]). Karena sumbernya bercampur, data tersebut dapat digunakan untuk penelitian apa pun yang memungkinkan. Namun, selain berbagai pendapat yang diungkapkan, penulis juga menghadapi kompleksitas dan keterbatasan sumber yang melekat.
Rangkuman pendekatan yang ditemukan disajikan pada Tabel 1. Jika kita mempertimbangkan distribusi artikel berdasarkan tahun, kita dapat melihat bahwa jumlah studi tentang sentimen teks berbahasa Rusia meningkat pada 2014-2016 dan mencapai puncaknya pada 2017. Jumlah artikel yang diterbitkan dalam jurnal dan prosiding konferensi yang sama agak bervariasi. Lebih dari satu artikel yang dianalisis diterbitkan hanya di tujuh jurnal dan koleksi. Sebagian besar artikel yang ditemukan diterbitkan dalam kumpulan materi konferensi "Transformasi Digital dan Masyarakat Global".
Tabel 1. Ringkasan Studi yang Ditemukan. RB - pendekatan berbasis aturan, ML - pendekatan pembelajaran mesin, UNK - pendekatan tidak dikenal, WL - analisis tingkat kata, DL - analisis tingkat dokumen.
Kategori | Janji | Deskripsi | Tautan | ||
---|---|---|---|---|---|
UGC | . | [81] | ML (Logit) | DL | |
[82] | ML (Logit) | DL | |||
[83] | ML (Logit) | DL | |||
[84] | RB (SentiStrength) | DL | |||
[55] | ML (SVM) | DL | |||
. | [85] | RB (custom) | DL | ||
[86] | RB (POLYARNIK) | DL | |||
[87] | RB (SentiMental) | DL | |||
[88] | UNK (IQBuzz) | DL | |||
[56] | RB (custom) | DL | |||
. | [89] | ML (SVM) | DL | ||
[57] | RB (SentiStrength) | DL | |||
. | [58] | DL | |||
2014 . | [90] | RB (SentiStrength) | DL | ||
2011-2012. | [91] | RB (SentiStrength) | DL | ||
-. | [92] | ML (NBC) | DL | ||
. | [93] | RB (custom) | WL, DL | ||
[68] | ML (GBM) | DL | |||
. | [69] | ML (BiGRU) | DL | ||
, . | [70] | DL | |||
- . | [71] | ML (NB, SGD) | DL | ||
, . | [72] | ML (RNTN) | DL | ||
. | [94] | RB (custom) | DL | ||
[95] | RB (custom) | DL | |||
. | [96] | RB (custom) | DL | ||
. | [75] | UNK (Medialogia) | DL | ||
. | [76] | ML (SVM) | DL | ||
. | [77] | RB (custom) | WL | ||
, . | [78] | ML ( ) | DL | ||
[97] | UNK (Crimson Hexagon) | DL | |||
[79] | UNK (Crimson Hexagon) | DL | |||
[80] | UNK (Medialogia) | DL |
Rasio pendekatan berbasis aturan (40,63%) dan pembelajaran mesin (37,5%) kurang lebih sama. Grup pertama paling sering menggunakan model berbasis aturan individual atau SentiStrength [22], yang telah menjadi algoritme paling populer di antara solusi siap pakai pihak ketiga. Dan pada kelompok kedua, regresi logistik [32], mesin vektor pendukung [33] dan pengklasifikasi Bayesian naif [30] paling sering digunakan. Yang paling populer adalah metode pembelajaran mesin sederhana, dan hanya 16,7% yang menggunakan jaringan neural. Namun, sejak 2019, pangsa pendekatan pembelajaran mesin telah secara signifikan melampaui pangsa pendekatan berbasis aturan. 15,6% dari studi menemukan menggunakan layanan cloud pihak ketiga seperti Medialogia, IQBuzz, dan Crimson Hexagon untuk analisis sentimen.Dalam kasus ini, saya tidak dapat menentukan pendekatan yang digunakan karena kurangnya informasi resmi tentang algoritme klasifikasi yang diterapkan.
Dalam beberapa kasus ditemukan kekurangan metodologi, antara lain kurangnya deskripsi preprocessing, markup data, proses pembelajaran, dan metrik kualitas klasifikasi. Dalam sejumlah kasus, model klasifikasi tidak divalidasi pada set data yang terkait dengan area subjek. Hal ini terutama berlaku untuk analisis sentimen yang menggunakan pendekatan berbasis aturan atau layanan pihak ketiga - peneliti biasanya tidak menandai kumpulan teks secara manual dan oleh karena itu tidak dapat menilai kualitas klasifikasi.
5. Selanjutnya
Bagian kedua dari artikel ini akan dirilis minggu depan, di mana kita akan melihat lebih dekat masing-masing dari 32 studi utama yang saya temukan. Pada bagian ketiga dan terakhir (sekali lagi, minggu depan), kita akan berbicara tentang kesulitan umum yang dihadapi oleh para peneliti, serta tentang arah yang menjanjikan untuk masa depan. Jika Anda ingin membaca seluruh artikel sekaligus dan dalam bahasa Inggris, buka di sini .
6. Sumber
Daftar lengkap sumber dapat ditemukan di sini .