Perbandingan teks
Misalkan kita memiliki tiga teks: dua tentang anjing dan satu tentang kucing. Bagaimana Anda membandingkannya satu sama lain?
Kita dapat menghitung berapa banyak setiap kata yang muncul dalam teks, dalam kasus kita, kita akan menghitung kucing dan anjing, dan jika ada lebih banyak anjing daripada kucing dalam teks, maka kita dapat menyimpulkan bahwa mereka (teks) hampir sama.
Faktanya, tidak selalu demikian. Bayangkan situasi di mana ada teks yang sangat panjang tentang anjing dan ada lebih banyak kata di dalamnya. Untungnya, Anda bisa keluar dari situasi ini dengan membandingkan jarak kosinus.
bag-of-words , , , «» «» . , , . , ? . bag-of-words , «» «» .
. , , . , «» «». – . python : pymorphy pymystem. , . .
. , , .
, . , «» — «» — «», , «» «», «».
Word2Vec
, . , Word2Vec. ? , . , , . Word2Vec :
, .. . , , . 10 . .
, , , IT, .. . ? () «». «» «» , , , , .
, pyLDAvis , .
, . , . . udpipe.
, , : « ». , , «».
, udpipe , , .
Terlepas dari kenyataan bahwa semua alat dianggap menggunakan contoh sederhana, NLP memiliki berbagai tugas yang harus diselesaikan: mengklasifikasikan permintaan karyawan, mengevaluasi ulasan pelanggan, menganalisis pesan dari chatbot. Jadi, beberapa instrumen lagi muncul di tangan kami.