Tiga paus analisis linguistik, yang tanpanya InfoWatch Traffic Monitor tidak dapat bekerja

gambar



Halo! Hari ini kita akan berbicara tentang bagaimana linguistik diintegrasikan ke dalam pekerjaan sistem DLP dan bagaimana ini membantu kita melindungi data penting dari serangan jahat.



Belakangan ini, kebutuhan perusahaan untuk melindungi data dari kebocoran informasi rahasia telah tumbuh secara signifikan. Pergeseran karyawan ke mode kerja jarak jauh telah menyebabkan peningkatan yang signifikan dalam serangan siber dan kejahatan di bidang keamanan informasi: menurut laporan analis, pada sepertiga pertama tahun 2020, jumlah kebocoran informasi rahasia dari perusahaan Rusia meningkat sebesar 38%, dan tren ini terus berkembang.



Biasanya, dokumen hukum, dokumen keuangan, data pribadi karyawan dan klien, dll. Sedang diserang. Untuk melindungi data rahasia dari penyusup, perusahaan memasang sistem DLP (Pencegahan Kehilangan Data) untuk mencegah kebocoran informasi.



Teknologi analisis linguistik sangat terintegrasi ke dalam pekerjaan banyak sistem DLP, karena analisis konten merupakan dasar yang tidak berubah-ubah untuk memfilter lalu lintas untuk mendeteksi pelanggaran, dan kualitas teknologi sangat menentukan kualitas produk itu sendiri.



Analisis Linguistik: Cara Kerjanya



Teknologi analisis linguistik memungkinkan untuk secara otomatis menentukan topik dan apakah informasi yang dianalisis bersifat rahasia, berdasarkan istilah dan kombinasinya yang ditemukan di dalamnya .



Untuk memulainya, kami melakukan analisis awal terhadap dokumen: setelah perusahaan pelanggan menentukan volume dan isi dokumen yang dirahasiakan dan yang perlu dilindungi (sebaiknya ada setidaknya sepuluh sampel dokumen untuk setiap kategori informasi yang dilindungi). Jika pelanggan tidak memahami dokumen apa yang harus dia berikan, Anda dapat fokus pada daftar informasi terbatas yang diterima di organisasi pelanggan), ahli bahasa menyoroti istilah- Kata-kata atau frase yang merupakan karakteristik dari industri tertentu dan merinci teks tersebut. Di sini sangat penting bahwa istilah tersebut paling sering ditemukan dalam teks dokumen satu industri dan sangat jarang ditemukan di industri lain (misalnya, untuk sektor perbankan, istilah tipikal dapat berupa “saldo kas”, “layanan penyelesaian dan kas” atau “simpanan”).



- Selanjutnya, istilah dikategorikan . Jumlah kategori tidak bersifat deterministik, namun semakin banyak kategori yang dipilih maka semakin heterogen klasifikasi tersebut. Kategori mengelompokkan istilah ke dalam kelompok konseptual umum untuk membantu mengatur informasi dengan lebih jelas.



Saat mengkategorikan suatu istilah, ahli bahasa dapat mendefinisikannya sebagai "karakteristik". Karakteristik adalah istilah yang hanya ditemukan di kategori yang memasukkannya, dan tidak muncul di kategori lainnya. Jika bahkan satu istilah seperti itu ditemukan dalam teks yang dipotong, teks ini secara otomatis termasuk dalam kategori tempat istilah ini berada.



Secara umum, ada dari tiga istilah dalam kategori (jumlah minimum istilah non-karakteristik, setelah deteksi sistem mendeteksi teks sebagai rahasia) hingga beberapa ribu, tergantung pada spesifikasi kategori. Jika ini adalah kategori yang hanya terdiri dari istilah karakteristik (misalnya, "Narkoba", "Terorisme", dll.), Maka mungkin terdapat beberapa ribu istilah dalam kategori tersebut. Jika suatu kategori terdiri dari istilah non-karakteristik (biasanya, ini adalah kategori berdasarkan dokumentasi perusahaan - personalia, akuntansi, informasi hukum), maka disarankan untuk membatasi jumlah istilah menjadi beberapa lusin (dari tiga menjadi lima puluh).



gambar



- Kemudian ahli bahasa memasukkan kategori ke dalam basis data pemfilteran konten (BCF), atas dasar analisis linguistik yang dilakukan. Basis pemfilteran konten adalah kamus yang terstruktur secara hierarki yang menyertakan daftar kategori dan istilah.



BKF bekerja sebagai pengklasifikasi yang menjadi dasar distribusi tematik dari informasi yang dianalisis terjadi.



Saat menambahkan istilah non-karakteristik ke BCF, mereka diberi bobot- angka dari 1 hingga 10 (secara default, saat membuat kategori, bobot disetel ke 5). Nilai bobot untuk istilah dalam kategori harus proporsional dengan rasio frekuensi penggunaan istilah dalam teks, dan justru frekuensi penggunaan istilah relatif satu sama lain - frekuensi mereka relatif terhadap kata-kata dalam teks yang tidak termasuk dalam BKF tidak masalah, misalnya jika dalam salah satu kategori BKF kami akan memperkenalkan istilah “glokaya”, “kuzdra” dan “shtekto” dan mengaturnya dengan bobot yang sama (tidak masalah jika mereka memiliki berat 10 atau 1), maka teks “Glokaya kuzdra shteko mencekik sisi dan ikal bokrenka” akan terdeteksi dengan relevansi 1. Jika Dalam teks yang diteruskan, kata "glokaya" dan "kuzdra" akan muncul 10 kali, dan "shteko" - 100 kali, relevansi teks kategori dengan bobot yang sama untuk semua istilah akan berkurang dan akan menjadi sekitar 0,69.Dalam hal ini, masuk akal untuk menetapkan bobot istilah "gloka" dan "kuzdra" menjadi 1, dan untuk istilah "shteko" - 10. Kemudian relevansi teks yang dikirim akan menjadi 1. Jelas bahwa tidak selalu mungkin untuk mengamati proporsi yang begitu ketat, tetapi orang harus berjuang untuk itu.



Untuk menentukan relevansi teks dengan kategori tertentu, salah satu model pencarian klasik digunakan - model vektor. Ini adalah cara yang cukup populer untuk bekerja dengan berbagai objek linguistik.



gambar



Ide utama dapat dijelaskan sebagai berikut: ada ruang tertentu yang didefinisikan oleh berbagai istilah (dalam kasus kami, ini adalah dokumen yang dicegat oleh sistem yang berisi informasi tekstual). Sebuah vektor dibuat untuk dokumen yang dicegat, nilai setiap koordinat vektor akan menjadi berapa kali istilah yang sesuai digunakan dalam dokumen ini. Vektor serupa dibangun untuk setiap kategori BKF. Dimensi vektor adalah sama untuk semua teks yang dianalisis dan sama dengan jumlah kata di BKF.



Kemudian nilai relevansi dari vektor dapat dihitung sebagai kosinus sudut antara mereka, menggunakan perkalian titik dan norma:



gambar



Kesamaan kosinus dari dokumen yang dicegat dan suku-suku dari BKF bervariasi dalam kisaran dari 0 hingga 1: semakin besar nilai ini, semakin mirip dokumen tersebut dengan satu kategori atau lainnya.



Teknologi analisis linguistik berdasarkan basis pemfilteran konten memiliki sejumlah keunggulan dibandingkan teknologi klasifikasi teks lainnya (yang juga digunakan oleh ahli bahasa InfoWatch untuk menganalisis dokumen, tetapi akan dibahas lebih lanjut nanti).



Ciri pembeda utama BKF adalah "fleksibilitasnya" dan kemampuannya untuk menyesuaikan dasar-dasar kebutuhan perusahaan tertentu. Ahli bahasa secara manual mengisi dan menyesuaikan konten BKF, dengan demikian menyempurnakan teknologi untuk setiap pelanggan.



Teknologi analisis linguistik berdasarkan BKF memungkinkan Anda menemukan istilah dan frasa yang diperlukan, dengan mempertimbangkan transliterasi, adanya kesalahan ketik dan morfologi: misalnya, dengan istilah "sewa transportasi" tertentu, sistem akan bereaksi terhadap "sewa transportasi" dan "sewa transportasi", yaitu e. untuk semua kemungkinan kombinasi infleksi istilah ini dengan salah cetak. Pencarian dilakukan berdasarkan kamus morfologis (untuk Rusia itu adalah kamus A.A.Zaliznyak, untuk bahasa asing - kamus yang dibuat secara terpisah). Detektor kesalahan ketik tidak mengoreksi istilah-istilah dalam kamus morfologi, yang membantu menghindari reaksi terhadap kata-kata, jarak Domerau - Levenshtein (1) di antaranya sama dengan satu.



InfoWatch memiliki database kamus industri yang besar. Kami telah mengembangkan BKF untuk berbagai area bisnis - dari luar angkasa hingga energi, kami juga memiliki basis profil sempit (misalnya, dalam Islam atau berisi kode sumber C ++, Java, dll.), Yang dirancang untuk tujuan spesifik perusahaan individu. Perlu juga ditambahkan bahwa, selain bahasa Rusia, kami memiliki 95 BKF dalam 33 bahasa asing, dengan mempertimbangkan dukungan morfologi untuk banyak bahasa tersebut.



Autolinguist: perlindungan cepat untuk dokumen standar



Sebagai aturan, alur kerja perusahaan individu tidak berbeda dalam variabilitas yang kuat; di setiap departemen, dokumen standar digunakan yang serupa dalam materi pelajaran dan konten leksikal.



Untuk melindungi dan mengklasifikasikan dokumen semacam itu di "gudang" InfoWatch, terdapat alat lain untuk menganalisis data teks - "Autolinguist".



Seperti namanya, teknologi ini memungkinkan Anda untuk secara otomatis mengklasifikasikan dokumen tipikal ke dalam kategori yang telah ditentukan tanpa menggunakan analisis manual.



Analisis dokumen dalam kerangka membuat BKF biasanya merupakan pekerjaan yang panjang dan intensif energi (rata-rata, ahli bahasa membutuhkan 2-5 hari untuk menyoroti istilah, membuat kategori, dan bekerja lebih lanjut dengan menghilangkan tanggapan positif palsu dan negatif palsu), ahli bahasa otomatis dapat secara signifikan mempercepat proses pengaturan kategorisasi teks.



Pengklasifikasi menggunakan pustaka pembelajaran mesin Liblinear, khususnya, algoritme regresi logistik (2) , yang memungkinkan untuk mendapatkan probabilitas dokumen teks yang termasuk dalam kategori tertentu.



Pengguna memiliki kesempatan untuk menyesuaikan sendiri pekerjaan "Autolinguist": setelah sebelumnya memuat koleksi pelatihan dokumen dan melatih pengklasifikasi, pengguna kemudian dapat menambahkan kategori baru, serta menyesuaikan konten basis dokumen.



Objek teks: saat ekspresi reguler bukan masalah, tetapi solusi



Alat canggih lainnya untuk menganalisis dan mendeteksi informasi yang diperlukan adalah objek teks - teknologi yang didasarkan pada penggunaan ekspresi reguler (yang, seperti yang Anda ketahui, adalah alat yang sangat fleksibel dan nyaman yang memungkinkan Anda menentukan hampir semua kriteria pencarian) dan digunakan untuk melindungi data dengan eksternal tetap menyajikan, misalnya, nomor kartu kredit, detail rekening bank, alamat email, dll.



gambar



Objek teks dapat menyertakan satu atau lebih pola ekspresi reguler atau string (kata atau frasa; dalam hal ini, pencarian akan dilakukan untuk pencocokan tepat dengan string kata, tanpa memperhitungkan kekhasan ejaan dan morfologi).



Untuk memverifikasi teks yang ditemukan atau kombinasi angka dan pengaturan, dengan mempertimbangkan kebutuhan pelanggan, tanpa mengubah kode sumber teknologi, fungsi verifikasi ditulis dalam Lua.



Saya akan memberikan contoh fungsi verifikasi untuk mendeteksi kode bank internasional dalam sistem SWIFT:



gambar



Fungsi ini menghapus awalan "SWIFT", memverifikasi dan mengembalikan sisa teks tanpa pemisah.



Selain sekumpulan objek teks yang telah terpasang sebelumnya (Rusia, Belarusia, Kazakh, Vietnam, Melayu, Arab, serta sejumlah objek internasional yang mencakup data dari hampir semua area bisnis), pengguna memiliki kesempatan untuk membuat objek teks mereka sendiri yang unik untuk bisnis tertentu. Misalnya, penting bagi organisasi transportasi untuk mengontrol nomor VIN kendaraan, dan untuk struktur militer - nomor ID petugas.



gambar



Teman-teman, dari artikel ini Anda telah mempelajari tentang seluk-beluk utama analisis linguistik dalam sistem InfoWatch Traffic Monitor: basis pemfilteran konten dan dasarnya - istilah dan kategori; Teknologi "Autolinguist", yang mampu mengklasifikasikan teks tipikal secara independen, dan objek teks yang digunakan untuk mendeteksi data template.



Terlepas dari efisiensi terbukti dari teknologi dan perkembangan yang telah kami miliki, kami terus secara aktif mengembangkan analisis semantik, secara teratur mengisi ulang BKF yang ada dan membuat objek teks dan objek teks baru, serta memperluas cakupan teknologi linguistik. Saya pasti akan menulis tentang semua inovasi dan "keripik" yang menarik di masa depan.



Kolega ahli bahasa, beri komentar, ajukan pertanyaan sulit, lempar tautan berguna, dan bagikan pengalaman Anda! Mari buat dunia menjadi tempat yang lebih baik bersama!



Penulis: Volobrinskaya Valeriavaleria_volob






1. , , , , .

2. , .



All Articles