Eksperimen dalam mengenali teks tulisan tangan di Cyrillic

pengantar





Pengenalan Teks Tulisan Tangan (HTR) adalah cara otomatis untuk mendekripsi catatan menggunakan komputer. Bentuk digital dari catatan tulisan tangan akan mengotomatiskan proses bisnis banyak perusahaan, membuat pekerjaan manusia lebih mudah. Dalam makalah ini, kami mempertimbangkan model untuk mengenali teks tulisan tangan dalam Cyrillic berdasarkan jaringan saraf tiruan. Studi ini menggunakan sistem SimpleHTR yang dikembangkan oleh Harald, serta LineHTR , versi lanjutan dari sistem  Simple HTR . Anda dapat membaca lebih lanjut tentang SimpleHTR di sini .





Himpunan data





Pada bagian ini, saya akan menjelaskan dua jenis dataset: Dataset pertama berisi kutipan tulisan tangan dalam bahasa Sirilik. Ini berisi 21.000 gambar dari berbagai sampel tulisan tangan (nama negara dan kota). Kami menambah set data pelatihan ini dengan mengumpulkan 207.438 gambar dari bentuk atau sampel yang tersedia.





HKR kedua untuk database tulisan tangan Kazakh-Rusia terdiri dari kata tunggal (atau frase pendek) yang ditulis dalam bahasa Rusia dan Kazakh (masing-masing sekitar 95% kata / kalimat Rusia dan 5% Kazakh). Perhatikan bahwa kedua bahasa tersebut ditulis Sirilik dan memiliki 33 karakter yang sama. Selain simbol tersebut, ada 9 simbol yang lebih spesifik dalam alfabet Kazakh. Beberapa contoh dataset HKR ditunjukkan di bawah ini: 









Beberapa contoh dataset
Beberapa contoh dataset

(70%), (15%) (15%) . ( 7,5% ): TEST1 , ; TEST2 , , . TEST1 TEST2 , , .





SimpleHTR





ANN, CNN . RNN. RNN . RNN . RNN. CTC . . CTC ; RNN , . CTC . , , , . , , , , .





: CNN: CNN. . 55 33 . RELU , , . 2 , () , ( ) 32 256. RNN: 256 . . LSTM- RNN, , . RNN 3280.





CTC: RNN , . CTC . 32













Model SimpleHTR, dengan ikon hijau adalah operasi dan merah muda adalah aliran data
SimpleHTR, - , -

: : 128 32. , ( ) , 128 32 . 128 32 . , .









LineHTR

LineHTR - SimpleHTR, , ( ), , . LineHTR SimpleHTR, CNN RNN : 7 CNN 2 Bidirectinal LSTM (BLSTM) RNN. 





LineHTR:





  • 800 x 64 ( x ).





  • CNN 100 x 512.





  • BLSTM 512 100 x 205: 100 ( ) ; 205 )





  • CTC 2 : LOSS - ; -





  • 50









Python deep learning Tensorflow. Tensorflow Python. Python , . matplotlib Python, Inkscape- , Adobe Photoshop. 2- " Intel ® Xeon(R) E-5-2680”, 4x " NVIDIA Tesla k20x” 100 RAM. 3 , , .





SimpleHTR





SimpleHTR - , . , :









• DataLoader





• : 90% 10% . : -, , ; -, CNN ; -, ; -, , , , .





: SimpleHTR, 42 . 10 . : . , .





















CER





WAR





CER





WAR





bestpath





19.13





52.55





17.97





57.11





beamsearch





18.99





53.33





17.73





58.33





wordbeamsearch





16.38





73.55





15.78





75.11









SimpleHTR (bestpath, beamsearch, wordbeamsearch). NN , . NN, , , . character-LM , .





:





Hasil percobaan menggunakan SimpleHTR (lr = 0.01): akurasi model.
SimpleHTR (lr=0,01): .
Hasil percobaan menggunakan SimpleHTR (lr = 0.01): kesalahan model.
SimpleHTR (lr=0,01): .

, , " ” 86 .









Contoh gambar dengan frasa "Kazakstan Selatan" dalam bahasa Rusia
" -”





Hasil pengakuan

(HKR Dataset): SimpleHTR 20,13% (CER) 1,55% CER. SimpleHTR ( ). (WER) 58,97% 1 11,09% 2. TEST2 . TEST1 , , , .













LineHTR, 100 . CAR 29,86% 86,71% TEST1 TEST2 ( ). .









SimpleHTR LineHTR : 57,1% SimpleHTR CNN , 58,3% Beamsearch 75,1% wordbeamsearch. Wordbeamsearch, .








All Articles