Lebih mudah untuk memotret halaman dari paspor, kartu nama rekan kerja, perjanjian dengan bank, atau cek dari restoran di smartphone. Dokumen penting selalu dekat dan dapat dicetak atau dikirim. Tetapi dengan cepat menemukan file yang Anda butuhkan di galeri ponsel menjadi semakin sulit. Biasanya, pengguna mengumpulkan seluruh koleksi meme dan gambar kucing yang dicampur dengan foto tagihan listrik, SNIL, dll. Karyawan perusahaan, misalnya manajer lapangan sebuah bank atau firma hukum, juga memiliki situasi serupa. Hanya bukan gambar pussies - ratusan foto perjanjian klien dan dokumen lainnya. Bagaimana cara menemukan salinan yang diperlukan untuk dikirim ke kolega di kantor, atau cara mencetak foto SIM dalam skala yang benar, dan bukan pada keseluruhan A4? Kita harus mengotak-atik.
Jauh lebih mudah untuk menyelesaikan semua tugas ini dengan satu aplikasi. Itulah mengapa kami telah memperbarui ABBYY FineScanner AI . Sekarang dia dapat secara otomatis mengurutkan foto dari galeri ponsel cerdas menjadi 7 kelompok dokumen dan dengan cepat mencari foto yang diperlukan berdasarkan kueri teks.
Hari ini kami akan memberi tahu Anda secara detail bagaimana kami membuat masing-masing fitur ini, teknologi apa yang kami gunakan, dan bagaimana kerangka ABBYY NeoML membantu dalam hal ini. Kami juga akan menunjukkan cara kerjanya di aplikasi. Dan di akhir - kami akan membagikan rencana kami untuk pengembangan FineScanner dan menanyakan beberapa pertanyaan kepada Anda.
Taruh semuanya di rak ayah
Menurut sebuah studi oleh Appsflyer , penggunaan perangkat seluler dan unduhan aplikasi, termasuk non- game , meroket pada tahun 2020. Untuk bekerja sama dari jarak jauh, karyawan tidak hanya membutuhkan kurir perusahaan, tetapi juga alat seluler yang nyaman untuk pemrosesan informasi, pencetakan, alur kerja jarak jauh, dan penyimpanan data yang efisien.
Menurut jajak pendapat pengguna FineScanner dan wawancara dengan mereka, paling sering halaman A4 tunggal dan multi halaman (kontrak, faktur, surat resmi, dll.), Paspor dan SIM, buku, cek, dan kartu nama dipindai menggunakan aplikasi. 40% responden mengambil foto dokumen sekitar sekali sebulan, dan 20% - sekali seminggu. Berdasarkan statistik, kami telah menyusun daftar jenis dokumen yang paling sering diambil pengguna dengan kamera dan disimpan di galeri ponsel cerdas untuk mereka sendiri atau untuk bekerja. Dan kemudian kami mengajari FineScanner untuk membagi foto menjadi beberapa kelompok. Prosesnya terdiri dari dua tahap, seluruhnya berlangsung di latar belakang dan tidak memerlukan koneksi Internet.
satu). FineScanner pertama-tama mengklasifikasikan foto dari galeri pengguna
Setelah peluncuran pertama aplikasi dan menerima semua izin dari pengguna, jaringan neural internal secara otomatis menganalisis foto di ponsel cerdas dan mendistribusikannya ke dalam 7 kategori: format A4, buku, kartu nama, kartu identitas, tanda terima, teks tulisan tangan, dan โLainnyaโ (poster, kartu pos disimpan dalam folder ini, majalah warna, dll.).
Jaringan saraf kami pada mesin ABBYY NeoML , yang telah kami bicarakan secara mendetail di Habrรฉ, sedang mengerjakan klasifikasi gambar yang cerdas . Mekanismenya terdiri dari dua jaringan saraf: yang pertama mendeteksi keberadaan teks pada gambar, yang kedua menentukan jenis dokumen. Arsitektur jaringan didasarkan pada blok MobilenetV3.
Penting bagi kami untuk memisahkan dokumen tulisan tangan dari yang dicetak, jadi kisi pertama membagi file menjadi 3 kelas:
- gambar dengan teks tulisan tangan,
- gambar dengan teks cetak,
- gambar tanpa teks (kucing, selfie, dan lingkungan).
Di kisi pertama, kami juga menggunakan informasi tentang pemangkasan tengah (potongan gambar dari tengah, dipotong dalam resolusi tinggi) untuk menentukan keberadaan teks dalam gambar. Kami mengambil potongan seperti itu, karena dalam sampel (kami akan membicarakannya sedikit di bawah) di semua foto, teksnya sebagian besar berada di bagian tengah. Gambar ini diumpankan bersama dengan thumbnail ke cabang terpisah dari jaringan dan membantunya memutuskan apakah ada teks dalam gambar atau tidak.
Kisi kedua menentukan jenis dokumen:
- Dokumen A4 (dengan beberapa gambar),
- 4 ( , โ , ),
- ( - ),
- ( , , ),
- ,
- ID (, .) โ , ,
- ( . ).
Dataset untuk jaringan saraf pelatihan dikumpulkan dan ditandai oleh karyawan kami. Sampel terdiri dari sekitar 40 ribu foto (kartu nama, pamflet, kartu bank, sertifikat, asuransi, dll.) Yang diambil dengan smartphone.
Karena jaringan saraf, bobot aplikasi meningkat tidak signifikan - hanya 3MB. Kami secara khusus mencoba membuat jaringan neural kompak. Saya tidak ingin membengkak aplikasi terlalu banyak demi fitur yang agak "eksperimental".
2). Setelah klasifikasi, teks dikenali pada foto dokumen yang ditemukan.
Untuk melakukan ini, kami menggunakan teknologi ABBYY Mobile Capture SDK , yang bekerja baik di TextGrabber untuk OCR atau urutan video, dan di Pembaca Kartu Bisnis untuk memproses kartu nama. FineScanner telah menggunakan SDK ini sebelumnya untuk pengenalan dokumen offline cepat. Kali ini kami menggunakannya sepenuhnya: dapat mengenali teks dalam ribuan gambar. Tentunya kami mencoba melakukannya dengan lembut dan hati-hati agar proses tersebut tidak memuat perangkat dan tidak melahap baterai. Selain itu, kami telah memutuskan untuk tidak mengunduh foto pengguna yang diunggah ke awan untuk saat ini, tetapi hanya memproses foto yang tersedia secara lokal di perangkat.
Total waktu untuk semua pemrosesan galeri tergantung pada jumlah foto dan dokumen di antara mereka, serta pada pembuatan ponsel dan rata-rata 10-30 menit untuk pertama kalinya. Di masa mendatang, hanya foto baru yang akan dipindai, dan jumlahnya sudah jauh lebih sedikit, bukan ribuan keping.
Temukan dokumen berdasarkan teksnya
Menyortir gambar menurut jenis memang bagus, tetapi bagaimana jika ada ratusan gambar di folder Buku, tetapi Anda perlu menemukannya, misalnya resep shakshuka pedas yang difoto dari ensiklopedia kuliner langka? Atau temukan di folder A4 perjanjian sewa yang ditandatangani dua tahun lalu?
Untuk kasus seperti itu, kami mengajarkan FineScanner cara mencari teks dokumen. Selain itu, opsi dengan pencarian untuk kueri yang tepat, kata demi kata, segera dibuang. Biasanya, tidak sulit untuk mencari teks pada dokumen yang difoto dengan baik, tetapi di galeri pada ponsel cerdas bisa ada apa saja - foto yang diputar dengan kuat atau buram. Tidak sulit untuk mengatur apa yang disebut "pencarian jelas" menurut mereka, tetapi hasilnya akan menyedihkan. Kapitalisasi (menggunakan huruf kapital), tentu saja, dapat dan harus diabaikan, tetapi ada, misalnya, kesalahan ejaan oleh pengguna saat menulis permintaan.
Agar aplikasi dapat menelan spektrum kesalahan ini, kami melakukan "pencarian fuzzy". Mereka tidak akan menulis mesin pencari lengkap mereka sendiri, jadi mereka melihat pendekatan dan perpustakaan yang ada. Hasilnya, untuk memecahkan masalah kita muncul algoritma diff yang bagus Eugene Myers (algoritma diff Myer).
Algoritma diff tidak digunakan untuk mencari, tetapi untuk membandingkan dua teks atau dua versi dari dokumen yang sama.
Mereka mengambil implementasi yang sudah selesai dari sini . Benar, saya harus menambahkan di atasnya perhitungan jarak Levenshtein antara permintaan pencarian dan substring yang ditemukan dan memilih ambang batas sehingga tidak ada opsi yang sepenuhnya liar. Hasilnya, penelusuran teks kami bekerja dengan jelas, cepat, dan dalam waktu nyata.
Penggaris AR dalam versi iOS, atau cara menentukan ukuran dokumen tanpa menari dengan rebana
Saat kami mengembangkan fitur baru di FineScanner, kami mempertimbangkan keinginan pengguna. Misalnya, mereka sering perlu mencetak dokumen tidak hanya dengan ukuran biasa (A4, A5, A6, kartu nama), tetapi juga yang tidak standar: selebaran, selebaran, SNIL, dll. Dan dengan pencetakan file seperti itu, kesulitan timbul: misalnya, foto dibentangkan hingga seluruh A4, meskipun proporsi aslinya berbeda.
Ukuran dokumen yang paling umum dapat dipilih dari daftar siap pakai di lampiran, ada 8 jenis di antaranya. Lainnya - kartu pos, visa, dll. - sekarang dapat diukur secara otomatis. Untuk melakukan ini, kami telah mengintegrasikan ARKit (baris dalam augmented reality) ke dalam versi baru FineScanner untuk iOS. Untuk pengembangannya, kami menggunakan API Apple bersama dengan modul krop kami ABBYY Mobile Capture SDK, yang memungkinkan Anda menentukan batas dokumen bahkan pada latar belakang putih dan menyelesaikannya jika ditutup dengan tangan. Penggaris menentukan ukuran fisik dokumen untuk menentukannya di properti dan menampilkannya dengan benar di atas kertas saat dicetak pada printer.
Begini Cara kerjanya:
Bagaimana pelanggan bisnis kami menggunakan FineScanner
Klien B2C kami akan menjadi yang pertama mencoba fungsionalitas baru, dan bisnis akan mulai menggunakan aplikasi nanti. Ini terutama karena kebijakan keamanan perusahaan yang ketat.
Pelanggan kami dari perusahaan besar menggunakan versi ABBYY FineScanner mereka di bawah kendali berbagai platform MDM (Manajemen Perangkat Seluler, yaitu, solusi yang memungkinkan Anda mengonfigurasi tingkat perlindungan informasi perusahaan dari akses dan distribusi yang tidak sah, serta menentukan apakah informasi yang disimpan di perangkat seluler akan tersedia untuk aplikasi pihak ketiga). Misalnya, staf audit PwC atau konsultan bisnis menggunakan pemindai seluleruntuk digitalisasi cepat dokumen apa pun. Selama audit, mereka mengambil foto, misalnya, kontrak atau pesanan hanya dalam beberapa detik, mengonversinya menjadi PDF yang dapat dicari dan mengirimkannya ke repositori perusahaan untuk verifikasi tambahan dan analisis data.
Demi kenyamanan pelanggan kami, kami sekarang bersiap untuk merilis versi FineScanner dengan dukungan untuk sistem MDM terpopuler - Microsoft InTune, Mobile Iron, Workspace One, dan lainnya.
Demi masa depan
Kami berharap FineScanner yang diperbarui akan membantu menyederhanakan tugas mendigitalkan dan mengenali dokumen dan buku langsung di ponsel cerdas Anda, serta dengan cepat menemukan file yang Anda butuhkan di galeri dan mencetaknya.
Kami secara teratur mengumpulkan permintaan pengguna untuk FineScanner untuk memahami bagaimana mengembangkan produk lebih lanjut. Menurut survei terakhir kami, setengah dari pengguna mengirim dokumen berfoto ke email mereka sendiri atau email lain dan terus mengerjakannya di komputer, misalnya, mencetak atau menyimpan. Selain itu, lebih dari 70% mengharapkan FineScanner berintegrasi dengan ABBYY FineReader PDF . Menjadi menarik bagi kami untuk mengetahui apa yang dipikirkan orang Khabrov tentang hal itu.