Tim saya dan saya mewakili arah pengembangan bisnis dengan mitra Rosbank. Hari ini kami ingin berbicara tentang pengalaman sukses mengotomatiskan proses bisnis perbankan menggunakan integrasi langsung antar sistem, kecerdasan buatan dalam hal pengenalan gambar dan teks berdasarkan GreenOCR, undang-undang RF, dan menyiapkan sampel untuk pelatihan.
Jadi, mari kita mulai. Rosbank memiliki proses bisnis pembukaan rekening peminjam yang diwakili oleh bank rekanan. Proses yang ada, mengikuti semua persyaratan regulasi dan persyaratan Societe Generale Group, sebelum otomatisasi memerlukan waktu operasional hingga 20 menit per klien. Prosesnya termasuk menerima pindaian dokumen oleh back office, memeriksa kebenaran pengisian setiap dokumen dan memposting bidang dokumen di seluruh sistem informasi bank, sejumlah cek lain, dan hanya di bagian paling akhir - membuka rekening. Ini persis proses di balik tombol "Buka Akun".
Bidang utama dokumen - nama belakang, nama depan, patronimik, tanggal lahir klien, dll. - terkandung dalam hampir semua jenis dokumen yang diterima dan digandakan ketika dimasukkan ke dalam sistem Bank yang berbeda. Dokumen paling kompleks - kuesioner KYC (dari Know Your Customer - kenali pelanggan Anda) - adalah format A4 yang dapat dicetak yang diisi dengan font 8 poin dan berisi sekitar 170 bidang teks dan kotak centang, serta tampilan tabel.
Apa yang harus kami lakukan?
Tujuan utama kami adalah meminimalkan waktu pembukaan akun.
Analisis proses menunjukkan bahwa perlu:
- Kurangi jumlah verifikasi manual untuk setiap dokumen;
- Mengotomatiskan pengisian kolom yang sama di sistem bank yang berbeda;
- Kurangi pergerakan pindaian dokumen antar sistem;
Untuk mengatasi masalah (1) dan (2), diputuskan untuk menggunakan solusi pengenalan gambar dan teks berbasis GreenOCR yang sudah diterapkan di bank (nama kerjanya adalah "pengenal"). Format dokumen yang digunakan dalam proses bisnis tidak standar, sehingga tim dihadapkan pada tugas mengembangkan persyaratan untuk "pengenal" dan menyiapkan contoh untuk melatih jaringan saraf (sampel).
Untuk menyelesaikan masalah (2) dan (3), perlu dilakukan penyempurnaan sistem dan integrasi antar sistem.
Tim kami dipimpin oleh Julia Aleksashina
- Alexander Bashkov - pengembangan sistem internal (.Net)
- Valentina Sayfullina - analisis bisnis, pengujian
- Grigory Proskurin - integrasi antar sistem (.Net)
- Ekaterina Panteleeva - analisis bisnis, pengujian
- Sergey Frolov - Manajemen Proyek, analisis kualitas model
- Peserta dari vendor eksternal ( Smart Engines dalam hubungannya dengan Philosophy.it )
Pelatihan pengenal
Kumpulan dokumen klien yang digunakan dalam proses bisnis meliputi:
- Paspor;
- Persetujuan - dapat dicetak dalam format A4, 1 liter;
- Surat Kuasa - cetakan A4, 2 l;
- Kuesioner KYC - cetak formulir A4, 1 liter;
Untuk memulainya, dokumen dipelajari secara menyeluruh dan persyaratan dikembangkan, yang tidak hanya mencakup pekerjaan pengenal dengan bidang dinamis, tetapi juga bekerja dengan teks statis, bidang dengan data tulisan tangan, secara umum, pengenalan dokumen di sepanjang perimeter dan peningkatan lainnya.
Pengenalan paspor termasuk dalam fungsionalitas kotak sistem GreenOCR dan tidak memerlukan modifikasi.
Untuk jenis dokumen lain, sebagai hasil dari analisis, atribut dan karakteristik yang diperlukan diidentifikasi yang harus dikembalikan oleh "pengenal". Pada saat yang sama, poin-poin berikut harus diperhitungkan, yang memperumit proses pengenalan dan membutuhkan komplikasi nyata dari algoritme yang digunakan:
- , . , ยซยป ;
- 8- . , ;
- ( ) ;
- ;
- , , ;
- ;
Awalnya, tugas tersebut bagi kami tampaknya tidak terlalu rumit dan terlihat cukup standar:
Persyaratan -> Vendor -> Model -> Menguji model -> Memulai proses
Jika pengujian tidak berhasil, model dikembalikan ke vendor untuk pelatihan ulang.
Setiap hari kami menerima sejumlah besar pindaian dokumen, dan menyiapkan sampel untuk pelatihan model seharusnya tidak menjadi masalah. Semua pemrosesan data pribadi harus mematuhi persyaratan Undang-Undang Federal "Tentang Data Pribadi" N152-FZ. Persetujuan klien untuk pemrosesan data pribadi klien hanya tersedia di Rosbank. Kami tidak dapat mentransfer dokumen klien ke vendor untuk melatih model.
Tiga cara untuk memecahkan masalah dipertimbangkan:
- , , , , ;
- . , โ () , ;
- () . , , , , , ;
Setelah menganalisis opsi yang diusulkan dengan tim, terkait kecepatan penerapannya dan kemungkinan risikonya, kami memilih opsi ketiga - cara meniru dokumen untuk melatih model. Keuntungan utama dari proses ini adalah kemampuan untuk mencakup perangkat pemindaian seluas mungkin untuk mengurangi jumlah iterasi untuk kalibrasi dan penyempurnaan model.
Template dokumen diimplementasikan dalam format html. Sederet data uji dan makro disiapkan dengan cepat dan efisien, mengisi template dengan data yang disintesis dan pencetakan otomatis. Selanjutnya, kami membuat formulir yang dapat dicetak dalam format pdf dan menetapkan pengenal unik ke setiap file untuk memeriksa tanggapan yang diterima dari "decoder".
Pelatihan jaringan saraf, penandaan wilayah, dan konfigurasi formulir dilakukan di sisi vendor.
Karena keterbatasan waktu, pelatihan model dibagi menjadi 2 tahap.
Pada tahap pertama, model dilatih untuk mengenali jenis dokumen dan pengenalan "kasar" isi dokumen itu sendiri:
Requirements -> Vendor -> Preparing test data -> Data collection -> Training the model in form recognition -> Testing forms -> Menyiapkan model
Pada tahap kedua ada pelatihan model secara rinci untuk mengenali konten setiap jenis dokumen. Pelatihan dan implementasi model pada tahap kedua dapat dijelaskan dengan skema berikut, yang sama untuk semua jenis dokumen:
Mempersiapkan data pengujian dalam resolusi berbeda -> Mengumpulkan dan mengirimkan data ke vendor -> Melatih model -> Menguji model -> Mengkalibrasi model -> Menerapkan model -> Memeriksa hasil dalam pertempuran -> Mengidentifikasi kasus masalah -> Mensimulasikan kasus masalah dan mentransfer ke vendor -> Mengulangi langkah-langkah dari pengujian
Perlu dicatat bahwa, meskipun cakupan pemindai yang digunakan sangat luas, sejumlah perangkat masih belum disajikan dalam contoh untuk melatih model. Oleh karena itu, pengenalan model ke dalam pertempuran berlangsung dalam mode percontohan, dan hasilnya tidak digunakan untuk otomatisasi. Data yang diperoleh selama bekerja dalam mode percontohan hanya dicatat di database untuk analisis dan analisis lebih lanjut.
Menguji
Karena loop pelatihan model berada di pihak vendor dan tidak terhubung dengan sistem bank, setelah setiap siklus pelatihan, model tersebut ditransfer oleh vendor ke bank, di mana model tersebut diuji di lingkungan pengujian. Jika verifikasi berhasil, model dipindahkan ke lingkungan sertifikasi, di mana model tersebut diuji regresi, dan kemudian ke lingkungan industri, untuk mengidentifikasi kasus khusus yang tidak diperhitungkan saat melatih model.
Di sekeliling bank, data diserahkan ke model, hasilnya dicatat di database. Analisis kualitas data dilakukan dengan menggunakan Excel yang maha kuasa - menggunakan tabel pivot, logika dengan rumus dan kombinasinya vlookup, hlookup, indeks, len, pencocokan, dan perbandingan string karakter demi karakter melalui fungsi if.
Pengujian menggunakan dokumen simulasi memungkinkan kami untuk menjalankan skenario pengujian dalam jumlah maksimum dan mengotomatiskan prosesnya sebanyak mungkin.
Pertama, dalam mode manual, kami memeriksa kembalinya semua bidang untuk kepatuhan dengan persyaratan asli untuk setiap jenis dokumen. Selanjutnya, kami memeriksa respons model saat secara dinamis mengisi blok teks dengan panjang berbeda. Tujuannya adalah untuk menguji kualitas tanggapan ketika teks berpindah dari baris ke baris dan dari halaman ke halaman. Pada akhirnya, kami memeriksa kualitas jawaban di lapangan tergantung pada kualitas dokumen yang dipindai. Untuk kalibrasi model dengan kualitas tertinggi, pindaian dokumen resolusi rendah digunakan.
Perhatian khusus harus diberikan pada dokumen paling kompleks yang berisi jumlah kolom dan kotak centang terbesar - kuesioner KYC. Baginya, skrip khusus untuk pengisian dokumen telah disiapkan sebelumnya dan makro otomatis telah ditulis, yang memungkinkan untuk mempercepat proses pengujian, memeriksa semua kemungkinan kombinasi data dan segera memberikan umpan balik kepada vendor untuk mengkalibrasi model.
Integrasi dan pengembangan internal
Revisi yang diperlukan dari sistem bank dan integrasi antar sistem dilakukan terlebih dahulu dan diekspos pada lingkungan pengujian bank.
Skenario realisasi terdiri dari tahapan-tahapan berikut:
- Penerimaan pindaian dokumen yang masuk;
- Mengirim pindaian yang diterima ke "pengenal". Pengiriman dimungkinkan dalam mode sinkron dan asinkron dengan hingga 10 utas;
- Menerima respon dari "pengenal", memeriksa dan memvalidasi data yang diterima;
- Menyimpan hasil pindaian asli dokumen di perpustakaan elektronik bank;
- Inisiasi dalam sistem bank untuk memproses data yang diterima dari "pengenal" dan verifikasi selanjutnya oleh karyawan;
Hasil
Saat ini pelatihan model telah selesai dilakukan, pengujian sukses dan implementasi proses bisnis di lingkungan produksi bank telah dilaksanakan. Otomatisasi yang dilakukan memungkinkan untuk mengurangi waktu rata-rata untuk membuka akun dari 20 menit menjadi 5 menit. Tahap proses bisnis yang padat karya untuk mengenali dan memasukkan data dokumen, yang sebelumnya dilakukan secara manual, telah diotomatiskan. Pada saat yang sama, kemungkinan kesalahan yang disebabkan oleh faktor manusia berkurang tajam. Selain itu, identitas data yang diambil dari dokumen yang sama di sistem bank yang berbeda dijamin.