🖐🏼 📟 🉑 Tugas Ilmu Data Khusus di Bank 💇🏾 🤹🏾 🤷🏻

Selama lima tahun terakhir, saya telah bekerja di Kantor Machine Learning (ML) sebuah bank besar dan telah melihat banyak hambatan yang muncul dalam pengembangan dan validasi model.

Pada artikel ini, pertama-tama saya bermaksud untuk mempertimbangkan sistem informasi utama dari beberapa abstrak Bank X, karena berdasarkan sistem informasi yang sudah mapan, pekerjaan analis data dibangun, dan algoritme ML untuk pengambilan keputusan dilatih dan berfungsi. . Tetapi ketika saya mulai menulis, saya tiba-tiba menemukan bahwa sebenarnya jauh lebih menarik untuk membahas sejumlah topik dan sub-tugas yang muncul saat membangun dan memvalidasi model Bank yang paling dasar, yaitu model risiko kredit.

Manajemen risiko dan perhitungan risiko kredit dapat dianggap sebagai pelopor ilmu data di Bank, karena manajemen risiko kredit merupakan hak prerogatif perbankan yang primordial. Ini adalah manajemen risiko yang terampil yang memungkinkan bank menawarkan sesuatu yang berharga ke pasar kredit dan hubungan keuangan. Gagasan bahwa bank hanya mengantongi margin bunga antara bunga pinjaman dan bunga deposito pada dasarnya salah, walaupun saya kadang-kadang mendengar ini dari orang-orang yang tidak terbiasa dengan cara kerja bisnis perbankan.

Di satu sisi, bank menanggung semua risiko tidak melunasinya pinjaman, dan di sisi lain, memberikan jaminan kepada deposan tentang pengembalian dana yang diinvestasikan. Alternatif deposito bank adalah meminjamkan uang Anda langsung kepada peminjam tanpa jaminan pengembalian. Bank, pada gilirannya, dapat memberikan jaminan, karena di satu sisi ia memiliki "bantalan pengaman" dalam bentuk modal tetap dan pada awalnya memasukkan kerugian dari tidak dilunasinya pinjaman dalam indikator keuangannya ("bentuk cadangan") . Di sisi lain, Bank tahu bagaimana menghitung probabilitas bahwa peminjam tidak akan membayar kembali pinjaman yang diberikan padanya. Tentu saja, tidak ada yang bisa memprediksi dengan tepat apakah individu atau perusahaan tertentu akan melunasi hutangnya, tetapi secara rata-rata, probabilitas dapat diperkirakan untuk sejumlah besar peminjam.

Bank akan stabil secara finansial hanya jika keuntungan yang diperoleh dari margin bunga akan menutupi kerugian dari gagal bayar pinjaman dan biaya terkait lainnya dari Bank.

Praktik perbankan yang mapan

Sebelum beralih ke pembahasan model prediktif dan tugas ilmu data secara langsung, mari kita bahas sebentar tentang cara spesifik bank bekerja dengan klien. Bank, dan terutama bank besar, adalah sistem yang terorganisir dengan baik di mana secara harfiah setiap langkah ditentukan. Ini juga berlaku untuk interaksi dengan peminjam.

Secara khusus, dalam kaitannya dengan peminjam, konsep seperti "default" sering digunakan. Default adalah status yang diberikan kepada klien ketika ada keyakinan yang hampir sepenuhnya bahwa klien tidak akan mengembalikan uang ke bank, setidaknya secara penuh. Aturan dan prosedur di mana klien diberi status default dinegosiasikan pada tingkat kelompok kerja yang dibuat secara khusus. Dan kemudian aturan di atas ditentukan dalam dokumentasi peraturan internal.

Jika klien diberi status default, biasanya dikatakan bahwa "klien telah default." Dari sudut pandang proses Bank, ini berarti bahwa prosedur interaksi tertentu dengan klien akan diluncurkan. Mungkin masalah kebangkrutan peminjam akan teratasi, Bank akan mencoba menjual properti yang dijaminkan, mengumpulkan dana dari penjamin atau menjual hutang debitur kepada kolektor, dll.

Kebetulan secara historis, kerugian yang diharapkan dari pinjaman yang tidak dilunasi biasanya dibagi menjadi tiga komponen:

EL = PD * EAD * LGD di

mana EL - kerugian yang diharapkan, kerugian yang diharapkan;

PD - probabilitas saat gagal bayar, probabilitas bahwa peminjam akan diberikan status gagal bayar dalam tahun berikutnya, mulai dari tanggal penilaian;

EAD - eksposur saat gagal bayar, semua dana yang klien harus kembalikan ke Bank pada tanggal "gagal bayar", termasuk jumlah dan bunga yang dikeluarkan, denda dan komisi;

LGD - loss given default, bagian dari total hutang peminjam kepada bank, yang tidak akan dikembalikan oleh Bank kepada dirinya sendiri. Artinya, ini merupakan kerugian bersih bagi Bank;

Jika saya berada di suatu tempat menjauh dari definisi dan konsep pendidikan, maka saya mohon maaf sebelumnya, karena tujuan utama saya bukanlah untuk menulis ulang buku teks yang benar, tetapi untuk memahami esensi dari masalah yang ada. Untuk ini kadang-kadang perlu untuk bernalar "dengan jari".

Sekarang mari kita coba merumuskan tugas tipikal untuk seorang data scientist. Hal pertama yang dapat diprediksi adalah probabilitas default PD. Semuanya tampak sederhana di sini. Kami memiliki masalah klasifikasi biner. Beri kami data dengan label kelas yang benar dan semua faktor dan kami akan segera mengumpulkan skrip dengan validasi silang ganda dan pemilihan semua hyperparameter, pilih model dengan metrik Gini terbaik dan semuanya akan baik-baik saja. Tetapi untuk beberapa alasan, pada kenyataannya, ini tidak berhasil.

Tidak ada label kelas yang benar

Faktanya, kita tidak mengetahui label kelas yang sebenarnya (target). Secara teori, targetnya adalah variabel biner yang sama dengan nol jika peminjam "sehat", dan sama dengan satu jika peminjam telah diberi status "default". Tapi masalahnya adalah bahwa aturan yang menentukan default dibuat oleh kita. Setelah aturan diubah, model tersebut tidak lagi berfungsi bahkan pada data historis pelatihan.

Kami tidak mengenal klien kami dengan baik

Dengan akumulasi sejarah pinjaman yang dikeluarkan, ada keinginan untuk membangun model yang lebih kompleks, dan ini membutuhkan informasi tambahan tentang klien. Saat itulah ternyata sebelumnya kami tidak membutuhkan informasi ini, dan, karenanya, tidak ada yang mengumpulkannya. Akibatnya, ada banyak celah dalam sampel yang dikumpulkan, yang meniadakan gagasan untuk membangun "model yang lebih terinformasi". Dan, jika hanya itu.

Kehadiran sejumlah besar pelanggan menggoda untuk memecahnya menjadi beberapa segmen, di dalamnya untuk membangun model yang "lebih sempit" dan pada saat yang sama lebih akurat. Tetapi pembagian menjadi segmen juga dilakukan menurut beberapa aturan, dan aturan ini didasarkan pada semua data pelanggan yang sama. Dan apa yang kita punya? Dan kami memiliki celah dalam data, dan karenanya kami bahkan tidak selalu dapat memahami segmen mana yang harus dikaitkan dengan klien tertentu.

Regulator membutuhkan pembuatan model yang dapat diinterpretasikan

Yang saya maksud dengan "regulator" adalah Bank Sentral, yang membutuhkan model agar dapat dipahami. Harus jelas tidak hanya prakiraan itu sendiri, tetapi juga aturan yang digunakan untuk membuat prakiraan ini. Agar adil, saya akan mengatakan bahwa sebagian besar aturan ini hanya berlaku untuk apa yang disebut model "regulasi". Untuk memastikan stabilitas sistem perbankan secara keseluruhan, regulator senantiasa memantau aktivitas bank sesuai dengan sejumlah indikator utama, di antaranya adalah penghitungan kecukupan modal untuk menutup kerugian yang tidak terduga pada saat terjadinya ekonomi dan ekonomi. krisis keuangan.

Apa arti persyaratan interpretabilitas? Ini berarti bahwa dalam kebanyakan kasus Anda harus puas dengan model dalam bentuk regresi logistik atau pohon keputusan. Anda harus melupakan jaringan neural, ansambel, susunan, dan arsitek "modern" lainnya.

Tempat tidur Procrustean dari praktik perbankan yang mapan

Standar industri de facto mensyaratkan kerugian yang diharapkan diestimasi sebagai produk dari tiga nilai: PD, EAD dan LGD. Ini benar hanya jika peristiwa berkembang sesuai dengan skenario yang sama. Klien mengembalikan pinjaman atau tidak. Dalam kasus pertama, dianggap tidak ada kerugian. Dalam kasus kedua, diasumsikan bahwa ada sejumlah risiko (EAD).

Dalam praktiknya, perilaku pembayaran pelanggan tidak terbatas pada dua opsi sederhana, dan batas antara opsi ini agak sewenang-wenang. Peminjam dapat mengalami gagal bayar dalam satu bulan, satu tahun, atau dua, dan kemudian, setelah diberi status "gagal bayar", tiba-tiba kembali ke pembayaran dan melunasi seluruh pinjaman. Selain itu, penyimpangan dari jadwal pembayaran dapat terjadi baik dari segi jumlah maupun ketentuan, lebih cepat dari jadwal atau sebaliknya. Hasil keuangan Bank dalam semua kasus akan berbeda.

Saya tidak mengatakan bahwa pada prinsipnya tidak mungkin untuk mereduksi semua variasi perilaku peminjam menjadi skema perhitungan tiga komponen. Tentu saja, itu semua tergantung pada tugasnya. Di mana kita ingin menerapkan model ini nanti? Jika, untuk menilai risiko kredit menurut kumpulan (kelompok) peminjam, maka semua kemungkinan penyimpangan diperhitungkan dengan berbagai kalibrasi dan penghitungan nilai rata-rata tertimbang. Namun, jika tujuan kami adalah mempersonalisasi pendekatan untuk menerbitkan pinjaman, termasuk pemilihan proposal secara pribadi, maka penting untuk memperkirakan arus pembayaran dari klien atau memperkirakan nilai bersih saat ini.

Di mana alternatif lanjutan berdasarkan data tersandung

Perlu dipahami bahwa seluruh praktik perbankan industri dibentuk pada tahun-tahun ketika tidak ada Big Data atau pembelajaran mesin, dan semua kalkulasi direduksi menjadi pembuatan kartu skor. Mereka mengambil semua faktor penting yang mempengaruhi kelayakan kredit peminjam dan mengevaluasinya dalam bentuk poin, kemudian poin-poin tersebut dijumlahkan dan, dari jumlah poin tersebut, ditentukan apakah akan mengeluarkan pinjaman atau tidak.

Dengan akumulasi history kredit yang diberikan dan perkembangan teknologi komputer, prosedur pengambilan keputusan di Bank berangsur-angsur menjadi lebih rumit. Peta Scorch telah berubah menjadi model regresi logistik yang dibangun dengan skrip python. Bank mulai mensegmentasi nasabah dan produknya untuk membangun model-model yang berpikiran sempit di setiap segmen. Di sisi lain, dengan pertumbuhan volume penyimpanan data, menjadi mungkin untuk mengumpulkan dan menyimpan lebih banyak informasi bersama-sama dalam bentuk yang saling berhubungan.

Pada akhirnya, semuanya bergerak menuju gagasan ketika untuk setiap pelanggan yang datang, penawaran terbaik (produk perbankan yang optimal) akan ditemukan hampir secara instan, yang akan memaksimalkan CLTV (nilai seumur hidup pelanggan) selama jangka waktu tertentu, atau metrik lain, tergantung pada keadaan Bank saat ini dan tujuan para pemangku kepentingannya.

Mengapa tidak menggunakan jaringan saraf yang kuat (yaitu, "kecerdasan buatan" yang terkenal jahat) untuk memecahkan masalah di atas? Saya akan membuat daftar beberapa keadaan yang mengganggu ini:

- Bank sentral mensyaratkan bahwa model yang terlibat dalam penghitungan kecukupan modal diterapkan dalam proses kredit "langsung". Artinya, model-model inilah yang harus diterapkan dalam pengambilan keputusan pemberian pinjaman, dapat diinterpretasikan dan lulus sejumlah tes validasi wajib;

- basis data pelanggan terus berkembang dan ditambah. Misalnya, jenis data yang relatif baru adalah biometrik, analisis web, analisis aplikasi seluler, dan penilaian media sosial. Penambahan atribut baru terjadi seiring waktu, dan karenanya, kami praktis tidak memiliki data historis tentang atribut tersebut;

- Produk dan proses Bank terus berubah dan diperlukan perhitungan ulang CLTV untuk klien dan perhitungan NPV (net present value) untuk produk baru. Dan untuk membangun model dengan kualitas yang dapat diterima, Anda perlu menunggu beberapa tahun, mengumpulkan data historis dan menghitung nilai aktual CLTV atau NPV pada sampel peminjam nyata;

Hasil:

Dengan segala keinginan, pembangunan model ramalan di Bank tidak dapat dianggap sebagai masalah matematika murni. Dalam prakteknya, permasalahan bisnis dapat diselesaikan, yang antara lain sangat terkait dengan kebutuhan regulator di dalam diri Bank Sentral.

Terkadang tampaknya perusahaan dengan ilmu data yang kuat dapat menyusup ke area perbankan dan mengubah aturan mainnya. Tetapi untuk mengeluarkan pinjaman, Anda harus bermain sesuai dengan aturan yang sudah ada, dan oleh karena itu menjadi Bank dengan segala konsekuensi selanjutnya. Lingkaran selesai.

Munculnya startup fintech baru yang keren di bidang lending nampaknya lebih pada menemukan celah di bidang hukum daripada berinovasi dalam pembelajaran mesin.

Tugas Ilmu Data Khusus di Bank