📳 👨‍⚖️ 🔤 Bagaimana Pembelajaran Penguatan Membantu Pengecer ↕️ 💴 🛅

pengantar

Halo! Kami Glowbyte Advanced Analytics tim mengembangkan solusi ML untuk industri terapan (ritel, perbankan, telekomunikasi, dll). Banyak tugas membutuhkan solusi non-standar. Salah satunya adalah optimalisasi rantai komunikasi dengan klien menggunakan Reinforcement Learning (RL), yang kami putuskan untuk mengabdikan artikel ini.

Kami telah membagi artikel menjadi tiga blok: pengantar masalah optimalisasi rantai komunikasi; pengantar RL; dan di blok ketiga, kami menggabungkan 1 dan 2 bersama.

gambar

Tugas mengoptimalkan rantai komunikasi

Untuk memulainya, sebuah glosarium kecil:

CRM adalah sistem manajemen hubungan pelanggan. Biasanya, ini mencakup proses mengumpulkan dan menganalisis pengetahuan pelanggan, yang digunakan untuk meningkatkan penjualan dan tingkat layanan.

Klien adalah seseorang yang menggunakan jasa organisasi.

Atribut Pelanggan - Pengetahuan yang terkumpul tentang pelanggan. Contoh:

Cek rata-rata;
Frekuensi rata-rata pembelian per bulan;
Usia;
Wilayah tempat tinggal.

Kampanye Pemasaran \ Komunikasi \ Penawaran - penawaran promosi yang diterima pelanggan dari suatu organisasi. Contoh:

Anda telah menerima XXX poin, punya waktu untuk menghabiskan hingga YYY;
Untuk Anda diskon XXX untuk produk merek YYY.

Rantai komunikasi adalah rangkaian kampanye pemasaran.

Program loyalitas merupakan rangkaian kegiatan pemasaran yang bertujuan untuk meningkatkan nilai pelanggan. Contoh tipikal adalah kartu diskon.

Mengelompokkan pelanggan - membagi pelanggan menjadi beberapa kelompok, di mana pelanggan serupa satu sama lain dalam perilaku konsumen.

Sistem rekomendasi adalah sistem yang menghasilkan penawaran terbaik kepada klien dalam hal nilai bisnis.

LTV (nilai umur) - keuntungan yang diharapkan dari klien untuk seluruh periode kerja sama dengannya.

Diyakini bahwa ketika mengembangkan program loyalitas, tugas utama seorang analis adalah menciptakan sistem rekomendasi kelas satu yang mengetahui apa, kapan dan dalam jumlah berapa yang dibutuhkan klien pada waktu tertentu. Ini memang penting, dan bahkan mendatangkan keuntungan, tetapi ini bukanlah tugas bisnis utama. Setiap organisasi pertama-tama ingin mengembangkan kebiasaan pelanggannya untuk menggunakan layanan mereka. Klien yang ideal adalah orang yang menggunakan layanan secara eksklusif dari organisasi ini, menghasilkan keuntungan yang stabil, merekomendasikan layanan kepada teman, sementara membutuhkan biaya minimum dari bisnis. Loyalitas pelanggan tidak diperoleh secara instan dan tugas organisasi adalah membimbing pelanggan dari pemesanan pertama hingga belanja rutin dengan cara yang paling efisien.

Misalnya, bayangkan sebuah kelompok sekolah di mana gurunya tidak hanya perlu menjelaskan aturan atau algoritme, penting baginya untuk menanamkan kecintaan pada siswa pada pembelajaran atau mata pelajaran. Seorang guru yang berpengalaman mengetahui bahwa proses pembelajaran tidak selalu menyenangkan, bahkan terkadang menyakitkan bagi kedua belah pihak, namun hasil akhirnya penting. Guru memiliki pendekatannya sendiri untuk setiap siswa, dengan mempertimbangkan banyak faktor individu.

Tidak seperti kelompok sekolah kecil, sebuah organisasi dapat memiliki puluhan juta klien, yang masing-masing perlu ditangani dengan tangan. Untuk ini, tidak cukup hanya menebak keinginan sekali. Dan jelas bahwa ini di luar kemampuan manusia.

Jadi, apa catatan pengantar kami:

— (, LTV ). , , ;
, , .;
, , ;
, , .1. , ( .2). , .

Solusi kami untuk masalah ini didasarkan pada konsep Reinforcement Learning (atau Reinforcement Learning). Sebelum melanjutkan ke presentasi pendekatan kami, kami telah menyiapkan perjalanan kecil ke dalam teori.

Pembelajaran Penguatan. INTRO

Apa itu dan mengapa?

Tugas Reinforcement Learning adalah membentuk algoritma yang optimal untuk berinteraksi dengan lingkungan tertentu untuk mencapai hasil yang diinginkan.

Salah satu contoh penggunaan RL adalah menemukan jalan keluar dari labirin. Awalnya, tidak ada yang diketahui tentang labirin. Dengan memeriksa opsi yang berbeda, algoritme belajar untuk menemukan jalur terpendek ke pintu keluar.

gambar

Apa saja fitur RL dari sudut pandang ML?

Reinforcement Learning adalah kelas terpisah dari algoritme pembelajaran mesin. Biasanya, informasi tentang lingkungan awalnya hilang, dengan kata lain, tidak ada contoh berlabel untuk pelatihan.

Keunikan RL adalah Anda dapat mencoba berbagai tindakan, membuat kesimpulan tentang kesuksesannya, mengumpulkan pengetahuan yang diperoleh, dan menggunakannya dalam pilihan berikutnya. Dan berkali-kali. Proses pembelajaran berulang, di mana algoritme secara mandiri menjelajahi lingkungan, adalah salah satu perbedaan utama RL.

Bagaimana RL berbeda dari pencacahan acak semua opsi?

Pertama, dengan bantuan RL klasik (tanpa menggunakan jaringan dalam), Anda dapat membuat pencacahan berurutan dan efisien. Salah satu prinsip dasar RL adalah eksplorasi, yang bergantian dengan eksploitasi pengetahuan. Dengan kata lain, tidak ada yang menghalangi kami untuk menggabungkan penerapan model dan pengujian, yang utama adalah menjaga keseimbangan.

Kedua, tidak dalam semua tugas dimungkinkan untuk memilah-milah semua situasi yang ada. Dalam kasus ini, algoritme RL lanjutan memungkinkan untuk menggeneralisasi pengetahuan yang terakumulasi ke kasus baru. Namun, bahkan dalam kasus ini, gagasan pengujian dan aplikasi bersama tetap ada.

Apa arti algoritma optimal untuk berinteraksi dengan lingkungan?

Kemenangan instan tidak selalu menjamin kesuksesan jangka panjang.

Contohnya, dalam permainan Catur, menangkap bidak lawan bisa mengakibatkan kerugian yang lebih mahal.

Namun, memilih tindakan tertentu, kami dapat berasumsi bahwa kami akan menunggu langkah selanjutnya. Pada langkah berikutnya, Anda dapat mengasumsikan apa yang akan terjadi selanjutnya. Dll Semua pengetahuan ini dapat diperhitungkan saat memilih tindakan selanjutnya. Dengan demikian, strategi perilaku dibangun.

Dimana ini digunakan?

Dalam game. Selain itu, ada keberhasilan dalam mengajar robot, bot negosiasi, dan sistem rekomendasi. Beberapa referensi menarik:

Sebelum mendalami detail terminologi, kami memberikan contoh yang menggambarkan beberapa fitur konseptual RL.

Contoh Pemula

Secara tradisional, mari kita mulai dengan multi-strategi.

Pertimbangkan mesin slot dengan pegangan N. Hanya satu pegangan mesin yang dapat diangkat dalam satu waktu.

Tujuan: untuk mengidentifikasi tindakan (yaitu pegangan) yang memberikan hasil maksimal.

Solusi: kita bisa menarik setiap pegangan berkali-kali. Kemudian, sebagai "tindakan optimal", kami memilih pegangan dengan hasil rata-rata tertinggi.

Dan jika di masa depan kita selalu memilih tindakan terbaik, maka strategi seperti itu akan disebut serakah .

Jelas, strategi seperti itu hanya akan berhasil di lingkungan yang tidak bergerak (yaitu, di mana tidak ada perubahan dari waktu ke waktu). Di lingkungan non-stasioner(misalnya, seseorang mengubah pengaturan mesin dari waktu ke waktu) dari waktu ke waktu, jika menggunakan strategi rakus, tidak akan ada hasil yang optimal.

Selain strategi rakus, ada yang lain:

ε-strategi rakus : masuk % kasus kami memilih tindakan optimal, di $\epsilon$ % - acak; $(1-\epsilon)$
Strategi batas kepercayaan atas (UCB) : ketika memilih tindakan, faktor pembobot digunakan, yang nilainya bergantung pada seberapa baik acara tersebut diuji (yaitu, semakin sedikit acara yang dipelajari, semakin tinggi kemungkinan memilih tindakan ini);
Softmax: semakin besar bayaran yang diharapkan, semakin tinggi kemungkinan untuk memilih tindakan ini.

Masalah multi-strategi adalah salah satu contoh masalah yang paling sederhana yang awalnya kita tidak tahu apa-apa tentang subjek pengamatan, yaitu kita belajar berinteraksi dengannya dari awal. Solusi untuk masalah ini didasarkan pada metode trial and error (sangat penting) dan seiring bertambahnya pengalaman, tindakan kita menjadi semakin sukses.

Apa yang kami pelajari dari contoh:

Trial and error juga merupakan metode;
Penghitungan acak dapat dibuat lebih efisien dengan menggunakan varian strategi yang berbeda;
Pisahkan lingkungan stasioner dan non-stasioner.

Contoh menengah

Sekarang kita dapat memperumit tugas sedikit dan mempertimbangkan tongkat sebagai contoh:

gambar

Kereta dengan tongkat dapat bergerak ke “kiri” dan “kanan”.

Sasaran: Anda perlu belajar bagaimana menjaga tongkat dalam posisi tegak selama mungkin.

Perbedaan dari tugas sebelumnya: sekarang perlu memperhitungkan parameter tambahan: sudut kemiringan

dan kecepatan batang

(a)

$(a)$

dan membuat keputusan berdasarkan informasi ini. Tugas tampaknya lebih rumit karena kombinasinya

(v)

$(v)$

banyak dan Anda tidak akan dapat mencoba masing-masing berkali-kali. Kombinasi apa saja

(a; v)

$(a;v)$

disebutnegara. Jumlah status dapat berupa kontinu atau terbatas. Algoritme status hingga umumnya lebih mudah diterapkan. Ternyata status adalah sekumpulan beberapa parameter sistem. Ada asumsi penting dalam teori RL bahwa kumpulan parameter ini harus sepenuhnya menggambarkan keadaan sistem. Artinya, tidak masalah bagi kami apa yang terjadi pada sistem di langkah sebelumnya, yang penting hanya apa yang kami amati pada saat tertentu. Apa yang kami pelajari dari contoh:

(a; v)

$(a;v)$

Saat memilih tindakan yang optimal, perlu mempertimbangkan keadaan sistem. Jumlah status memengaruhi kompleksitas algoritme;
Parameter yang menggambarkan keadaan sistem harus memberikan informasi lengkap tentang sistem pada saat ini.

Contoh lanjutan

Sekarang mari kita lihat permainan catur.

Jumlah kemungkinan posisi potongan di papan tulis dinyatakan dalam 52 digit. Dan ini bukan satu-satunya kesulitan. Perbedaan dari dua tugas sebelumnya adalah bahwa dalam kasus catur, penting untuk memilih bukan tindakan yang akan membawa hasil maksimal sekarang, tetapi tindakan yang akan membawa kemenangan di masa depan (setelah banyak langkah maju).

Apa yang kami pelajari dari contoh:

Saat membuat keputusan, pertimbangkan efek jangka panjangnya, bukan keuntungan langsungnya.

Sekarang, dengan menggunakan contoh, kita akan mendefinisikan istilah RL yang diterima secara umum.

Terminologi RL dasar

Agen adalah subjek yang berinteraksi dengan lingkungan, melakukan tindakan tertentu, menerima umpan balik darinya dan mengingatnya.

Misalnya, motor yang menggerakkan gerbong dengan batang; multi-strategi adalah agen.

Lingkungan - tempat agen berada dan dari mana ia menerima umpan balik.

Umpan balik yang diterima agen dari lingkungan biasanya memiliki beberapa ketidakpastian.

Misalnya, ketika kereta dengan palang melakukan gerakan, umpan balik dari tindakan yang dilakukan adalah akibat dari batang itu jatuh atau tidak. Gerbong dan batang - sedang.

Negara - pengetahuan apa pun yang membantu membuat keputusan. Negara mengacu pada lingkungan dan mendefinisikannya secara unik setiap saat. Sebagai aturan, status tersebut ditulis sebagai kumpulan parameter, matriks, atau tensor orde tinggi.

Misalnya, posisi bidak saat ini di papan catur adalah keadaan.

Tindakan - tindakan yang tersedia untuk agen. Biasanya, jumlah tindakan di ruang angkasa terbatas.

Misalnya, gerakan bilah ke kanan atau ke kiri adalah tindakan.

Imbalan - umpan balik instan yang diterima agen untuk tindakan. Artinya, ini adalah hasil dari tindakan yang diambil. Hadiahnya selalu berupa angka.

Misalnya, memenangkan robot dalam masalah multi-strategi adalah sebuah hadiah.

Sasaran - Sebagai aturan, tujuan agen adalah untuk memaksimalkan total hadiah. Dengan kata lain, tujuan akhirnya adalah untuk memaksimalkan reward bukan pada langkah saat ini, tetapi reward akhir berdasarkan hasil dari urutan langkah.

Misalnya, tujuan kita bukan untuk menahan pivot satu kali, tetapi selama mungkin.

Strategi - memetakan negara menjadi tindakan. Misalnya, probabilitas memilih tindakan A di negara bagian S.

Pernyataan masalah formal

Di setiap langkah, lingkungan bisa dalam keadaan . $s \in S$
Di setiap langkah, agen memilih tindakan dari kumpulan tindakan yang tersedia menurut beberapa strategi π. $a \in A$
Lingkungan memberi tahu agen apa imbalannya dia menerima untuk ini dan dalam kondisi apa $r$ kemudian ternyata. $s^* \in S$
Agen menyesuaikan strategi π.

Segalanya tampak sederhana. Ada satu pertanyaan yang belum terpecahkan - dari mana datangnya strategi misterius π , yaitu, bagaimana agen membuat keputusan di setiap langkah.

Karena di bagian akhir artikel akan diusulkan solusi berdasarkan Q-learning, kami sengaja hanya akan fokus pada metode tabel.

Algoritma Tabular RL

Beberapa metode dasar RL adalah metode tabel, digunakan untuk tugas-tugas di mana rangkaian status dan tindakan terbatas. Fitur karakteristik dari metode tersebut adalah penggunaan tabel State-Action. Baris biasanya status ditangguhkan, kolom adalah tindakan. Sel berisi nilai dari fungsi nilai.

gambar

- nilai tindakan

Q (s_{i}; a_{j})

$Q(s_i;a_j)$

mampu

a_{j}

$a_j$

. Secara kasar, inilah manfaat yang diharapkan yang akan kita terima jika kita memilih suatu tindakan

s_{i}

$s_i$

, berada dalam status

a_{j}

$a_j$

. Pada langkah pertama, nilai

s_{i}

$s_i$

diinisialisasi, misalnya, dengan nol. Untuk contoh maze, tabel State-Action awal mungkin terlihat seperti ini: Di sini, state adalah posisi (sel labirin) tempat agen berada. Setelah melakukan tindakan apa pun, agen kami mengubah statusnya dan menerima Hadiah. Dalam tugas ini, hadiahnya bisa sebagai berikut:

Q (s_{i}; a_{j})

$Q(s_i;a_j)$

gambar

1 jika objek telah menemukan jalan keluar dari labirin;
0 sebaliknya.

Selain itu, setelah agen menerima umpan balik yang sebenarnya dari lingkungan, nilainya

dikoreksi. Algoritma koreksi berbeda-beda, misalnya metode Monte Carlo, SARSA, Q-learning. Baca lebih lanjut tentang mereka disiniatau disini. Misalnya, rumus Q-learning dan SARSA terlihat sangat mirip pada pandangan pertama: Kedua metode menggunakan nilai tindakan yang diharapkan di langkah berikutnya. Ini diterima dengan sangat sederhana: misalkan agen ada di negara bagian

Q (s_{i}; a_{j})

$Q(s_i;a_j)$

gambar

dan melakukan aksinya

s_{i}

$s_i$

. Kemudian lingkungan memberi tahu agen bahwa sebagai hasil dari tindakannya dia menerima hadiah

a_{j}

$a_j$

dan negara bagian baru

r_{i}

$r_i$

. Menggunakan tabel Status-Action, Anda dapat menemukan baris dengan status

s_{k}

$s_k$

dan tentukan nilai apa yang akan dibawa oleh tindakan ini atau itu. Perbedaannya adalah dalam Q-learning

s_{k}

$s_k$

selalu merupakan nilai maksimum dalam keadaan baru. Sedangkan metode SARSA mengasumsikan bahwa agen mensimulasikan pilihan tindakan di negara bagian

Q (s_{k}; a)

$Q(s_k;a)$

, misalnya, menurut strategi ε-greedy atau UCB. Saat menggunakan strategi serakah, metodenya setara. Kerugian dari algoritma tersebut adalah kebutuhan untuk menyimpan tabel State-Action. Beberapa tugas dapat memiliki status dan ruang tindakan yang besar, yang membuatnya tidak mungkin untuk menggunakan metode tabel klasik. Dalam kasus seperti itu, pendekatan digunakan untuk mendekati nilai

s_{k}

$s_k$

menggunakan jaringan saraf. Pemrograman dinamis dapat menjadi alternatif metode tabel. Kami tidak akan memikirkan algoritma ini, tetapi kami merekomendasikan membaca bukuReinforcement Learning oleh R. S. Sutton dan E. G. Barto. Di sinilah kita menyelesaikan teori dan kemudian berbicara tentang bagaimana Reinforcement Learning dapat digunakan dalam tugas terapan.

Q (s_{i}; a_{j})

$Q(s_i;a_j)$

Menemukan strategi insentif klien yang optimal menggunakan Reinforcement Learning

Pernyataan masalah dalam istilah bisnis

Batasan di mana pendekatan kami dikembangkan:

Solusinya harus fleksibel terhadap batasan kebijakan komunikasi dengan klien;
Fungsi yang akan dioptimalkan harus didorong oleh tujuan bisnis dan dapat menjadi lebih kompleks daripada respons sederhana;
;
( , , , );
.

RL

Jadi,

Agen dan Lingkungan adalah sistem program loyalitas yang mengirimkan komunikasi klien dengan proposal pemasaran, dan klien itu sendiri.

Negara adalah keadaan klien, yang ditandai dengan atribut klien.

Tindakan adalah penawaran pemasaran (misalnya, "dapatkan diskon X% untuk pembelian Y"). Diasumsikan bahwa daftar proposal sudah pasti dan terbatas.

Imbalan adalah beberapa fungsi untuk mengubah perilaku pelanggan (misalnya, meningkatkan pendapatan atau menanggapi kampanye yang ditargetkan).

gambar

Pendekatan solusi

Sekarang mari kita lihat solusi yang mungkin menggunakan metode tabular Reinforcement Learning.

Algoritma solusi menggunakan Q-Learning atau Sarsa adalah sebagai berikut:

1. Mendefinisikan status klien

Status klien dapat ditentukan menggunakan atribut klien. Sebagian besar atribut ini adalah bilangan real, jadi sebelum menggunakan metode tabel, atribut harus dikesampingkan untuk mendapatkan sekumpulan status yang terbatas.

Dalam solusi kami, kami menggunakan cluster yang diperoleh sebagai hasil dari pengelompokan basis klien berdasarkan atribut yang dipilih sebagai status klien. Jumlah cluster memengaruhi seberapa cepat algoritme belajar. Rekomendasi umum adalah sebagai berikut:

Untuk dapat mengatur arus pelanggan dari cluster ke cluster, perlu bahwa daftar atribut mencakup atribut-atribut yang dapat diubah di bawah pengaruh ketersediaan dan reaksi terhadap penawaran pemasaran;
dalam setiap cluster, klien harus memiliki perilaku homogen;
memperbarui atribut harus dimungkinkan secara teratur;
di setiap cluster, jumlah klien harus lebih tinggi dari jumlah minimum yang ditetapkan (jumlah minimum mungkin disebabkan, misalnya, pembatasan jumlah minimum klien agar hasilnya bermakna)

2. Pilihan hadiah

Pilihan hadiah adalah tahap terpenting dalam pengembangan sistem. Untuk tugas ini, pahala dapat menandai keberhasilan kampanye. Misalnya, opsi yang memungkinkan adalah:

Konversi per penawaran;
Meningkat dalam menanggapi tawaran;
Pendapatan spesifik per peserta kampanye;
Keuntungan spesifik dengan memperhitungkan biaya;
...

Kembali ke masalah meningkatkan loyalitas pelanggan, metrik target dapat berupa LTV atau metrik kedekatan pelanggan dengan segmen setia.

Bagaimanapun, pilihan hadiah harus sejalan dengan tujuan pemasaran.

PS Beberapa opsi remunerasi yang diusulkan dihitung secara agregat oleh sekelompok pelanggan (misalnya, peningkatan dalam menanggapi penawaran adalah tanggapan dalam kelompok sasaran dikurangi tanggapan dalam kelompok kontrol). Dalam kasus ini, akan lebih tepat untuk mengatakan bahwa kami memilih tindakan bukan untuk klien, tetapi untuk sekelompok klien (yang berada dalam status yang sama), di mana reward dihitung.

3. Pilihan tindakan yang mungkin dilakukan

Tindakan adalah proposal pemasaran yang dapat dikirim ke pelanggan. Saat memilih kampanye pemasaran untuk digunakan dalam sistem, perlu diingat:

proposal pemasaran tidak boleh berubah dari peluncuran ke peluncuran;
pilihan jumlah kalimat memengaruhi kecepatan pembelajaran algoritme;
skenario harus dipertimbangkan jika tidak ada kampanye yang sesuai untuk negara bagian tersebut (misalnya, semua varian penawaran menghasilkan pendapatan negatif). Dalam kasus ini, salah satu tindakan dapat berupa "kampanye default". Ini bisa berupa beberapa milis dasar yang dapat dikirim ke semua pelanggan, atau tidak adanya penawaran (yaitu, mungkin lebih menguntungkan untuk tidak mengirim apa pun kepada klien).

4. Mendesain algoritme pemilihan tunduk pada batasan

Saat mendesain algoritme, orang harus mempertimbangkan:

(, iphone, iphone).
, .
.
Q-learning SARSA . , , .
, ( ) -.

5. Inisialisasi tabel State-Action

Awalnya, tabel State-Action terlihat seperti ini:

gambar

Peluncuran sistem lebih lanjut dimungkinkan jika tidak ada peluncuran historis untuk kampanye yang dipilih, yang merupakan keuntungan penting dari konsep tersebut.

Namun, jika ada sejarah tertentu, maka itu dapat digunakan, yaitu, pra-pelatihan retrospektif tabel State-Action dimungkinkan:

Inisialisasi tabel State-Action dengan nol
Ambil sejarah peluncuran kampanye X. Hitung status klien yang berpartisipasi dalam kampanye pada saat peluncuran dan di akhir kampanye. Hitung hadiah yang diterima di setiap negara bagian.
Menurut rumus Q-learning atau SARSA, hitung ulang tabel Tindakan Negara dengan mempertimbangkan nilai yang diharapkan dari nilai kampanye pada peluncuran berikutnya.

6. Melatih algoritme pada peluncuran perintis

Tujuan dari sistem kami adalah mempelajari cara memilih penawaran terbaik untuk seluruh basis klien. Namun, pada tahap pengujian sistem, kami merekomendasikan untuk melakukan peluncuran perintis pada sampel perwakilan kecil klien.

Apa yang perlu Anda perhatikan pada tahap ini:

Perubahan nilai dalam tabel Tindakan-keadaan: saat sejarah terakumulasi, nilai-nilai dalam tabel tindakan-keadaan harus menjadi lebih dan lebih stabil;
Dinamika positif dari efek kampanye: dari peluncuran hingga peluncuran, efektivitas setiap proposal pemasaran harus tumbuh.

Segera setelah (1) dan (2) mencapai titik stabil, kita dapat mengasumsikan bahwa sistem siap untuk diluncurkan ke seluruh basis pelanggan.

7. Sistem membuka gulungan

Sebelum Anda mulai meluncurkan sistem, disarankan untuk menganalisis keberlanjutan hasil kampanye dalam konteks setiap status klien. Seperti yang diperlihatkan oleh praktik, terlepas dari stabilitas umum, di beberapa negara bagian mungkin terdapat sejarah yang tidak memadai, atau negara bagian itu sendiri mungkin tidak stabil dalam waktu => kami memiliki hasil yang tidak stabil.

Jadi, kami telah mengembangkan rekomendasi berikut untuk bergulir:

Kecualikan kondisi yang tidak stabil dari penggulungan;
Gunakan strategi ε-greedy sehingga sistem dapat secara mandiri menyesuaikan diri dengan perubahan perilaku basis pelanggan;
Lanjutkan pemantauan kinerja sistem secara teratur.

Jadi, dalam artikel ini kami telah mencoba mendeskripsikan konsep tingkat tinggi dari pendekatan kami. Hasil operasi sistem berdasarkan algoritma yang diusulkan dapat dilihat di sini .

Kesimpulan

Kami telah menjelaskan penggunaan RL untuk memecahkan masalah pemilihan rantai tindakan yang optimal. Namun perlu disebutkan bahwa konsep serupa dapat diterapkan pada tugas pemasaran lain, misalnya sistem rekomendasi, pemilihan saluran / waktu komunikasi yang optimal, atau pemilihan spanduk pribadi di situs. Terlepas dari kenyataan bahwa Reinforcement Learning lebih rendah popularitasnya daripada metode ML tradisional, kami ingin menyampaikan kepada pembaca bahwa RL dapat menjadi solusi yang sangat baik jika ada kebutuhan untuk mempertahankan pelatihan ulang sistem otomatis atau sepenuhnya melatih sistem dari awal.

Tim GlowByte ingin berterima kasih kepada X5 Retail Group atas kesempatan untuk mengimplementasikan kasus ini.

Bagaimana Pembelajaran Penguatan Membantu Pengecer

pengantar

Tugas mengoptimalkan rantai komunikasi

Pembelajaran Penguatan. INTRO

Apa itu dan mengapa?

Apa saja fitur RL dari sudut pandang ML?

Bagaimana RL berbeda dari pencacahan acak semua opsi?

Apa arti algoritma optimal untuk berinteraksi dengan lingkungan?

Dimana ini digunakan?

Contoh Pemula

Contoh menengah

Contoh lanjutan

Terminologi RL dasar

Pernyataan masalah formal

Algoritma Tabular RL

Menemukan strategi insentif klien yang optimal menggunakan Reinforcement Learning

Pernyataan masalah dalam istilah bisnis

RL

Pendekatan solusi

1. Mendefinisikan status klien

2. Pilihan hadiah

3. Pilihan tindakan yang mungkin dilakukan

4. Mendesain algoritme pemilihan tunduk pada batasan

5. Inisialisasi tabel State-Action

6. Melatih algoritme pada peluncuran perintis

7. Sistem membuka gulungan

Kesimpulan

More articles: