Hei! Nama saya Dmitry, dan saya ingin memberi tahu Anda tentang artikel kami "Menyeimbangkan Preferensi Rasional dan Preferensi Terkait Lainnya di Lingkungan Kompetitif-Koperasi", yang baru-baru ini diterima di konferensi AAMAS (A *).
Dalam makalah ini, kami mengeksplorasi bagaimana sekelompok agen dapat dilatih untuk mencapai tujuan mereka sendiri dalam lingkungan campuran tanpa mengganggu atau bahkan saling membantu. Kami menganalisis beberapa solusi yang ada dan menawarkan solusi kami sendiri. Posting itu ternyata tingkat tinggi, detail teknisnya ada di artikel .
Siapa kita
Nama saya Dmitry Ivanov , saya adalah mahasiswa pascasarjana tahun ketiga di bidang ekonomi di St. Petersburg HSE. Saya bekerja di grup Pembelajaran Sistem dan Penguatan Agen di JetBrains Research, serta di Laboratorium Internasional untuk Teori Game dan Pengambilan Keputusan di HSE.
, 1 β β β -, , . JetBrains Research, -- .
, : , . , . β (. 1).
. , : , . , 3 . , 2 . , , , 4 . : , , .. . .
β , (Peysakhovich and Lerer, 2017). , . . , β βCooperateβ βDefectβ. , . Sequential Social Dilemma (Leibo et al., 2017), , , .
, , β ( , ?) , . , ? : ?
: , (Rashid et al., 2018). : , . . (SW = Social Welfare):
SW , , , (). β , . , . ββ ? (. 1). , , Defect-Cooperate Cooperate-Cooperate: 4 , , ! , , SW , β , . , ,
, : , VDN, QMIX, COMA . , credit assignment reward disentanglement β , . β . SW , SW β . β , , .
Cooperative Reward Shaping
β , , . , , , Ξ»:
( ) (Peysakhovich and Lerer, 2017; Lerer and Peysakhovich, 2019; Durugkar et al., 2020), , Cooperative Reward Shaping (CRS). . , β β. , , credit assignment. , .
, : , credit assignment . : , , β . , . , β β . β QMIX COMA!
? , . , . , SW -, . . , , BAROCCO β ?
. , β Eldorado (. 2). . β 1000 , +1. , -1. , . , . , .
:
BAROCCO : selfish ( ), CRS ( ), COMA ( + credit assignment, ). , . , .
BAROCCO , .. Ξ». , , .
. 3. Eldorado. β . CRS BAROCCO Ξ»=1 , . Selfish - , Ξ»=0, BAROCCO CRS . β Ξ» BAROCCO. β , β , . β .
:
BAROCCO ( ), 1000 2000 . , ( ) , : , . , , . , .
BAROCCO , , . , , - .
CRS COMA . Eldorado , . - , ( 1000 ), , , . , , .
, Ξ» ( ) . 0.5. .
Ξ». , , -, ( ), -, β . , . , reciprocity (), (Eccles et al., 2019; Lerer and Peysakhovich, 2019). , , . , .
: . , , . , , , , .