Pribadi atau Sosial? Bagaimana mencapai kerjasama dalam lingkungan multi-agen

Hei! Nama saya Dmitry, dan saya ingin memberi tahu Anda tentang artikel kami "Menyeimbangkan Preferensi Rasional dan Preferensi Terkait Lainnya di Lingkungan Kompetitif-Koperasi", yang baru-baru ini diterima di konferensi AAMAS (A *). 





Dalam makalah ini, kami mengeksplorasi bagaimana sekelompok agen dapat dilatih untuk mencapai tujuan mereka sendiri dalam lingkungan campuran tanpa mengganggu atau bahkan saling membantu. Kami menganalisis beberapa solusi yang ada dan menawarkan solusi kami sendiri. Posting itu ternyata tingkat tinggi, detail teknisnya ada di artikel .





Siapa kita

Nama saya Dmitry Ivanov , saya adalah mahasiswa pascasarjana tahun ketiga di bidang ekonomi di St. Petersburg HSE. Saya bekerja di grup Pembelajaran Sistem dan Penguatan Agen di JetBrains Research, serta di Laboratorium Internasional untuk Teori Game dan Pengambilan Keputusan di HSE.





  , 1 β€œ ” β€” -, , . JetBrains Research, -- .





, : , . , . β€” (. 1).





Ara.  1. Dilema narapidana.
. 1.  .

. , : , . , 3 . , 2 . , , , 4 . : , , .. . .





β€” , (Peysakhovich and Lerer, 2017). , . . , β€” β€˜Cooperate’ β€˜Defect’. , . Sequential Social Dilemma (Leibo et al., 2017), , , .





, , β€” ( , ?) , . , ? : ?





: , (Rashid et al., 2018). : , . . (SW = Social Welfare): 





SW (r) = \ sum_i r_i

SW , , , (). β€” , . , . β€œβ€ ? (. 1). , , Defect-Cooperate Cooperate-Cooperate: 4 , , ! , , SW , β€” , . , ,





, : , VDN, QMIX, COMA . , credit assignment reward disentanglement β€” , . β€” . SW , SW β€” . β€” , , .





Cooperative Reward Shaping

β€” , , . , , , Ξ»:





( ) (Peysakhovich and Lerer, 2017; Lerer and Peysakhovich, 2019; Durugkar et al., 2020), , Cooperative Reward Shaping (CRS). . , β€œ ”. , , credit assignment. , .





, : , credit assignment . : , , β€” . , . , β€” β€” . β€” QMIX COMA!





? , . , . , SW -, . . , , BAROCCO β€” ?





. , β€” Eldorado (. 2). . β€” 1000 , +1. , -1. , . , . , .





Ara.  2. Rabu Eldorado
. 2. Eldorado

:





  1. BAROCCO : selfish ( ), CRS ( ), COMA ( + credit assignment, ). , . , .





  2. BAROCCO , .. Ξ». , , .





Harapan hidup (total untuk 2 agen) Indeks Gini (kurang = lebih adil)
( 2 ) ( = )

. 3. Eldorado. β€” . CRS BAROCCO Ξ»=1 , . Selfish - , Ξ»=0, BAROCCO CRS . β€” Ξ» BAROCCO. β€” , β€” , . β€” .





:





  1. BAROCCO ( ), 1000 2000 . , ( ) , : , . , , . , .





  2. BAROCCO , , . , , - .





  3. CRS COMA . Eldorado , . - , ( 1000 ), , , . , , .





  4. , Ξ» ( ) . 0.5. .





Sumber - Deeps of Reddit.
β€” Reddit.

Ξ». , , -, ( ), -,  β€” . , . , reciprocity (), (Eccles et al., 2019; Lerer and Peysakhovich, 2019). , , . , .





: . , , . , , , , .








All Articles