(Pembelajaran Q, SARSA, DQN, DDPG)
Pembelajaran penguatan (RL, selanjutnya RL) mengacu pada jenis metode pembelajaran mesin di mana agen menerima hadiah yang ditangguhkan pada langkah waktu berikutnya untuk mengevaluasi tindakan sebelumnya. Itu terutama digunakan dalam permainan (misalnya Atari, Mario), dengan kinerja setara atau bahkan lebih unggul dari manusia. Baru-baru ini, ketika algoritma dikembangkan dalam kombinasi dengan jaringan saraf, ia mampu memecahkan masalah yang lebih kompleks.
Karena banyaknya algoritma OP, tidak mungkin untuk membandingkan semuanya satu sama lain. Oleh karena itu, artikel ini akan membahas secara singkat hanya beberapa algoritma yang terkenal.
1. Pembelajaran penguatan
OP tipikal memiliki dua komponen, Agen dan Lingkungan.
– , ( ), . , (state = s) , , , (action = a ) . (state’ = s’) (reward = r) , , . , .
. , , .
:
1. Action (A, a): , ()
2. State (S,s):
3. Rewrd (R,r): ,
4. Policy (π ): - , , (a’) .
5. Value (V) Estimate (E) : () , R, Eπ(s) , s. ( Value – , Estimate – , E – . . )
6. Q-value (Q): Q V, , a ( ). Qπ(s, a) π s a
. T(s1|(s0, a)) S0 a S1 . , , , a . , , (S*S*A )
, . / .
2.
2.1. Q-learning
Q-learning , :
Q-value:
Q, Q*, :
, Q-. Q-value, , Q-learning.
.
V « » . , , (action – a), V (). . .
(V)
, V, .
, , .
, p, , . , , , , . Q-Learning ?
a () (.. ) Q-learning (v). . (p).
, a’ Q- , . Q-learning (off-Policy).
2.2. State-Action-Reward-State-Action (SARSA)
SARSA Q-learning. SARSA Q-learning , (on-policy). , SARSA Q , , .
Q
Q-learning: Q(st,at)←Q(st,at)+α[rt+1+γmaxaQ(st+1,a)−Q(st,at)]
SARSA: Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]
at+1 – st+1 .
, , Q- learning Q-, , a, Q- Q (st + 1, a).
SARSA (, epsilon-greedy), a, , a + 1, Q- , Q (st + 1, at+1). ( SARSA, State-Action-Reward-State-Action).
, SARSA – on-policy , +1. , Q-.
Q-learning , a, , a s , a, Q (st+1, a). , Q-learning (, , ), Q
, , . , Q-learning , Q . , SARSA - , (on-policy).
2.3. Deep Q Network (DQN)
Q-learning - , - . Q- learning, ( * (action space * state space)), . , , Q-Learning , , . , Q-Learning . , DQN , .
DQN Q-. , - Q .
2013 DeepMind DQN Atari, . . , . Q- , .
: ?
, Q-learning. , Q Q-learning:
φ s, θ , . , Q Q .
DQN:
1. : (RL) , . . , , « » .
2. : Q , , . C, , . , , .
2.4. Deep Deterministic Policy Gradient (DDPG)
DQN , Atari, - . , , , . , . , , 10. 4 . 4¹⁰ = 1048576 . , .
DDPG «-» - . ? , .
(TD)
u . ? ! Q-learning. TD-learning – . Q-learning TD-learning Q
DDPG DQN. DDPG , . (action).
, , , OpenAI.