Pengenalan berbagai algoritma pembelajaran penguatan (Q-Learning, SARSA, DQN, DDPG)

(Pembelajaran Q, SARSA, DQN, DDPG)

Pembelajaran penguatan (RL, selanjutnya RL) mengacu pada jenis metode pembelajaran mesin di mana agen menerima hadiah yang ditangguhkan pada langkah waktu berikutnya untuk mengevaluasi tindakan sebelumnya. Itu terutama digunakan dalam permainan (misalnya Atari, Mario), dengan kinerja setara atau bahkan lebih unggul dari manusia. Baru-baru ini, ketika algoritma dikembangkan dalam kombinasi dengan jaringan saraf, ia mampu memecahkan masalah yang lebih kompleks.

Karena banyaknya algoritma OP, tidak mungkin untuk membandingkan semuanya satu sama lain. Oleh karena itu, artikel ini akan membahas secara singkat hanya beberapa algoritma yang terkenal.

1. Pembelajaran penguatan

OP tipikal memiliki dua komponen, Agen dan Lingkungan.

– , ( ), . , (state = s) , , , (action = a ) . (state’ = s’) (reward = r) , , . , .

. , , .

:

1. Action (A, a): , ()

2. State (S,s):

3. Rewrd (R,r): ,

4. Policy (π ): - , , (a’) .

5. Value (V) Estimate (E) : () , R, Eπ(s) , s. ( Value – , Estimate – , E – . . )

6. Q-value (Q): Q V, , a ( ). Qπ(s, a) π s a

* MCTS (Mote langkah waktu Monte Carlo), on-policy (algoritma di mana Agen termasuk dalam kebijakan, yaitu belajar berdasarkan tindakan yang berasal dari kebijakan saat ini), di luar kebijakan (Agen belajar berdasarkan tindakan yang diterima dari orang lain kebijakan — * MCTS (- ), on-policy (, , .. , ), off-policy ( ,

. T(s₁|(s₀, a)) S₀ a S₁. , , , a . , , (S*S*A )

, . / .

2.

2.1. Q-learning

Q-learning , :

E dalam persamaan di atas mengacu pada nilai yang diharapkan dan adalah faktor diskonto. — E ,  - .

Q-value:

Q, Q*, :

, Q-. Q-value, , Q-learning.

.

V « » . , , (action – a), V (). . .

(V)

, V, .

, , .

, p, , . , , , , . Q-Learning ?

a () (.. ) Q-learning (v). . (p).

, a’ Q- , . Q-learning (off-Policy).

2.2. State-Action-Reward-State-Action (SARSA)

SARSA Q-learning. SARSA Q-learning , (on-policy). , SARSA Q , , .

Q

Q-learning: Q(s_t,a_t)←Q(s_t,a_t)+α[r_t+1+γmaxaQ(s_t₊₁,a)−Q(s_t,a_t)]

SARSA: Q(s_t,a_t)←Q(s_t,a_t)+α[r_t+1+γQ(s_t+1,a_t+1)−Q(s_t,a_t)]

a_t+1– s_t+1 .

, , Q- learning Q-, , a, Q- Q (s_{t + 1}, a).

SARSA (, epsilon-greedy), a, , a + 1, Q- , Q (s_{t + 1}, a_t+1). ( SARSA, State-Action-Reward-State-Action).

, SARSA – on-policy , +1. , Q-.

Q-learning , a, , a s , a, Q (s_t₊₁, a). , Q-learning (, , ), Q

, , . , Q-learning , Q . , SARSA - , (on-policy).

2.3. Deep Q Network (DQN)

Q-learning - , - . Q- learning, ( * (action space * state space)), . , , Q-Learning , , . , Q-Learning . , DQN , .

DQN Q-. , - Q .

2013 DeepMind DQN Atari, . . , . Q- , .

: ?

, Q-learning. , Q Q-learning:

φ s, θ , . , Q Q .

DQN:

1. : (RL) , . . , , « » .

2. : Q , , . C, , . , , .

2.4. Deep Deterministic Policy Gradient (DDPG)

DQN , Atari, - . , , , . , . , , 10. 4 . 4¹⁰ = 1048576 . , .

DDPG «-» - . ? , .

(TD)

u . ? ! Q-learning. TD-learning – . Q-learning TD-learning Q

DDPG DQN. DDPG , . (action).

Di sebelah kiri, noise ditambahkan ke tindakan, di sebelah kanan ke parameter. — ,

, , , OpenAI.

All Articles