Knowledge Transfer for Deep Reinforcement Learning with Hierarchical Experience Replay

Size: px

Start display at page:

Download "Knowledge Transfer for Deep Reinforcement Learning with Hierarchical Experience Replay"

Herbert McDonald
5 years ago
Views:

1 Knowledge Transfer for Deep Reinforcement Learning with Hierarchical Experience Replay Haiyan (Helena) Yin, Sinno Jialin Pan School of Computer Science and Engineering Nanyang Technological University Singapore {haiyanyin, November 15, 2017 Haiyan (Helena) Yin, Sinno Jialin Pan Multitask DRL with H-PR November 15, / 25

2 Overview 1 Motivation 2 Background Deep Q-Learning Multi-task Deep Reinforcement Learning 3 Methodology Multi-task Architecture Hierarchical Experience Replay 4 Experiments Atari 2600 domain 5 Conclusion Haiyan (Helena) Yin, Sinno Jialin Pan Multitask DRL with H-PR November 15, / 25

Motivation Deep reinforcement learning (DRL) enables us to derive sequential decision making policies

Mastering the game of Go with deep neural networks and tree search (2016) Feudal networks for

(2016) Training each DRL model requires extensive computational efforts. e.g. With a modern GPU, training a deep RL model for Atari takes about 1 week.

3 Motivation Deep reinforcement learning (DRL) enables us to derive sequential decision making policies from low-level sensory inputs. Mastering the game of Go with deep neural networks and tree search (2016) Feudal networks for hierarchical reinforcement learning (2017) Sim-to-Real robot learning from pixels with progressive nets (2016) Training each DRL model requires extensive computational efforts. e.g. With a modern GPU, training a deep RL model for Atari takes about 1 week. Each DRL model could only be used on a single task domain. Haiyan (Helena) Yin, Sinno Jialin Pan Multitask DRL with H-PR November 15, / 25

4 Objective Train a multi-task DQN, which can be used across multiple task domains. Knowledge transfer via a student-teacher setting Policy distillation. Avoid negative transfer on individual task. New network architecture. Increase sample efficiency. Hierarchical experience sampling. Haiyan (Helena) Yin, Sinno Jialin Pan Multitask DRL with H-PR November 15, / 25

5 Markov Decision Process Definition A Markov Decision Process is a tuple S, A, P, R, γ S is a set of states. A is a set of actions. P is state transition probability, P a ss = P[S t+1 = s S t = s, A t = a] R is a reward function R a s = E[R t+1 S t = s, A t = a] γ is a discount factor, γ [0, 1] Definition Optimization: to learn a behavior policy π, to maximize the expected cumulative future reward: Q(s t, a t ) = E π [ k=0 γk R t+k+1 s t, a t ] Haiyan (Helena) Yin, Sinno Jialin Pan Multitask DRL with H-PR November 15, / 25

6 Multi-task DQN Multi-task DQN adopts a student-teacher architecture for supervised policy training. Policy distillation. Rusu et al, ICLR (2016). Haiyan (Helena) Yin, Sinno Jialin Pan Multitask DRL with H-PR November 15, / 25

7 Teacher: Deep Q-Networks (DQN) DQN optimizes Q(s,a) using Q-learning algorithm: [ ] Q (s, a) = E s r + γ max Q (s, a s, a). a L(θ i ) = E s,a [(r + γmax a Q(s, a ; θ i 1 ) Q(s, a; θ i )) 2 ] DQN uses experience replay to sample experience to update the network Store transition (s t, a t, r t+1, s t+1 ) as experience in replay memory D Sample uniformly for mini-batch of experience (s, a, r, s ) from D To reduce variance, DQN adopts reward clipping and parameter freezing Haiyan (Helena) Yin, Sinno Jialin Pan Multitask DRL with H-PR November 15, / 25

8 Transfer: Teacher(s) Student Multi-task DQN Setting: Suppose there is a set of m source tasks, S 1,..., S m Each task i has trained a teacher network, Q Ti Each domain keeps a replay memory D (i) = {e (i) k, q(i) k } Denote the output value by multi-task student as q (S) (k) Loss functions for the supervised training: L NLL (D (i), θ S ) = D (i) i=1 logp(a i = a i,best s i, θ S ) L MSE (D (i), θ S ) = D (i) i=1 q(i) k q (S) (k) 2 2 L KL (D (i), θ S ) = D (i) i=1 q(i) k softmax( τ q (i) softmax( k )ln τ ) softmax(q (S) (k) ) Haiyan (Helena) Yin, Sinno Jialin Pan Multitask DRL with H-PR November 15, / 25

9 Challenge for Transfer Negative transfer for multi-task network: Slow convergence for learning(#training frames scale to 1e8) Haiyan (Helena) Yin, Sinno Jialin Pan Multitask DRL with H-PR November 15, / 25

10 Multi-task Architecture AMN Actor-Mimic Deep Multitask And Transfer Reinforcement Learning (ICLR 2016) Dist Policy Distillation (ICLR 2016) Haiyan (Helena) Yin, Sinno Jialin Pan Multitask DRL with H-PR November 15, / 25

11 Multi-task Architecture A new multi-task framework with task-specific high-level features: Haiyan (Helena) Yin, Sinno Jialin Pan Multitask DRL with H-PR November 15, / 25

12 Multi-task Architecture Intention for using task-specific high-level feature: Improve performance: Low-level pixel representation is quite game-specific, sharing very little statistical base. Sharing the convolutional filters among tasks may fail to learn important task-specific features. Time efficiency: Lead to much more reduced convergence time. Using the task-specific convolutional filters (i.e., pre-training) doesn t involve additional cost. Haiyan (Helena) Yin, Sinno Jialin Pan Multitask DRL with H-PR November 15, / 25

13 Experience Replay for DQN Uniform sampling [DQN, Double-DQN, A3C, etc] Probability for each experience from D is equal: 1 D Samples follow the data distribution Prioritized experience replay [Prior.DQN] Select experience based on TD error: (r + γmax a Q(s, a ; θ i 1 ) Q(s, a; θ i )) TD error serves as an informative metric for prioritization Samples no longer follows the original data distribution Haiyan (Helena) Yin, Sinno Jialin Pan Multitask DRL with H-PR November 15, / 25

14 State Visiting Distribution for Breakout State distribution for Breakout with networks of different playing ability. Playing ability increases from Net-1 to Net-3. Haiyan (Helena) Yin, Sinno Jialin Pan Multitask DRL with H-PR November 15, / 25

15 Hierarchical Prioritized Experience Replay Partition the state space Propose state distribution based on V(s) V(s) = max a Q(s, a) Observe boundry [V (i) min, V max] (i) Divide V(s) into p partitions with equal length {[V (i) 1, V (i) (i) 2 ], (V 2, V (i) (i) 3 ],...(V p, V (i) p+1 ]} Hierarchical Sampling: Within partition: prioritized sampling (based on distillation error) Partition selection: uniform sampling Haiyan (Helena) Yin, Sinno Jialin Pan Multitask DRL with H-PR November 15, / 25

16 Hierarchical Prioritized Experience Replay Uniform sampling on partitions For each task i, track of the num. of experience samples assigned to partition j within a window: N (i) j Probability for partition j to be selected (for task i): P (i) j = N(i) j p k=1 N(i) k Haiyan (Helena) Yin, Sinno Jialin Pan Multitask DRL with H-PR November 15, / 25

17 Hierarchical Prioritized Experience Replay Prioritization within selected partition (a rank-based approach) ( ) Prioritization: δ (i) [k] = 1 A Ti f q (i) ( ) j [k] τ f q (S) j [k] Weight: σ (i) 1 j (k) = rank (i) j (k) Prioritized sampling probability (within partition): P (i) j [k] = ( σ (i) j N (i) j t=1 ( ) α (k) σ (i) j 1 ) (1) α (t) Haiyan (Helena) Yin, Sinno Jialin Pan Multitask DRL with H-PR November 15, / 25

18 Hierarchical Prioritized Experience Replay Definition The overall probability for an experience k for task i from partition j to be sampled w.r.t the entire replay memory is: P (i) j (k) = P (i) j P (i) j [k] Bias correction via importance sampling: w (i) j (k) = 1 p t=1 N(i) t P (i) j P (i) j [k] β = 1 N (i) j 1 P (i) j [k] β, (2) The gradient used for mini-batch update with hierarchical importance sampling is: ŵ (i) j (k) δ (i) j [k] Haiyan (Helena) Yin, Sinno Jialin Pan Multitask DRL with H-PR November 15, / 25

19 Experiment with Atari 2600 Evaluation Criteria: Architectural efficiency: A multi-task domain with 10 Atari games: Beamrider, Breakout, Enduro, Freeway, Ms.Pacman, Pong, Q*bert, Seaquest, Space Invaders, and River Raid. Sampling efficiency: A multi-task domain with 4 Atari games: Breakout, Freeway, Pong and Q*bert Haiyan (Helena) Yin, Sinno Jialin Pan Multitask DRL with H-PR November 15, / 25

20 Evaluation on Architecture Baseline approaches : AMN: unified CNN+FC DIST: (shared CNN+FC) + (game-specific FC+output) Teacher DIST AMN Proposed (score) (% of teacher) Beamrider Breakout Enduro Freeway Ms.Pacman Pong Q*bert Seaquest Space Invaders River Raid Geometric Mean (Note that all approaches adopt uniform sampling) Haiyan (Helena) Yin, Sinno Jialin Pan Multitask DRL with H-PR November 15, / 25

21 Evaluation on Architecture Learning curves on 4 games with the most slow convergence: Tasks: Breakout, Enduro, River Raid, Space Invaders AMN/DIST: >2.5m mini-batch Proposed: <1.5m mini-batch Haiyan (Helena) Yin, Sinno Jialin Pan Multitask DRL with H-PR November 15, / 25

22 Evaluation on Sampling Efficiency Baseline approaches: Uniform PR: rank-based prioritized replay Tasks: Breakout, Freeway, Pong, Q*bert Haiyan (Helena) Yin, Sinno Jialin Pan Multitask DRL with H-PR November 15, / 25

23 Conclusion Supervised training of multi-task DQN via policy distillation. Using task-specific features reduce negative transfer effect and save training time. Hierarchical prioritized sampling accelerates the learning by considering state visiting distribution. Haiyan (Helena) Yin, Sinno Jialin Pan Multitask DRL with H-PR November 15, / 25

24 Hashing Over Predicted Future Frames for Informed Exploration of Deep Reinforcement Learning Haiyan Yin, Sinno Jialin Pan Informed Exploration with Model-based Knowledge. Haiyan (Helena) Yin, Sinno Jialin Pan Multitask DRL with H-PR November 15, / 25

25 Thank you.

Slides credited from Dr. David Silver & Hung-Yi Lee

Slides credited from Dr. David Silver & Hung-Yi Lee Review Reinforcement Learning 2 Reinforcement Learning RL is a general purpose framework for decision making RL is for an agent with the capacity to