티스토리 뷰
[논문] Playing Atari with Deep Reinforcement Learning
강화학습과 deep neural network을 대규모로 결합
RL은 학습을 위해 scalar형태의 reward값만 주어지고 이 reward조차 sparse하고 noisy가 있고, action과 reward 사이 delayed한 특징이 있다. 또한 현재 state가 다음 state에 많은 영향을 끼치는 RL은 data간의 correlation이 크다.
그리고 RL의 algorithm이 학습되면서 생성되는 data분포 역시 달라진다.
이를 해결하기 위해 이번 논문은 다음을 제시한다.
experience replay와 target network를 적용
Input으로 state를, output으로 Q(s,a)를 갖는 function approximator를 neural network(NN)으로 생성
🟦 Experience Replay
보통 Q-learning의 경우, agent의 on-policy sample를 통해 parameter를 update하였습니다. 다만 on-policy learning의 특성상 sample간 correlation이 커져 policy가 발산하거나 local minimum에 빠져 성능이 하락할 수 있습니다.
□ Experience replay는 각 time-step별로 얻은 sample을 시계열 순으로 유한한 크기의 dataset에 저장
□ 학습에 쓰일 sample을 무작위로 추출하여 mini-batch를 구성하고 파라미터를 학습시킴.
□ input을 pre-process하여 size를 고정시킴
▶▶▶ Data sample의 재활용이 가능해 data를 효율적으로 사용할 수 있고, 위에서 제기한 correlation문제를 해결
🟦Target Network
□ DQN과 똑같은 NN을 하나 더 만들어, weight값이 띄엄띄엄 update되도록 설계
(* Bellman equation을 이용하여 DQN의 weight를 update하기 위해 loss function 설정)
□ 학습 도중 weight의 update로 target이 변한다면 Q의 approximator(estimate)가 어디(optimal value)를 향해
수렴해야할 지 파악하기 힘들어지기 때문에 이를 방지하기 위함(Non-stationary target problem).
0. Abstract
- 강화 학습을 사용하여 (이미지나 자연어 같은) 고차원 sensory input에서 직접 agent의 policy contol를 효과적으로 학습하는 최초의 딥러닝 모델을 제시
- Atrai game 모델은입력 데이터가 raw pixel이고 출력 데이터가 미래의 reward를 추정하는 value function인 Convolutional neural network(CNN) 모델로 학습시키며, 이는 Q-Learning의 변형된 형태로 학습.
- 아키텍처나 학습 알고리즘을 조정하지 않고 Arcade Learning의 7가지 Atari2600게임에 방법을 적용
- 6개 게임에서 이전의 모든 방법을 능가하고 그 중 3개 게임에서 인간 전문가를 능가한다는 사실을 발견
1. Introduction
- 시각 및 언어와 같은 고차원 sensory input에서 직접 agent를 제어하는 방법을 학습하는 것은 강화학습(RL)의 오랜 과제 중 하나임
- 대부분의 성공적인 RL 어플리케이션들은 선형 값 함수 또는 policy representations와 결합된 직접 만든 feature들에 의존 → 그러한 시스템의 성능은 feature representations들의 품질에 크게 의존
- 최근 딥러닝의 발전으로 raw sensory data에서 고급 feature들을 추출할 수 있게 되어, 커뮤터 비전 및 음성 인식의 획기적인 발전을 이룸. 이러한 방법은 CNN, 다층 퍼셉트론, RNN을 비롯한 다양한 신경망 아키텍처를 활용, 그리고 지도 학습과 비지도 학습을 모두 활용
- 딥러닝 관점에서 강화학습의 문제점)
(1) 현재까지 가장 성공적인 딥러닝 애플리케이션에는 많은 양의 레이블이 지정된 training 데이터가 필요했으나,
RL알고리즘은 ⓐ 자주 sparse ⓑnoisy가 있으며, ⓒ action과 reward 사이 지연이 있음
(특히 수천 timestep이 진행될 때)
(2) 대부분의 딥러닝 알고리즘은 데이터 샘플이 독립적이라고 가정하는 반면,
RL알고리즘은 일반적으로 상관관계가 높은 state들의 시퀀스가 발생
(3) RL에서 데이터 분포는 알고리즘이 새로운 동작을 학습함에 따라 변경되며,
이는 고정된 기본 분포를 가정하는 딥러닝 방법에 문제가 될 수 있음
- 복잡한 RL환경에서 raw 비디오 데이터을 이용하여 성공적인 policy control을 학습하기 위해 CNN을 활용
- 네트워크는 가중치를 업데이트 하기 위해 확률적 경사하강법을 사용하여 Q-Learning알고리즘의 변형으로 훈련
- 상관 데이터 및 비정상 분포의 문제를 완화하기 위해 이전 transitions을 무작위로 샘플링하여 많은 과거 동작에 대한 training 분포를 매끄럽게 하는 experience replay 이라는 기법을 사용
- Arcade Learning Environment(ALE)에서 구현된 다양한 Atari2600 게임에 접근 방식을 적용
- Atari2600은 agent에게 고차원 visual input(60Hz, 210*160 RGB비디오)과 인간 플레이어에게 어렵게 설계된 다양하고 흥미로운 작업 세트를 제공하는 도전적인 testbed임
- 목표는 가능한 많은 게임을 성공적으로 학습할 수 있는 단일 신경망 agent를 만드는 것
- 네트워크에는 게임 관련 정보나 손으로 디자인한 시각적 기능이 제공되지 않으며 emulator의 내부 상태를 알 수 없음. 비디오 input, reward, terminal signal, 그리고 가능한 action 세트 외에는 아무것도 학습되지 않음.
- 학습에 사용된 네트워크 아키텍처와 모든 하이퍼파라미터는 게임 전반에 걸쳐 일정하게 유지.
- 지금까지 네트워크는 우리가 시도한 7개 게임 중 6개 에서 이전의 모든 RL 알고리즘을 능가, 그 중 3개에서 전문 인간 플레이어를 능가
2. Background
[Q-Learning]
- Q-Learning : Q-function의 개념을 기반으로 한다.
- 정책 π, Qπ(s,a)의 Q-function(state-action value function) : 먼저 행동 a를 취한 후에 정책 π을 따름으로써 상태 s로부터 얻은 예상 이익 또는 보상의 할인된 합계를 측정한다.
- 최적의 Q-function Q∗(s,a)
- 관찰 값 s부터 시작하여 행동 a를 취하고 그 이후의 최적 정책에 따름으로써 얻을 수 있는 최대 이익으로 정의
- 최적의 Q-function은 다음 Bellman optimality 수식을 따른다.
- 상태 s와 행동 a에서의 최대 이익은 즉각적인 보상 r과 에피소드가 끝날 때까지 최적 정책을 따름으로써
얻은 이익(γ 만큼 할인됨)의 합계(즉, 다음 상태 s′의 최대 보상).
- 즉각적인 보상 r과 가능한 다음 상태 s′의 분산에 대해 기대치가 계산됩니다.
- Q-Learning의 기본 개념은 Bellman optimality 수식을 반복 업데이트는 다음가 같이 사용
- 최적의 Q-function, 즉, i→∞로서 최적 Qi→Q∗로 수렴한다
[Deep Q-Learning]
- 대부분의 문제에서 Q-function을 s와 a의 각 조합에 대한 값을 포함하는 표로 나타내는 것은 비현실적
- 대신, 매개변수 θ를 가진 신경망과 같은 함수 근사기를 훈련하여 Q-values, 즉 Q(s,a;θ)≈Q∗(s,a)를 추정
- 각 단계 i에서 다음 손실을 최소화
- yi : TD(시간 차이) , yi−Q : TD 오류, ρ는 behaviour 분포, 환경으로부터 수집된 전환 s,a,r,s′에 대한 분포
- Li(θi) 손실함수를 최적화할 때 이전 iteration θi−1의 매개변수는 고정되어 업데이트되지 않음
- target은 네트워크 가중치에 따라 다르며 이것은 학습이 시작되기 전 고정되는 지도학습의 target과 대조적임
- 손실 함수의 미분 가중치와 관련하여 다음 gradient에 도달
- 위의 기울기에서 전체 기대치를 계산하는 것보다 확률적 경사 하강법(stochastic gradient descent)으로 손실 함수를 최적화하는 것이 종종 계산상 편리
- 모든 timestep 후에 가중치가 업데이트 되고 기대값이 각각 behaviour 분포 ρ 및 emulator E의 단일 샘플로 대체되면 친숙한 Q-Learning 알고리즘
- 이 알고리즘은 model-free; emulator E의 추정치를 명시적으로 구성하지 않고 E의 샘플을 직접 사용하여 강화학습 작업을 해결
- Off-Policy; greedy- a=maxaQ(s,a; θ) greedy 전략에 대해 학습
- 일반적으로 확률 1−ϵ인 최대 행동(greedy action)과 확률 ϵ인 무작위 행동을 선택하여 상태-행동 공간을 잘 처리하는 ϵ-greedy 정책
3. Related Work (Pass)
4. Deep Reinforcemet Learning
- 컴퓨터 비전, 음성 인식 - deep neural network을 효율적으로 훈련하는 의존, 확률적 경사 하강법(stochastic gradient descent)을 기반으로 한 경량 업데이트를 사용하여 raw input으로 직접 학습
- deep neural network에 충분한 데이터를 제공하면 손으로 만든 feature보다 더 나은 representation을 학습하는 것이 종종 가능
- 우리의 목표는 강화 학습 알고리즘을 RGB 이미지에서 직접 작동하는 deep neural network에 연결하고 확률적 경사 하강법(stochastic gradient descent)를 업데이트하여 학습 데이터를 효율적으로 처리하는 것!
- Tesauro의 TD-Gammon 아키텍처는 환경과 알고리즘의 상호작용으로 정책에 따른 샘플의 experience St, At, Rt, St+1, At+1를 알 수 있고, value function을 주정하는 네트워크의 파라미터를 업데이트함 (20년 전 최고이 인간 주사이 놀이를 하는 플레이어를 능가)
- TD-Gammon 및 유사한 Online 접근 방식과 달리, 각 time-step에서 agent의 경험을 저장하는 experience replay를 활용
- et = (st, at, rt, st+1) data-set D = e1, ..., eN 많은 에피소드에 걸쳐 replay memory로 풀링함
- 알고리즘의 내프 루프 동안 저장된 샘플 풀에서 무작위로 추출한 experience 샘플 e ~ D에 Q-learning 업데이트 또는 minibatch 업데이트를 적용
- experience replay을 수행한 후 에이전트는 ϵ-greedy 정책에 따라 작업을 선택하고 실행
- 임의 길이의 history들을 신경망에 대한 입력으로 사용하는 것은 어려울 수 있어, Q-function는 대신 함수φ에 의해 생성된 고정된 길이의 history representation에서 작동
- Deep Q-Learning 장점)
(1) Experience의 각 step은 잠재적으로 많은 가중치 업데이트에 사용하며 데이터의 효율성을 높일 수 있음
(2) 연속적인 샘플에서 직접 학습하는 것은 샘플간의 강한 상관관계로 인해 비효율적.
샘플을 무작위하면 이러한 상관관계가 깨져 업데이트 분산이 줄어듦
- experience replay를 사용하여 behavior 분포는 이전 상태의 많은 것에 대해 평균화되어,
학습을 원할하게 하고 파라미터의 진동 또는 발산을 방지
(3) On-policy를 학습할 때 현재 파라미터는 파라미터가 학습되는 다음 스텝 데이터의 샘플을 결정
- 예를 들어, action 최대화는 왼쪽으로 이동하는 것이라면 훈련 샘플은 왼쪽의 샘플에 의해 의존.
- 최대화 작업이 오른쪽으로 전환되면 훈련 분포도 전환
- 원치 않는 피드백 루프가 어떻게 발생하는지, 파라미터가 poor local minimum에 갇혀 있거나,
치명적으로 분기될 수 있는지 쉽게 알 수 있음
- experience replay으로 학습할 때 Off-Policy(현재 파라미터가 샘플을 생성하는 데 사용된
파라미터와 다르기 때문에)으로 학습 이는 Q-Learning을 선택하도록 함
- 실제로 우리 알고리즘은 replay memory에 마지막 N 경험 튜플만 저장하고 업데이트를 수행할 때 D에서 무작위로 균일하게 샘플링
→ 메모리 버퍼가 중요한 전환을 구분하지 않고 유한한 메모리 크기 N으로 인해
항상 최근 전환으로 덮어쓰기 때문에 어떤 면에서는 제한적 - 유사하게, uniform 샘플링은 replay memory의 모든 transition에 동일한 중요성을 부여
- 더 정교한 샘플링 전략은 prioritized sweeping과 유사하게 가장 많이 학습할 수 있는 transition을 강조할 수 있음
4.1 Preprocessing and Model Architecture
- 128 색상 팔레트가 있는 210 × 160 픽셀 이미지인 raw Atari 프레임으로 직접 작업하는 것은 계산적으로 까다로울 수 있으므로 입력 차원을 줄이는 것을 목표로 하는 기본 전처리 단계를 적용
- 원시 프레임은 먼저 RGB 표현을 회색조로 변환하고 110x84 이미지로 다운샘플링하여 전처리
- 최종 입력 표현은 재생 영역을 대략적으로 캡처하는 이미지의 84 × 84 영역을 잘라서 얻음
- 제곱 입력을 예상하는 [11]의 2D 컨볼루션의 GPU 구현을 사용하기 때문에 최종 자르기 단계만 필요
- 이 논문의 실험을 위해 알고리즘 1의 함수 φ는 이 전처리를 기록의 마지막 4개 프레임에 적용하고 누적하여 Q 함수에 대한 입력을 생성
- 신경망을 사용하여 Q를 매개변수화하는 몇 가지 가능한 방법이 있다.
→ Q는 history-action 쌍을 Q-값의 스칼라 추정치에 매핑하기 때문에 history와 action은 일부 이전 접근 방식에 의해 신경망에 대한 입력으로 사용 - 이러한 유형의 아키텍처의 주요 단점은 각 작업의 Q-값을 계산하기 위해 별도의 정방향 전달이 필요하므로 비용이 작업 수에 따라 선형으로 확장된다는 것
- 대신 가능한 각 동작에 대해 별도의 출력 단위가 있고 상태 표현만 신경망에 대한 입력인 아키텍처를 사용
- 출력은 입력 상태에 대한 개별 동작의 예측된 Q 값에 해당
- 이러한 유형의 아키텍처의 주요 장점은 네트워크를 통한 단일 정방향 전달만으로 주어진 상태에서 가능한 모든 작업에 대한 Q 값을 계산할 수 있다는 것
- 이제 7개의 모든 Atari 게임에 사용된 정확한 아키텍처를 설명합니다.
- 신경망에 대한 입력은 φ에 의해 생성된 84 × 84 × 4 이미지로 구성
- 첫 번째 은닉층은 입력 이미지와 보폭이 4인 16개의 8 × 8 필터를 컨벌루션하고 rectifier nonlinearity을 적용
- 두 번째 은닉층은 보폭이 2인 32개의 4 × 4 필터와 다시 rectifier nonlinearity을 연결
- 최종 은닉층은 완전 연결되어 있으며 256개의 정류기 유닛으로 구성됩니다.
- 출력 레이어는 각각의 유효한 동작에 대한 단일 출력이 있는 완전히 연결된 선형 레이어
- 유효한 행동의 수는 우리가 고려한 게임에서 4에서 18 사이
- 이러한 접근 방식으로 훈련된 컨볼루션 네트워크를 DQN(Deep Q-Networks)이라고 한다.
5. Experiments
- 지금까지 우리는 Beam Rider, Breakout, Enduro, Pong, Q*bert, Seaquest, Space Invaders 등 7개의 인기 있는 ATARI 게임에 대한 실험을 수행
- 우리는 7개 게임 모두에서 동일한 네트워크 아키텍처, 학습 알고리즘 및 하이퍼파라미터 설정을 사용하여 우리의 접근 방식이 게임별 정보를 통합하지 않고도 다양한 게임에서 작동할 수 있을 만큼 충분히 강력함을 보여준다.
- 실제 게임과 수정되지 않은 게임에서 에이전트를 평가하는 동안 훈련 중에만 게임의 보상 구조를 한 가지 변경
- 점수의 척도는 게임마다 크게 다르기 때문에 모든 긍정적인 보상은 1로, 모든 부정적인 보상은 -1로 수정하여 0개의 보상을 변경하지 않음
- 이러한 방식으로 보상을 자르면(clipping) error derivatives의 규모가 제한되고 여러 게임에서 동일한 학습률을 더 쉽게 사용할 수 있음. 동시에 서로 다른 크기의 reward을 구별할 수 없기 때문에 에이전트의 성능에 영향을 미칠 수 있음
- 이 실험에서는 크기가 32인 미니 배치와 함께 RMSProp 알고리즘을 사용
- 훈련 중 behavior policy는 처음 백만 프레임에 대해 1에서 0.1까지 선형으로 어닐링된 ϵ-greedy였으며 이후에는 0.1로 고정
- 우리는 총 1000만 프레임에 대해 훈련했고 100만 가장 최근 프레임의 replay memory를 사용
- 이전의 Atari 게임 접근 방식에 이어 간단한 프레임 건너뛰기 기술도 사용
- 더 정확하게 말하면 에이전트는 모든 프레임 대신 k 번째 프레임마다 작업을 보고 선택하며 건너뛴 프레임에서 마지막 작업이 반복
- 에뮬레이터를 한 단계 앞으로 실행하면 에이전트가 작업을 선택하도록 하는 것보다 훨씬 적은 계산이 필요하므로 이 기술을 사용하면 에이전트가 런타임을 크게 늘리지 않고도 약 k배 더 많은 게임을 플레이할 수 있음
- 스페이스 인베이더를 제외한 모든 게임에 k = 4를 사용합니다. 여기서 k = 4를 사용하면 깜박이는 기간 때문에 레이저가 보이지 않게 된다.
- 레이저가 보이도록 k = 3을 사용했으며 이 변경 사항은 모든 게임 간의 하이퍼 매개변수 값의 유일한 차이
5.1 Training and Stability
- 지도 학습에서는 훈련 및 검증 세트에서 모델을 평가하여 훈련 중에 모델의 성능을 쉽게 추적할 수 있다.
- 그러나 강화 학습에서는 훈련 중 에이전트의 진행 상황을 정확하게 평가하는 것이 어려움.
- [3]에서 제안한 대로 평가 메트릭은 에이전트가 에피소드 또는 게임에서 수집하는 총 보상이므로
여러 게임에 대해 평균을 내고 훈련 중에 이를 주기적으로 계산 - 평균 총 보상 메트릭은 정책 가중치의 작은 변화가 정책 방문 상태 분포의 큰 변화로 이어질 수 있기 때문에 매우 시끄러운 경향이 있음
- 그림 2에서 가장 왼쪽에 있는 두 개의 플롯은 Seaquest 및 Breakout 게임에서 훈련하는 동안 평균 총 보상이 어떻게 변화하는지 보여줌
- 두 개의 평균 보상 플롯은 실제로 상당히 시끄럽기 때문에 학습 알고리즘이 꾸준히 발전하지 않는다
- 더 안정적인 또 다른 메트릭은 정책의 추정된 행동 가치 함수 Q로, 에이전트가 주어진 상태에서 정책을 따를 때 얻을 수 있는 할인된 보상의 추정치를 제공
- 훈련이 시작되기 전에 무작위 정책을 실행하여 고정된 상태 집합을 수집하고 이러한 상태에 대해 최대 2개의 예측된 Q의 평균을 추적
- 그림 2에서 가장 오른쪽에 있는 두 개의 플롯은 평균 예측 Q가 에이전트가 얻은 평균 총 보상보다 훨씬 더 원활하게 증가함을 보여주고 다른 5개 게임에서 동일한 메트릭을 플롯하면 유사하게 부드러운 곡선이 생성
- 훈련 중에 예측된 Q에 대해 비교적 순조롭게 개선되는 것을 볼 수 있었던 것 외에도 우리는 어떤 실험에서도 발산 문제를 경험하지 않음
- 이는 이론적 수렴 보장이 없음에도 불구하고 우리의 방법이 강화 학습 신호와 확률적 경사하강법을 사용하여 안정적인 방식으로 대규모 신경망을 훈련할 수 있음을 시사
5.2 Visualizing the Value Function
- 그림 3은 Seaquest 게임에서 학습된 가치 함수의 시각화를 보여줍니다.
- 그림은 화면 왼쪽(A 지점)에 적이 나타난 후 예측값이 점프하는 것을 보여줍니다.
그런 다음 에이전트는 적에게 어뢰를 발사하고 어뢰가 적에게 명중할 때 예상 값이 정점에 도달합니다(B 지점).
마지막으로 적이 사라지고 나면 값이 거의 원래 값으로 떨어집니다(C 지점). - 그림 3은 우리의 방법이 합리적으로 복잡한 이벤트 시퀀스에 대해 가치 함수가 어떻게 진화하는지 배울 수 있음을 보여줍니다.
5.3 Main Evaluation
- 우리는 RL 문헌[3, 4]에서 가장 성능이 좋은 방법과 결과를 비교
- Sarsa라는 레이블이 붙은 방법은 Sarsa 알고리즘을 사용하여 Atari 작업을 위해 손으로 엔지니어링된 여러 가지 기능 세트에 대한 선형 정책을 학습했으며 우리는 최고 성능의 기능 세트에 대한 점수를 냄
- Contingency는 Sarsa와 동일한 기본 접근 방식을 사용했지만 에이전트의 제어 하에 있는 화면 부분의 학습된 표현으로 기능 세트를 보강
- 이 두 가지 방법 모두 배경 빼기를 사용하고 각 128개 색상을 별도의 채널로 처리하여 시각적 문제에 대한 상당한 사전 지식을 통합
- 많은 Atari 게임이 각 개체 유형에 대해 하나의 고유한 색상을 사용하기 때문에 각 색상을 별도의 채널로 취급하는 것은 각 개체 유형의 존재를 인코딩하는 별도의 이진 맵을 생성하는 것과 유사할 수 있음
- 대조적으로 에이전트는 원시 RGB 스크린샷만 입력으로 받으며 스스로 물체를 감지하는 방법을 배워야 한다
- 학습된 에이전트 외에도 전문 인간 게임 플레이어의 점수와 무작위로 균일하게 작업을 선택하는 정책도 보고
- 인간의 성과는 각 게임을 플레이한 후 약 2시간 후에 얻은 중간 보상. 보고된 인간 점수는 Bellemare et al의 점수보다 훨씬 높습니다.
- 학습된 방법의 경우 Bellemare et al.에서 사용된 평가 전략을 따릅니다. [3, 5] 고정된 단계 수에 대해 = 0.05인 -greedy 정책을 실행하여 얻은 평균 점수를 보고합니다.
- 표 1의 처음 5개 행은 모든 게임의 게임당 평균 점수를 보여줍니다.
- 우리의 접근 방식(DQN으로 표시됨)은 입력에 대한 사전 지식이 거의 통합되지 않았음에도 불구하고 7개 게임 모두에서 다른 학습 방법보다 상당한 차이가 있습니다.
- 우리는 또한 표 1의 마지막 세 행에 [8]의 진화적 정책 탐색 접근 방식과의 비교를 포함합니다. 우리는 이 방법에 대한 두 세트의 결과를 보고합니다.
- HNeat Best 점수는 Atari 화면에서 물체의 위치와 유형을 출력하는 손으로 엔지니어링된 물체 감지기 알고리즘을 사용하여 얻은 결과를 반영합니다.
- HNeat 픽셀 점수는 각 채널에서 개체 레이블 맵을 나타내는 Atari 에뮬레이터의 특수 8색 채널 표현을 사용하여 얻습니다.
- 이 방법은 성공적인 익스플로잇을 나타내는 결정적 상태 시퀀스를 찾는 데 크게 의존합니다.
- 이러한 방식으로 학습된 전략이 무작위 교란으로 일반화될 가능성은 거의 없습니다. 따라서 알고리즘은 가장 높은 점수를 받은 단일 에피소드에서만 평가되었습니다.
- 대조적으로, 우리의 알고리즘은 욕심 많은 제어 시퀀스에 대해 평가되므로 다양한 가능한 상황에서 일반화해야 합니다.
- 그럼에도 불구하고 우리는 Space Invaders를 제외한 모든 게임에서 최대 평가 결과(8행)뿐만 아니라 평균 결과(4행)도 더 나은 성능을 달성함을 보여줍니다.
- 마지막으로 우리의 방법이 Breakout, Enduro 및 Pong에서 전문 인간 플레이어보다 더 나은 성능을 달성하고 Beam Rider에서 인간의 성능에 가깝다는 것을 보여줍니다.
- 인간의 성과와는 거리가 먼 Q*bert, Seaquest, Space Invaders 게임은 장기간에 걸쳐 확장되는 전략을 찾기 위해 네트워크가 필요하기 때문에 더 어렵습니다.
-
6. Conclusion
이 논문은 강화 학습을 위한 새로운 딥 러닝 모델을 소개하고 raw 픽셀만 input으로 사용하여 Atari 2600 컴퓨터 게임에 대한 어려운 policy control을 마스터하는 능력을 보여주었습니다. 우리는 또한 확률적 미니배치 업데이트와 experience replay memory를 결합하여 RL에 대한 deep neural network 학습을 용이하게 하는 Online Q-learning의 변형을 제시했습니다. 우리의 접근 방식은 아키텍처나 하이퍼파라미터를 조정하지 않고 테스트한 7개 게임 중 6개에서 최첨단 결과를 제공했습니다.
(참고자료)
[1] Reinforcement Learning (DQN) Tutorial
https://pytorch.org/tutorials/intermediate/reinforcement_q_learning.html#replay-memory
'Data Science&AI' 카테고리의 다른 글
[MLOps] MLOps란 무엇인가? (0) | 2022.08.06 |
---|---|
[Object Detection] 1. Object Detection이란? (0) | 2022.02.21 |
[강화학습 뿌시기] 5. Model Free Control (0) | 2022.02.01 |
[강화학습 뿌시기] 4. Model-Free Prediction (1) | 2022.01.24 |
[강화학습 뿌시기] 3. Planning by Dynamic Programming (0) | 2022.01.08 |
- Total
- Today
- Yesterday
- 영화 인턴
- SQLD자격증
- Model Drift Detection
- Data Drift Detection
- SQLD
- 모델 배포
- Model Drift
- amzaon quicksight
- Tableau vs QuickSight
- On-premise BI vs Cloud BI
- 모델 드리프트 대응법
- NHITS설명
- Data Drift와 Concept Drift 차이
- AutoEncoder
- 영어공부
- 최신시계열
- pandas-gpt
- amazon Q
- 추천시스템
- Generative BI
- pandas-ai
- data drift
- 생성형BI
- 비즈니스 관점 AI
- 시계열딥러닝
- 오토인코더
- 모델 드리프트
- SQLD 정리
- Concept Drift
- 데이터 드리프트
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |