DQN 알고리즘 2

[강화학습] 16 - Breakout DQN

개요 앞의 카트폴 예제는 화면으로 학습할 필요가 없었기 때문에 DQN 알고리즘에서 컨볼루션 신경망이 아닌 간단한 인공신경망을 사용했습니다. 브레이크아웃에서의 DQN 알고리즘은 카트폴에서의 DQN 알고리즘처럼 리플레이 메모리와 타깃신경망이 사용되면서 컨볼루션 신경망이 사용되기 때문에 추가로 알아야 할 점이 있습니다. 알아야 할 추가 사항 브레이크아웃 게임 이미지는 아래 그림과 같이 색상 정보를 포함하여 210 × 160 × 3(RGB)의 크기를 가집니다. 하지만 학습 자체에는 현재 점수, 목숨 개수와 색상 정보는 필요가 없습니다. 따라서 계산량을 줄여 학습 속도를 높이기 위해서 아래 그림처럼 이미지를 흑백으로 만들고 불필요한 부분을 잘라 84 × 84 × 1의 크기로 만들어줍니다. 이 과정을 전처리라고 합..

[강화학습] 12 - DQN 알고리즘(Cartpole)

개요 강화학습을 더 깊이 공부하려면 그리드월드만이 아닌 다양한 환경에서 강화학습을 적용시켜 봐야합니다. 오픈에이아이는 짐이라는 환경을 통해서 강화학습을 적용시킬 수 있는 여러 환경을 제공하는데, 저희는 이 중에서 카트폴이라는 예제에 강화학습을 적용시키며 공부할 것입니다. 저희가 이전에 배웠던 딥살사 알고리즘은 살사의 큐함수 업데이트 방법을 사용했습니다. 이번 포스팅에서는 큐러닝의 큐함수 업데이트 방법을 경험 리플레이라는 것과 함께 사용하여 인공신경망을 학습시키는 DQN 알고리즘에 대해서 알아보도록 하겠습니다. 카트폴 DQN 알고리즘을 공부하기에 앞서 저희는 카트폴 예제에 대해서 알아야합니다. 위의 그림처럼 카트폴 예제는 검은색 사각형의 카트와 황색 막대인 폴로 이루어져 있습니다. 카트는 검은색 수평선을 ..