그리드월드 2

[강화학습] 05 - 그리드월드와 다이내믹 프로그래밍 (2)

개요 지금까지 배운 내용을 한번 정리해봅시다. 저희는 순차적 행동 결정 문제를 MDP를 이용해서 수학적으로 정의했습니다. 이 MDP로 정의된 문제의 최종 목표는 에이전트가 받을 보상의 합을 최대로 하는 것입니다. 이를 위해서 저희는 앞으로 받을 보상의 합에 대한 기댓값인 가치함수를 이용하기로 했습니다. 그리고 이 가치함수의 정의를 이용해서 벨만 기대 방정식과 벨만 최적 방정식을 만들었죠. 두 벨만 방정식은 다이내믹 프로그래밍을 이용해서 풀 수 있는데, 벨만 기대 방정식을 이용하는 것이 정책 이터레이션이고 벨만 최적 방정식을 이용하는 것이 가치 이터레이션입니다. 정책 이터레이션과 가치 이터레이션은 후에 살사로 발전하고 살사는 다시 변형되어 큐러닝으로 이어집니다. 지난번엔 정책 이터레이션의 정책 평가와 정책..

[강화학습] 02 - MDP

MDP 이전 포스팅에서 나왔듯이 강화학습이란 결정을 순차적으로 내려야 하는 문제에 적용됩니다. 그리고 강화학습을 풀기 위해서는 이 문제를 수학적으로 정의해야 하는데, 이때 사용하는 방법이 MDP라고 했었죠. 문제를 잘못 정의하면 에이전트가 학습을 못 할 수도 있기 때문에 이 MDP를 올바르게 설정하는 것이 에이전트가 학습하는 데 가장 중요한 단계 중 하나라고 할 수 있습니다. MDP는 아래 그림과 같이 상태, 행동, 보상 함수, 상태 변환 확률, 감가율로 구성돼 있습니다. 이 책에서는 순차적 행동 결정 문제의 예시인 그리드월드를 통해 MDP의 구성요소를 설명하고 있습니다. 그리드월드는 위의 그림과 같이 격자로 이뤄진 환경에서 문제를 푸는 각종 예제를 뜻합니다. 위 그림의 경우 빨간색 네모가 에이전트의 위..