정책 이터레이션 2

[강화학습] 05 - 그리드월드와 다이내믹 프로그래밍 (2)

개요 지금까지 배운 내용을 한번 정리해봅시다. 저희는 순차적 행동 결정 문제를 MDP를 이용해서 수학적으로 정의했습니다. 이 MDP로 정의된 문제의 최종 목표는 에이전트가 받을 보상의 합을 최대로 하는 것입니다. 이를 위해서 저희는 앞으로 받을 보상의 합에 대한 기댓값인 가치함수를 이용하기로 했습니다. 그리고 이 가치함수의 정의를 이용해서 벨만 기대 방정식과 벨만 최적 방정식을 만들었죠. 두 벨만 방정식은 다이내믹 프로그래밍을 이용해서 풀 수 있는데, 벨만 기대 방정식을 이용하는 것이 정책 이터레이션이고 벨만 최적 방정식을 이용하는 것이 가치 이터레이션입니다. 정책 이터레이션과 가치 이터레이션은 후에 살사로 발전하고 살사는 다시 변형되어 큐러닝으로 이어집니다. 지난번엔 정책 이터레이션의 정책 평가와 정책..

[강화학습] 04 - 그리드월드와 다이내믹 프로그래밍 (1)

개요 지금까지 저희는 순차적 행동 결정 문제에서 MDP를 정의하고 벨만 방정식을 세우는 과정을 다뤘습니다. 저희가 이제 해야할 것은 이 벨만 방정식을 이용해서 순차적 행동 결정 문제의 목표인 최적 가치함수와 최적 정책을 찾는 것입니다. 그 방법 중 하나가 바로 강화학습이죠!! 하지만 강화학습 이전에 벨만 방정식을 푸는 알고리즘이 존재했는데 그것이 바로 다이내믹 프로그래밍입니다. 다이내믹 프로그래밍은 이후 강화학습의 근간이 되었기 때문에 저희는 강화학습을 보다 잘 이해하기 위해서 이번 포스팅에서는 다이내믹 프로그래밍과, 벨만 방정식을 푸는 방법을 그리드 월드 예제를 통해서 살펴보겠습니다. 다이내믹 프로그래밍 코딩을 해보거나 알고리즘에 대해서 공부해봤다 하시는 분들은 이 다이내믹 프로그래밍을 한번 쯤은 들어..