개요 이전 포스팅에서는 MDP를 사용하여 순차적 행동 결정 문제를 정의했습니다. 이제 에이전트는 이 MDP를 이용하여 최적 정책을 찾으면 됩니다. 하지만 에이전트가 어떻게 최적 정책을 찾을 수 있을까요? 가치함수 최적 정책을 찾으려면 에이전트가 어떤 상태에서 앞으로 받을 보상들을 고려해 높은 보상을 얻는 행동들을 선택하면 될 것입니다. 이 앞으로 받을 보상에 대한 개념이 바로 가치함수입니다. 즉 에이전트는 가치함수를 통해 행동을 선택할 수 있는 것이죠. 상태 가치함수 단순히 앞으로 받을 보상들의 합을 표현하면 다음과 같습니다. $$R_{t+1} + R_{t+2} + R_{t+3} + R_{t+4} + R_{t+5} + ... $$ 하지만 저희는 이전 포스팅에서 MDP의 구성요소 중 하나인 할인율 $γ$에..