'벨만방정식' 태그의 글 목록

[강화학습] 03 - 가치함수와 벨만방정식

개요 이전 포스팅에서는 MDP를 사용하여 순차적 행동 결정 문제를 정의했습니다. 이제 에이전트는 이 MDP를 이용하여 최적 정책을 찾으면 됩니다. 하지만 에이전트가 어떻게 최적 정책을 찾을 수 있을까요? 가치함수 최적 정책을 찾으려면 에이전트가 어떤 상태에서 앞으로 받을 보상들을 고려해 높은 보상을 얻는 행동들을 선택하면 될 것입니다. 이 앞으로 받을 보상에 대한 개념이 바로 가치함수입니다. 즉 에이전트는 가치함수를 통해 행동을 선택할 수 있는 것이죠. 상태 가치함수 단순히 앞으로 받을 보상들의 합을 표현하면 다음과 같습니다. $$R_{t+1} + R_{t+2} + R_{t+3} + R_{t+4} + R_{t+5} + ... $$ 하지만 저희는 이전 포스팅에서 MDP의 구성요소 중 하나인 할인율 $γ$에..

강화학습/파이썬과 케라스로 배우는 강화학습(스터디) 2022.12.16

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

시나브로_개발자 성장기

벨만방정식 1

티스토리툴바