'정책 이터레이션' 태그의 글 목록

[강화학습] 04 - 그리드월드와 다이내믹 프로그래밍 (1)

개요 지금까지 저희는 순차적 행동 결정 문제에서 MDP를 정의하고 벨만 방정식을 세우는 과정을 다뤘습니다. 저희가 이제 해야할 것은 이 벨만 방정식을 이용해서 순차적 행동 결정 문제의 목표인 최적 가치함수와 최적 정책을 찾는 것입니다. 그 방법 중 하나가 바로 강화학습이죠!! 하지만 강화학습 이전에 벨만 방정식을 푸는 알고리즘이 존재했는데 그것이 바로 다이내믹 프로그래밍입니다. 다이내믹 프로그래밍은 이후 강화학습의 근간이 되었기 때문에 저희는 강화학습을 보다 잘 이해하기 위해서 이번 포스팅에서는 다이내믹 프로그래밍과, 벨만 방정식을 푸는 방법을 그리드 월드 예제를 통해서 살펴보겠습니다. 다이내믹 프로그래밍 코딩을 해보거나 알고리즘에 대해서 공부해봤다 하시는 분들은 이 다이내믹 프로그래밍을 한번 쯤은 들어..

강화학습/파이썬과 케라스로 배우는 강화학습(스터디) 2022.12.19

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

시나브로_개발자 성장기

정책 이터레이션 2

티스토리툴바