'살사' 태그의 글 목록

[강화학습] 07 - 살사(SARSA)

개요 처음부터 지금까지 꽤 많은 것을 배웠지만 충격적이게도 이 살사부터가 실제 강화학습 알고리즘입니다. 이전에 배웠던 것은 강화학습을 배우기 위한 기초 개념이었던 것이죠. 예전에 잠시 언급했지만 살사는 정책 이터레이션과 가치 이터레이션이 발전되어서 만들어졌습니다. 이번 포스팅에서는 이 살사의 발전 과정과 이전 포스팅에서 배운, 참 가치함수를 학습하는 2가지 예측 방법을 이용하여 에이전트가 어떻게 학습하는지에 대해서 다뤄볼려고 합니다. 살사 저희는 이전 포스팅에서 참 가치함수를 학습하는 몬테카를로 예측과 시간차 예측을 배웠습니다. 이 2가지 방법 중에 시간차 예측에 대해서 생각해봅시다. 정책 이터레이션에서는 한 번에 모든 상태의 가치함수를 업데이트하고 이를 이용해서 정책을 발전시켰습니다. 하지만 시간차 방..

강화학습/파이썬과 케라스로 배우는 강화학습(스터디) 2022.12.27

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

시나브로_개발자 성장기

살사 1

티스토리툴바