개요 처음부터 지금까지 꽤 많은 것을 배웠지만 충격적이게도 이 살사부터가 실제 강화학습 알고리즘입니다. 이전에 배웠던 것은 강화학습을 배우기 위한 기초 개념이었던 것이죠. 예전에 잠시 언급했지만 살사는 정책 이터레이션과 가치 이터레이션이 발전되어서 만들어졌습니다. 이번 포스팅에서는 이 살사의 발전 과정과 이전 포스팅에서 배운, 참 가치함수를 학습하는 2가지 예측 방법을 이용하여 에이전트가 어떻게 학습하는지에 대해서 다뤄볼려고 합니다. 살사 저희는 이전 포스팅에서 참 가치함수를 학습하는 몬테카를로 예측과 시간차 예측을 배웠습니다. 이 2가지 방법 중에 시간차 예측에 대해서 생각해봅시다. 정책 이터레이션에서는 한 번에 모든 상태의 가치함수를 업데이트하고 이를 이용해서 정책을 발전시켰습니다. 하지만 시간차 방..