시나브로_개발자 성장기

  • 홈
  • 태그
  • 방명록

강화학습 기본 1

[강화학습] 03 - 가치함수와 벨만방정식

개요 이전 포스팅에서는 MDP를 사용하여 순차적 행동 결정 문제를 정의했습니다. 이제 에이전트는 이 MDP를 이용하여 최적 정책을 찾으면 됩니다. 하지만 에이전트가 어떻게 최적 정책을 찾을 수 있을까요? 가치함수 최적 정책을 찾으려면 에이전트가 어떤 상태에서 앞으로 받을 보상들을 고려해 높은 보상을 얻는 행동들을 선택하면 될 것입니다. 이 앞으로 받을 보상에 대한 개념이 바로 가치함수입니다. 즉 에이전트는 가치함수를 통해 행동을 선택할 수 있는 것이죠. 상태 가치함수 단순히 앞으로 받을 보상들의 합을 표현하면 다음과 같습니다. $$R_{t+1} + R_{t+2} + R_{t+3} + R_{t+4} + R_{t+5} + ... $$ 하지만 저희는 이전 포스팅에서 MDP의 구성요소 중 하나인 할인율 $γ$에..

강화학습/파이썬과 케라스로 배우는 강화학습(스터디) 2022.12.16
이전
1
다음
더보기
반응형
프로필사진

  • 🤖 ROBOTICS [Road To Dream] .. (46)
    • Perception (18)
      • OpenCV (4)
      • Object Detection (14)
      • Segmentation (0)
    • Sensor Fusion (1)
      • 칼만 필터 (1)
    • Planner (0)
    • Controller (0)
    • SLAM (0)
      • Probabilistic Robotics (0)
    • ROS1 (0)
    • ROS2 (1)
    • Nav2 (2)
    • 강화학습 (18)
      • 파이썬과 케라스로 배우는 강화학습(스터디) (17)
      • 기타 (1)
    • Linux (1)
    • 🚀Project🚀 (3)
      • Navigation with detecting p.. (3)
    • 알고리즘 (0)
      • 백준 (0)
    • Git (1)

Tag

YOLO, openCV, 강화학습, 파이썬과 케라스로 배우는 강화학습, YOLOv8, 실시간 객체 검출, 벨만 방정식, 정책 이터레이션, DQN 알고리즘, 벨만 기대 방정식, Realtime Object Detection, 그리드월드, Nav2, 1-stage detector, 시간차 예측, 딥살사, 허프 변환, object detection, 벨만 최적 방정식, One-stage Detector,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/07   »
일 월 화 수 목 금 토
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바