시나브로_개발자 성장기

  • 홈
  • 태그
  • 방명록

강화학습 기본 1

[강화학습] 03 - 가치함수와 벨만방정식

개요 이전 포스팅에서는 MDP를 사용하여 순차적 행동 결정 문제를 정의했습니다. 이제 에이전트는 이 MDP를 이용하여 최적 정책을 찾으면 됩니다. 하지만 에이전트가 어떻게 최적 정책을 찾을 수 있을까요? 가치함수 최적 정책을 찾으려면 에이전트가 어떤 상태에서 앞으로 받을 보상들을 고려해 높은 보상을 얻는 행동들을 선택하면 될 것입니다. 이 앞으로 받을 보상에 대한 개념이 바로 가치함수입니다. 즉 에이전트는 가치함수를 통해 행동을 선택할 수 있는 것이죠. 상태 가치함수 단순히 앞으로 받을 보상들의 합을 표현하면 다음과 같습니다. Rt+1+Rt+2+Rt+3+Rt+4+Rt+5+...Rt+1+Rt+2+Rt+3+Rt+4+Rt+5+... 하지만 저희는 이전 포스팅에서 MDP의 구성요소 중 하나인 할인율 γγ에..

강화학습/파이썬과 케라스로 배우는 강화학습(스터디) 2022.12.16
이전
1
다음
반응형
프로필사진

  • 🤖 ROBOTICS [Road To Dream] .. (46)
    • Perception (18)
      • OpenCV (4)
      • Object Detection (14)
      • Segmentation (0)
    • Sensor Fusion (1)
      • 칼만 필터 (1)
    • Planner (0)
    • Controller (0)
    • SLAM (0)
      • Probabilistic Robotics (0)
    • ROS1 (0)
    • ROS2 (1)
    • Nav2 (2)
    • 강화학습 (18)
      • 파이썬과 케라스로 배우는 강화학습(스터디) (17)
      • 기타 (1)
    • Linux (1)
    • 🚀Project🚀 (3)
      • Navigation with detecting p.. (3)
    • 알고리즘 (0)
      • 백준 (0)
    • Git (1)

Tag

강화학습, 그리드월드, YOLO, One-stage Detector, Nav2, 파이썬과 케라스로 배우는 강화학습, 1-stage detector, 정책 이터레이션, 벨만 기대 방정식, 시간차 예측, 허프 변환, DQN 알고리즘, 실시간 객체 검출, 딥살사, 벨만 최적 방정식, YOLOv8, object detection, openCV, 벨만 방정식, Realtime Object Detection,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

  2025. 06  
일 월 화 수 목 금 토
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.