시나브로_개발자 성장기

  • 홈
  • 태그
  • 방명록

가치 이터레이션 1

[강화학습] 05 - 그리드월드와 다이내믹 프로그래밍 (2)

개요 지금까지 배운 내용을 한번 정리해봅시다. 저희는 순차적 행동 결정 문제를 MDP를 이용해서 수학적으로 정의했습니다. 이 MDP로 정의된 문제의 최종 목표는 에이전트가 받을 보상의 합을 최대로 하는 것입니다. 이를 위해서 저희는 앞으로 받을 보상의 합에 대한 기댓값인 가치함수를 이용하기로 했습니다. 그리고 이 가치함수의 정의를 이용해서 벨만 기대 방정식과 벨만 최적 방정식을 만들었죠. 두 벨만 방정식은 다이내믹 프로그래밍을 이용해서 풀 수 있는데, 벨만 기대 방정식을 이용하는 것이 정책 이터레이션이고 벨만 최적 방정식을 이용하는 것이 가치 이터레이션입니다. 정책 이터레이션과 가치 이터레이션은 후에 살사로 발전하고 살사는 다시 변형되어 큐러닝으로 이어집니다. 지난번엔 정책 이터레이션의 정책 평가와 정책..

강화학습/파이썬과 케라스로 배우는 강화학습(스터디) 2022.12.22
이전
1
다음
더보기
반응형
프로필사진

  • 🤖 ROBOTICS [Road To Dream] .. (46)
    • Perception (18)
      • OpenCV (4)
      • Object Detection (14)
      • Segmentation (0)
    • Sensor Fusion (1)
      • 칼만 필터 (1)
    • Planner (0)
    • Controller (0)
    • SLAM (0)
      • Probabilistic Robotics (0)
    • ROS1 (0)
    • ROS2 (1)
    • Nav2 (2)
    • 강화학습 (18)
      • 파이썬과 케라스로 배우는 강화학습(스터디) (17)
      • 기타 (1)
    • Linux (1)
    • 🚀Project🚀 (3)
      • Navigation with detecting p.. (3)
    • 알고리즘 (0)
      • 백준 (0)
    • Git (1)

Tag

강화학습, 딥살사, Nav2, DQN 알고리즘, Realtime Object Detection, 실시간 객체 검출, 벨만 방정식, 벨만 최적 방정식, YOLO, YOLOv8, 1-stage detector, 허프 변환, openCV, 파이썬과 케라스로 배우는 강화학습, object detection, 시간차 예측, 벨만 기대 방정식, One-stage Detector, 그리드월드, 정책 이터레이션,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/06   »
일 월 화 수 목 금 토
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바