시나브로_개발자 성장기

  • 홈
  • 태그
  • 방명록

몬테카를로 근사 1

[강화학습] 06 - 몬테카를로와 시간차 예측

개요 이전 포스팅에서 강화학습은 환경의 모델 없이 환경과의 상호작용을 통해 최적 정책을 학습한다고 했습니다. 이때 에이전트가 환경과의 상호작용을 통해 주어진 정책에 대한 가치함수를 학습하는 것을 "예측"이라고 하고, 가치함수를 토대로 정책을 끊임없이 발전시켜 나가서 최적 정책을 학습하려는 것을 "제어"라고 합니다. 지금까지의 내용을 잘 이해했다면, 예측과 제어가 각각 앞에서 배운 정책 이터레이션의 정책 평가와 정책 발전과 비슷하다는 걸 느낄 수 있을 것입니다. 하지만 정책 이터레이션에서는 가치함수나 최적 정책을 계산을 통해 구했다면, 강화학습에서는 에이전트가 겪은 경험으로부터 가치함수를 업데이트합니다. 강화학습은 일단 해보고 → 자신을 평가하며 → 평가한 대로 자신을 업데이트하는 과정을 반복합니다. 강화..

강화학습/파이썬과 케라스로 배우는 강화학습(스터디) 2022.12.24
이전
1
다음
반응형
프로필사진

  • 🤖 ROBOTICS [Road To Dream] .. (46)
    • Perception (18)
      • OpenCV (4)
      • Object Detection (14)
      • Segmentation (0)
    • Sensor Fusion (1)
      • 칼만 필터 (1)
    • Planner (0)
    • Controller (0)
    • SLAM (0)
      • Probabilistic Robotics (0)
    • ROS1 (0)
    • ROS2 (1)
    • Nav2 (2)
    • 강화학습 (18)
      • 파이썬과 케라스로 배우는 강화학습(스터디) (17)
      • 기타 (1)
    • Linux (1)
    • 🚀Project🚀 (3)
      • Navigation with detecting p.. (3)
    • 알고리즘 (0)
      • 백준 (0)
    • Git (1)

Tag

openCV, 그리드월드, 1-stage detector, One-stage Detector, object detection, 강화학습, Realtime Object Detection, 실시간 객체 검출, 벨만 최적 방정식, 벨만 기대 방정식, Nav2, 파이썬과 케라스로 배우는 강화학습, 정책 이터레이션, YOLO, 딥살사, YOLOv8, 시간차 예측, DQN 알고리즘, 벨만 방정식, 허프 변환,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

  2025. 06  
일 월 화 수 목 금 토
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.