시나브로_개발자 성장기

  • 홈
  • 태그
  • 방명록

강화학습 기초 1

[강화학습] 02 - MDP

MDP 이전 포스팅에서 나왔듯이 강화학습이란 결정을 순차적으로 내려야 하는 문제에 적용됩니다. 그리고 강화학습을 풀기 위해서는 이 문제를 수학적으로 정의해야 하는데, 이때 사용하는 방법이 MDP라고 했었죠. 문제를 잘못 정의하면 에이전트가 학습을 못 할 수도 있기 때문에 이 MDP를 올바르게 설정하는 것이 에이전트가 학습하는 데 가장 중요한 단계 중 하나라고 할 수 있습니다. MDP는 아래 그림과 같이 상태, 행동, 보상 함수, 상태 변환 확률, 감가율로 구성돼 있습니다. 이 책에서는 순차적 행동 결정 문제의 예시인 그리드월드를 통해 MDP의 구성요소를 설명하고 있습니다. 그리드월드는 위의 그림과 같이 격자로 이뤄진 환경에서 문제를 푸는 각종 예제를 뜻합니다. 위 그림의 경우 빨간색 네모가 에이전트의 위..

강화학습/파이썬과 케라스로 배우는 강화학습(스터디) 2022.12.13
이전
1
다음
반응형
프로필사진

  • 🤖 ROBOTICS [Road To Dream] .. (46)
    • Perception (18)
      • OpenCV (4)
      • Object Detection (14)
      • Segmentation (0)
    • Sensor Fusion (1)
      • 칼만 필터 (1)
    • Planner (0)
    • Controller (0)
    • SLAM (0)
      • Probabilistic Robotics (0)
    • ROS1 (0)
    • ROS2 (1)
    • Nav2 (2)
    • 강화학습 (18)
      • 파이썬과 케라스로 배우는 강화학습(스터디) (17)
      • 기타 (1)
    • Linux (1)
    • 🚀Project🚀 (3)
      • Navigation with detecting p.. (3)
    • 알고리즘 (0)
      • 백준 (0)
    • Git (1)

Tag

벨만 방정식, 딥살사, openCV, 파이썬과 케라스로 배우는 강화학습, 정책 이터레이션, 벨만 최적 방정식, 시간차 예측, object detection, Realtime Object Detection, 그리드월드, DQN 알고리즘, 벨만 기대 방정식, YOLO, 강화학습, Nav2, 허프 변환, YOLOv8, 실시간 객체 검출, One-stage Detector, 1-stage detector,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

  2025. 06  
일 월 화 수 목 금 토
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.