시나브로_개발자 성장기

  • 홈
  • 태그
  • 방명록

reinforcement learning 1

[강화학습] 02 - MDP

MDP 이전 포스팅에서 나왔듯이 강화학습이란 결정을 순차적으로 내려야 하는 문제에 적용됩니다. 그리고 강화학습을 풀기 위해서는 이 문제를 수학적으로 정의해야 하는데, 이때 사용하는 방법이 MDP라고 했었죠. 문제를 잘못 정의하면 에이전트가 학습을 못 할 수도 있기 때문에 이 MDP를 올바르게 설정하는 것이 에이전트가 학습하는 데 가장 중요한 단계 중 하나라고 할 수 있습니다. MDP는 아래 그림과 같이 상태, 행동, 보상 함수, 상태 변환 확률, 감가율로 구성돼 있습니다. 이 책에서는 순차적 행동 결정 문제의 예시인 그리드월드를 통해 MDP의 구성요소를 설명하고 있습니다. 그리드월드는 위의 그림과 같이 격자로 이뤄진 환경에서 문제를 푸는 각종 예제를 뜻합니다. 위 그림의 경우 빨간색 네모가 에이전트의 위..

강화학습/파이썬과 케라스로 배우는 강화학습(스터디) 2022.12.13
이전
1
다음
더보기
반응형
프로필사진

  • 🤖 ROBOTICS [Road To Dream] .. (46)
    • Perception (18)
      • OpenCV (4)
      • Object Detection (14)
      • Segmentation (0)
    • Sensor Fusion (1)
      • 칼만 필터 (1)
    • Planner (0)
    • Controller (0)
    • SLAM (0)
      • Probabilistic Robotics (0)
    • ROS1 (0)
    • ROS2 (1)
    • Nav2 (2)
    • 강화학습 (18)
      • 파이썬과 케라스로 배우는 강화학습(스터디) (17)
      • 기타 (1)
    • Linux (1)
    • 🚀Project🚀 (3)
      • Navigation with detecting p.. (3)
    • 알고리즘 (0)
      • 백준 (0)
    • Git (1)

Tag

정책 이터레이션, 1-stage detector, 그리드월드, 벨만 방정식, 실시간 객체 검출, YOLOv8, 시간차 예측, 강화학습, One-stage Detector, YOLO, object detection, DQN 알고리즘, Realtime Object Detection, 허프 변환, 파이썬과 케라스로 배우는 강화학습, Nav2, openCV, 벨만 기대 방정식, 벨만 최적 방정식, 딥살사,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/06   »
일 월 화 수 목 금 토
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바