시나브로_개발자 성장기

  • 홈
  • 태그
  • 방명록

가치신경망 1

[강화학습] 13 - 액터-크리틱

개요 저희는 이전에 몬테카를로 폴리시 그레이디언트라고 불리는 REINFORCE 알고리즘에 대해서 배웠습니다. 반환값을 이용하여 에피소드가 끝날 때 인공신경망을 업데이트시키는 특징 때문에 몬테카를로라는 말이 붙었죠. 그렇기 때문에 REINFORCE 알고리즘도 에피소드마다만 학습할 수 있다는 단점이 있습니다. 또한 반환값은 분산이 크며, 에피소드의 길이가 길어질수록 특정 상태(s,a)에 대한 반환값의 변화가 커지기 때문에 학습이 잘 이루어지지 않을 수도 있죠. 이러한 단점을 극복하고 매 타임스텝마다 학습할 수 있도록 한 것이 액터-크리틱(Actor-Critic)입니다. 액터-크리틱 이론 액터-크리틱은 REINFORCE 알고리즘의 단점을 해결하기 위해서 다이내믹 프로그래밍의 정책 이터레이션 구조를 사용합니다...

강화학습/파이썬과 케라스로 배우는 강화학습(스터디) 2023.01.18
이전
1
다음
반응형
프로필사진

  • 🤖 ROBOTICS [Road To Dream] .. (46)
    • Perception (18)
      • OpenCV (4)
      • Object Detection (14)
      • Segmentation (0)
    • Sensor Fusion (1)
      • 칼만 필터 (1)
    • Planner (0)
    • Controller (0)
    • SLAM (0)
      • Probabilistic Robotics (0)
    • ROS1 (0)
    • ROS2 (1)
    • Nav2 (2)
    • 강화학습 (18)
      • 파이썬과 케라스로 배우는 강화학습(스터디) (17)
      • 기타 (1)
    • Linux (1)
    • 🚀Project🚀 (3)
      • Navigation with detecting p.. (3)
    • 알고리즘 (0)
      • 백준 (0)
    • Git (1)

Tag

DQN 알고리즘, 파이썬과 케라스로 배우는 강화학습, 강화학습, 벨만 방정식, 딥살사, 벨만 최적 방정식, Nav2, openCV, Realtime Object Detection, 허프 변환, One-stage Detector, 1-stage detector, YOLOv8, object detection, 시간차 예측, 실시간 객체 검출, 정책 이터레이션, 그리드월드, YOLO, 벨만 기대 방정식,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

  2025. 07  
일 월 화 수 목 금 토
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.