시나브로_개발자 성장기

  • 홈
  • 태그
  • 방명록

액터러너 1

[강화학습] 17 - A3C 알고리즘

개요 앞에서 배운 DQN 알고리즘은 그때그때의 샘플들로 학습했을 때, 샘플끼리의 연관성으로 에이전트가 잘못 학습하는 문제를 해결하기 위해서 경험 리플레이를 사용했습니다. 샘플을 리플레이 메모리에 많이 모은 후에 임의 추출한 샘플을 사용해 성공적인 학습을 이끌어냈죠. 하지만 리플레이 메모리가 커서 컴퓨터의 많은 메모리를 차지한다면 학습의 속도는 느려지며, 과거의 정책을 사용하기 때문에 오프폴리시 강화학습(DQN의 경우 큐러닝)만을 사용해야 한다는 단점이 있습니다. 이러한 단점 때문에 다른 방법으로 문제에 접근해 만들어진 것이 A3C(Asynchronous Advantage Actor-Critic) 알고리즘입니다. A3C란 무엇일까? DQN 알고리즘이 리플레이 메모리를 사용해 샘플 사이의 연관성을 깼다면, ..

강화학습/파이썬과 케라스로 배우는 강화학습(스터디) 2023.02.05
이전
1
다음
반응형
프로필사진

  • 🤖 ROBOTICS [Road To Dream] .. (46)
    • Perception (18)
      • OpenCV (4)
      • Object Detection (14)
      • Segmentation (0)
    • Sensor Fusion (1)
      • 칼만 필터 (1)
    • Planner (0)
    • Controller (0)
    • SLAM (0)
      • Probabilistic Robotics (0)
    • ROS1 (0)
    • ROS2 (1)
    • Nav2 (2)
    • 강화학습 (18)
      • 파이썬과 케라스로 배우는 강화학습(스터디) (17)
      • 기타 (1)
    • Linux (1)
    • 🚀Project🚀 (3)
      • Navigation with detecting p.. (3)
    • 알고리즘 (0)
      • 백준 (0)
    • Git (1)

Tag

강화학습, 1-stage detector, 벨만 최적 방정식, object detection, YOLOv8, 파이썬과 케라스로 배우는 강화학습, 실시간 객체 검출, openCV, 벨만 방정식, 정책 이터레이션, 시간차 예측, YOLO, One-stage Detector, 딥살사, Realtime Object Detection, 벨만 기대 방정식, DQN 알고리즘, 그리드월드, Nav2, 허프 변환,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

  2025. 05  
일 월 화 수 목 금 토
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.