시나브로_개발자 성장기

  • 홈
  • 태그
  • 방명록

멀티스레딩 1

[강화학습] 17 - A3C 알고리즘

개요 앞에서 배운 DQN 알고리즘은 그때그때의 샘플들로 학습했을 때, 샘플끼리의 연관성으로 에이전트가 잘못 학습하는 문제를 해결하기 위해서 경험 리플레이를 사용했습니다. 샘플을 리플레이 메모리에 많이 모은 후에 임의 추출한 샘플을 사용해 성공적인 학습을 이끌어냈죠. 하지만 리플레이 메모리가 커서 컴퓨터의 많은 메모리를 차지한다면 학습의 속도는 느려지며, 과거의 정책을 사용하기 때문에 오프폴리시 강화학습(DQN의 경우 큐러닝)만을 사용해야 한다는 단점이 있습니다. 이러한 단점 때문에 다른 방법으로 문제에 접근해 만들어진 것이 A3C(Asynchronous Advantage Actor-Critic) 알고리즘입니다. A3C란 무엇일까? DQN 알고리즘이 리플레이 메모리를 사용해 샘플 사이의 연관성을 깼다면, ..

강화학습/파이썬과 케라스로 배우는 강화학습(스터디) 2023.02.05
이전
1
다음
더보기
반응형
프로필사진

  • 🤖 ROBOTICS [Road To Dream] .. (46)
    • Perception (18)
      • OpenCV (4)
      • Object Detection (14)
      • Segmentation (0)
    • Sensor Fusion (1)
      • 칼만 필터 (1)
    • Planner (0)
    • Controller (0)
    • SLAM (0)
      • Probabilistic Robotics (0)
    • ROS1 (0)
    • ROS2 (1)
    • Nav2 (2)
    • 강화학습 (18)
      • 파이썬과 케라스로 배우는 강화학습(스터디) (17)
      • 기타 (1)
    • Linux (1)
    • 🚀Project🚀 (3)
      • Navigation with detecting p.. (3)
    • 알고리즘 (0)
      • 백준 (0)
    • Git (1)

Tag

그리드월드, 파이썬과 케라스로 배우는 강화학습, YOLO, 딥살사, 벨만 방정식, 벨만 기대 방정식, One-stage Detector, 강화학습, 허프 변환, object detection, Nav2, openCV, YOLOv8, 벨만 최적 방정식, Realtime Object Detection, 실시간 객체 검출, DQN 알고리즘, 시간차 예측, 정책 이터레이션, 1-stage detector,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/07   »
일 월 화 수 목 금 토
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바