위 코드는 DQN 중 리플레이 메모리를 사용해, Q-network를 업데이트하는 코드이다.
Q(s)는 상태 s에서의 받을 수 있는 보상의 목록이라 생각하자. action에 따라 받을 수 있는 보상은 다르기에, 배열의 형태이다.
max Q(s)는 상태 s에서 받을 수 있는 보상 중 최대값이다.
실행결과를 샘플링하여 미니배치하고 업데이트된 '상태 s에서의 Q값'을 x_stack과 y_stack에 쌓고, 마지막에 Q 네트워크에 업데이트시긴다. 이것이 학습이다.
---
5월 14일 현재 오전 1시 18분.
아까 커피를 마셔서 그런가 오늘따라 인프런 딥러닝 강의가 집중이 잘되서 배운 것을 정리해봤다. 확실히 한글강의가 좋긴 좋다. 내일도 이렇게 공부하자.
'IT' 카테고리의 다른 글
현재 생각 중인 프로젝트 (0) | 2021.06.24 |
---|---|
어렵다.. (0) | 2021.05.24 |
해야 할 것들을 정리해보자 (0) | 2021.05.13 |
PG 공부 중 (0) | 2021.05.11 |
고난1 (0) | 2021.04.30 |