DQN 까먹기 전에 정리1

KimCookieYa 2021. 5. 14. 01:19

위 코드는 DQN 중 리플레이 메모리를 사용해, Q-network를 업데이트하는 코드이다.

Q(s)는 상태 s에서의 받을 수 있는 보상의 목록이라 생각하자. action에 따라 받을 수 있는 보상은 다르기에, 배열의 형태이다.

max Q(s)는 상태 s에서 받을 수 있는 보상 중 최대값이다.

실행결과를 샘플링하여 미니배치하고 업데이트된 '상태 s에서의 Q값'을 x_stack과 y_stack에 쌓고, 마지막에 Q 네트워크에 업데이트시긴다. 이것이 학습이다.

---

5월 14일 현재 오전 1시 18분.

아까 커피를 마셔서 그런가 오늘따라 인프런 딥러닝 강의가 집중이 잘되서 배운 것을 정리해봤다. 확실히 한글강의가 좋긴 좋다. 내일도 이렇게 공부하자.