https://tensorflow.blog/2016/07/13/reinforce-pong-at-gym/
Reinforce Pong at Gym
한달 전에 스탠포드 비전 랩의 안드레이 카패시(Andrej Karpathy)가 블로그에 강화학습에 대한 글인 ‘Deep Reinforcement Learning: Pong from Pixels’를 올렸었습니다. 조금 늦었지만 블로그의 글을 따라가 보
tensorflow.blog
http://keunwoochoi.blogspot.com/2016/06/andrej-karpathy.html?m=1
강화학습 튜토리알 - 인공 신경망으로 '퐁' 게임을 학습시키자 (Andrej Karpathy 포스트 번역)
최근우 연구 관련 블로그.
keunwoochoi.blogspot.com
위 두 글은 Andre Karpathy의 PG를 이용해 퐁 게임을 학습시키는 것에 대한 글을 번역&정리한 글이다. 영어가 어려운 나에게 정말 좋은 한글번역이지만, 이해하기에 너무 어렵다..
pg를 정책 그라디언트라고 하는데, 이것의 이름이 왜 정책 그라디언트인지 모르겠다. 보여준 예제의 무엇이 pg인지도 모르겠다..
설명이 어렵다기보단 그냥 이 알고리즘과 인공지는과 수학이라는 것 자체가 어려운 거라고 생각한다. 쉽게 이해가 된다는게 더 어려운 거겠지.
'IT' 카테고리의 다른 글
DQN 까먹기 전에 정리1 (0) | 2021.05.14 |
---|---|
해야 할 것들을 정리해보자 (0) | 2021.05.13 |
고난1 (0) | 2021.04.30 |
인공신경망의 가중치와 bias 업데이트 (0) | 2021.04.26 |
mlagent 책을 샀다 (0) | 2021.04.16 |