PG 공부 중

KimCookieYa 2021. 5. 11. 16:24

https://tensorflow.blog/2016/07/13/reinforce-pong-at-gym/

Reinforce Pong at Gym

한달 전에 스탠포드 비전 랩의 안드레이 카패시(Andrej Karpathy)가 블로그에 강화학습에 대한 글인 ‘Deep Reinforcement Learning: Pong from Pixels’를 올렸었습니다. 조금 늦었지만 블로그의 글을 따라가 보

tensorflow.blog

http://keunwoochoi.blogspot.com/2016/06/andrej-karpathy.html?m=1

강화학습 튜토리알 - 인공 신경망으로 '퐁' 게임을 학습시키자 (Andrej Karpathy 포스트 번역)

최근우 연구 관련 블로그.

keunwoochoi.blogspot.com

위 두 글은 Andre Karpathy의 PG를 이용해 퐁 게임을 학습시키는 것에 대한 글을 번역&정리한 글이다. 영어가 어려운 나에게 정말 좋은 한글번역이지만, 이해하기에 너무 어렵다..

pg를 정책 그라디언트라고 하는데, 이것의 이름이 왜 정책 그라디언트인지 모르겠다. 보여준 예제의 무엇이 pg인지도 모르겠다..

설명이 어렵다기보단 그냥 이 알고리즘과 인공지는과 수학이라는 것 자체가 어려운 거라고 생각한다. 쉽게 이해가 된다는게 더 어려운 거겠지.