IT/강화학습

강화학습 기초1

2021.07.12

이 글은 "[개정판]파이썬과 케라스로 배우는 강화학습"(https://book.naver.com/bookdb/book_detail.nhn?bid=16315117)을 참고하여 정리/작성하였습니다. 강화학습이란, 순차적으로 행동을 계속 결정해야 하는 문제를 푸는 것. MDP(Markov Decision Process)는 이런 문제를 수학적으로 표현한다. MDP의 구성요소는 "상태(State)", "행동(Action)", "보상 함수(Reward Fuction)", "상태 변환 확률", "할인율"이다. 상태는 "에이전트 자신이 처한 상황에 대한 관찰"이라고 할 수 있다. 행동은 말 그대로 어떤 상태에서 에이전트가 취할 수 있는 요소이다. 상태를 바꾸고 어떤 보상을 받을지 확률적으로 선택할 수 있다. 보상함수는..

강화학습 기초1

티스토리툴바