인공지능이 내 길이 맞을까
최근들어 자주 생각한다. 이론을 이해하는데도 오래걸리고 며칠 안보면 다시 까먹는다. 예제 돌리는 것조차 귀찮아서 거의 하지않는다. 그냥 나는 뭔가 하는 척을 좋아했던걸까. 해보면 재밌을거라 생각하기는 하지만, 시작이 힘들다. 이게 정말 내 길이 맞는걸까? 하지만 내 나이 23. 이제와서 돌아가기엔 멀리 왔다. 게다가 난 아직 시작조차 제대로 하지않았다. 아무런 노력도 하지않고 길을 운운하는 것도 병신이다.
최근들어 자주 생각한다. 이론을 이해하는데도 오래걸리고 며칠 안보면 다시 까먹는다. 예제 돌리는 것조차 귀찮아서 거의 하지않는다. 그냥 나는 뭔가 하는 척을 좋아했던걸까. 해보면 재밌을거라 생각하기는 하지만, 시작이 힘들다. 이게 정말 내 길이 맞는걸까? 하지만 내 나이 23. 이제와서 돌아가기엔 멀리 왔다. 게다가 난 아직 시작조차 제대로 하지않았다. 아무런 노력도 하지않고 길을 운운하는 것도 병신이다.
블로그 글조차도 4일 연속쓰는게 안되는데, 공부는 뭐 그렇지. 근무지에서 각잡고 공부하려고하면 잠이 오고.. 뭐가됐던간에 내 노력이 부족해서 생긴 일인건 틀림없지. 난 시발 어디가서 노력했다고 말하면 안된다.
위 코드는 DQN 중 리플레이 메모리를 사용해, Q-network를 업데이트하는 코드이다. Q(s)는 상태 s에서의 받을 수 있는 보상의 목록이라 생각하자. action에 따라 받을 수 있는 보상은 다르기에, 배열의 형태이다. max Q(s)는 상태 s에서 받을 수 있는 보상 중 최대값이다. 실행결과를 샘플링하여 미니배치하고 업데이트된 '상태 s에서의 Q값'을 x_stack과 y_stack에 쌓고, 마지막에 Q 네트워크에 업데이트시긴다. 이것이 학습이다. --- 5월 14일 현재 오전 1시 18분. 아까 커피를 마셔서 그런가 오늘따라 인프런 딥러닝 강의가 집중이 잘되서 배운 것을 정리해봤다. 확실히 한글강의가 좋긴 좋다. 내일도 이렇게 공부하자.
먼저 인공지능. 그 중에서도 강화학습 공부가 최우선이다. 기초적인 Q-Learning 에 대해서는 이론은 읽었지만, 예제조차 돌려보지않았다. 예제를 돌리고 실습해봐야한다.. Policy Gradient도 이론은 여러 번 읽어봤지만, 내용을 하나도 이해하지 못했다.. 그러니 우선 PG와 다른 기법들은 뒤로 미룬다. 먼저 Q러닝부터 익숙해질 필요가 있다. 이제 해야할 것은 직접 프로그래밍을 돌리며 배운 내용을 확인하는 것이다. 그런데 솔직히, 프로그램 돌리는 것 자체가 머리아프다... 가상환경 프로그램인 아나콘다도 아직 익숙치않고, 파이썬 환경도 어렵고, 대부분의 자료는 영어라 알아먹지도 못하고, 애초에 내용도 어려워서 이해하기도 쉽지않다.. 이러니 한 번 프로그램 돌리려면 머리 아플 각오를 하고 해야한다...
멋있는 몸을 만들어 이성에게 어필하고 동성에게 호감을 살 수 있는 사람이 되고싶다는 것이 첫 번째이고, 사회복무요원 400일을 넘게 근무하면서 이룬 것이 이 '운동한 티만 나는' 몸 밖에 없어서 운동조차도 계속 하지않으면, 나 자신은 400일이라는 시간을 똥통에 처박은 머저리라는 사실이 두렵다는 것이 두 번째 이유이다. 2020년 8월부터 시작해서 지금까지 대충 9개월 정도 했다.(훈련소 1달 제외) 시작하기 전과 비교하면 분명 엄청나게 성장했다고 생각하지만, 그래봤자 9개월짜리 헬린이다. 아직도 헬스장의 근돼를 보면 주눅들고, 유튜브의 헬창을 보며 내가 부족하다고 느낀다. 그럼에도 과거의 자신보다 나아졌다는 것을 때때로 자각하기에, 자존감은 높아졌다. 헬스의 장점은 생각없이 운동만 해도 좋은 결과가 나..
https://tensorflow.blog/2016/07/13/reinforce-pong-at-gym/Reinforce Pong at Gym한달 전에 스탠포드 비전 랩의 안드레이 카패시(Andrej Karpathy)가 블로그에 강화학습에 대한 글인 ‘Deep Reinforcement Learning: Pong from Pixels’를 올렸었습니다. 조금 늦었지만 블로그의 글을 따라가 보tensorflow.bloghttp://keunwoochoi.blogspot.com/2016/06/andrej-karpathy.html?m=1강화학습 튜토리알 - 인공 신경망으로 '퐁' 게임을 학습시키자 (Andrej Karpathy 포스트 번역)최근우 연구 관련 블로그.keunwoochoi.blogspot.com 위 두 ..
지도학습의 방식을 이용한 인공신경망의 학습 방법 : 인공신경망을 통해 얻은 "예측값"과 "실제값(타겟값)"을 비교하고, 이를 통해 인공신경망이 실제값에 가까운 예측을 할 수 있도록 인공신경망의 가중치와 bias를 업데이트하는 것. 손실함수 : 예측값과 실제값 사이의 오차를 줄이기 위해 사용되는 함수. ex) MSE 최적화 기법 : 가중치와 편향을 업데이트하기 위해 사용하는 기법. 이 최적화를 수행할 Optimizer를 설정해야한다. ex) Adam, AdaGrad, RMSprop, SGD
이런 책은 비싸지만 필요지출이라고 생각한다.. 자기자신이 레퍼런스 페이지의 영단어를 해석하면서 공부하지 못할 인간이라는 것을 잘 알기 때문에. 적어도 스스로 공부하려면 한국어로 된 책을 먼저 접근해야한다고 생각했다. 현재 mlagent의 버전은 1.0.7 책의 버전은 0.8 달라진 점을 찾기위해 mlagent 깃헙 영문 페이지를 뒤졌고, 0.8 버전의 머신러닝 모델을 위한 brain과 academy의 개념이 삭제되었다. 책을 사기도 전부터 공부하는데에 어려움이 느껴졌다. 하지만 이 책 외에 mlagent 관련 한글책은 없어서 그냥 샀다.. 공부 열심히 하자..