* 머신러닝의 목표 모집단을 판단/예측할 수 있는 모델을 만드는 것 > 표본 데이터를 기반으로 일반화된 모델을 만드는 것 표본 데이터를 기반으로 훈련된 모델로 모집단을 판단/예측할 때, 일반화(Generalizetion)와 최적화(Optimization)라는 중요한 이슈가 있다. 일반화 : 모델이 이전에 학습한 적 없는 데이터에서 얼마나 잘 수행되는지를 의미, 검증 단계 최적화 : 훈련 데이터에서 최고의 성능을 내는 모델을 조정하는 과정, 학습 단계 모델이 너무 최적화되면, 훈련 데이터만 너무 잘 학습해서 훈련 데이터에선 높은 정확도를 보이겠지만 신규 데이터에는 정확도가 떨어진다. 반대로 모델이 너무 일반화되면, 훈련 데이터에 대해 학습이 충분하지 않거나 데이터가 부족해 훈련 데이터조차 정확도가 떨어진다..
새로운 데이터가 주어졌을 때, 가장 가까운 K개의 훈련 데이터(이웃)를 찾는 알고리즘. KNN 알고리즘은 분류와 회귀 문제를 모두 다룰 수 있는 알고리즘이다. 분류 : 다수결로 예측 회귀 : 평균 값으로 결과 예측 * 주요이슈 1. 데이터 간의 거리는 어떻게 측정? 유클리디안, 맨해튼, 민코프스키 거리 측정법 중에서 선택한다. 2. 적절한 K값의 크기는 어떻게 설정? 너무 작으면 민감도가 높아져서 잘못 예측할 확률이 높아진다. 너무 크면 예측이 둔감해진다. 결국, 최적의 k값을 찾는 것이 쉽지않다. * 하이퍼파라미터(Hyper parameter) ex) 거리 계산 방식, K값 학습 시작 전에 모델러에 의해 결정되는 값. 모델의 성능에 영향을 주기에 최적의 값을 찾아 설정해야함. * KNN 알고리즘 매우 ..
머신러닝의 주요 프로세스 문제 정의, 데이터 수집, 데이터 전처리, 특징 추출, 모델 학습, 모델 검증 이 과정을 통해 머신러닝을 활용할 수 있다. 1. 문제 정의 단계 해결하려는 문제를 명확하게 정의하고, 문제 해결을 위한 알고리즘을 선정하는 단계. 해결할 문제(데이터의 특성)에 따라 적절한 알고리즘을 선정하는 것이 중요. 2. 데이터 수집 단계 학습/검증에 사용할 데이터를 수집하는 단계. 데이터는 학습된 모델의 품질을 결정하는 가장 중요한 요소. 충분히 큰/많은, 대표성을 가지는, 고품질의 데이터 * 학습 데이터와 검증 데이터는 달라야 한다. 데이터 셋 분할(Hold-out cross validation 홀드아웃 교차검증). 데이터를 트레이닝과 배리데이션(validation), 테스팅(testing)..
지도학습 - 정답 라벨 이 주어진 상태에서 학습하는 방식. ex) 이메일 스팸 분류, 이미지 분석 분류분석: 예측하고자 하는 값이 범주형 데이터 회귀 분석: 예측하고자 하는 값이 연속형 데이터: 다양하게 분야에 많이 사용됨. 비지도 학습 - 정답 라벨이 없는 데이터를 기반으로 학습하는 방식. 데이터 사이의 관계나 유사성을 기반으로 군집 별 패턴을 찾아내는 방식. 군집분석(클러스터링): 유사한 특성을 가진 데이터끼리 그룹화 하는 과정. ex) 고객분류, 유사 단어 군집화, 유사 이미지 군집화 준지도 학습(지도+비지도) - 라벨이 있는 데이터가 소수이고, 외의 데이터가 다수일때 효과적. 강화학습 - 모델이 목표를 당설항 수 있도록 보상을 기반으로 학습하는 방식. 특정 목표를 달성하는데 최선의 전략을 선택하도..
1월 7일부터 코드프레소 체험단 활동이 시작된다. "코드프레소"란 프리미엄 IT 교육 서비스를 제공하는 교육 플랫폼이다. 1월 1일부터 3월 31일까지 3개월동안 진행되는 체험단은 코드프레소에 존재하는 수많은 강의들을 무료로 수강하고 블로그 글을 작성하여 IT 교육 서비스를 널리 알리려한다. 인공지능, 데이터 분석, 웹 개발부터 소프트웨어 공학, 클라우드 컴퓨팅, 오토모티브 SW까지! 코딩 기초가 필요한 사람들도, 어디서도 들어볼 수 없는 전문 분야의 전문 강의를 찾고 있었던 사람들도, 취업을 위한 스펙이 필요한 사람들도 모두 여기로! 전역 후 대외활동을 뒤적이던 필자는 우연하게 체험단 소식을 접했고, 평소 배우고싶었던 인공지능 강의에 매료되어 체험단에 신청하였다. 정말 운이 좋게 붙었고, 이제 내일부터..