머신러닝

프로젝트/코드프레소 체험단

파이썬으로 구현하는 머신러닝 : 분류분석 - ROC 커브와 AUC 실습

roc_curve() API를 이용한 ROC Curve 시각화(API URL: sklearn.metrics.roc_curve) roc_curve() API의 Argument(인자) - y_ture: test 데이터 셋의 label - y_score: 모델에서 Positive로 예측할 확률(0~1) 값 roc_curve() API의 Return(반환 값) - fpr: Threshold 에 따른 fpr 값 – numpy ndarray - tpr: Threshold 에 따른 recall 값 - numpy ndarray - thresholds: fpr, tpr 값을 구할 당시의 Threshold 값 – numpy ndarray roc_auc_score() API를 이용한 AUC 값 계산(API URL : skl..

프로젝트/코드프레소 체험단

파이썬으로 구현하는 머신러닝 : 분류분석 - AUC 지표를 통한 모델 성능분석

AUC(Area Under the Curve) - ROC 커브의 아래 면적(A) - AUC 값이 크면 높은 성능을 의미 ==> 동일 모델에서 Threshold를 조절해 TRP를 증가 시, FPR의 증가가 상대적으로 억제 - AUC 값이 작으면 낮은 성능을 의미 ==> 동일 모델에서 Threshold를 조절해 TRP를 증가 시, FPR의 증가가 상대적으로 억제 안됨 Precision-Recall AUC - ROC 커브에서 X 축과 Y 축 값을 변경 - X 축 : Recall(TPR) - Y 축 : Precision - Trade Off(교환) 관계에 있는 2 값(Recall, Precision)을 종합하는 성능 지표로 사용 - PR AUC 값이 크면 높은 성능을 의미==> 동일 모델에서 Threshold를..

프로젝트/코드프레소 체험단

파이썬으로 구현하는 머신러닝 : 분류분석 - ROC 커브의 주요 개념 이해

분류분석은 데이터셋의 특성에 따라 신뢰할 수 있는 지표가 다름 ex) 암환자 진단 Imbalance Data set의 경우 Recall이 신뢰할 수 있는 지표 ROC : 모든 분류 임계값에서 분류 모델의 성능을 보여주는 그래프 TPR(True Positive Rate) - ROC 그래프에서 Y축 - Recall(참 양성 비율) : 클수록 높은 성능 FPR(False Positive Rate) - ROC 그래프에서 X축 - 허위 양성 비율 : 클수록 낮은 성능 Threshold - 임계값 - 분류분석에서 모델이 반환한 값 기반 Positive/Negative를 판단하는 기준 값 - Threshold 값에 따라 TPR/FPR 값이 양의 상관관계를 가지고 변화됨 분류분석에서 Threshold의 Min/Max ..

프로젝트/코드프레소 체험단

파이썬으로 구현하는 머신러닝 : 분류분석 - 로지스틱 회귀 실습1

로지스틱 회귀 분석의 기초 이해와 분류 분석을 위한 기초 평가 지표들을 활용하여 이진 분류 모델을 구현 LogisticRegressionAPI의 Method(함수) - fit(X, y) : 학습 데이터를 이용하여 모델의 회귀계수와 편향 학습 - predict(X) : 모델에 테스트 데이터를 입력하여 계산된 예측값 반환 - score(X, y) : 모델에 테스트 데이터를 입력하여 모델의 성능지표(정확도) 반환 LogisticRegressionAPI의 Attribute(속성) - coef_: 학습된 모델의 회귀 계수(W) - intercept_: 학습된 모델의 bias(b) 결론 : Count가 500 이상인 데이터 만을 학습시켜, 데이터의 불균형으로 모델의 Accuracy는 높지만 Precision과 Re..

프로젝트/코드프레소 체험단

파이썬으로 구현하는 머신러닝 : 분류분석 - 분류 분석을 위한 성능 지표

성능 지표의 기본 이해 1) 데이터셋 - Test : 실제 정답이 되는 데이터셋 - Predict : 모델이 예측한 결과인 데이터셋 2) 데이터의 종류 - Positive : 모델을 통해 알아내고 싶은 값(1) - Negative : Positive가 아닌 값(0) 3) 모델의 분류 결과 - True : 예측 성공 - False : 예측 실패 성능 지표 - 정확도(Accuracy) : 모델이 정답을 정답으로, 오답을 오답으로 선택하는가를 보여주는 지표 Accuracy = (tp + tn) / (tp + tn + fp + fn) - 정밀도(Precision) : 모델에서 정답이 아닌 것을 얼마나 잘 걸러내는가를 보여주는 지표 Precision = tp / (tp + fp) - 재현율(Recall) : 모델..

KimCookieYa
'머신러닝' 태그의 글 목록 (10 Page)