AUC(Area Under the Curve) - ROC 커브의 아래 면적(A) - AUC 값이 크면 높은 성능을 의미 ==> 동일 모델에서 Threshold를 조절해 TRP를 증가 시, FPR의 증가가 상대적으로 억제 - AUC 값이 작으면 낮은 성능을 의미 ==> 동일 모델에서 Threshold를 조절해 TRP를 증가 시, FPR의 증가가 상대적으로 억제 안됨 Precision-Recall AUC - ROC 커브에서 X 축과 Y 축 값을 변경 - X 축 : Recall(TPR) - Y 축 : Precision - Trade Off(교환) 관계에 있는 2 값(Recall, Precision)을 종합하는 성능 지표로 사용 - PR AUC 값이 크면 높은 성능을 의미==> 동일 모델에서 Threshold를..
분류분석은 데이터셋의 특성에 따라 신뢰할 수 있는 지표가 다름 ex) 암환자 진단 Imbalance Data set의 경우 Recall이 신뢰할 수 있는 지표 ROC : 모든 분류 임계값에서 분류 모델의 성능을 보여주는 그래프 TPR(True Positive Rate) - ROC 그래프에서 Y축 - Recall(참 양성 비율) : 클수록 높은 성능 FPR(False Positive Rate) - ROC 그래프에서 X축 - 허위 양성 비율 : 클수록 낮은 성능 Threshold - 임계값 - 분류분석에서 모델이 반환한 값 기반 Positive/Negative를 판단하는 기준 값 - Threshold 값에 따라 TPR/FPR 값이 양의 상관관계를 가지고 변화됨 분류분석에서 Threshold의 Min/Max ..
로지스틱 회귀 분석의 기초 이해와 분류 분석을 위한 기초 평가 지표들을 활용하여 이진 분류 모델을 구현 LogisticRegressionAPI의 Method(함수) - fit(X, y) : 학습 데이터를 이용하여 모델의 회귀계수와 편향 학습 - predict(X) : 모델에 테스트 데이터를 입력하여 계산된 예측값 반환 - score(X, y) : 모델에 테스트 데이터를 입력하여 모델의 성능지표(정확도) 반환 LogisticRegressionAPI의 Attribute(속성) - coef_: 학습된 모델의 회귀 계수(W) - intercept_: 학습된 모델의 bias(b) 결론 : Count가 500 이상인 데이터 만을 학습시켜, 데이터의 불균형으로 모델의 Accuracy는 높지만 Precision과 Re..
성능 지표의 기본 이해 1) 데이터셋 - Test : 실제 정답이 되는 데이터셋 - Predict : 모델이 예측한 결과인 데이터셋 2) 데이터의 종류 - Positive : 모델을 통해 알아내고 싶은 값(1) - Negative : Positive가 아닌 값(0) 3) 모델의 분류 결과 - True : 예측 성공 - False : 예측 실패 성능 지표 - 정확도(Accuracy) : 모델이 정답을 정답으로, 오답을 오답으로 선택하는가를 보여주는 지표 Accuracy = (tp + tn) / (tp + tn + fp + fn) - 정밀도(Precision) : 모델에서 정답이 아닌 것을 얼마나 잘 걸러내는가를 보여주는 지표 Precision = tp / (tp + fp) - 재현율(Recall) : 모델..