프로젝트/코드프레소 체험단

파이썬으로 구현하는 머신러닝 : 분류분석 - ROC 커브의 주요 개념 이해

KimCookieYa 2022. 1. 23. 15:54

분류분석은 데이터셋의 특성에 따라 신뢰할 수 있는 지표가 다름

ex) 암환자 진단 Imbalance Data set의 경우 Recall이 신뢰할 수 있는 지표

 

ROC : 모든 분류 임계값에서 분류 모델의 성능을 보여주는 그래프

 

TPR(True Positive Rate)

 - ROC 그래프에서 Y축

 - Recall(참 양성 비율) : 클수록 높은 성능

 

FPR(False Positive Rate)

 - ROC 그래프에서 X축

 - 허위 양성 비율 : 클수록 낮은 성능

 

Threshold

 - 임계값

 - 분류분석에서 모델이 반환한 값 기반 Positive/Negative를 판단하는 기준 값

 - Threshold 값에 따라 TPR/FPR 값이 양의 상관관계를 가지고 변화됨

분류분석에서 Threshold의 Min/Max

1) Min Threshold = 0 인 경우

 - 모든 데이터를 Positive로 판정

==> TPR = 1, FPR = 1

2) Max Threshold = 1 인 경우

 - 모든 데이터를 Negative로 판정

==> TPR = 0, FPR = 0

 

 

 

ROC 커브를 그리기 위한 데이터

 - Threshold 값을 Min부터 Max까지[0, 1] 변화시키며, 각 Point에서 TPR, FPR 값 계산