프로젝트/코드프레소 체험단

파이썬으로 구현하는 머신러닝 : 분류분석 - 분류 분석을 위한 성능 지표

KimCookieYa 2022. 1. 21. 00:48

성능 지표의 기본 이해

1) 데이터셋

 - Test : 실제 정답이 되는 데이터셋

 - Predict : 모델이 예측한 결과인 데이터셋

 

2) 데이터의 종류

 - Positive : 모델을 통해 알아내고 싶은 값(1)

 - Negative : Positive가 아닌 값(0)

 

3) 모델의 분류 결과

 - True : 예측 성공

 - False : 예측 실패

 

 

분류 분석 모델의 성능 지표

성능 지표

 - 정확도(Accuracy) : 모델이 정답을 정답으로, 오답을 오답으로 선택하는가를 보여주는 지표

Accuracy = (tp + tn) / (tp + tn + fp + fn)

 - 정밀도(Precision) : 모델에서 정답이 아닌 것을 얼마나 잘 걸러내는가를 보여주는 지표

Precision = tp / (tp + fp)

 - 재현율(Recall) : 모델에서 실제 정답을 얼마나 많이 선택하는가를 보여주는 지표

Recall = tp / (tp + fn)

 

 

Recall이 중요한 경우

 - 실제 데이터가 Positive인 데이터를 Negative로 잘못 예측하게 되면 업무상 큰 영향이 발생하는 경우

 - ex) 보험사기 검출, 금융사기 검출, 어뷰징 검출, 질병 검출 등

 

Precision이 중요한 경우

 - 실제 데이터가 Negative인 데이터를 Positive로 잘못 예측하게 되면 업무상 큰 영향이 발생하는 경우

 - ex) 스팸 메일 분류, 추천 시스템 등

 

 

암환자 진단 모델의 성능 지표 분석