프로젝트/코드프레소 체험단
파이썬으로 구현하는 머신러닝 : 분류분석 - 분류 분석을 위한 성능 지표
KimCookieYa
2022. 1. 21. 00:48
성능 지표의 기본 이해
1) 데이터셋
- Test : 실제 정답이 되는 데이터셋
- Predict : 모델이 예측한 결과인 데이터셋
2) 데이터의 종류
- Positive : 모델을 통해 알아내고 싶은 값(1)
- Negative : Positive가 아닌 값(0)
3) 모델의 분류 결과
- True : 예측 성공
- False : 예측 실패
성능 지표
- 정확도(Accuracy) : 모델이 정답을 정답으로, 오답을 오답으로 선택하는가를 보여주는 지표
Accuracy = (tp + tn) / (tp + tn + fp + fn)
- 정밀도(Precision) : 모델에서 정답이 아닌 것을 얼마나 잘 걸러내는가를 보여주는 지표
Precision = tp / (tp + fp)
- 재현율(Recall) : 모델에서 실제 정답을 얼마나 많이 선택하는가를 보여주는 지표
Recall = tp / (tp + fn)
Recall이 중요한 경우
- 실제 데이터가 Positive인 데이터를 Negative로 잘못 예측하게 되면 업무상 큰 영향이 발생하는 경우
- ex) 보험사기 검출, 금융사기 검출, 어뷰징 검출, 질병 검출 등
Precision이 중요한 경우
- 실제 데이터가 Negative인 데이터를 Positive로 잘못 예측하게 되면 업무상 큰 영향이 발생하는 경우
- ex) 스팸 메일 분류, 추천 시스템 등