성능 지표의 기본 이해
1) 데이터셋
- Test : 실제 정답이 되는 데이터셋
- Predict : 모델이 예측한 결과인 데이터셋
2) 데이터의 종류
- Positive : 모델을 통해 알아내고 싶은 값(1)
- Negative : Positive가 아닌 값(0)
3) 모델의 분류 결과
- True : 예측 성공
- False : 예측 실패
성능 지표
- 정확도(Accuracy) : 모델이 정답을 정답으로, 오답을 오답으로 선택하는가를 보여주는 지표
Accuracy = (tp + tn) / (tp + tn + fp + fn)
- 정밀도(Precision) : 모델에서 정답이 아닌 것을 얼마나 잘 걸러내는가를 보여주는 지표
Precision = tp / (tp + fp)
- 재현율(Recall) : 모델에서 실제 정답을 얼마나 많이 선택하는가를 보여주는 지표
Recall = tp / (tp + fn)
Recall이 중요한 경우
- 실제 데이터가 Positive인 데이터를 Negative로 잘못 예측하게 되면 업무상 큰 영향이 발생하는 경우
- ex) 보험사기 검출, 금융사기 검출, 어뷰징 검출, 질병 검출 등
Precision이 중요한 경우
- 실제 데이터가 Negative인 데이터를 Positive로 잘못 예측하게 되면 업무상 큰 영향이 발생하는 경우
- ex) 스팸 메일 분류, 추천 시스템 등
'프로젝트 > 코드프레소 체험단' 카테고리의 다른 글
파이썬으로 구현하는 머신러닝 : 분류분석 - ROC 커브의 주요 개념 이해 (0) | 2022.01.23 |
---|---|
파이썬으로 구현하는 머신러닝 : 분류분석 - 로지스틱 회귀 실습1 (0) | 2022.01.22 |
파이썬으로 구현하는 머신러닝 : 분류분석 - 분류의 이해 (0) | 2022.01.20 |
시각화를 위한 Matplotlib, Pandas 활용하기 (0) | 2022.01.18 |
파이썬으로 구현하는 머신러닝 : 회귀분석 - 사이킷런 활용한 라쏘 규제 실습 (0) | 2022.01.18 |