개발자식

[머신러닝] Confusion matrix_분류 모델 성능 평가 지표 본문

AI/Machine Learning

[머신러닝] Confusion matrix_분류 모델 성능 평가 지표

밍츠 2022. 4. 27. 22:44

Confusion matrix (오차 행렬) 

- 모델링 성과를 평가하는 지표 중 하나

- 분류에 한정되어 사용

- Actually는 실제 값을 뜻하며, Predicted는 예측한 결과물을 뜻한다.

- T는 TRUE, F는 False, P는 Positive, N은 Negative를 의미한다.

- TP, TN이 높을수록 좋은 성능을 보여준다.

 

  • TP : 양성인 샘플이 이진 분류기에 의해 양성으로 옳게 분류됨
  • FP : 음성인 샘플이 양성으로 잘못 분류됨
  • FN : 양성인 샘플이 음성으로 잘못 분류됨
  • TN : 음성인 샘플이 음성으로 옳게 분류됨

 

  • TP : 암환자가 암환자로 판정나는 경우
  • FP : 암환자가 아닌데 암환자로 판정 나는 경우
  • FN : 암환자인데 암환자가 아닌 것으로 판정 나는 경우
  • TN : 암환자가 아닌데 암환자가 아닌 것으로 판정 나는 경우

 

Accuracy (정확도)

- 전체 중 모델이 바르게 분류한 비율

 

Precision (정밀도)

- 모델이 Positive라 분류한 것 중 실제값이 Positive인 비율

 

Recall (재현도)

- 실제값이 Positive인 것 중 모델이 Positive라 분류한 비율

 

F1-Score

- Precision과 Recall 의 조화 평균

- 데이터가 불균형할 때, 정확도가 아닌 F1-Score를 사용한다.

* 다중 클래스에서 F1-Score 구하는 방법

: 각 클래스에 대한 Precision과 Recall을 구한 후, 평균값으로 F1-Score를 계산한다.

Comments