[머신러닝] ROC Curve & AUC
ROC Curve를 잘 이해하기 위해 세 가지 특성 먼저 파악하기
1. True Positive Rate, False Positive Rate가 무엇인지
2. ROC Curve위의 한 점이 의미하는 것이 무엇인지
3. ROC Curve의 휜 정도가 의미하는 것이 무엇인지
1. True Positive Rate, False Positive Rate가 무엇인지
두 단어 모두 "Positive"가 공통적으로 들어있다. "Positive"는 판단자가 "그렇다"라고 판별했다는 의미이다.
여기서 True는 '판단을 올바르게 했다", False는 "판단을 틀리게 했다"는 것을 표현한다.
TP, FP, TN, FN
- TP : 양성인 샘플이 이진 분류기에 의해 양성으로 옳게 분류됨
- FP : 음성인 샘플이 양성으로 잘못 분류됨
- FN : 양성인 샘플이 음성으로 잘못 분류됨
- TN : 음성인 샘플이 음성으로 옳게 분류됨
- TP : 암환자가 암환자로 판정나는 경우
- FP : 암환자가 아닌데 암환자로 판정 나는 경우
- FN : 암환자인데 암환자가 아닌 것으로 판정 나는 경우
- TN : 암환자가 아닌데 암환자가 아닌 것으로 판정나는 경우
TPR : 실제 참인 것 중 모델이 참이라고 예측한 비율 (진양성율)
- 전체 양성 샘플 중에 양성으로 예측된 것의 비율
FPR : 실제 거짓인 것 중 모델이 참이라고 예측한 비율 (위양성율)
- 전체 음성 샘플 중에 양성으로 예측된 것의 비율
-> TPR은 1에 가까울수록 좋고, FPR은 0에 가까울수록 좋다.
2. ROC Curve위의 한 점이 의미하는 것이 무엇인지
TPR과 FPR의 관계
- 암환자를 진단할 때, 성급한 의사는 아주 조금의 징후만 보여도 암인 것 같다고 할 것이다.
-> 이 경우 TPR은 1에 가까워지고 FPR도 높아진다. (둘 다 높아진다)
-> threshold가 낮다
- 반대로 암환자를 알아내지 못한다면 모든 환자에 대해 암이 아니라고 할 것이다.
-> 이 경우 TPR은 0에 가까워지고 FPR도 낮아진다. (둘다 낮아진다)
-> threshold가 높다.
-> threshold가 변함에 따라서 TPR, FPR의 값이 바뀌지만 threshold가 높아지건 낮아지건 TPR, FPR은 어느 정도 비례적으로 함께 커지거나 작아진다.
현 위의 점은 모든 가능한 threshold별 TPR, FPR을 알아보겠다는 의미이다.
TPR을 높이면, FPR도 같이 높아져버리기 때문에 ROC커브는 이것들을 그래프로 표현하여 어떤 지점을 기준으로 잡을지 결정하기 쉽게 시각화한 것이다.
3. ROC Curve의 휜 정도가 의미하는 것이 무엇인지
두 클래스를 더 잘 구별할 수 있다면 ROC Curve는 좌상단에 더 가까워진다.
-> 더 좋은 이진 분류기를 뜻한다.
ROC Curve (Receiver Operating Characteristic curve)
: 다양한 threshold에 대한 이진 분류기의 성능을 한 번에 표시한 것
- FPR, TPR을 각각 x, y 축으로 놓은 그래프
양분된 결과를 예측하는 테스트의 정확도를 평가하기 위하여 흔히 두 가지 지표, 민감도(sensitivity)와 특이도(specificity)를 사용한다.
- 민감도 : 1인 케이스에 대해 1이라고 예측한 것
- 특이도 : 0인 케이스에 대해 0이라고 예측한 것
ROC Curve는 이진 분류기의 성능을 한 번에 표시한 것으로 진양성률(TPR) 과 위양성률(FPR) 두 가지로 표현한다.
- TPR : 민감도 = 1 - 위음성률
- 1인 케이스에 대해 1이라고 맞게 예측한 비율
- ex) 암환자를 진찰해서 암이라고 진단함
- FPR : 1 - 특이도
- 0인 케이스에 대해 1로 잘못 예측한 비율
- ex) 암환자가 아닌데 암이라고 진단 함
ROC Curve의 밑면적 (=AUC)
- ROC AUC(ROC Area Under the Curve) == AUROC (the Area Under a ROC Curve)
- ROC Curve의 x, y 축은 [0,1] 범위이며 (0,0)에서 (1,1)를 잇는 곡선이다.
- ROC Curve의 밑 면적이 1에 가까울수록 좋은 성능이다.
WHY?
- FPR의 값이 작아질 때 TPR이 천천히 작아진다면, 좋은 성능을 가진 이진 분류기라 볼 수 있고 이런 경우 곡선 아래의 넓이가 정사각형의 넓이 1에 가까워질 것이다.
- 면적 (AUC)는 0.5~1의 범위를 가지고 0.5면 성능이 전혀 없고(랜덤에 가까운 성능) 1이면 최고의 성능이다.
AUC = 0.5인 경우
- 특이도가 감소하는 만큼 민감도가 증가하므로 민감도와 특이도를 동시에 높일 수 있는 지점이 없음
- 특이도가 1일 때 민감도는 0, 특이도가 0일 때 민감도는 1이 되는 비율이 정확하게 trade off관계로, 두 값의 합이 항상 1 임