receiver operating characteristic curve(수신자 조작 특성 곡선)에 대해 알아보겠습니다. 줄여서 ROC curve라고 부르겠습니다. ROC curve는 kaggle대회에서 자주 보이는 평가지표이며 이번 Santander대회의 평가지표였습니다.
ROC curve를 이해하기 위해 먼저 혼돈행렬에 개념을 모르는 분들은 혼돈행렬을 읽고 오시면 좋겠습니다.
정밀도(precision)
PRC= TP / (TP + FP)
재현율(recall)
REC = TP / (TP + FN)
특이도(specificity)
SPC = TN / (TN + FP)
양성 예측을 많이 하게 되면 TP는 늘어날 수 있지만 FP 또한 증가할 수 있습니다. 정밀도와 특이도는 FP의 증가에 영향을 받습니다. 이상적으로는 TP는 증가하지만 FP는 감소하는 것입니다. 이를 확인하기 위한 그래프가 ROC curve입니다.
ROC 곡선의 Y축은 재현률(REC) 즉 TP의 비율(TPR)을 나타냅니다. X축은 1-특이도(SPC)를 나타냅니다. 1-특이도(SPC)는 FP의 비율(FPR)을 나타냅니다.
예를들어 무작위로 50%를 양성이라고 가정해보겠습니다. 그렇다면 양성중에 50%는 양성이라 할 것이고 음성중에 50%는 양성이라고 할 것입니다. 그렇다면 TPR / FPR모두 0.5의 확률을 가질 것입니다.
무작위 예측의 경우 빨간색 선을 나타내며 예측이 잘 될수록 좌측 상단 처럼 볼록한 곡선을 형성합니다. ROC곡선을 하나의 수치로 나타낸 것이 AUC인데 보라색의 커브의 면적은 가로 세로 1이므로 1입니다. 빨간 점선의 면적은 0.5입니다.
예측이 잘될 수록 ROC curve는 보라색에 가깝게 형성되며 AUC는 1에 가까운 수치가 나옵니다.
'통계' 카테고리의 다른 글
통계개념 (0) | 2019.11.18 |
---|---|
통계에서 사용되는 bootstrap의 의미는 무엇인가요 (0) | 2019.11.15 |
혼돈행렬(confusion matrix)에 대해 알아보자 (2) | 2019.11.07 |
가설검정 그리고 귀무가설과 대립가설은 무엇인가? (0) | 2019.10.18 |
차원의 저주란? (0) | 2019.03.21 |