- Rand index
clustering 평가방법을 알아보던 중 adjusted rand index란 평가방법이 있어 알아보려고 합니다. adjusted rand index는 클러스터의 타깃값을 아는 경우에 사용하는 평가방법입니다.
우선 adjusted rand index를 알아보기 전 Rand index에 대해 이해한 부분을 쉽게 설명해보려 합니다.
우선 아래 그림은 Rand index의 수식입니다.
a는 뭐고 b는 뭐고 아래 ()은 무엇이지? 라는 생각이 들겁니다. 하나하나 예시를 들어보겠습니다.
- Rand index 수식
첫 번째. 우선 분모에 있는 조합부터 보겠습니다. 아래 분모는 순서가 정해져있지 않은 두개의 쌍을 의미 합니다.
저를 포함한 친구4명 - 태구, 영수, 영희, 철수, 동우를 2명씩 순서 상관없이 짝을 지어보겠습니다.
(태구-영수), (태구-영희), (태구-철수), (태구-동우), (영수-영희), (영수-철수), (영수-동우), (영희-철수), (영희-동우), (철수-동우)
5(5-1)/2= 총 10쌍이 나옵니다.
두 번째. a는 두개의 클러스터가 있을 때 두 클러스터 내에서 동일하게 짝지어진 쌍을 의미합니다.
세 번째. b는 두개의 클러스터가 있을 때 두 클러스터 내에서 동일하게 짝지어지 않은 쌍을 의미합니다.
아래 예시를 들어보겠습니다. 예시를 보면 위의 개념을 이해할 수 있습니다.
- Rand index 예시
첫번 째 예시에서 저와 친구 4명이 있었습니다. [태구, 영수, 영희, 철수, 동우]
저희는 새학기를 맞아 새로운 반을 배정받았는데
1반 : 태구, 2반 : 영수, 영희, 3반 :철수 동우로 배정받았습니다. [1, 2, 2, 3, 3]
사실 저와 친구들을 반 배정 전 누가 같은반이 될까 내기를 한적이 있습니다. 그 중 제가 예상한 결과는
1반 : 태구, 영수 2반 : 영희, 철수, 동우였습니다. [1, 1, 2, 2, 2]
그렇다면 반배치 결과(타깃값)와 저의 예상을 Rand index로 계산해보겠습니다.
분모 - 5명이 순서를 이루지 않는 쌍이기 때문에 5(5-1) / 2 = 10입니다.
a - 두 클러스터 내에서 동일하게 같은반인 친구는 누구일까요?
(철수, 동우)입니다.
b - 두 클러스터 내에서 동일하게 같은반이 아닌 친구는 누구일까요?
(태구, 영희) (태구 ,철수) (태구 동우) (영수, 철수) (영수 동우) 입니다.
이제 Rand index를 구해보면
- Rand index 한계
Rand index는 클러스터링 평가방법에서 잘 사용되지 않습니다. 그이유는 클러스터의 수가 많아지게 되면 앞선 수식에서 b, 두 데이터가 서로 다른 클러스터에 속할 확률이 높아지기 때문입니다. 이로 인해 클러스터 수가 많아지면 rand index도 높은 값을 갖습니다.
dbscan 클러스터링은 cluster의 수를 설정할 수가 없기 때문에 많은 클러스터가 생기며 이러한 경우 rand index는 정확한 평가방법이 아닙니다.
다음은 rand index의 단점을 고친 adjusted rand index에 대해 알아보겠습니다. 감사합니다.
'통계' 카테고리의 다른 글
ARI(Adjusted Rand index) (2) | 2020.05.08 |
---|---|
통계개념 (0) | 2019.11.18 |
통계에서 사용되는 bootstrap의 의미는 무엇인가요 (0) | 2019.11.15 |
ROC curve? (0) | 2019.11.09 |
혼돈행렬(confusion matrix)에 대해 알아보자 (2) | 2019.11.07 |