반응형

점을 하나찍고 여기서 좌우로 길이가 10인 선을 그려보자.


이 선을 '전체'라고 부르자. 다시 중심 점에서 좌우로 길이가 9인 선을 그려보자. 이 선은 '중심부'라고 하자. 


그러면 전체에서 중심부가 차지하는 비율은 얼마인가? 90%이다.





이번에는 차원을 하나 높여서 반지름이 10인 원을 전체로 하고 그 중에 반지름 9인 중심부 를 생각해보자.

원의 넓이는 반지름의 제곱에 비례하므로 중심부의 비율이 81%로 줄어든다. 


차원을 하나 더 높여서 반지름이 10인 구를 전체로 하면 구의 부피는 반지름의 세제곱 에 비례하므로 중심부의 비율이 73%로 줄어든다.

이런 식으로 차원을 계속 높여 나가면 43 차원에서는 중심부가 차지하는 비율이 1%에 불과하게 된다. 

거리로는 계속 전체의 90%에 달하는대도 말이다. 이를 차원의 저주(curse of dimensionality)라 한다.


데이터에서 변수들은 각각 하나의 차원을 이룬다. 2개의 변수가 있다면 2차원, 3개의 변수 가 있다면 3차원이다.

변수가 많아지면 많아질 수록 차원도 높아진다. 그러면 데이터는 차 원의 저주 때문에 중심부에는 드물고 주변부에 많아지게 된다.


반응형

+ Recent posts