어떤 데이터셋의 나열에 대한 비교를 수행할때 Correlation을 많이 사용한다.
이전에 inlink 카운트와 인덱스된 페이지의 갯수에 대한 분석을 Correlation을 이용해서 했는데 이 식은 그런 경향성을 분석하는데 유용하게 쓰일 아주 중요한 식이다.

이 함수를 랭킹을 비교하는데 쓸라고 했었는데 무리가 있었다. 왜냐면 랭킹은 상대적인 것인데 이 상대성에 대한 개념을 식이 전혀 반영하고 있지 않다. 다시 말해서 두 가지 랭킹 결과로 나온 것들의 개개 랭킹 순위의 같은 순위에 대한 비교정보만 식에 반영이 될뿐 각기 랭킹 안의 상대적인 랭킹의 의미는 전혀 들어 있지 않다.
이 방법은 각 랭크별로 이 랭크의 위치가 비교 대상이 되는 랭킹에 비해 상대적으로 어떤 위치에 있는지 가늠하게 해준다.

1에 가까울수록 비교한 랭킹과 유사도가 크게 되고 -1에 가까울수록 역의 유사도와 같게 된다.
(1) (2)
1 1
2 4
3 9
4 16
5 25
6 36
7 49
8 64
9 81
10 100
11 121
12 144
13 169
14 196
위 (1), (2) 가 뭐 랭킹이라고 하긴 뭐하지만 Pearson Correlation값과 Kendall tau rank correlation 값을 구해보면 각각 0.97과 -0.93 값이 나온다. (여기서 역의 유사도하고 비슷하지 않은데도 -1에 가깝게 나온걸 보면 좀더 고민해야 될 부분이라 생각한다.)
사실 (2) 데이터는 (1) 데이터의 각 원소의 제곱을 한 값이라는 걸 안다면 Pearson이 왜 이렇게 나왔는지 잘 이해할 수 있을것이다.
특정 원소들이 일정 값으로 shift하는 경향을 띄는것들에 대한 원소 비교를 하고자 한다면 Pearson이 적합할 것이다. 하지만 랭킹은 그렇지 않으니 적재적소에 잘 쓰기 위해 확실한 차이를 알아둘 필요가 있을 것이다.
익숙한 Measure를 보니 반갑네요 😉 그런데, Kendall’s Tau Correlation계산이 예로 드신것처럼 다른 값의 두 list를 대상으로도 가능한가요? 저는 같은 두 set에서 순서만 다를 때 사용하는 것으로 알고 있습니다만…
네! 정확하십니다. ^^
실례로 든것은 Kendall’s Tau Correlation의 예로는 적절하지 않습니다. 다만 두 알고리즘의 차이를 알고 다르게 적용시켜야 한다는 예제로 든것이죠.
실제 위 리스트를 Kendall’s Tau Correlation로 적용했을때 왜 -0.93이 나오는지에 대해고 곰곰히 생각해봐도 그 의미를 알수 있는데요. 이 식자체가 특정 순위 아래에 어떤 원소가 있다 없다를 기준으로 하기 때문에 하위에 없다면 상위에 있는걸로 가정을 하게 되죠. 그래서 -0.93이 나오는거죠. 따라서 같은 원소 리스트의 순서를 다르게 한 결과들의 비교에 적합합니다.
좋은 덧글 감사드립니다. ^^