일전에 Hanrss top 1000 블로거를 추출해 본 적이 있었다.
반응이 좀 좋았는데, 이번에는 구독자수를 입력해봤고, 게다가 Yahoo! Site explorer의 데이터도 뽑아서 넣어 봤다.
Site Explorer 에서 해당 url의 inlink count와 해당 주소의 sub url의 갯수를 알수 있다. 그것도 힘들게 html 파싱같은거 하지 않아도 말이다. 이 부분에 대해서는 Yahoo! Site Explorer API를 참고하길 바란다.
사실 내 의도는 rss 구독자 수와 inlink나 사이트 내의 색인된 문서 갯수와의 관계를 알아보려 했으나 전혀 상관 관계가 없었다.(Pearson Correlation = 0)
웹문서의 Popularity를 판단하는 중요한 척도중에 하나로 알려진 inlink 값이 블로그의 Popularity하고는 별 관계가 없나보다.
하지만 재미있는 사실을 알았다.
첨부된 파일의 마지막 두 필드에 inlinks와 indexed pages가 있는데 이 값은 Site Explorer에서 추출한 값이다. 이 두 필드의 Correlation을 구해보면 0.81 정도로 상당히 관련도가 높은 데이터가 추출된다.
물론 페이지가 많으면 많을 수록 inlink를 받을 확률이 높아지긴 하지만 이 관계가 top 1000 블로거들 사이에서는 관련도가 상당히 높게 나왔다는걸 알 수 있다.
그렇다면 별로 인기 없는 블로그일 경우에는 어떨지 또 궁금해 지는군. 쩝
별로 인기 없는 블로그일 경우 포스팅은 엄청 많이 하나 inlink는 별로 없는 경우는 허다할듯 하다.
또 하나 재미난것은 inlinks/indexed 값으로 각 페이지당 inlinks를 받은 횟수를 산정할 수 있는데 이걸 잘 활용하면 글을 쓰는 이의 포스트의 가치를 산정할 수 있지 않을까 한다. (물론 이건 Yahoo! 크롤러가 해당 블로그를 크롤할 수 있을만큼 다 크롤할거라는 가정하에서…)
데이터를 보면 재밋게도 페이지갯수는 그닥 없는데도 inlinks는 엄청나게 받는 것들이 있다는 것이다.
마지막 필드에 그 계산값을 넣어두었다.
그 결과로 봤을때 top 10 안에서 이규영 연예영화 블로그 가 눈에 띈다.
구글 검색 옵션을 사용해서 비슷한 테스트를 해보면 더 재미난 비교결과가 나올수 있을거 같다.
그러나 방금 해봤는데, 바로 스파이웨어로 판단되서 막혀버린다. 쩝
이걸 뚤어 버리는 방법이 있기는 한데 내일을 위해 오늘은 그만 자야할거 같다.
Hanrss와 Site Explorer by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.