지민 아빠의 글을 또 읽고 - 한rss vs 야후블로그랭킹 - from __future__ import dreamfrom __future_

사람손과 로봇손의 비교 – 한RSS TOP1000 과 야후블로그랭킹 단순비교

와우… 지민아빠님 정말 블로그 검색에 관심이 많으신분 같다.

글 정말 재밋게 잘 봤습니다. ^^

이거 야후 비공식 검색 블로그도 아니고 쩝….

예전에 hanrss 수집한적이 있었다. 물론 이 분석은 내 개인적으로 이뤄진것이고 그 구독자수를 기반으로 러닝을 시켜서 나온 결과가 그리 좋지 않았다는 개인적인 판단에 의해서 제안도 못하고 접어뒀었다.

또한 야후 검색엔진쪽만 분석 했지만 hanrss구독자수와 인덱싱 된 페이지수 및 inlink count를 분석했었는데 이도 검색엔진이 인식하는 사이트의 중요도와 hanrss 구독자수는 관련이 있다고 보기 힘든 결과가 나왔다. 물론 이 부분은 구글 검색엔진도 분석 해봐야 되는 문제지만 크게 다르지 않을거란 예상을 해본다.

그래서 hanrss 구독자 수를 랭킹의 seed set으로 해보려는 시도는 실패를 했다.

사실 잘 된 일이다. 구독자 수에 대한 의존성이 있었다면 그 구독자 수 정보를 크롤링 하기 위해 수없이 많은 작업들이 들어갔어야 하기 때문이니까.

지민아빠님 말씀대로 구독자수에 대한 고민은 좀더 해봐야 될 부분인거 같다는 생각이 들어서 조금 미뤄 두었다.

과연 그 구독자 수가 의미하는게 뭔지는 좀더 시간이 필요할거 같다.

여담이지만 지민아빠님의 글을 보면 로봇손이라고 하셔서 한참 웃었는데, 아마도 Machine Learning을 이용해서 만들었다고 말씀을 드려서 그러시는거 같다. ㅋㅋ

이 부분 약간 설명이 필요할거 같다.

Machine Learning의 과정을 살짝 말씀을 드려보면 test set과 training set이라는게 있느데 이 두가지 모두 사람이 판단한 결과가 들어간다.

training set으로 러닝을 시켜서 분류기를 만든다음에 이 test set으로 검증을 하는 과정을 반복적으로 거친다.

따라서 이 기계손이라는게 사람의 judge set이 들어갔기 때문에 판정하는 기준 자체는 사람이 정해준다고 봐야 된다. 기계가 하는건 사람이 넣어준 기준을 공평하게 수백만의 블로거에 적용하는것 뿐이다. 만일 수백만을 사람이 판정한다면 하기도 전에 피로해서 쓰러지겠으며, 자신이 아는 블로거나 주제에 대한 블로그의 경우 불공정한 판정을 할 수 있기 때문이다.

아주 재미난 표현을 쓰셔서 재밋었는데, 사실 그 기계손의 혼은 사람이라는걸 알아주셨으면 좋겠다. ^^

여튼 재밋는 분석글 감사합니다. ^^

from future import dream

당신의 나의 뜨거운 감자!

지민 아빠의 글을 또 읽고 – 한rss vs 야후블로그랭킹

관련