저녁에 잠깐 Hanrss 사이트를 기반으로 해서 구독자별로 top1000 블로거 직접 크롤링해서 모아 봤다. 이 데이터를 1년 전부터 가지고 싶었었는데 막상 마음 먹으니 30분도 안되서 가져올 수 있었다.
Beautifulsoup 과 Feedparser를 이용하니 40라인도 안되는 코드로 크롤링이 가능하더라.
데이터를 구하는 작업 자체도 힘든 과정중에 하나인데 그런 부분을 편리한 언어와 라이브러리의 도움으로 쉽게 건너뛸 수 있으니 참 좋은 세상이다.
RSS 구독자 수는 블로그의 Popularity를 판단하는 중요한 판단 기준이다.
그것도 국내에서 가장 많이 쓴다는 RSS 구독기를 기반으로 한 데이터는 대표성을 띄는 믿을만한 데이터라 생각한다.
내 블로그가 구독자 순으로는 130번째정도 존재하는거 같은데…
이러니 top 100 블로거에 항상 등극을 못하는거구나. ㅋㅋ
국내 블로그를 기반으로 연구를 하고 있다면 꽤 쓸만한 데이터라 생각한다.
ps. 몇몇 빠진것들이 있는데, 아마도 죽은 블로그들이거나 feedparsing때 오류난 놈들일거다.
Hanrss 구독자수를 기반으로 한 블로거 top 1000 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.