Beautifulsoup 과 Feedparser를 이용하니 40라인도 안되는 코드로 크롤링이 가능하더라.
데이터를 구하는 작업 자체도 힘든 과정중에 하나인데 그런 부분을 편리한 언어와 라이브러리의 도움으로 쉽게 건너뛸 수 있으니 참 좋은 세상이다.
RSS 구독자 수는 블로그의 Popularity를 판단하는 중요한 판단 기준이다.
그것도 국내에서 가장 많이 쓴다는 RSS 구독기를 기반으로 한 데이터는 대표성을 띄는 믿을만한 데이터라 생각한다.
내 블로그가 구독자 순으로는 130번째정도 존재하는거 같은데...
이러니 top 100 블로거에 항상 등극을 못하는거구나. ㅋㅋ
국내 블로그를 기반으로 연구를 하고 있다면 꽤 쓸만한 데이터라 생각한다.
ps. 몇몇 빠진것들이 있는데, 아마도 죽은 블로그들이거나 feedparsing때 오류난 놈들일거다.




