SVM을 이용한 블로그 와 스팸 블로그 인식

구글에서 학술 정보 검색 서비스가 나왔다고 해서 “Blog Spam”으로 검색해 봤다.
첫번째 결과는 이미 오래전에 본 자료였고, 두번쩨 자료부터 보고 있다.

주말에 집에 내려갔다 오면서 차속에서 봤는데 보면서 꽤 재미 있었다.

논문 제목이…

SVMs for the Blogosphere: Blog Identification and Splog Detection

SVM을 이용해서 블로그와 여타 미디어 사이트를 구분하는 실험과 그리고 Spam Blog를 분류하는 실험을 했다.

이 논문에서 주목해서 볼 것들은 블로그 데이터를 수집하는 방법하고, 블로그를 인식하는데 쓰인 feature들, 그리고 이것보다 더 중요한 feature를 선택하기 위한 실험 방법등이다. 또한 Spam Blog를 분류하는데 쓰인 여러 feature와 그와 더불어 뭐가 더 필요한지에 대한 언급 부분이 아닐까 한다.

Spam Blog에 대한 분석은 블로그 포스트 자체에 대한 feature selection만으로는 한계가 있음을 보여줬고, 링크 정보를 이용한 웹 그래프를 이용하거나, 스팸 블로그 분류체계를 구축해 판정하는게 효과가 있을거라고 추후 연구 과제로 내어 놓았다.

그러나 블로그 인식을 하는건 꽤 성능이 좋았다. urls, anchors, meta 정보만을 이용해서 f1-measure가 97%가까이 나왔는데 블로그 크롤링을 할때 이런 feature를 쓰는것이 효과가 있음을 보여줬다.
휴리스틱한 방법으로는 rss를 유무로 판단하는 방법이 가장 좋았는데, rss는 앞으로 많은 컨텐츠에서 쓰일 수 있을정도로 효과가 입증되어서 rss만으로는 앞으로 블로그인가 아닌가 정확한 판정을 내리기 힘들다고 한다.

featue를 선택하는 방법이 꽤 인상적이였는데, 흡사 Decision Tree의 Information Gain을 이용한 트리구조 만드는 방법이 생각나더라.
지금까지는 막연하게 ‘이런 Feature를 선택하면 좋겠다’, 하고 생각했는데 논문에서 제시한 방법이 꽤 인상적이였다. 아마도 이 부분이 금번 논문에서 가장 좋았던 부분이지 않을까 한다.

결과보다는 과정이 참으로 좋았던 논문이였다.

from future import dream

당신의 나의 뜨거운 감자!

관련