요즘 여러 외국 학술대회에서 스팸 블로그 관련 문서들이 쏟아져 나오고 있어서 참 재밋는 논문을 많이 보고 있다.
그중에서도 Detecting Spam Blog: A Machine Learning Approach의 논문을 요며칠 저녁에 잠깐 보고 오늘 몇몇 관련 자료를 찾아봤는데, 참 재미있었다.
이 논문에서 Spam Blog Detection을 하는데 중요한 local feature와 link feature가 함께 서로 보완되어서 쓰여야 한다고 이야기 하고 있으며 제시한 수가지의 feature를 모두 다 쓰는것보다 적당히(자신의 목적과 대상에 맞게) 골라서 충분한 테스트를 해보고 쓸수 있는 전략이 필요하다고 말하고 있다. 웹 스팸에서 중요하게 쓰이는 link feature가 스팸 블로그 문제에서는 그렇게 효과를 발휘하지 못한다는 이야기하고 그와는 대조적으로 local feature 그러니까 웹 블로그 문서 자체에서 추출되는 term이라든지, url, anchor text가 중요한 feature였다고 이야기 하고 있었다. 링크의 authority를 보는 link score같은 경우에는 대부분의 블로그 검색에서 시간에 따른 랭킹 방식을 많이 쓰기 때문에 그렇게 스팸을 골라내는데 큰 feature로 쓰이지는 않을거라고 한다.
다만 이런 내용은 블로그 간의 랭킹일 경우 그리고 블로그 검색일 경우에 한정되는 이야기이고 만일 블로그 트랙백이나 덧글을 사용해 일반 웹사이트로 링크를 걸어버리는 경우가 있어서 spam authority가 발생할 수도 있으니 블로그 전문검색이 아닌 웹검색의 경우에는 이런 링크 점수의 차별점을 주기 위해 blog detection하는 알고리즘도 필요할거란 생각이 든다.
위의 feature는 논문에서 휴리스틱한 local feature로 들어가는 것들인데, 꽤 재밋는 것들이 좀 있다.
entity extraction이 훌륭하게 된다면 1~5번의 정보는 입력이 가능하겠고, 6번 텍스트 압축률 URL 압축률 Anchor 압축률 같은 경우에는 비슷한 term이 반복으로 나오는 경우에 꽤 좋은 압축률을 보여 줄 것이다.
뭐 저런거 말고래도 host 도메인의 특징의 경우도 있겠고(.info 도메인) 많은 활용할 수 있는 feature들이 많을 것이다.
이 논문에서는 스팸 feature를 고르고 training 하는데 전략이 필요하다는 이야기를 거듭 강조하고 있으며, 스패머가 발전하는 경향에 맞춰서 선택적으로 feature를 발굴하고 사용하는 감각이 필요하다고 말하고 있다.
또한 최신의 스팸 경향을 빨리 캣취하고 막기위해 항상 검색엔진이나 블로그스피어를 주시할 필요가 있다고 한다.
ps. 저자의 history를 보니 실무를 겸하면서 논문을 쓴거 같다는 생각이 팍팍든다. 역시 학교에서 공부만 해서는 이런 논문이 나오기 힘들꺼란 생각이 또 드는군,..
ps. 위 논문의 주저자인 Pranam 에게 위 논문의 테스트/학습 코퍼스로 쓰인 데이터를 메일로 요청했는데 흔쾌히 보내주었다.(splog blog dataset)
이런 데이터셋 공유는 후학을 위해 정말 활발하게 공유 되어야 한다는 생각이 든다.
SVM을 이용한 스팸 블로그 분류 논문 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.