2달전쯤에 내 생각과 같음에 깜짝 놀라버리고 좌절가까이 하게 했던 논문을 소개해본다.
Blocking Blog Spam with Language Model Disagreement, G. Mishne, D. Carmel, and R. Lempel. In: AIRWeb ’05 – First International Workshop on Adversarial Information Retrieval on the Web, at the 14th International World Wide Web Conference (WWW2005), 2005.
위의 논문인데 2005년에 저런 생각을 먼저 했다는것에 존경심을 표한다. 개인적인 능력 차이보다는 보고 듣는 환경의 차이가 이런 시간과 시각의 차이를 만들었다고 생각한다. 나도 저런 데이터를 유심히 볼 수 있는 환경에 있었다면 저런 논문을 못만들라는 법은 없으니… ^^;
위 논문의 핵심은 아래 그림 하나로 표현이 된다.
3가지 Language Model에 대한 유사도 비교로 comment spam 여부를 판단하는데 첫번째는 Blog Post에 대한 모델과 comment의 모델, 그리고 comment에 링크가 걸린 페이지의 모델이다. 이들간의 Language Model을 이용한 유사도 판단으로 스팸 유무를 판단하는 것이다.
포스트와 comment간의 유사도를 비교한다는 이전의 내 생각하고도 상당히 유사한 개념이다. 게다가 이 친구는 링크된 페이지 자체의 유사도까지 계산해서 정확도를 높이고자 했으니 내 생각보다 한차원 더 진보된 개념을 사용했다.
논문에서는 단지 포스트와 덧글간의 유사도 계산만으로 필터링을 했다. 그러면서 80%의 정확도를 자랑하고 있다.
이후에 comment spam에 대한 논문은 찾기 힘들었다. 몇몇 조사 자료를 제외하고는 말이다.
이 논문은 comment spam에 대한 기존의 개념에 대해서 진보된 또다른 사고방식을 나에게 제공해준 소중한 논문이다. 몇몇 그곳에서 제공하는 toy corpus의 오류 문제라든지 그런 문제가 약간의 오점으로 남긴 했지만 말이다.
Language model을 이용한 blog spam 제거 논문 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.