search engineer로서 comment spam에 관심을 가지는 이유는…

계속 검색엔진 포스팅만 하다가 뜬금없이 comment spam에 관심을 가지는 이유가 있다.

물론 spam문제가 기본적으로 분류의 문제기도 해서 전혀 검색과 다른 분야는 아니라고 생각한다. 그렇지만 내가 spam에 관심을 가지는 이유는 그것도 comment spam에 관심을 가지는 이유는 웹검색 랭킹에 이것들이 영향을 미치기 때문이다.

개인적으로 내 포스트를 복사해서 여러곳에 올리는것도 전혀 좋아하지 않는다, 왜냐면 그것은 검색엔지니어에게 중복처리에 관련된 문제를 제기하기 때문이고, 검색시 좋은 검색결과를 보여주는데 미비한 장애가 될수 있기 때문이다. 무엇보다 검색시 복재판이 아니라 오리지날이 나왔으면 하는 바램은 누구나 가지는 바램이 아닐까 한다.

이야기가 잠시 다른곳으로 셋는데, comment spam을 다는 놈들의 주된 생각은 comment를 클릭해서 누군가 자신의 사이트에 와서 뭔가를 사주기를 바라는 놈들은 거의 없다. 이 comment는 웹로봇을 위한 링크들이다. 웹로봇이 여러 사이트에 분산되어 있는 스팸사이트로 향한 링크를 분석해서 랭킹을 올려줄것이기 때문이다. 그래서 대부분의 comment spam의 내용은 아주 좋은 내용이다. (‘비아그라 사시오’ 하는 그런 내용은 거의 없다.) 단지 링크가 엄한곳이고 너무 상투적인 덧글이라는게 문제다.

그럼 이런 comment spam을 줄이는 방법으로 여태 무슨 방법이 사용되었는지 알아보면…

1. comment를 쓰기위해 로그인을 해야한다.
2. captcha를 쓴다. – 이놈이 로봇인지 아닌지 테스트 하는 turing test의 일종
3. HTML을 못쓰게 한다.
4. 오래된 포스팅에 글을 못쓰게 한다.
5. “blacklist”, “whitelist”를 유지한다.
6. 외부로 나가는 링크를 내부 링크로 리다이랙트 한다.
7. 한 포스트에 쓸수 있는 동일한 포스팅 갯수를 제한한다.

comment를 쓰기위한 제한이 있다는것은 blog문화의 자발성 측면에서 볼때는 그리 좋은 방법은 아니다.

위와는 별다르게 MSN과 Google은 블로깅 소프트웨어 벤더들에게 comment를 쓸때 HTML에 따른 링크 tag 부분에 rel=”nofollow”라는 속성을 추가해줄것을 요청했다. 이렇게 함으로써 comment의 링크에 score를 무작정 올려주는 편법을 막아보고자 했던것이다.

일반적으로 스팸하면 이메일 스팸을 떠올린다. 하지만 같은 스팸이라고 같은 접근방법으로 접근해서는 안될것이다.

왜 스패머들이 이런 스팸을 comment로 올리는가? 목적은 무엇인가부터 바로 보고 접근을 해야하는게 바른 접근방법이라 생각한다.

웹 스팸의 문제는 그 페이지 자체의 문제로 분석해서는 안되고 link관계에서 분석을 해야하고, 이메일 스팸과 comment spam의 차이점도 바로 여기에 있다고 생각한다.
블로그 덧글 스팸, 게시판 덧글 스팸, wiki 스팸 … 다 같은 방법으로 접근이 가능할 것이다.

내가 comment spam server를 만들고자 하는것은 좀 다른 목적이 있지만, 목적이라 해봤자 연구 목적지만 서도…

CC BY-NC 4.0 search engineer로서 comment spam에 관심을 가지는 이유는… by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.