블로그 comment 및 tracback 스팸 2만여건을 구했다.
왜 진작에 이런 생각을 못했는지.. ㅜㅜ
바로 EAS(Eolin Anti SpamServer)라는 플러그인을 살짝 바꿔서 스팸인 comment들을 파일로 저장하게끔 만들었고, 또한 코드를 확인해서 DB 쓰레기통에 있던 spam 처리된 comment 와 trackback을 찾아내서 백업했다.
EAS 내부적으로 잠깐 소스를 보자면
1. 10개정도의 중복 comment가 달릴경우 blocking한다. (이것은 내부 DB를 이용한다.)
2. 1번에서 필터링 안된 부분들은 EAS 서버의 스팸 처리 정보를 이용해서 필터링한다.
중복 comment 10개로 제한 하는건 좋은 방법이고 EAS 서버의 부하를 줄일 수 있는 방법인거 같다.
하루아침에 자그마치 도합 2만여건의 spam comment를 모았다.(물론 중복은 있지만…)
한 1주일 두고보면 더 많은 spam들이 모일거 같다.
스팸 유형의 주기성을 봤을때, 1주일에 하루정도만 개방해서 모아보는 방법을 3주정도 하면 꽤 많은 스팸을 모을거 같다.
comment들의 중복을 제거하고 정상적인 comment들과 섞어서 trainging set을 만들어야 겠다.
바로 나 자신의 블로그를 이용해서 이런 양질의 데이터를 모을 수 있다는게 신기할 따름이다.
그나저나 정상적인 영문 comment들은 직접 크롤링을 해야할거 같다는 느낌이 든다. ^^;
영어 Blog comment 구합니다.(2) by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.