간단한 블로그 덧글 스팸 필터 만들기

드뎌 기계학습 시간에 주제로 선정한 스팸 필터를 제작하는 초기화 작업을 시작했다.
아니 이미 시작했구나.. ㅡㅡ;

쉬는동안 이미 C로 구현한 스레드 기반 서버는 거의 만들었고, 클라이언트를 구현하고 스팸필터를 만드는 일이 남았다.

게다가 stemmer를 구현해야 하는데. 이것은 강승식 교수님 라이브러리를 사용해서 간단하게 사용해야 겠다. 학습용이니 사용해도 될듯하다.

폴 그래이험이 스팸필터 알고리즘으로 사용했던 나이브 베이지언 룰을 이용해서 일단 구현해서 리포팅 하는걸로 했다. (이제 더이상 학교생활에 욕심 안부리기로 했다. ^^;)
욕심같아서는 카이제곱방법같은걸 이용하고 싶지만 그렇게 할 여유가 없으니.

그럼 스팸을 수집하는게 문제인데, 이건 spam farm을 만들어서 수집을 해야겠다. (누군가 이 아이디어를 제공해 주셨는데 누군지 기억이 안난다. ㅜㅜ)

이미 EAS라는 테터툴스용 스팸 서버가 있기는 한데, 뭐 이게 뭘 사용하는지 알려진 바도 없고 그래서 한번 구현해보고자 한다.
물론…. 첫번째 구현의 이유는 기계학습 수업과제 때문이고, 두번째는 전부터 해보고 싶은 것이라는 것이다. 

요즘 워낙에 스팸이 워낙 지능화 되어 있어서 이런 간단한 알고리즘으로 엄두도 못내겠지만 일단 맛을 좀 보고 싶다.

다시 주말작업이 필요하겠군.

CC BY-NC 4.0 간단한 블로그 덧글 스팸 필터 만들기 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.