본문과 덧글의 동시출현 자질을 이용한 역 카이제곱 기반 블로그 덧글 스팸 필터 시스템
a comment spam filter system based on inverse chi-square using of co-occurrence feature between comment and blog post
최근 대표적인 1인 미디어의 형태인 블로그는 개인 기록의 수단뿐만 아니라 기업의 홍보에까지 널리 사용되는 인터넷 미디어이다. 그러나 누구나 글을 쓸 수 있다는 자유로움 이면에 이를 이용한 덧글 스팸이 성행이 성행하고 있다.
일반적인 스팸 필터의 경우 그 해당 덧글만을 가지고 스팸 필터링을 한다. 그러나 특성상 스팸인 덧글이 정상인 덧글보다 상대적으로 짧기 때문에 일반적인 덧글 자체만의 필터링 방법으로는 높은 정확도를 기대하기 힘든 단점이 있다.
본 논문에서는 정상인 덧글과 본문간의 내용상의 유사도가 있음을 가정해 이런 정보를 역 카이제곱 분류기에 동시출현(co-occurrence) 정보로 부여함으로써 스팸 필터의 정확도를 높이고자 했으며, 실제 그러한 정보를 추가함으로 단순한 확률기반 스팸 필터링 방법을 사용하는 것보다 스팸 필터의 전반적인 성능이 상승되었음을 실험 결과를 통해 알 수 있었다.
위 제목과 초록의 논문을 공개한다.
오늘 경북대에서 있을 19회 한글 및 한국어 정보처리 학술대회 에서 발표(포스터)를 할 예정이고 위 논문은 역 카이제곱이라는 단순한 방법론적인 접근 보다는 블로그 덧글 스팸을 바라보는 시각을 조금 다르게 해서 성능향상을 꾀한 그런 논문으로 봤으면 좋겠다는 생각을 해본다.
따라서 위 feature를 SVM이나 여타 다른 classifier에서 사용 가능성도 충분히 있을거라 생각한다.
이렇게 시간상으로 약간 일찍 공개하는건 관심있는 분들이 포스터 시간에나 한번정도 와서 함께 이야기 할 수 있게 하기 위해서이다. 사실 발표 직전에 논문을 받아보고 논문 제작자에게 뭔가 심도깊은 질문을 하기엔 무리가 있을듯 하니까 말이다.
ps. 오늘 꽤 많은 업계 관계자 분들이 오시는거 같은데 오후에 뵙도록 하겠습니다.
오늘 발표할 제 논문을 공개합니다. by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.