오늘 발표할 제 논문을 공개합니다.

본문과 덧글의 동시출현 자질을 이용한 역 카이제곱 기반 블로그 덧글 스팸 필터 시스템

a comment spam filter system based on inverse chi-square using of co-occurrence feature between comment and blog post

 

초록

최근 대표적인 1인 미디어의 형태인 블로그는 개인 기록의 수단뿐만 아니라 기업의 홍보에까지 널리 사용되는 인터넷 미디어이다. 그러나 누구나 글을 쓸 수 있다는 자유로움 이면에 이를 이용한 덧글 스팸이 성행이 성행하고 있다.

일반적인 스팸 필터의 경우 그 해당 덧글만을 가지고 스팸 필터링을 한다. 그러나 특성상 스팸인 덧글이 정상인 덧글보다 상대적으로 짧기 때문에 일반적인 덧글 자체만의 필터링 방법으로는 높은 정확도를 기대하기 힘든 단점이 있다.

본 논문에서는 정상인 덧글과 본문간의 내용상의 유사도가 있음을 가정해 이런 정보를 역 카이제곱 분류기에 동시출현(co-occurrence) 정보로 부여함으로써 스팸 필터의 정확도를 높이고자 했으며, 실제 그러한 정보를 추가함으로 단순한 확률기반 스팸 필터링 방법을 사용하는 것보다 스팸 필터의 전반적인 성능이 상승되었음을 실험 결과를 통해 알 수 있었다.

위 제목과 초록의 논문을 공개한다.

오늘 경북대에서 있을 19회 한글 및 한국어 정보처리 학술대회 에서 발표(포스터)를 할 예정이고 위 논문은 역 카이제곱이라는 단순한 방법론적인 접근 보다는 블로그 덧글 스팸을 바라보는 시각을 조금 다르게 해서 성능향상을 꾀한 그런 논문으로 봤으면 좋겠다는 생각을 해본다.
따라서 위 feature를 SVM이나 여타 다른 classifier에서 사용 가능성도 충분히 있을거라 생각한다.

이렇게 시간상으로 약간 일찍 공개하는건 관심있는 분들이 포스터 시간에나 한번정도 와서 함께 이야기 할 수 있게 하기 위해서이다. 사실 발표 직전에 논문을 받아보고 논문 제작자에게 뭔가 심도깊은 질문을 하기엔 무리가 있을듯 하니까 말이다.

XM4ja5moGa.pdf

ps. 오늘 꽤 많은 업계 관계자 분들이 오시는거 같은데 오후에 뵙도록 하겠습니다.

0 0 votes
Article Rating
Subscribe
Notify of
guest

5 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
chung

어제 연구실 후배들이랑 술 마셨는데, 안올 것 같던 연구실 사람들이 많이 학회에 간다더군요. 저도 갈 걸 그랬어요. ㅠㅠ.

(학회에 관심이 있다기 보다는 술에 관심이 있어서.. ㅎㅎ)

고감자

교수님도 오신다고 하시네요..
아마도 그래서 연구실 분들이 많이 오실듯합니다.

저희 팀장님도 오시는데 같이 곱창에 소주한잔 하면 좋았을텐데 아쉽네요. ㅜㅜ

학사마

이번 학기 MLR 강의를 다 듣고나면, 그때가서 좋은 comment 남겨드릴께요.. 아직은 지식이 짧아서..

고감자

멋진 의견, 제안 기대하겠습니다. ^^

조영덕

안녕하세요. 블로그스팸에 대한 자료를 찾던 중에 방문하게 되었습니다.
좋은 자료 감사합니다.