지난 금,토 서울대에서 2008 한글 및 한국어 정보처리 학술대회가 있었다.
개인적인 사정으로 아쉽지만 금요일만 참가했었다.
논문집을 보니 작년 나의 논문을 레퍼런스한 논문이 좀 있었다. ^^;
아래 두 논문이 그 논문들이다.
동시출현 자질과 집단 지성을 이용한 지식검색 문서 사용자 명성 평가, 이현우(창원대), 한요섭, 김래현(한국과학기술연구원), 차정원(창원대)
Topic signature와 n-gram을 이용한 댓글 분류 시스템, 배민영, 차정원(창원대)
첫번째 논문은 동시출현 자질을 이용해서 스코어링을 하고 그 점수를 유저기반으로 해서 페이지 랭크처럼 점수 계산을 하는 과정을 거치며 사용자 평가를 하는 시스템이였다. 상당히 재미있는 논문이였다.
두번째 논문은 악성댓글에 대한 분류를 하기 위한 논문이였는데 악성댓글이 무엇인지도 정의를 하지 않고 시작을 하였고 나중에 실험결과 비교하는 곳에 가서는 스팸분류를 하고자한 논문의 데이터와 비교를 하고 있었다. 위의 용어의 정의와 차이점을 좀더 보강해 주면 읽는 사람으로 하여금 혼동이 되지 않을듯 하다.
하지만 이 부분 말고 feature를 뽑을때 n-gram으로 뽑기로 한것은 참 좋은 생각인듯 하다. 일단 악성댓글이든 스팸댓글이든 그러한 댓글은 대부분 짧아서 feature들이 상당히 제한적이기 때문이다.
이 논문은 학위논문이 나오면 다시 자세하게 읽어봐야 할듯 하다.
일단 작년 내 논문이 많은 래퍼런스가 되었다는데 기분이 좋았고 심지어는 내가 제안한 방법으로 구현까지 해봤다는 분도 만나 봤다. ^^;
주기적으로 좋은 논문 기고를 하면 참 다양한 분들을 알아갈 수 있을거란 생각이 들었다.
블로그 스팸 관련해서는 나도 현재 내 논문의 후속으로 낼 것을 고민하고 있는 중이다. 아이디어는 있었으나 스팸 데이터 크롤을 하지 못하는 바람에 타이밍을 놓쳤지만 말이다. ㅜㅜ
일단 내년에는 꼭 재미있는 논문 한편 다시 써볼 수 있기를 기대해 보자!
2008 한글 및 한국어 정보처리 학술대회 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.