논문 실험에 대해서…

사실 논문 준비를 위해서 가장 먼저 했었고 가장 많은 시간을 투자한것이 주제선정이였다.
회사를 다니면서 학교를 다니면 주제를 선정하기 쉬울 경우가 있다. 물론 회사의 product를 가지고 개인이 논문으로 제출을 하는건 윤리상 문제가 있을 수 있겠지만 사측의 동의를 얻으면 이처럼 좋은 주제가 없을 정도다.

많은 분들이 회사의 연구주제를 가지고 실제 논문을 쓰기도 하지만 나의 경우에는 약간 힘든 부분이였다. 아마도 학교를 다니는것과 회사의 일과의 철저한 분리를 하고자 하는 나의 평소 생각이 작용한거 같다.

그래서 따로 시간을 내서 논문을 쓰고자 한다면 시간 투자를 많이 해야될 논문 주제는 피했어야 했다.
주로 나의 주제는 블로그에 국한된 문제였고 또한 정보검색과 관련된 주제를 찾고자 노력했었다. 일단 정보검색 주제로 인한 검색 시스템 및 랭킹 구현은 실험에 대한 결과를 도출하는데 여러 많은 추가작업이 들어가기 때문에 주로 새벽이나 주말에만 논문을 준비하는 나로서는 버거운 주제였다.

기계학습(Machine Learning)쪽에 대학원 생활 내내 어떤 일관성을 유지하면서 공부하고자 했기 때문에 이 분야로 해보면 어떨까 하다가 블로그 덧글 스팸판정에 대한 주제로 정하게 되었다.

물론 스팸 판정 학습 데이터를 실제 크롤러를 만들어 technorati에서 top30개 블로그에서 데이터를 직접 추출했다. 그 추출된 데이터를 바탕으로 학습 데이터를 만들고 전처리를 하는 과정에서 생각지도 않은 엄청난 시간이 소요된게 사실이였고 실제 스팸 학습 데이터는 이곳 내 블로그에서 스팸필터를 활용해서 수집을 했기 때문에 이 부분에서는 상대적으로 많은 시간이 소요된건 아니였다. Data Mining 수업시간에서 들었던, 60%이상의 시간이 데이터 전처리에 소요된다는 모 교수님의 말씀이 진정 허언이 아니였다.
 
구현에 관한건..
사실 이 주제로 이미 e-mail 스팸에 대한 많은 논문과 실험 시스템이 구현되어 있었기 때문에 그러한 툴을 사용해서 실험을 했었다면 아마도 쉽게 논문을 썼을거란 생각을 해본다. 하지만 전부터 스팸 필터를 직접 만들고자 했었던 생각도 있었고 실제 직접 구현해보는 것과 가져다 쓰는것은 내가 얻는 부분에서 큰 차이가 있을거라는 생각을 평소 하고 있어서 더욱 구현해 보고자 했었다.

그래서 일단 베이지언 기반의 스팸 필터링 시스템을 만들고 있었다.
이 와중에 미국 출장을 가게 되어서 미국에서 정박사님을 만나서 이런 저런 이야기를 많이 했다. 출장 가서도 호텔에서 늦게까지 논문 때문에 고민하는 생활을 했었는데 처음부터 하나의 완벽한 시스템을 만들기 위해서 꼼꼼하게 작업하는 나를 보시고 박사님이 한마디 하셨다.

“힘들게 완벽한 시스템을 구현하는게 논문의 목적은 아니라고” 말이다.

그러니까 문서를 입력해서 파싱하고 형태소 분석기 돌리고 그것을 파일 시스템에다 넣어서 확률 데이터로 활용하는 과정을 하고 있는 중이였는데 굳이 그렇게 일관된 처리를 하는 시스템을 만들 필요가 없다는 말씀이셨다.
한마디로 실험 대상이 되는 문서들만 일단 파싱해 놓고 그것을 계속 사용해서 실험을 하라는 말씀이셨는데, 실험을 할때마다 처음부터 끝까지 문서입력 받아서 결과가 바로 나오는 일반적인 하나의 어플리케이션을 구현하는건 논문실험에서 그렇게 큰 비중을 차지하지 않는다게 박사님의 생각이신거 같았다.

사실 나의 경우에는 필터 시스템 뿐만 아니라 확률 데이터를 저장하는 해싱파일구조에다가 스팸필터를 서버로 구현하기까지 했기 때문에 실제 구현에서 많은 시간이 걸린것이 사실이다.
물론 개인적으로도 구현하면서 얻은게 많은것도 사실이였지만 결과적으로 논문의 퀄리티에 그닥 기여를 못한 부분이였다.

그래서 논문을 쓰고자 한다면 일반적인 논문의 평가 기준에 대해서 알아보고 무엇에 집중할 것인지 선택하는것도 빠른 논문 작성 방법중에 하나라고 생각한다.

논문이 목적인지 하나의 어플리케이션을 만드는게 목적인지 목적을 확실히 하는 과정이 필요할거 같다.

ps. 아마도 아직까지는 computer scientist에 가깝기 보다는 computer programmer에 가까운가 보다. ^^; 하긴 어느 한쪽에 치우치기 보다는 적절하게 균형을 맞추고 싶은게 사실이다.

CC BY-NC 4.0 논문 실험에 대해서… by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.