Ham: 3만건
Spam : 2만건
Test set : 2천건
Ham이 너무 많아서 Spam comment의 평균 길이 이하는 버려버렸는데도 Ham 코멘트는 여전히 많다.
평균적으로 Spam 코멘트가 길이가 짧더라.
이틀 데이터 수집하고 수집한거 필요없는 데이터를 제거하기 위한 전처리 작업을 했고, 그리고 이제는 Pos Tagger를 붙이려 하고 있었다.
Pos Tagger는 Brill의 테거를 교수님이 추천해 주셔서 그걸로 쓰고 있는데, 상당히 사용하기 간편하다.(독립적으로…) 그리고 정확도도 꽤 괜찮다.
하지만 이것을 Spam Server에 붙이려하는데 만만치 않다.
아예 라이브러리로 제공되는게 아니라서 소스를 수정해서 입출력 인터페이싱을 해야했다.아니 자연스럽게 그렇게 하려고 했다.
저녁 내내 Pos Tagger 소스를 고치고 테스트 해보면서 내가 왜 이렇게 완성도를 높여야 하는가 하는 고민을 했다. 이달 말까지 논문 제출은 해야하고 완성된 프로그램이 중요한게 아니라 실험 결과가 중요한게 아닐까 하는 생각 말이다.
일단 결과가 정말 궁금하기도 하고 빨리 테스트 하는게 논문의 Dead Line을 맞추는데 중요 요건이라 아주 직관적으로 프로그램 인터페이싱을 하는데 타협해 버렸다.
이 부분은 나중에 이놈을 실제 사용할때 적당하게 고치면 될것이라고 생각한다.
생각해보니 그동안 이런 인터페이싱하는 모듈을 작성하는데 많은 시간을 들어온건 사실이다. 특히나 이종의 언어 사이에서 이런 작업은 정말 재밋다. 두가지 언어를 함께 가지고 노는 즐거움…
새벽 2시다…
아침에 전화영어회사서 오는 모닝콜을 받고 깨겠지.
요즘 매일 이렇다. ㅜㅜ
그러나 죽었다 깨어나도 담주 금요일까지는 실험은 끝내야 한다.
프로그램의 완성도가 아닌 실험 자체가 목적이 되어야 하는데. by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.