대학원

고감자 on 8월 26th, 2007

어제 작업에 획기적인 변화가 있어 논문 실험이 95% 끝나버렸다. ^^ 이전에 내가 잘못한것은 문서 길이에 대해서 노말라이즈 하는것을 빼먹었다는 것과 중요 주제어를 추출하는것을 간과 했다는 것이였다. 그렇게 새로운 프로세싱 과정을 추가하고 새로운 식을 만들어서 적용해다. 논문 제출 기간은 다가오고 결과가 잘 나오지 않으면 어쩌나 하구 노심초사 하면서 작업을 했는데 정말 다행히도 실험 결과와 과정에 만족한다. [...]

Continue reading about Break Through하다.

고감자 on 8월 25th, 2007

2달전쯤에 내 생각과 같음에 깜짝 놀라버리고 좌절가까이 하게 했던 논문을 소개해본다. Blocking Blog Spam with Language Model Disagreement, G. Mishne, D. Carmel, and R. Lempel. In: AIRWeb ’05 – First International Workshop on Adversarial Information Retrieval on the Web, at the 14th International World Wide Web Conference (WWW2005), 2005. 위의 논문인데 2005년에 저런 생각을 먼저 [...]

Continue reading about Language model을 이용한 blog spam 제거 논문

고감자 on 8월 19th, 2007

2달에 걸친 노력을 쏟은 논문 실험에 일단 실패 했다. 첫술에 배부르랴마는 실망이 말이 아니군… 이틀동안 아무것도 안하고 그동안 읽지도 않고 밀어 뒀던 책만 보다가 실험을 뒤로 하고 논문 집필 작업에 들어갔다. 실험이 끝나기 전엔 집필을 하려고 하지 않았는데 교수님을 금요일날 만난 자리에서 논문실험하고 집필하고 같이 해나가는게 좋을꺼라는 말씀을 듣고 바로 오늘부터 집필에 들어갔다. 실험이 끝나고 [...]

Continue reading about 논문 실험에 실패하고….

Ham: 3만건 Spam : 2만건 Test set : 2천건 Ham이 너무 많아서 Spam comment의 평균 길이 이하는 버려버렸는데도 Ham 코멘트는 여전히 많다. 평균적으로 Spam 코멘트가 길이가 짧더라. 이틀 데이터 수집하고 수집한거 필요없는 데이터를 제거하기 위한 전처리 작업을 했고, 그리고 이제는 Pos Tagger를 붙이려 하고 있었다. Pos Tagger는 Brill의 테거를 교수님이 추천해 주셔서 그걸로 쓰고 있는데, [...]

Continue reading about 프로그램의 완성도가 아닌 실험 자체가 목적이 되어야 하는데.

고감자 on 7월 26th, 2007

블로그 comment 및 tracback 스팸 2만여건을 구했다. 왜 진작에 이런 생각을 못했는지.. ㅜㅜ 바로 EAS(Eolin Anti SpamServer)라는 플러그인을 살짝 바꿔서 스팸인 comment들을 파일로 저장하게끔 만들었고, 또한 코드를 확인해서 DB 쓰레기통에 있던 spam 처리된 comment 와 trackback을 찾아내서 백업했다. EAS 내부적으로 잠깐 소스를 보자면 1. 10개정도의 중복 comment가 달릴경우 blocking한다. (이것은 내부 DB를 이용한다.)2. 1번에서 필터링 [...]

Continue reading about 영어 Blog comment 구합니다.(2)