스팸필터 두번째 강좌 올라갔습니다.

결혼식 전에 집필했던 강좌가 올라갔다. 1회때보다는 많이 발전한듯한 느낌이 든다. (자퍽… ㅜㅜ)정말 1회 강좌는 올리고 나서 많이 후회하기도 했는데 이번 강좌는 좀 다르다.(마눌님이 보고는 저번것보다 이해하기 쉬웠단다. ^^) 이걸로 스팸필터 강좌는 마무리 짓는다.저번에 이메일로 어떤분이 상품 추천하는 로직에 대해서 설명해 달라고 그러셨는데 스팸필터로 하는 바람에 약속을 지키지 못해서 죄송하다는 생각이 든다.다음 기회가 된다면 상품 추천 […]

계속 읽기

스팸 필터 중간 결과

블로그나 게시판의 덧글의 스팸성을 판단하는 스팸 필터를 개발하고 있다. 물론 개인적으로 개발하고 있고, 이것을 이용해서 이번 Machine Learning 수업의 프로젝트 자료로 제출을 했고, 계속 여러 펙터를 바꾸고 다른 알고리즘을 집어넣으면서 테스트 하고 있다. 개발 환경은  OS : Linux Language : D Languagelibrary : iconv, ham(형태소 분석기) 쓴 알고리즘은 2만건의 사람이 분류한 덧글 training set을 사용했고, […]

계속 읽기

새로 관심을 가지는 분야…

스팸 처리 관련된 분야다. 그래서 책을 보고 있는데 이거 참 무척이나 잼나다. ending spam 이라는 책인데, 사파리북에서 온라인으로 읽다가 뽐뿌질 받아서 구입한 책이다. (야후 직원이면 누구나 사파리 북에서 공짜로 책을 볼 수 있다. 나처럼 책을 좋아하는 사람은 정말 좋은 제도가 아닐수 없다.) 스팸 필터링이 검색엔진과 정말 비슷한 점 몇가지를 꼽는다면… 1. 사용자(스패머)의 의도를 파악해야 한다.2. […]

계속 읽기

간단한 블로그 덧글 스팸 필터 만들기

드뎌 기계학습 시간에 주제로 선정한 스팸 필터를 제작하는 초기화 작업을 시작했다.아니 이미 시작했구나.. ㅡㅡ; 쉬는동안 이미 C로 구현한 스레드 기반 서버는 거의 만들었고, 클라이언트를 구현하고 스팸필터를 만드는 일이 남았다. 게다가 stemmer를 구현해야 하는데. 이것은 강승식 교수님 라이브러리를 사용해서 간단하게 사용해야 겠다. 학습용이니 사용해도 될듯하다. 폴 그래이험이 스팸필터 알고리즘으로 사용했던 나이브 베이지언 룰을 이용해서 일단 구현해서 […]

계속 읽기