IBM Developerworks에 스팸 문서 필터링에 대한 2회에 걸친 기고글을 쓰고 있는중인데, 오늘 첫 칼럼이 올라온것을 보니 소스코드하고 데이터 파일이 빠진걸 확인 했다. (게다가 수식을 캡처한 부분도 너무 크게 한듯 하다. ㅋ )
또한 수식 번호도 빠진거 같은데, 이 부분은 고쳐달라고 요청을 했다.
이 부분에 대해서 바로 확인해보실 분들을 위해서 소스코드하고 데이터 파일을 첨부한다.
첫번째 칼럼 예제 파일과 데이터
scheme으로 예제파일을 만들었고, 영문 데이터를 데이터 셋으로 제공했다.
자세한건 칼럼을 참고하길 바란다.
자세한건 칼럼을 참고하길 바란다.
이번 칼럼의 예제 코드를 짜면서 오래전에 결심한 목표를 하나 달성했다. ^^
——————————————————————————————
두번째 강좌 파일 올린다. 이미 원고는 넘겼고, 아마도 이달 말에 칼럼이 공개되지 않을까 한다.
파일안에는 불용어 사전과, 2부 집필하면서 새로 작성한 완성된 스팸필터 소스가 있다.
미리 데이터 파일과 소스코드를 올린다.
두번째 칼럼 예제 파일과 데이터
ps. 예전 데이터들과 칼럼을 찾기가 힘들어서 이곳에 업데이트 해본다.
일단 원문은 이곳에서 찾을 수 있고, 따로 Scribd에 올려문 원고는 아래와 같다.
그러나 안타깝게도 2차 소스코드는 찾을수가 없었다.
집단지성(collective intelligence)를 이용한 스팸 문서 필터링
IBM Developerworks 기고 글 프로그램 소스와 데이터 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.