스팸 처리 관련된 분야다. 그래서 책을 보고 있는데 이거 참 무척이나 잼나다.
ending spam 이라는 책인데, 사파리북에서 온라인으로 읽다가 뽐뿌질 받아서 구입한 책이다. (야후 직원이면 누구나 사파리 북에서 공짜로 책을 볼 수 있다. 나처럼 책을 좋아하는 사람은 정말 좋은 제도가 아닐수 없다.)
스팸 필터링이 검색엔진과 정말 비슷한 점 몇가지를 꼽는다면…
1. 사용자(스패머)의 의도를 파악해야 한다.
2. 대용량 처리는 필수다.
3. 확률적인 개념도 필수다.
4. 언어처리 필수
5. rule base로도 할수 있고, 알고리즘으로도 할수 있지만, 두가지를 병합하는게 요즘 대세다.
6. 랭킹이나 스팸처리 방법론도 사용자(스패머)의 의도에 따라 함께 진화해야 한다.
예전에 스팸처리 mapreduce 관련 포스팅을 한것이 있는데, 역시나 마지막 챕터에 대용량 처리 관련된 챕터가 있을 정도다.
책이 어렵지도 쉽지도 않은데, 역시나 필자가 다년의 스팸관련 경험이 녹아들어 있다. 그러니까 이론과 실무가 적절히 조합된 책이라고나 할까??
여러 스팸처리 확률적 방법론을 이렇게 쉬운 텍스트로 녹여넣을수 있는 기술은 대체 어디서 오는것일까?
어려운걸 쉽게 설명하는거 정말 이건 진짜 내공이다.
새로 관심을 가지는 분야… by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.