Programming Collective Intelligence: Building Smart Web 2.0 Applications 책이 도착했다. 약 2주만인가???
이책 정말 많이 기다렸다. 휴우~~
내가 저번에 이어서 이 책을 2번을 언급하고 있다. 이런 경우 처음인데…쩝
원래 웹에서 조금 봤었지만 역시나 넘기는 책으로 보니 술술 잘도 넘어간다. (conv2님이 이 책 이틀이면 족히 볼거라고 그러셨는데 15분만에 한 챕터를 봤으니 허무맹랑한 이야기도 아니라고 본다. )
가장 먼저 본 부분은 이번 논문의 주제로 했던 6장 Spam 분류 챕터다. 아무래도 Python을 처음 접하시는 분들은 Python 구문에 익숙해져야 될듯 하다는 생각이 보면서 들었다. Python class를 기본으로 쓰는것 같고 코드를 짧게 하기 위해서 한줄에 다 때려박는 코드들이 눈에 띈다. 하긴 코드로 덮힌 누더기처럼 책을 만든것보다야 이게 훨씬 낫지만 처음 보시는 분들에게는 큰 장애물이 될거란 생각이 들었다.
A Statistical Approach to the Spam Problem에서 장문에 설명한 Fisher의 스팸 확률 수식을 딱 10줄에 함축해서 설명해 놓는 이 내공… 흡사 다년간 Machine Learning을 강의하시는 내공 높으신 교수님에게 복잡한 수식을 쉽게 설명을 듣는 느낌하고 똑같다.
Fisher의 방법은 일반적인 단어의 Spam 확률이 0~1 사이의 값을 가지고 이 확률의 곱으로 문서의 결합확률을 구하는데 이게 곱하면 곱할수록 0에 수렴해가기 때문에 이런 Bias를 없애기 위해 각 카테고리별로 확률을 바이어스 없는 조건하에 구하고 그에 대한 평균적인 값을 구하는 아이디어에서 나온 것이다.
전에 위 문서를 보고 생짜로 수식을 이해하려 했지만 그게 잘 안되었는데 이 책을 보고 완전히 정리가 되어 버렸다.
어려운 개념을 몇줄 안되는 쉬운 개념으로 풀어쓰는 이 저자의 내공에 탄복할 따름이다.
책의 저자인Toby Segaran을 야후검색에서 찾아보니 샌프란시스코의 어느 생물공학 관련 회사에서 엔지니어로 일한다고 한다.
게다가 책만큼이나 재밋고 쉬운 글들이 그의 블로그에 많이 있다.
블로그를 보다 보니 Tim O’Reilly의 엄청난 서평 때문에 amazon에서 책이 나오자 마자 팔려서 많은 사람들이 책을 구입하기를 고대하며 저자에게 메일을 쓰면서 기다리고 있다는 글까지 말이다.
그러니 지금에나 이 책을 받은것도 행운이네… ^^;
이런 좋은 책을 써준 저자에게 감사하고, 지루한 추석연휴때 볼게 생겨서 또한 정말 다행이다.
와우~ 책 정말 예술입니다. by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.