요즘 일도 부분적으로 그렇고 번역도 그렇고 죄다 Machine Learning에 빠져 있다.
게다가 읽는 책도 Data Mining 관련 책이다.
진짜 요즘엔 책읽을 짬을 내기 힘들어서 지하철에서 주로 읽고 점심시간 밥 먹고 와서 읽고 책은 꼭 읽고 잠을 자야 하기에 새벽 2시까지 번역일을 하다가 하루 할 분량을 끝내고 잠자기 1시간 전 정도에 책을 본다.
이렇게 빡시게 보는 이유는…
번역을 시작하면서 예전에 책을 집중적으로 보던 시간들이 죄다 번역작업에 들어가는 바람에 정말 정작 읽어야될 책을 못보는 상황이 벌어졌기 때문이다. ㅠㅠ
그래서 틈틈히 보는 책이 Data Mining: Practical Machine Learning Tools and Techniques (2/E) 라는 책이다.
워낙 유명한 책이라서 부연설명은 안하겠지만 약 1년전에 책 내용에 수식이 별로 없다고 달려들었다가 된통 당한 책중에 하나다.
물론 잘 모르시는 분들은 영어가 어렵다고 말 할 수 있겠다. 영어 문법은 어렵지 않으나 이 책에서 쓰이는 단어의 범위가 상당히 넓다는것은 부정할 수 없다. 그리고 함축된 의미의 전문용어들이 난무하기도 하고 말이다.
그래서 보기 힘든 책중에 하나이지만 이 책에 나오는 여러 방법론들을 Weka 툴의 기능을 기반으로 살펴보면 상당한 도움이 된다.
정확도를 높이기 위한 데이터 전처리 작업 하나하나가 수번의 클러스터링과 연관관계 분석을 통해 이루어지고 이를 다시 training set에 새로운 속성을 추가하는 작업으로 이루어지는 것임을 이 툴과 책을 통해서 알게 되었다.
여담을 하자면 Weka에서 데이터 visualization 툴이 몇가지 있는데 클래스 바운더리를 표현해 주는 툴이 있다. 물론 다차원 데이터를 보여주지 못하고 2차원으로만 보여주지만 나름 분류기의 특징을 보는데 큰 도움이 된다.
물론 툴보다는 데이터를 바라보는 혜안을 빨리 기르고 효과인 모델을 빌드하는데 녹여넣을 수 있도록 해야 할것이다. 더불어 Knowledge Representation이 정말 중요하다는 것을 다시한번 깨달았다.
여튼 책 매우 재미있고, 이 책에 나오는 데이터나 그림들도 흥미롭다.
잠을 줄여서라도 한번에 이해가 안되더라도 읽고 또 읽자!
나중에 이 툴이나 책에 대해서 정리를 좀 한 다음에 재미있고 실무에 가까운 주제를 선정해 사내 Tech Talk같은 것을 해도 재미있을 듯 하다.
최근 보는 책 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.