예측 모델링에 대한 실용서

 

R 커뮤니티에서 예측 모델링 실무 패키지로 내가 가장 감명깊게 사용한 패키지가 있는데, caret이라는 패키지이다.

2012년도 UseR! 행사 시 Max Kuhn 박사를 처음 뵈었고 이미 알고 있는 내용이었지만 튜토리얼 세션을 반나절동안 참여했을 정도로 이 박사님의 경험과 철학을 높게 사고 있었다. 특히 모델 평가를 위해 10-fold-crossvalidation 을 멀티코어로 돌려서 가장 최적의 파라메터를 찾는 방법에서 이전 야후!에서의 실무 모델링 경험의 경이로움이 다시금 느껴질 정도였다(이미 이 기능은 패키지에 탑재 되어 있다).

모델링을 하는 분들에게 알고리즘에서 좀더 멀어져서 모델링을 하기 이전과 이후에 어떤 작업을 해야 되는지 No Free Lunch 이론에 기반해 구축이 된 패키지이며 Applied Predictive Modeling책 역시 이 동기에 의해서 쓰여진 책이다. 따라서 어느정도 데이터 마이닝이나 기계학습에 대한 경험이 있는 분들이 실무에서 어떻게 모델링 성능을 올릴지 고민할 때 굉장히 많은 도움이 될 책이란 생각이 든다.

사실 Mac Kuhn 박사님의 경우 화이자 제약에서 예측 모델링 업무를 하고 있고 제약업계에서의 예측 모델링의 성패가 엄청난 투자 비용을 좌지우지 한다는 것을 알고 있으며, 아마도 실무 레벨에서 가장 크리티컬한 업무에 다양한 예측모델 경험을 축적한 사람이 아닐까 하는 생각이 든다. 사실 이런 분들이 쓴 책들은 반드시 읽어야 된다.

 

모 국내 컨퍼런스에서 실무 예측 모델링은 과학의 영역이라기 보다는 예술의 영역이라는 모 교수님의 말씀이 생각나는데, 아마도 그 예술적인 측면을 설명하는 거의 유일한 책이 아닐까 하는 생각을 해보며, 패키지와 함께 이런 책을 만날 수 있게 해준 Max Kuhn박사께 감사의 마음을 전한다.

CC BY-NC 4.0 예측 모델링에 대한 실용서 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.