지난달에 휴가 내면서까지 원고 데드라인을 맞췄던 ‘R로 하는 Big Data 분석’ 2회 연재를 월간 마소8월호 출간에 맞춰서 공개한다. 1회는 기말고사에 좀 집중하려고 팀원분에게 부탁을 드려서 잘 해결 되었으나 2회는 역시 kmobile 강연하고 거의 겹치는 바람에 집중을 못하고 있다가 결국 휴가내고 하루 집중해서 해결 했다. doSMP와 Rmpi, 그리고 snowfall이라는 멀티코어 분산처리...
caret에는 최적 모델링 파라메터를 평가해주는 train이라는 함수를 제공하고 있다. 예를 들어 randomForest의 경우에는 mtry라는 변수가 있는데, 이 변수는 트리를 생성할때 랜덤한 몇개의 변수를 후보로 사용해서 분리(split)를 할것인지를 가지고 있어야 한다. 결국 이 ‘몇개’ 라는 이 값이 튜닝 포인트인 것이다. 이를 위해서 10 cross validation 전략으로 각 파라메터 튜닝 값에 대한...
오늘 아주 흥미로운 글 하나를 읽었다. 우연히 Beautiful Data라는 책을 펼쳤는데, 전에 내가 읽지 않았던 부분중에서 Facebook의 데이터 플랫폼을 구축하는 과정을 그리는 Jeff Hammerbacher의 글을 보게 되었다.
읽는 내내 정신을 놓게 하지 않을 정도로 굉장히 흥미로운 글이였다.