예측 모델링에 대한 실용서

  R 커뮤니티에서 예측 모델링 실무 패키지로 내가 가장 감명깊게 사용한 패키지가 있는데, caret이라는 패키지이다. 2012년도 UseR! 행사 시 Max Kuhn 박사를 처음 뵈었고 이미 알고 있는 내용이었지만 튜토리얼 세션을 반나절동안 참여했을 정도로 이 박사님의 경험과 철학을 높게 사고 있었다. 특히 모델 평가를 위해 10-fold-crossvalidation 을 멀티코어로 돌려서 가장 최적의 파라메터를 찾는 방법에서 이전 야후!에서의 […]

계속 읽기

parallel model tunning with caret

caret에는 최적 모델링 파라메터를 평가해주는 train이라는 함수를 제공하고 있다. 예를 들어 randomForest의 경우에는 mtry라는 변수가 있는데, 이 변수는 트리를 생성할때 랜덤한 몇개의 변수를 후보로 사용해서 분리(split)를 할것인지를 가지고 있어야 한다. 결국 이 ‘몇개’ 라는 이 값이 튜닝 포인트인 것이다. 이를 위해서 10 cross validation 전략으로 각 파라메터 튜닝 값에 대한 10 cross validation 결과를 출력하고자 […]

계속 읽기

caret 내가 원하던 데이터 마이닝 함수들이 모두 여기 있었구나..

caret(Classification And REgression Training)     모델을 만들기 위한 여러 알고리즘도 중요하지만 데이터 작업의 대부분의 시간을 차지하는 전처리, 모델 튜닝 쪽 인터페이스와 함수들이 절대적으로 필요하다. 이 caret 패키지가 바로 이런 가려운 곳을 긁어주는 패키지인데, 이 패키지는 decision tree나 SVM같은 알고리즘을 구현하고 있지 않고, 전처리, 튜닝, variable importance쪽 인터페이스만 제공한다.  학습셋 10-fold로 만드는거 이거 만들기 귀찮아서 […]

계속 읽기