R을 빨리 익히기 위해서는…

R을 처음 배우고 싶어하는 분들이 가장 어려워 하는 이유는 R을 단순히 일반적인 프로그래밍 언어로 접근하기 때문이 아닌가 한다. 따라서 언어를 이해하기 위해 통계나 데이터 마이닝 공부를 병행하는 것을 추천한다. R을 가장 잘 이해하기 위해 개인적으로 가장 추천하는 방법은 언어 문법을 익히고 관련 기초 통계를 R을 기반으로 실습해 보는 것이다. 그리고 마지막 단계로 kaggle이나 CrowdANALYTIX와 같은 […]

계속 읽기

월간 마소 연재) R로 하는 멀티코어 병렬프로그래밍

지난달에 휴가 내면서까지 원고 데드라인을 맞췄던 ‘R로 하는 Big Data 분석’ 2회 연재를 월간 마소8월호 출간에 맞춰서 공개한다. 1회는 기말고사에 좀 집중하려고 팀원분에게 부탁을 드려서 잘 해결 되었으나 2회는 역시 kmobile 강연하고 거의 겹치는 바람에 집중을 못하고 있다가 결국 휴가내고 하루 집중해서 해결 했다. doSMP와 Rmpi, 그리고 snowfall이라는 멀티코어 분산처리 패키지를 중심으로 설명을 했고, 인터넷에도 […]

계속 읽기

Wine 등급 예측 경진대회 세번째 이야기

첫번째, 두번째에 이어 세번째 이야기를 하려 한다.   5/28/2011       0.793290832 6/1/2011         0.651258728 6/6/2011         0.653900762 6/14/2011       0.66176357 6/16/2011       0.800861605 6/17/2011       0.647275457 …. 6/23/2011       0.637884434   어제 submission을 통해 다시 한번 에러를 줄이는 쾌거를 올렸다. 이전보다 약 0.01정도 오른 상황이고, 신기하게도 엇그제인가 0.60대가 깨진 score가 하나 올라왔다.  0.03을 줄인다면 1등도 할 수 있을거 같은데, 말이 쉽지 정말 […]

계속 읽기

parallel model tunning with caret

caret에는 최적 모델링 파라메터를 평가해주는 train이라는 함수를 제공하고 있다. 예를 들어 randomForest의 경우에는 mtry라는 변수가 있는데, 이 변수는 트리를 생성할때 랜덤한 몇개의 변수를 후보로 사용해서 분리(split)를 할것인지를 가지고 있어야 한다. 결국 이 ‘몇개’ 라는 이 값이 튜닝 포인트인 것이다. 이를 위해서 10 cross validation 전략으로 각 파라메터 튜닝 값에 대한 10 cross validation 결과를 출력하고자 […]

계속 읽기

caret 내가 원하던 데이터 마이닝 함수들이 모두 여기 있었구나..

caret(Classification And REgression Training)     모델을 만들기 위한 여러 알고리즘도 중요하지만 데이터 작업의 대부분의 시간을 차지하는 전처리, 모델 튜닝 쪽 인터페이스와 함수들이 절대적으로 필요하다. 이 caret 패키지가 바로 이런 가려운 곳을 긁어주는 패키지인데, 이 패키지는 decision tree나 SVM같은 알고리즘을 구현하고 있지 않고, 전처리, 튜닝, variable importance쪽 인터페이스만 제공한다.  학습셋 10-fold로 만드는거 이거 만들기 귀찮아서 […]

계속 읽기

Wine 등급 예측 경진대회 두번째 이야기

1편에 이어서… 최소 3등 안에 들 수 있을 거란 예상을 깨고 5등에 올랐다.ㅜㅜ 결국 이 대회는 다른 사람들과의 싸움이 아니라 얼마나 이전 내가 만든 모델보다 더 좋은 모델을 만들어 내느냐는 나 자신과의 싸움이 되어 버렸다. 전략이 있다면 점차 좋은 모델을 만들 수 있겠지만 전략없이 마구 시도를 한다면 그닥 좋은 모델은 만들어 내지 못하는 그런 대회가 […]

계속 읽기

RStudio

대부분의 R 사용자들은 console기반으로 사용한다. 나 역시 그랬다. 그러다가 Revolution R에서 제공하는 R Community 버전을 사용해봤는데, 원조 R보다 훨씬 빠른 연산으로 좀더 쾌적하게 쓸 수 있었다. 그러나 역시 몇개 머신을 통해서 돌아가면서 작업하는것은 심지어 Dropbox로 Workspace를 파일로 떨궈서 매번 공유한다 치더라도 history나 스크립트 공유를 하는게 여간 귀찮은 작업이 아닐 수 없었다. 그러다가 RStudio를 다시 찾게 […]

계속 읽기

와인 품질 예측 대회

Netflix의 contest 이후에 이쪽 competition에 대해서 까마득하게 잊고 있다가 최근 kaggle의 don’t overfit 문제를 풀어보게 되면서 다시 데이터 마이닝 혹은 데이터 분석 대회에 관심을 가지기 시작했다. don’t overfit문제는 뭐 거의 순위라고 말할 수 없는 순위에 있었지만 사실 테스트 용도로 한번 올려본 것이 전부인 대회였다. 학습 모델을 발전시킬 metric에 대한 계획도 없이 진행한 거라서 내놓기도 뭐한 […]

계속 읽기

R Cookbook 리뷰

R Cookbook 현재 마지막 챕터인 time series  분석을 보고 있는 관계로 짬을 내어 책 리뷰를 하고자 한다. 이 책은 전반적으로 R 코드를 이해하는 분들을 위한 레퍼런스 용도의 책이다. 문법이나 여타 기본적인것들에 대해서는 자세하게 설명하지 않고 실무에서 자주 실수하는 부분들 또는 애매한 문법들에 대해서 가려운 곳을 시원하게 긁어 주는 그런 책이다. 아마도 목차만 읽어 보더라도 자신이 […]

계속 읽기

필요에 의해서 구현한 R 결측치 채우는 함수

어떤 데이터든 실무에서는 결측치에 대한 전략이 있어야 한다. 그리고 이에대한 적절한 처리 후 데이터 분석에 들어 가야 한다. 물론 다양한 결측치 채우기 전략이 있을 수 있는데, 여기서는 간단하게 중앙값, 평균, 그리고 모드(mode)를 이용하고, 적절하게 숫자형, 범주형데이터를 모두 처리한다. 해당 리스트에서 결측치가 존재할 경우 정규성 테스트를 한 이후 0.05유의 수준에 따라 정규분포를 하고 있다면 평균값을 구해 […]

계속 읽기