caret 내가 원하던 데이터 마이닝 함수들이 모두 여기 있었구나..

caret(Classification And REgression Training)     모델을 만들기 위한 여러 알고리즘도 중요하지만 데이터 작업의 대부분의 시간을 차지하는 전처리, 모델 튜닝 쪽 인터페이스와 함수들이 절대적으로 필요하다. 이 caret 패키지가 바로 이런 가려운 곳을 긁어주는 패키지인데, 이 패키지는 decision tree나 SVM같은 알고리즘을 구현하고 있지 않고, 전처리, 튜닝, variable importance쪽 인터페이스만 제공한다.  학습셋 10-fold로 만드는거 이거 만들기 귀찮아서 […]

계속 읽기

NexR 채용 관련

넥스알에서 “데이터 분석가(팀장급)”, “데이터 에반젤리스트”를 채용합니다.   물론 다른 채용항목도 있지만 위 두 직책에 대한 채용은 제가 일을 해나가는데 아주 큰 영향을 끼치는 직무이기 때문에 이렇게 블로그에 올려봅니다. 이쪽 분야로 위와 같은 직책에 맞는 분들을 모시기 힘들꺼라는 예상을 해보지만 지금 현재 팀에 있는 다른 분들도 다른 회사에서도 만나기 힘든 그런 최고의 분들만 모여 있다는 말씀을 […]

계속 읽기

Wine 등급 예측 경진대회 두번째 이야기

1편에 이어서… 최소 3등 안에 들 수 있을 거란 예상을 깨고 5등에 올랐다.ㅜㅜ 결국 이 대회는 다른 사람들과의 싸움이 아니라 얼마나 이전 내가 만든 모델보다 더 좋은 모델을 만들어 내느냐는 나 자신과의 싸움이 되어 버렸다. 전략이 있다면 점차 좋은 모델을 만들 수 있겠지만 전략없이 마구 시도를 한다면 그닥 좋은 모델은 만들어 내지 못하는 그런 대회가 […]

계속 읽기

RStudio

대부분의 R 사용자들은 console기반으로 사용한다. 나 역시 그랬다. 그러다가 Revolution R에서 제공하는 R Community 버전을 사용해봤는데, 원조 R보다 훨씬 빠른 연산으로 좀더 쾌적하게 쓸 수 있었다. 그러나 역시 몇개 머신을 통해서 돌아가면서 작업하는것은 심지어 Dropbox로 Workspace를 파일로 떨궈서 매번 공유한다 치더라도 history나 스크립트 공유를 하는게 여간 귀찮은 작업이 아닐 수 없었다. 그러다가 RStudio를 다시 찾게 […]

계속 읽기

와인 품질 예측 대회

Netflix의 contest 이후에 이쪽 competition에 대해서 까마득하게 잊고 있다가 최근 kaggle의 don’t overfit 문제를 풀어보게 되면서 다시 데이터 마이닝 혹은 데이터 분석 대회에 관심을 가지기 시작했다. don’t overfit문제는 뭐 거의 순위라고 말할 수 없는 순위에 있었지만 사실 테스트 용도로 한번 올려본 것이 전부인 대회였다. 학습 모델을 발전시킬 metric에 대한 계획도 없이 진행한 거라서 내놓기도 뭐한 […]

계속 읽기

R Cookbook 리뷰

R Cookbook 현재 마지막 챕터인 time series  분석을 보고 있는 관계로 짬을 내어 책 리뷰를 하고자 한다. 이 책은 전반적으로 R 코드를 이해하는 분들을 위한 레퍼런스 용도의 책이다. 문법이나 여타 기본적인것들에 대해서는 자세하게 설명하지 않고 실무에서 자주 실수하는 부분들 또는 애매한 문법들에 대해서 가려운 곳을 시원하게 긁어 주는 그런 책이다. 아마도 목차만 읽어 보더라도 자신이 […]

계속 읽기

주말에 제출한 통계학 레포트

주중에는 통 학교에 신경쓰지 못해서 주말에만 틈틈히 작업하던 레포트를 금요일 새벽에 마무리 해 토요일에 제출하고 왔다. 통계 패키지 과목만 무려 20페이지가 넘고 통계학 개론은 12페이지 남짓… MiniTab으로 하라던 개론 레포트는 교수님에게 건의해서 R로 작성했고 ㅋ~~ , 통계 패키지는 SPSS로 작업했다. SPSS는 앞으로 쓸지는 잘 모르겠지만 R의 경우는 처음 써본 함수들이 좀 있어서 블로그에 올려놓아서 나중에 […]

계속 읽기

이런직장 살맛난다 –서평

  이런직장 살맛난다.   이번 회사 워크샵에서 회사 발표자료에 있던 책이라서 구매해 읽어 봤다. 지금까지 가장 행복했던 직장생활을 손꼽아 보니 정말 책에서 이야기 하던 3가지 win 항목이 모두 충족되어서 그랬다는 것을 느꼈다. 회사로 인해 의식주를 해결하고 있을때, 회사에 기여하고 있다는 것을 알때, 그리고 자신이 만든 기능으로 인해 고객이 만족하고 있다는 것을 알때 이 과정이 지나면 […]

계속 읽기

카이제곱 독립성 검정(R)

SPSS로 계산하게 하는 예제가 있어서 R로 다시 돌려보면서 정리했다. 사실 R이 데이터의 이해를 담보로 해야 할 수 있는 부분들이 많아서 SPSS나 SAS 예제더라도 R로 돌려보는게 의미가 좀 크다. 아래와 같은 데이터가 있다고 가정할 경우..   > read.csv(“d:/knou/pkg/5-9.csv”) 교육수준 흡연실태 사원수 1     대졸   과흡연     51 2     고졸   과흡연     22 3     중졸   과흡연     43 4     대졸     흡연     […]

계속 읽기