3학년 1학기를 보내면서

항상 학기를 보내면서 후회가 드는 부분이 한 두가지가 아니지만 이번에도 역시 예외는 아닌거 같다. 학기 중반에 교수님이 회사 다니면서 공부하기 힘드니 이번 학기는 “통계학 개론”과 “통계 패키지”를 중심으로 하라고 하셨는데, 모든 토끼를 다 잡으려 하다보니 “통계 패키지”쪽은 좀 소홀했던거 같다. 사실 통계 패키지 과목은 지난 년도 시험 문제 풀어보고 너무 쉬워서 신경을 거의 안쓰다 시피 […]

계속 읽기

Use Cases of Crowd Analysis 발표자료 공유

금일 k모바일에서 추죄하는 “빅 데이터 애널리틱스 코리아 2011”에 참석해서 마지막 세션인 “Use Cases of Crowd Analysis”에 대해서 발표했다. 가장 듣고 싶었던 첫 세션 최대우 교수님의 말씀덕분에 나중에 R에 대해서 설명하는데 약간은 수월했던거 같다. 인사를 못드려서 좀 아쉽긴 한데, 앞으로 계속 뵐 일이 있을거 같다는 예감이 들어서 그나마 다행이라고 생각한다. Wine 등급에 대한 예측 이야기에 대해서 […]

계속 읽기

"Can’t have empty classes in y."

R에서 예측 변수를 factor로 하고 데이터 작업 하다보면 언젠가는 만날 수 있는 에러라고 생각한다. 이거때문에 is.na() 같은 데이터 체크 함수로 별짓을 다 해봤지만 별 이상없는 데이터를 바라보면 왜 그럴까 했는데, 역시 factor 변수를 쓰면서 나올 수 있는 문제였다. 결과적으로 이 문제는 데이터 편집하다가 값이 없는 factor level이 포함되어 있을때 나올 수 있다. 그러니까 levels(foo)의 결과가 […]

계속 읽기

Wine 등급 예측 경진대회 세번째 이야기

첫번째, 두번째에 이어 세번째 이야기를 하려 한다.   5/28/2011       0.793290832 6/1/2011         0.651258728 6/6/2011         0.653900762 6/14/2011       0.66176357 6/16/2011       0.800861605 6/17/2011       0.647275457 …. 6/23/2011       0.637884434   어제 submission을 통해 다시 한번 에러를 줄이는 쾌거를 올렸다. 이전보다 약 0.01정도 오른 상황이고, 신기하게도 엇그제인가 0.60대가 깨진 score가 하나 올라왔다.  0.03을 줄인다면 1등도 할 수 있을거 같은데, 말이 쉽지 정말 […]

계속 읽기

parallel model tunning with caret

caret에는 최적 모델링 파라메터를 평가해주는 train이라는 함수를 제공하고 있다. 예를 들어 randomForest의 경우에는 mtry라는 변수가 있는데, 이 변수는 트리를 생성할때 랜덤한 몇개의 변수를 후보로 사용해서 분리(split)를 할것인지를 가지고 있어야 한다. 결국 이 ‘몇개’ 라는 이 값이 튜닝 포인트인 것이다. 이를 위해서 10 cross validation 전략으로 각 파라메터 튜닝 값에 대한 10 cross validation 결과를 출력하고자 […]

계속 읽기

caret 내가 원하던 데이터 마이닝 함수들이 모두 여기 있었구나..

caret(Classification And REgression Training)     모델을 만들기 위한 여러 알고리즘도 중요하지만 데이터 작업의 대부분의 시간을 차지하는 전처리, 모델 튜닝 쪽 인터페이스와 함수들이 절대적으로 필요하다. 이 caret 패키지가 바로 이런 가려운 곳을 긁어주는 패키지인데, 이 패키지는 decision tree나 SVM같은 알고리즘을 구현하고 있지 않고, 전처리, 튜닝, variable importance쪽 인터페이스만 제공한다.  학습셋 10-fold로 만드는거 이거 만들기 귀찮아서 […]

계속 읽기

NexR 채용 관련

넥스알에서 “데이터 분석가(팀장급)”, “데이터 에반젤리스트”를 채용합니다.   물론 다른 채용항목도 있지만 위 두 직책에 대한 채용은 제가 일을 해나가는데 아주 큰 영향을 끼치는 직무이기 때문에 이렇게 블로그에 올려봅니다. 이쪽 분야로 위와 같은 직책에 맞는 분들을 모시기 힘들꺼라는 예상을 해보지만 지금 현재 팀에 있는 다른 분들도 다른 회사에서도 만나기 힘든 그런 최고의 분들만 모여 있다는 말씀을 […]

계속 읽기

Wine 등급 예측 경진대회 두번째 이야기

1편에 이어서… 최소 3등 안에 들 수 있을 거란 예상을 깨고 5등에 올랐다.ㅜㅜ 결국 이 대회는 다른 사람들과의 싸움이 아니라 얼마나 이전 내가 만든 모델보다 더 좋은 모델을 만들어 내느냐는 나 자신과의 싸움이 되어 버렸다. 전략이 있다면 점차 좋은 모델을 만들 수 있겠지만 전략없이 마구 시도를 한다면 그닥 좋은 모델은 만들어 내지 못하는 그런 대회가 […]

계속 읽기

RStudio

대부분의 R 사용자들은 console기반으로 사용한다. 나 역시 그랬다. 그러다가 Revolution R에서 제공하는 R Community 버전을 사용해봤는데, 원조 R보다 훨씬 빠른 연산으로 좀더 쾌적하게 쓸 수 있었다. 그러나 역시 몇개 머신을 통해서 돌아가면서 작업하는것은 심지어 Dropbox로 Workspace를 파일로 떨궈서 매번 공유한다 치더라도 history나 스크립트 공유를 하는게 여간 귀찮은 작업이 아닐 수 없었다. 그러다가 RStudio를 다시 찾게 […]

계속 읽기