R을 빨리 익히기 위해서는…

R을 처음 배우고 싶어하는 분들이 가장 어려워 하는 이유는 R을 단순히 일반적인 프로그래밍 언어로 접근하기 때문이 아닌가 한다. 따라서 언어를 이해하기 위해 통계나 데이터 마이닝 공부를 병행하는 것을 추천한다. R을 가장 잘 이해하기 위해 개인적으로 가장 추천하는 방법은 언어 문법을 익히고 관련 기초 통계를 R을 기반으로 실습해 보는 것이다. 그리고 마지막 단계로 kaggle이나 CrowdANALYTIX와 같은 […]

계속 읽기

구글이 여러분들의 이북을 인식하게 하기 위해 알아야 될 것들 – 세가지 SEO 팁

제공 : 한빛 네트워크 저자 : DC Denison 역자 : 전희원(고감자) | https://freesearch.pe.kr 원문 : Getting Google to notice your ebook 이제 구글이 그들의 이북 스토어(ebook store)를 오픈했으니 남은 건 출판업자나 저자들이 약간의 SEO(search engine optimization, 검색 엔진 최적화)를 배워볼 때가 된 거 같다. 만일 여러분들이 신발이나 핸드폰을 온라인으로 판매한다면 이미 SEO에 친숙할 것인데, 친숙하지 […]

계속 읽기

월간 마소 연재) R로 하는 멀티코어 병렬프로그래밍

지난달에 휴가 내면서까지 원고 데드라인을 맞췄던 ‘R로 하는 Big Data 분석’ 2회 연재를 월간 마소8월호 출간에 맞춰서 공개한다. 1회는 기말고사에 좀 집중하려고 팀원분에게 부탁을 드려서 잘 해결 되었으나 2회는 역시 kmobile 강연하고 거의 겹치는 바람에 집중을 못하고 있다가 결국 휴가내고 하루 집중해서 해결 했다. doSMP와 Rmpi, 그리고 snowfall이라는 멀티코어 분산처리 패키지를 중심으로 설명을 했고, 인터넷에도 […]

계속 읽기

성적 그리고 새 학기 계획

공식적인 성적이 발표 되었고, 말만 장학생이라는 것에 위안을 해야 될 정도의 장학금이 나오는 성적 장학금을 받았다. 그리고 오늘 새학기 계획중에 가장 중요한 계획인 수강신청을 완료했다. 항상 내 자신을 극단으로 몰아서 잘 할 수 있을지 실험하는 실험정신이 투철한 관계로 무려 출석 수업과목을 다섯과목을 신청했고, 그나마 널널하게 자리잡고 있던 교양과목까지 모조리 전공과목으로 몰아 넣었다. 대학원때도 그랬지만 성적이 […]

계속 읽기

3학년 1학기를 보내면서

항상 학기를 보내면서 후회가 드는 부분이 한 두가지가 아니지만 이번에도 역시 예외는 아닌거 같다. 학기 중반에 교수님이 회사 다니면서 공부하기 힘드니 이번 학기는 “통계학 개론”과 “통계 패키지”를 중심으로 하라고 하셨는데, 모든 토끼를 다 잡으려 하다보니 “통계 패키지”쪽은 좀 소홀했던거 같다. 사실 통계 패키지 과목은 지난 년도 시험 문제 풀어보고 너무 쉬워서 신경을 거의 안쓰다 시피 […]

계속 읽기

Use Cases of Crowd Analysis 발표자료 공유

금일 k모바일에서 추죄하는 “빅 데이터 애널리틱스 코리아 2011”에 참석해서 마지막 세션인 “Use Cases of Crowd Analysis”에 대해서 발표했다. 가장 듣고 싶었던 첫 세션 최대우 교수님의 말씀덕분에 나중에 R에 대해서 설명하는데 약간은 수월했던거 같다. 인사를 못드려서 좀 아쉽긴 한데, 앞으로 계속 뵐 일이 있을거 같다는 예감이 들어서 그나마 다행이라고 생각한다. Wine 등급에 대한 예측 이야기에 대해서 […]

계속 읽기

"Can’t have empty classes in y."

R에서 예측 변수를 factor로 하고 데이터 작업 하다보면 언젠가는 만날 수 있는 에러라고 생각한다. 이거때문에 is.na() 같은 데이터 체크 함수로 별짓을 다 해봤지만 별 이상없는 데이터를 바라보면 왜 그럴까 했는데, 역시 factor 변수를 쓰면서 나올 수 있는 문제였다. 결과적으로 이 문제는 데이터 편집하다가 값이 없는 factor level이 포함되어 있을때 나올 수 있다. 그러니까 levels(foo)의 결과가 […]

계속 읽기

Wine 등급 예측 경진대회 세번째 이야기

첫번째, 두번째에 이어 세번째 이야기를 하려 한다.   5/28/2011       0.793290832 6/1/2011         0.651258728 6/6/2011         0.653900762 6/14/2011       0.66176357 6/16/2011       0.800861605 6/17/2011       0.647275457 …. 6/23/2011       0.637884434   어제 submission을 통해 다시 한번 에러를 줄이는 쾌거를 올렸다. 이전보다 약 0.01정도 오른 상황이고, 신기하게도 엇그제인가 0.60대가 깨진 score가 하나 올라왔다.  0.03을 줄인다면 1등도 할 수 있을거 같은데, 말이 쉽지 정말 […]

계속 읽기

parallel model tunning with caret

caret에는 최적 모델링 파라메터를 평가해주는 train이라는 함수를 제공하고 있다. 예를 들어 randomForest의 경우에는 mtry라는 변수가 있는데, 이 변수는 트리를 생성할때 랜덤한 몇개의 변수를 후보로 사용해서 분리(split)를 할것인지를 가지고 있어야 한다. 결국 이 ‘몇개’ 라는 이 값이 튜닝 포인트인 것이다. 이를 위해서 10 cross validation 전략으로 각 파라메터 튜닝 값에 대한 10 cross validation 결과를 출력하고자 […]

계속 읽기