구글이 여러분들의 이북을 인식하게 하기 위해 알아야 될 것들 – 세가지 SEO 팁

제공 : 한빛 네트워크 저자 : DC Denison 역자 : 전희원(고감자) | https://freesearch.pe.kr 원문 : Getting Google to notice your ebook 이제 구글이 그들의 이북 스토어(ebook store)를 오픈했으니 남은 건 출판업자나 저자들이 약간의 SEO(search engine optimization, 검색 엔진 최적화)를 배워볼 때가 된 거 같다. 만일 여러분들이 신발이나 핸드폰을 온라인으로 판매한다면 이미 SEO에 친숙할 것인데, 친숙하지 […]

계속 읽기

월간 마소 연재) R로 하는 멀티코어 병렬프로그래밍

지난달에 휴가 내면서까지 원고 데드라인을 맞췄던 ‘R로 하는 Big Data 분석’ 2회 연재를 월간 마소8월호 출간에 맞춰서 공개한다. 1회는 기말고사에 좀 집중하려고 팀원분에게 부탁을 드려서 잘 해결 되었으나 2회는 역시 kmobile 강연하고 거의 겹치는 바람에 집중을 못하고 있다가 결국 휴가내고 하루 집중해서 해결 했다. doSMP와 Rmpi, 그리고 snowfall이라는 멀티코어 분산처리 패키지를 중심으로 설명을 했고, 인터넷에도 […]

계속 읽기

성적 그리고 새 학기 계획

공식적인 성적이 발표 되었고, 말만 장학생이라는 것에 위안을 해야 될 정도의 장학금이 나오는 성적 장학금을 받았다. 그리고 오늘 새학기 계획중에 가장 중요한 계획인 수강신청을 완료했다. 항상 내 자신을 극단으로 몰아서 잘 할 수 있을지 실험하는 실험정신이 투철한 관계로 무려 출석 수업과목을 다섯과목을 신청했고, 그나마 널널하게 자리잡고 있던 교양과목까지 모조리 전공과목으로 몰아 넣었다. 대학원때도 그랬지만 성적이 […]

계속 읽기

3학년 1학기를 보내면서

항상 학기를 보내면서 후회가 드는 부분이 한 두가지가 아니지만 이번에도 역시 예외는 아닌거 같다. 학기 중반에 교수님이 회사 다니면서 공부하기 힘드니 이번 학기는 “통계학 개론”과 “통계 패키지”를 중심으로 하라고 하셨는데, 모든 토끼를 다 잡으려 하다보니 “통계 패키지”쪽은 좀 소홀했던거 같다. 사실 통계 패키지 과목은 지난 년도 시험 문제 풀어보고 너무 쉬워서 신경을 거의 안쓰다 시피 […]

계속 읽기

Use Cases of Crowd Analysis 발표자료 공유

금일 k모바일에서 추죄하는 “빅 데이터 애널리틱스 코리아 2011”에 참석해서 마지막 세션인 “Use Cases of Crowd Analysis”에 대해서 발표했다. 가장 듣고 싶었던 첫 세션 최대우 교수님의 말씀덕분에 나중에 R에 대해서 설명하는데 약간은 수월했던거 같다. 인사를 못드려서 좀 아쉽긴 한데, 앞으로 계속 뵐 일이 있을거 같다는 예감이 들어서 그나마 다행이라고 생각한다. Wine 등급에 대한 예측 이야기에 대해서 […]

계속 읽기

"Can’t have empty classes in y."

R에서 예측 변수를 factor로 하고 데이터 작업 하다보면 언젠가는 만날 수 있는 에러라고 생각한다. 이거때문에 is.na() 같은 데이터 체크 함수로 별짓을 다 해봤지만 별 이상없는 데이터를 바라보면 왜 그럴까 했는데, 역시 factor 변수를 쓰면서 나올 수 있는 문제였다. 결과적으로 이 문제는 데이터 편집하다가 값이 없는 factor level이 포함되어 있을때 나올 수 있다. 그러니까 levels(foo)의 결과가 […]

계속 읽기

Wine 등급 예측 경진대회 세번째 이야기

첫번째, 두번째에 이어 세번째 이야기를 하려 한다.   5/28/2011       0.793290832 6/1/2011         0.651258728 6/6/2011         0.653900762 6/14/2011       0.66176357 6/16/2011       0.800861605 6/17/2011       0.647275457 …. 6/23/2011       0.637884434   어제 submission을 통해 다시 한번 에러를 줄이는 쾌거를 올렸다. 이전보다 약 0.01정도 오른 상황이고, 신기하게도 엇그제인가 0.60대가 깨진 score가 하나 올라왔다.  0.03을 줄인다면 1등도 할 수 있을거 같은데, 말이 쉽지 정말 […]

계속 읽기

parallel model tunning with caret

caret에는 최적 모델링 파라메터를 평가해주는 train이라는 함수를 제공하고 있다. 예를 들어 randomForest의 경우에는 mtry라는 변수가 있는데, 이 변수는 트리를 생성할때 랜덤한 몇개의 변수를 후보로 사용해서 분리(split)를 할것인지를 가지고 있어야 한다. 결국 이 ‘몇개’ 라는 이 값이 튜닝 포인트인 것이다. 이를 위해서 10 cross validation 전략으로 각 파라메터 튜닝 값에 대한 10 cross validation 결과를 출력하고자 […]

계속 읽기

caret 내가 원하던 데이터 마이닝 함수들이 모두 여기 있었구나..

caret(Classification And REgression Training)     모델을 만들기 위한 여러 알고리즘도 중요하지만 데이터 작업의 대부분의 시간을 차지하는 전처리, 모델 튜닝 쪽 인터페이스와 함수들이 절대적으로 필요하다. 이 caret 패키지가 바로 이런 가려운 곳을 긁어주는 패키지인데, 이 패키지는 decision tree나 SVM같은 알고리즘을 구현하고 있지 않고, 전처리, 튜닝, variable importance쪽 인터페이스만 제공한다.  학습셋 10-fold로 만드는거 이거 만들기 귀찮아서 […]

계속 읽기