Boosting Tree를 이용한 특징 추출

Tree기반의 Boosting 알고리즘을 일반적으로 GBDT라고 이야기한다. 사실 필자가 Boosting기법을 실무에 직접 활용한건 약 9년전 Yahoo!에서 였는데, 당시 지금 모델링하는 방식과는 다른 무식한 방법으로 모델링하고 적용하기를 반복하면서 깊이있는 활용과 이해는 하지 못했던 아쉬움이 있었다. 하지만 다시 그 진가를 확인하고 있는 순간이 왔고 모델링 뿐만 아니라 속성 추출에도 활용 가능한 팔방미인이라는 것을 최근에 알게 되면서 다소 방법론 […]

계속 읽기

R을 이용한 검색 랭킹과 검색 클러스터링 초간단 구현

KoNLP와 같이 쓰면 정말 좋은 R 패키지중에 tm이라는 아주 좋은 패키지가 있다. R에서 텍스트 분석을 한다면 이 패키지를 반드시 쓰게 되어 있다. 이 패키지의 가장 큰 장점은 텍스트를 숫자로 표현하는 대표적인 방법인 Term Document Matrix를 만들어 준다는 것이다. 이것으로 뭘 할지는 이후의 분석에 달려 있겠지만 일단 숫자로 변환된 텍스트는 다른 어떤 R패키지들을 활용하든지 적절한 통계적 […]

계속 읽기

월간 마소 연재) R로 하는 멀티코어 병렬프로그래밍

지난달에 휴가 내면서까지 원고 데드라인을 맞췄던 ‘R로 하는 Big Data 분석’ 2회 연재를 월간 마소8월호 출간에 맞춰서 공개한다. 1회는 기말고사에 좀 집중하려고 팀원분에게 부탁을 드려서 잘 해결 되었으나 2회는 역시 kmobile 강연하고 거의 겹치는 바람에 집중을 못하고 있다가 결국 휴가내고 하루 집중해서 해결 했다. doSMP와 Rmpi, 그리고 snowfall이라는 멀티코어 분산처리 패키지를 중심으로 설명을 했고, 인터넷에도 […]

계속 읽기

parallel model tunning with caret

caret에는 최적 모델링 파라메터를 평가해주는 train이라는 함수를 제공하고 있다. 예를 들어 randomForest의 경우에는 mtry라는 변수가 있는데, 이 변수는 트리를 생성할때 랜덤한 몇개의 변수를 후보로 사용해서 분리(split)를 할것인지를 가지고 있어야 한다. 결국 이 ‘몇개’ 라는 이 값이 튜닝 포인트인 것이다. 이를 위해서 10 cross validation 전략으로 각 파라메터 튜닝 값에 대한 10 cross validation 결과를 출력하고자 […]

계속 읽기

이름만으로 성별 구분

아래 글은 책(“Natural Language Processing with Python” )의 예제에 알파벳 bigram feature를 추가해서 실험 한 결과이다. (이 부분에 대한 명시 없이 글을 써놓고 있다가 댓글에서 지적을 받아 수정했다. 코드예제 책을 보며 작성하고 시간이 많이 흐른 뒤에 해당 코드를 사용해서 포스팅을 하다보니 본의아니게 큰 실수를 하고 말았다. 나중에라도 이런 명시가 없어서 벌어질 사태를 생각하면 지적해준 분에게 […]

계속 읽기

Lucene spellcheck package

요즘 루씬 코드 리딩을 하고 있다. 루씬 core 패키지는 예전에 한번 분석 해본 경험이 있어서 이번엔 contrib 패키지를 중점적으로 살펴보고 있다. 그중에서도 spellcheck 모듈은 가장 최근에 성능좋은 라이브러리로 구현한 경험이 있어서 관심이 갔다.  이 패키지 내에서는 Jaro Winkler Distance 라는 짧은 이름에서 사용 가능한 string 비교 클래스가 구현이 되어 있었으며 n-gram 기반의 string 비교 클래스도 […]

계속 읽기

야후!의 검색어 오타 교정 시스템

아래 글은 이번 “야후! 검색어 오타 교정 시스템“을 론치 하면서 일반 사용자들이 이해하기 편한 소개글을 써달라고 해서 써본 글이다. 이 글을 쓸 당시 “글로리아 스튜어트”의 타개 뉴스가 올라왔고, 그분의 이름이 인기쿼리로 올라온게 눈에 띄어서 이를 소재로 삼아 봤다. 야후! 블로그 담당자분이 글을 보기 좋게 편집/수정해 주셔서, 더욱 빛나는거 같다. ——————————————————————————————————————————   “글로리아 스튜어드?” 얼마전 향년 100세의 일기로 […]

계속 읽기

모바일 음성검색

구글 음성검색, 다음 음성검색 최근 동생 휴대폰으로 구글 음성검색만 살짝 써봤는데,  역시 핸드폰에서 음성검색의 잠재성을 확인하기 충분한 경험이였다. 몇몇 발음에 대해서는 단어 인식이 확실히 되지 않는것도 확인했는데, 점점 검색을 사용하는 사람들이 늘어나면 늘어날 수록 퍼포먼스는 좋아질 수 밖에 없을 거라는 생각을 해봤다. 사실 음성검색도 로그로 충분히 성능 향상을 할 수 있는 분야이기도 하다. 모르겠다.. 이부분에서 […]

계속 읽기

introduction to information retrieval 번역서

전혀 기대하고 있지 않았는데, 3월달에 이 책의 번역서가 나왔다는 것을 오늘 알았다. 그래서 바로 주문하고 몇 챕터 확인 후 포스팅을 써본다. 야후 웹검색, YST라고 불리우는 기술이 현재로서는 MS로 대부분 넘어간 상태지만 그 전에 이 책이 나오게 된것을 상당히 다행스럽게 생각하고 있다. 알고 있는 분들이 이미 있겠지만 이 책의 공저자중에 한 분이 야후 리서치를 책임지고 있는 […]

계속 읽기