Boosting Tree를 이용한 특징 추출

Tree기반의 Boosting 알고리즘을 일반적으로 GBDT라고 이야기한다. 사실 필자가 Boosting기법을 실무에 직접 활용한건 약 9년전 Yahoo!에서 였는데, 당시 지금 모델링하는 방식과는 다른 무식한 방법으로 모델링하고 적용하기를 반복하면서 깊이있는 활용과 이해는 하지 못했던 아쉬움이 있었다. 하지만 다시 그 진가를 확인하고 있는 순간이 왔고 모델링 뿐만 아니라 속성 추출에도 활용 가능한 팔방미인이라는 것을 최근에 알게 되면서 다소 방법론 […]

계속 읽기

parallel model tunning with caret

caret에는 최적 모델링 파라메터를 평가해주는 train이라는 함수를 제공하고 있다. 예를 들어 randomForest의 경우에는 mtry라는 변수가 있는데, 이 변수는 트리를 생성할때 랜덤한 몇개의 변수를 후보로 사용해서 분리(split)를 할것인지를 가지고 있어야 한다. 결국 이 ‘몇개’ 라는 이 값이 튜닝 포인트인 것이다. 이를 위해서 10 cross validation 전략으로 각 파라메터 튜닝 값에 대한 10 cross validation 결과를 출력하고자 […]

계속 읽기

이름만으로 성별 구분

아래 글은 책(“Natural Language Processing with Python” )의 예제에 알파벳 bigram feature를 추가해서 실험 한 결과이다. (이 부분에 대한 명시 없이 글을 써놓고 있다가 댓글에서 지적을 받아 수정했다. 코드예제 책을 보며 작성하고 시간이 많이 흐른 뒤에 해당 코드를 사용해서 포스팅을 하다보니 본의아니게 큰 실수를 하고 말았다. 나중에라도 이런 명시가 없어서 벌어질 사태를 생각하면 지적해준 분에게 […]

계속 읽기

야후!의 검색어 오타 교정 시스템

아래 글은 이번 “야후! 검색어 오타 교정 시스템“을 론치 하면서 일반 사용자들이 이해하기 편한 소개글을 써달라고 해서 써본 글이다. 이 글을 쓸 당시 “글로리아 스튜어트”의 타개 뉴스가 올라왔고, 그분의 이름이 인기쿼리로 올라온게 눈에 띄어서 이를 소재로 삼아 봤다. 야후! 블로그 담당자분이 글을 보기 좋게 편집/수정해 주셔서, 더욱 빛나는거 같다. ——————————————————————————————————————————   “글로리아 스튜어드?” 얼마전 향년 100세의 일기로 […]

계속 읽기

흉내내기 힘든 인간 지적판단과 지능형 소프트웨어

요 데이터마이닝 관련 프로젝트는 많은 소프트웨어 개발자들이 느끼는 개발자 자신의 겸손한 자세를 요구하는것과 더불어 인간 지적판단의 위대함을 다시한번 느끼게 해주는 몇 안되는 프로젝트이다. 많은 소프트웨어의 버그 해결 과정은 깊은 자기 반성의 시간이 된다. 자신에 대한 확신이 강한 사람은 심지어 컴파일러까지도 의심하지만 대부분의 경우 본인에게 문제가 있다. 이런 과정이 반복되고 경험이 쌓이면 개발자 자신이 자신에 대해서 […]

계속 읽기

데이터 마이닝은 과학과 기예의 결합작

과학(science)와 기예(art)… 뭐 일단 이렇게 영어로 표현해 볼 수 있겠다. 국어 사전을 보니 기예가 “기술에 대한 재주”라고 표현되어 있는데, 내가 의도한 의미와 일맥상통한다. 개인적으로 데이터 마이닝이라는 단어를 좋아한다. 이 처럼 이 학문 영역을 잘 성명할 수 있는 이름은 없기 때문이다. 과정 자체가 금맥을 찾는 과정과 흡사하다. 많은 데이터 마이너들이 알고리즘으로부터 시작을 한다. 하긴 거의 모든 […]

계속 읽기

Data Mining, Third Edition: Practical Machine Learning Tools and Techniques

Data Mining, Third Edition: Practical Machine Learning Tools and Techniques (The Morgan Kaufmann Series in Data Management Systems) 2판은 현재 내 책상 위에도 있을 정도로 즐겁게 참고하는 책이 되어 버렸다. 2판이 나온지 5년이 되가고 있고 3판 언제 나올까? 하고 찾아보고 있었는데 2011년 초 출간 예정이다. 역시 최신 트렌드를 다루고 있다.대용량 데이터 셋 처리, 앙상블 러닝, […]

계속 읽기

기본 개발자 소양을 갖추기 전에 Machine Learning은 하지 마라!

Machine Learning을 사용하는 International 프로젝트를 처음 경험하다보니 ML에 대한 관점이 많이 바뀌었다. 사실 프로젝트를 하면서 사내에서 쓰는 ML라이브러가 어떻게 돌아가는지 소스코드를 까볼 기회조차 없었고, 심지어 여러 세부 세팅을 조작해볼 기회도 역시 없었다. 그럼 뭘 했나???ㅋㅋㅋ 사실 위와 같이 ML 라이브러리를 살펴볼 필요가 없었다. 대강 어떻게 알고리즘이 돌아가는걸 알고, 이 라이브러리는 잘 돌아갈 것이라 믿으면 그만이다. […]

계속 읽기

패턴인식 – 오일석

작년10월경에 이 책을 접한것은 정말 행운이였던거 같다. 연습문제 풀고, 오타관련해서 리포팅도 하고… 답변을 받고 하면서 책에 대한 신뢰도 및 애정이 커지는 것을 경험했다. 좀 늦었지만, 책 너무 좋아서 포스팅 하나 이렇게 올려본다. 패턴인식 – 오일석 저 어려운 개념들을 최대한 쉽게 설명하고 있는 저자분의 공력에 깊은 존경을 보낸다. 한글로 글 쓸라면 이정도는 되어야 되는데… ㅎㅎ

계속 읽기