Bias-Variance Tradeoff

머신런닝을 이용한 분류기를 만들때 가장 많이 나오는 유명한 개념중에 하나이다. 분류기를 만들어서 테스트 하는 과정을 거치며 많은 에러들이 나오게 된다. 이런 에러들을  MSE로 분석해보면 Learning Error = bias + variance 위와 같은 식으로 간단하게 정리된다. Bias는 학습된 분류기와 실제 값 사이의 제곱에러이다. 정확도하고 약간 비슷한 개념이다. 이 bias는 linear한 분류기보다 nonlinear한 분류기가 낮은 값으로 나온다. […]

계속 읽기

Toby Segaran의 인터뷰

오늘 아침에 토비의 블로그에 가서 정신없이 토비 세가렌의 20여분간의 인터뷰를 봤다. 책을 보다 보니 더 자세하게 이 사람의 이력을 알고 싶었고, 집단지성 책에서 쓰인 AI알고리즘에 대한 자신의 생각을 알고 싶었다. 인터뷰에서는 많은 내용이 나오는데, 인터뷰를 하는 사람이 상당히 이쪽 세계에 대한 식견이 좀 있는 분이여서 그런지 질답이 흥미롭게 오갔다. 간단한 이력과, ML과 Python 이야기, 그리고 […]

계속 읽기

Feature Selection

Machine Learning을 하기 전에 수가지의 후보 Feature 셋중에 쓸만한 것들을 골라내는 작업을 한다. 이 작업이 필요한 이유는 쓸데없는 noise feature를 추가할 경우 실험셋에서만 적합한 classifier가 나올 가능성이 많고(overfitting) 실제 새로운 데이터를 입력했을때 잘못 판정할 가능성이 많기 때문이다. Feature Selection알고리즘에는 많은 알고리즘들이 있다. 그러나 대부분의 알고리즘의 원리는 어떤 Class를 판정하는데 가장 영향을 많이 끼치는 feature에 높은 […]

계속 읽기

A Field Guide to Genetic Programming

A Field Guide to Genetic Programming  Genetic Algorithm을 요즘 보고 있는데, 이 알고리즘 코딩을 하려면 좀 난이도가 있다. 여러가지 feature들이 mutation, crossover를 일으키기 때문에 상당히 유연한 프로그래밍 모델이 필요하다. 랭귀지 파서 만드는거랑 약간 비슷하다고 봐야 하나? 그래서 막막하던 찰라에 좋은 책을 찾았다. 그것도 공짜로… 책이 상당히 멋지게 생겨서 읽다 맘에 들으면 주문할거 같다.  요놈을 공부하고자 […]

계속 읽기

전문가의 시대, 대용량 데이터 분석의 시대

Illustration: Marian Bantjes 전문가의 시대는 끝났나얼마전 블로그를 통해서 알계된 분의 포스팅 제목이다.링크가 된 원본 칼럼의 내용이 다소 과격하다고 느낄 수 있겠지만 두 글 다 정말 흥미롭게 읽었다. 데이터의 힘에 대해서 알고 싶은 분들은 한번정도 읽어봄 직 할거 같다. 게다가 여기 소개된 super crunchers 라는 책도 읽어 봐야 겠다.  ps. 사실 장문의 같은 제목의 포스팅을 썻지만 […]

계속 읽기

좋은 툴도 좀 사용할 줄 알아야 겠다.

데이터를 한눈에 볼 수 있는 방법을 찾다가 결국 Excel로 넘어가고, 좀더 내가 하고자 하는 일에 맞는 결과를 빨리 보기 위해 weka로 넘어갔다. 그러다 이놈이 메모리 문제, 불안정성 등을 이유로 요즘엔 matlab으로 넘어가려고 한다. 실제 matlab은 야후 전사적으로 research 그룹에서 빈번하게 사용하는 툴이라서 매킨토시, Windows, Linux 등 여러 플랫폼의 바이너리가 사내에서 직원에게 제공이 되고 있었다. 사실 […]

계속 읽기