지능형 에플리케이션에서 간과할 수 있는 7가지

기계학습이나 머신러닝을 가미한 프로젝트 그러니까 지능형 에플리케이션을 구축할 때 간과하기 쉬운 몇 가지 사실을 이야기 하고자 한다. 물론 아래 사실은 학술적인 머신러닝책에 나오지 않은 경험적인 내용이다. 1. 데이터는 믿을만 하다? 아마 이 부분이 가장 많은 사람들이 간과하기 쉬운 부분일 듯 하다. 지능형 에플리케이션은 데이터에서부터 시작해서 데이터로 끝난다. 그리하여 믿을만한 데이터셋을 구축하는게 무엇보다 중요한 부분이 된다. […]

계속 읽기

학습 알고리즘 선택 기준

일단 단일 알고리즘의 경우 SVM을 가장 선호한다. 물론 모델 빌드 후 바로 cross-validation 결과를 보면 정확도가 그리 좋지 않을 수도 있지만 SVM이 일반화 능력이 가장 좋다는 것은 이미 많은 논문에서 증명된 사실이다. 하지만 나는 대부분의 경우 하나의 분류기만을 사용하지 않는다. 아는 사람들만 아시겠지만 앙상블 학습(Ensemble Learning)이 성능이 좋다는 것은 공공연한 사실이다. Boosting 정도만 써줘도 대부분의 […]

계속 읽기

검색어 오타에 대한 흥미롭고 재미있는 사실들

ydnkr에 기고한 블로그 글이 오늘 올라 왔다. 작성한지는 꽤 되었으나 스케줄상 오늘 올라오게 되었다. 검색어 오타에 대한 흥미롭고 재미있는 사실들 역시 이것도 과연 그럴것인가? 하는 의문 때문에 하게 된 작업이였다. 물론 사용자 데이터 분석을 통해 사실을 알게 되었으며 이를 알고리즘화 하여 플랫폼에 넣었고 아시아 및 미국 개발자 분들이 삼삼한 개념이라는 말씀까지 들었던 내용의 일부분이다. ydn에 […]

계속 읽기

데이터 마이닝의 재미와 그 의미를 이야기 하는 책

얼마전에 슈퍼 크런처(super cruncher) 책에 대한 서평을 블로그에 올린적이 있었다. 그 때에는 읽기 전이였고,,, 지금은 다른 관련 책들을 서둘러 찾아 읽고 있는 중이여서 좀더 정리해 서평을 다시 올려본다. 읽는중… $2 안진환 역/이언 에어즈 저 예스24 | 애드온2 사실 위 책 한권이 근래 8권의 책을 선정해서 읽는데 엄청난 영향을 끼쳤다. 대부분 사람의 의사결정에 대한 책들이다. 계량 […]

계속 읽기

EM 알고리즘 구현 – 오류 수정본 –

저번에 구현한 EM 알고리즘에 오류가 있어서 수정해봤다. 각 클러스터 중심을 구할 때 k-means 와 비슷하게 아예 확률값이 큰 클러스터에 포인트를 할당해 해당 클러스터 파라메터 계산시에만 확률값을 사용했는데 이런식으로 하면 안되고 한 포인트가 가지는 각 클러스터의 확률값을 가지고 이를 기반으로 각 클러스터 파라메터 재계산을 해야한다. 사실 코딩할 때 애매모호 해서 예전에 들었던 k-means와 거의 비슷하다는 강의록을 […]

계속 읽기

데이터만이 진실을 이야기 한다?

전문가의 시대, 대용량 데이터의 시대 약 1년 전에 썼던 포스팅의 제목이다. 왜 이 이야기를 하느냐 하면, 이 글과 관련된 책이 지난 3월에 슈퍼크런처라는 제목으로 번역되어 국내에 출간 되었기 때문이다. 사실 이 정보도 오늘 데이터 마이닝 관련 검색을 하다가 알게 되어 바로 퇴근하면서 사와 현재 열독중에 있다. 사실 이 책은 메사추세츠 대학에서 정보검색 관련 공부를 하시는 […]

계속 읽기

Weka관련 연재 예정 – 월간 마소 7,8,9월

월간 마이크로소프트웨어의 7,8,9월 연재로 Weka에 대해서 하기로 계획을 올해 초 잡았던 적이 있었는데, 실제 그렇게 집필을 하게 될 듯 하다. 사실 요 집필 계획은 번역하고 있는 collective intelligence in action의 add-on 성격으로 집필 계획을 잡았으나 아직 이책이 현재 퇴고 과정인 관계로, 연재가 더 빠르게 세상이 나오게 될 듯 하다. 3회 연재는 처음인데, 이런 집필 계획을 […]

계속 읽기

Lucene in Action 2nd

루씬 인 액션 2판 출간을 기다리는 중이다. 이 책의 저자중에 한명인 오티스가 자신의 블로그에 40% 할인 코드를 내걸었다. 그것도 이달 말까지 40% 할인이 적용되니 이 책에 관심이 있고 원서를 구매할 의향이 있으신 분들은 이 코드를 통해 구매할는 것도 나쁘지 않을거 같다. code : lucene40 새롭게 버전업된 루씬에서 지원하는 다양한 검색 기능에 대해서 어떻게 구현이 되었는지 […]

계속 읽기

Discounted Cumulative Gain

DCG라는 metric은 기존의 precision, recall 기반의 검색엔진 평가 방법으로는 순위에 따른 차별점을 부과하기 힘들다는 판단에 따라 나온 방법이다. 이전에도 언급했지만 50% 이상의 검색 사용자가 검색 결과의 1,2 페이지 정도만 참고한다는 것은 precision, recall 만으로는 정확한 사용자 패턴에 기반한 성능평가를 하기 힘들다는 것을 알 수 있다. Cumulative Gain 이는 그냥 n개의 검색 결과의 등급을 모두 합한 […]

계속 읽기