Query Reformulation(쿼리 재구성)에 대한 이야기

얼마전 야후 리서치 랩에서 논문 몇 편을 발표 했는데, 그 중에서 재미있는 논문에 대한 이야기를 하고자 한다. “From ‘dango’ to ‘japanese cakes’: Query Reformulation Models and Patterns” 쿼리를 마이닝 한다. 이 이야기는 대부분의 경우 클릭 기반의 정보를 이용함을 의미한다. 하지만 위와 같은 주제의 논문은 사용자 세션을 기준으로 사용자의 쿼리 의도를 파악하는 마이닝 작업이다. 위 논문에서는 […]

계속 읽기

지능형 에플리케이션에서 간과할 수 있는 7가지

기계학습이나 머신러닝을 가미한 프로젝트 그러니까 지능형 에플리케이션을 구축할 때 간과하기 쉬운 몇 가지 사실을 이야기 하고자 한다. 물론 아래 사실은 학술적인 머신러닝책에 나오지 않은 경험적인 내용이다. 1. 데이터는 믿을만 하다? 아마 이 부분이 가장 많은 사람들이 간과하기 쉬운 부분일 듯 하다. 지능형 에플리케이션은 데이터에서부터 시작해서 데이터로 끝난다. 그리하여 믿을만한 데이터셋을 구축하는게 무엇보다 중요한 부분이 된다. […]

계속 읽기

학습 알고리즘 선택 기준

일단 단일 알고리즘의 경우 SVM을 가장 선호한다. 물론 모델 빌드 후 바로 cross-validation 결과를 보면 정확도가 그리 좋지 않을 수도 있지만 SVM이 일반화 능력이 가장 좋다는 것은 이미 많은 논문에서 증명된 사실이다. 하지만 나는 대부분의 경우 하나의 분류기만을 사용하지 않는다. 아는 사람들만 아시겠지만 앙상블 학습(Ensemble Learning)이 성능이 좋다는 것은 공공연한 사실이다. Boosting 정도만 써줘도 대부분의 […]

계속 읽기

데이터 마이닝의 재미와 그 의미를 이야기 하는 책

얼마전에 슈퍼 크런처(super cruncher) 책에 대한 서평을 블로그에 올린적이 있었다. 그 때에는 읽기 전이였고,,, 지금은 다른 관련 책들을 서둘러 찾아 읽고 있는 중이여서 좀더 정리해 서평을 다시 올려본다. 읽는중… $2 안진환 역/이언 에어즈 저 예스24 | 애드온2 사실 위 책 한권이 근래 8권의 책을 선정해서 읽는데 엄청난 영향을 끼쳤다. 대부분 사람의 의사결정에 대한 책들이다. 계량 […]

계속 읽기

EM 알고리즘 구현 – 오류 수정본 –

저번에 구현한 EM 알고리즘에 오류가 있어서 수정해봤다. 각 클러스터 중심을 구할 때 k-means 와 비슷하게 아예 확률값이 큰 클러스터에 포인트를 할당해 해당 클러스터 파라메터 계산시에만 확률값을 사용했는데 이런식으로 하면 안되고 한 포인트가 가지는 각 클러스터의 확률값을 가지고 이를 기반으로 각 클러스터 파라메터 재계산을 해야한다. 사실 코딩할 때 애매모호 해서 예전에 들었던 k-means와 거의 비슷하다는 강의록을 […]

계속 읽기

데이터만이 진실을 이야기 한다?

전문가의 시대, 대용량 데이터의 시대 약 1년 전에 썼던 포스팅의 제목이다. 왜 이 이야기를 하느냐 하면, 이 글과 관련된 책이 지난 3월에 슈퍼크런처라는 제목으로 번역되어 국내에 출간 되었기 때문이다. 사실 이 정보도 오늘 데이터 마이닝 관련 검색을 하다가 알게 되어 바로 퇴근하면서 사와 현재 열독중에 있다. 사실 이 책은 메사추세츠 대학에서 정보검색 관련 공부를 하시는 […]

계속 읽기

Weka관련 연재 예정 – 월간 마소 7,8,9월

월간 마이크로소프트웨어의 7,8,9월 연재로 Weka에 대해서 하기로 계획을 올해 초 잡았던 적이 있었는데, 실제 그렇게 집필을 하게 될 듯 하다. 사실 요 집필 계획은 번역하고 있는 collective intelligence in action의 add-on 성격으로 집필 계획을 잡았으나 아직 이책이 현재 퇴고 과정인 관계로, 연재가 더 빠르게 세상이 나오게 될 듯 하다. 3회 연재는 처음인데, 이런 집필 계획을 […]

계속 읽기

데이터마이닝 수사기법을 소재로한 미드 Numbers

원래 미드를 잘 안보는데 Numbers라는 미드가 데이터마이닝 기법으로 수사를 하는 그런 드라마라는 이야기를 듣고 요즘 몸 좀 쉬고있는 동안이라 보게 되었다. 사실 이곳에 나오는 데이터를 기반으로 하는 수사기법도 수사기법이지만 찰스라는 주인공이 하는 이야기들과 또 그와 대화하는 교수의 말속에 그냥 지나치기에 힘든 그런 주옥같은 말들이 많이 포함되어 있다는 것을 알 수 있었다.  사실 수사의 스토리 라인보다는 […]

계속 읽기

Google News의 클릭 로그를 활용한 개인화

Google News에서는 특정 사용자들이 어떠한 뉴스글에 관심을 보이는지 쌓아두고 이를 기반으로 해당 사용자들에게 뉴스글을 추천해 준다. 뉴스글에는 댓글이나 태깅같은 것을 할 수 없으므로 그저 클릭 로그를 사용할 수 밖에 없는데, 이 클릭 로그를 사용해서 특정 사용자가 이 뉴스글에 관심이 있는지 없는지를 판단하게 된다. 그렇다면 클릭 로그를 어떻게 사용하는 것일까? 그것은 바로 특정 뉴스에 클릭을 하고 […]

계속 읽기