k-means, EM 알고리즘… 그리고 알맞은 k개수

어제 번역을 하면서 오랜만에 duda의 pattern classification책을 펼쳐 봤다. 워낙에 이 바닥에서는 알아주는 책이지만 사실 이 책 통독은 하지 못했다. 하지만  필요한 부분을 찾아보는 용도로 주로 쓴다.  ^^; 어제는 EM 알고리즘을 오랜만에 살펴봤다. 내가 아는 EM 알고리즘은 기본적으로 미지의 분포 파라메터를 주어진 데이터를 가지고 예측을 하고 그 예측값을 다시 주어진 데이터를 기반으로 기대치를 최대화 시키는 […]

계속 읽기

netflix prize에 도전하고 있습니다.

netflix prize라는 해당 사용자가 보지 않은 영화의 점수를 예측하는 시스템을 만드는 대회이다. 상금이 무려 100만달러에 육박한다…@.@ 이것을 접하게된 계기는 hadoop mapreduce를 이용한 canopy clustering에 대한 자료를 찾다가 이 숙제 데이터셋을 보고 알게 되었다. netflix prize사이트에 가면 많은 설명이 되어 있고, 이 블로그에 가면 쉽게 정리된 자료를 볼 수 있다. 아무래도 서비스를 위한 빠른 알고리즘을 원하기 […]

계속 읽기