iris 데이터에 대한 베이지언 분류기 토이 예제

패턴인식 겨울 학교 첫날에 정규분포를 가정한 데이터에 대한 베이지언 분류기를 만들어 보는 토이 예제가 나와서 간단하게 R로 구현해 봤다. 몇몇 함수를 먼저 정의할 필요가 있다. 특히나 공분산 행렬을 만드는… 물론 R은 cov()라는 공분산 행렬을 만드는 함수가 있으나 목적상 직접 만들어 보자. # 학습셋과 테스트셋을 구분 set.seed(1234) idx <- sample(1:50, size = 45) sub_set_train <- subset(iris, […]

계속 읽기

패턴인식 및 기계학습 겨울학교

http://bi.snu.ac.kr/PRMLWS2012/ 올해는 꼭 가보려고 정보과학회 홈페이지를 들락거렸는데, 다행히 찾아서 참석할 수 있을듯 하다. 전체 알고리즘들을 리뷰한다는 마음으로 임해야 겠다.   혹여라도 블로그에 오시는 분들 중에서 관심이 있으신분이 있을듯 해서 올려본다.

계속 읽기

ML에 입문하고자 하는 어떤 대학생분의 메일과 그 답변

아래 메일 내용은 주말에 어떤 학생분이 메일을 보내주신 것에 대한 답변 메일이다. 물론 이 메일 공개에 대해 사전에 동의를 얻은 상태다. 사실 이런 메일 내용에 대한 문의는 자주 있어 왔다. 하지만 이 메일이 가장 많은 내용을 포괄적으로 질문한 것이라 다른 궁금증을 가지고 있는 분들도 참고하면 좋을거 같다. ——————————————————————————————– 안녕하세요. 질문 잘 받았습니다. 1. 머신러닝 및 […]

계속 읽기

검색에 대한 몇가지 정보 링크들

Comparing Google and Yahoo! Search Result구글과 야후의 검색 결과 링크 순위를 비교하는 페이지인데 사실 많은 분들이 모 그러려니 생각하겠지만 나에겐 이 두 검색 결과가 큰 의미를 가지고 있다. 2007년 구글  인덱스 사이즈2008년 구글 인덱스 사이즈 물론 구글의 인덱스의 크기도 큰 의미를 가지고 있긴 하다. 위 측정 방법이 어느정도 신뢰도가 있을지 모르겠지만 나름 쿼리를 조합해 저런방식으로 […]

계속 읽기

최근 보는 책

요즘 일도 부분적으로 그렇고 번역도 그렇고 죄다 Machine Learning에 빠져 있다. 게다가 읽는 책도 Data Mining 관련 책이다. 진짜 요즘엔 책읽을 짬을 내기 힘들어서 지하철에서 주로 읽고 점심시간 밥 먹고 와서 읽고 책은 꼭 읽고 잠을 자야 하기에 새벽 2시까지 번역일을 하다가 하루 할 분량을 끝내고 잠자기 1시간 전 정도에 책을 본다. 이렇게 빡시게 보는 이유는… […]

계속 읽기

왜 Machine Learning을 사용하는가?

작년 언젠가 회사 PD분이 위 질문을 했다. 아마도 그때 답변은 미지의 데이터에 대해서 학습된 데이터를 기반 예측을 해서 자동으로 어떠한 처리하기 위해 ML을 사용한다고 한거 같다.쩝~ ML 공부만 하고 실무는 전혀 안해본 샌님이나 할 수 있는 대답이다. 오늘 분류데이터를 분석하면서 왜 ML을 사용해야 하는지 정말 절절하게 깨달았다. 이 느낌은 이전에 스팸관련 논문을 쓰면서 ML실험을하는 과정에서 […]

계속 읽기

앙상블 러닝에 대한 좋은 발표자료

이 앙상블 러닝 방법은 이전의 포스팅에서도 소개를 한적이 있었다. 이 앙상블 방법에 대해서 상당히 잘 설명한 발표자료를 소개한다. 역시 이런것은 예제를 어떤걸로 제시하느냐가 이해도를 높이는 가장 중요한 방법중에 하나라는 생각이 든다. 여기서 netflix prize를 풀기위한 방법에 따른 개선정도를 표시한 그래프가 있는데 대부분 존재하는 방법으로는 다 시도를 해본거 같다. 그래서 아마도 이 ppt의 저자는 이 방법들을 […]

계속 읽기

Machine Learning 기술을 실무에 쓸때 생기는 오해들

현재 Rule 기반의 분류기나 하드코딩을 하면서 어떤 분류 작업을 하는건 이미 과거의 기술에 지나지 않아 보인다. 새로이 기계학습(Machine Learning)이라는 분야가 각광을 받으면서 두가지 기술을 병행해서 실제 성능을 많이 끌어올리는 사례들을 많이 볼 수 있다. 제목 그대로 이제는 데이터의 학습에 기반한 어떠한 프로세스를 행하는게 기본이 되어 버렸다. 왜냐면 데이터는 복잡해지고 로그도 다양해 지는데 그곳에서 객관적인 패턴을 […]

계속 읽기

집단 지성 프로그래밍에 관한 책

한글로 책 제목을 직역하니 거창한 제목이 나오는군. ㅋㅋ 요즘 책을 많이 읽고 있기는 하지만 그닥 이 블로그에다 소개를 하지는 않고 있다. 뭔가 삘이 안온다고 해야하나? 그러다 엄청 삘을 받는 책을 발견했다. Programming Collective Intelligence: Building Smart Web 2.0 Applications 오라일리에서 이런 책이 나오다니… 정말 대단하다. 실제로 학교에서 배우는 Machine Learning이나 Data Mining이 약간은 현실과 동떨어진 […]

계속 읽기

Machine Learning과 MapReduce는 천생연분

일반적으로 많은 데이터를 학습 시킬때 메모리나 프로세서의 부족으로 학습에 많은 시간이 걸리는 고질적인 문제가 있다. 학습 데이터의 차원이 늘어날 때마다 필요한 메모리는 기하급수적으로 늘어나기 때문인데,  코드 레벨에서나 알고리즘 레벨에서 복잡도를 줄이는건 새로운 알고리즘을 창안하지 않는이상 거의 불가능 하다.(뭔 약간의 코드 핫스팟을 찾아서 최적화를 시켜주는건 가능하겠지만.) 그래서 분산처리를 사용해 시간(전체) 복잡도를 줄이고자 하는 논문이 스텐포드에서 나왔다. […]

계속 읽기