EM 알고리즘 구현 – 오류 수정본 –

저번에 구현한 EM 알고리즘에 오류가 있어서 수정해봤다. 각 클러스터 중심을 구할 때 k-means 와 비슷하게 아예 확률값이 큰 클러스터에 포인트를 할당해 해당 클러스터 파라메터 계산시에만 확률값을 사용했는데 이런식으로 하면 안되고 한 포인트가 가지는 각 클러스터의 확률값을 가지고 이를 기반으로 각 클러스터 파라메터 재계산을 해야한다. 사실 코딩할 때 애매모호 해서 예전에 들었던 k-means와 거의 비슷하다는 강의록을 […]

계속 읽기

직관과 데이터 기반

오늘도 데이터 분석을 하면서 사람의 직관과 그리고 실제 데이터를 기반으로 해서 나온 결과물의 차이를 확인했다. 더불어 데이터 기반으로 나온 결과물들을 어떻게 직관에 의해 나온 것들과 조화를 시킬것인가 하는 그런 복잡한 문제도 잠깐이나마 고민을 해봤다. 사실 그럴듯해 보이고 꽤 괜찮은 결과를 보이는 직관의 산물들을 보면서 이를 데이터 기반으로 나온 것들과 조화시키는건 쉽지 않다. 게다가 이런 작업을 […]

계속 읽기

우리 아들 돌을 축하하며.

이달에 경조사가 많았는데, 그 중에 가장 중요한 경조사가 우리 아들 돌잔치 였다. 이를 위해 전날 새벽까지 iMovie로 만든 성장 동영상을 올려본다. 지난 1년동안 잘 커준 우리 아들에게 고맙고, 1년전에 이런 예쁜 아들을 낳아준 아내에게 고마운 마음을 전하고 싶다. 그리고 무엇보다 우리 내외가 회사에 아무 걱정없이 다닐수 있게끔 수빈이를 잘 키워주신 장모님에게 감사의 마음을 이 자리를 […]

계속 읽기

데이터만이 진실을 이야기 한다?

전문가의 시대, 대용량 데이터의 시대 약 1년 전에 썼던 포스팅의 제목이다. 왜 이 이야기를 하느냐 하면, 이 글과 관련된 책이 지난 3월에 슈퍼크런처라는 제목으로 번역되어 국내에 출간 되었기 때문이다. 사실 이 정보도 오늘 데이터 마이닝 관련 검색을 하다가 알게 되어 바로 퇴근하면서 사와 현재 열독중에 있다. 사실 이 책은 메사추세츠 대학에서 정보검색 관련 공부를 하시는 […]

계속 읽기

outlier 책을 보고.

아웃라이어 이 outlier라는 단어는 내 업무에도 상당히 많이 등장하는 단어이다. 그리고 항상 이놈들을 생각하지 않고서는 정확한 데이터 마이닝이 힘들다. 얼마전에 이 책을 한번 보라는 추천을 블로그를 통해 받아서, 주말에 주문하고 지하철에서 틈틈히 읽어 오늘 아침에 완독을 했다. 이 책을 추천한 분에게 감사하다고 말씀 드리고 싶은건 이 책은 일반적인 성공 관련 서적하고는 전혀 다른 접근 방법을 […]

계속 읽기

아파치 로그 구하기 힘들군…

이 블로그 서비스의 아파치 로그를 보내달라고 cafe24에 문의했으나 개인정보 관련 문제로 제공할 수 없다라는 답변만 받았다. 이 로그를 기반으로 외카 3회 연재때 아파치 로그와 외카를 활용한 웹 로봇 로그 분류기를 만들어볼 예정이였는데.. 일단 로그를 구할 수 없어서 마소에 3회 연재 주제 변경 요청을 해둘까 한다. 사실 imaso.co.kr 사이트의  웹 로그를 활용할 수 있는지 여부를 함께 […]

계속 읽기

Algorithms of the Intelligent Web

주문했던 Algorithms of the Intelligent Web 책이 도착했다.한 2주 걸렸나 모르겠다. 쩝 .. 점심 시간에 쭉 보고 있었는데,… 책의 예제 설명들이 괜찮은거 같다는 느낌이 든다. 게다가 이 책의 내용중에 여러 분류기를 조합해서 만드는 bootstrap bagging 을 실제 이용한 예제는 다른 책에서 보기 힘든 예제임에 확실하고…(분류기 조합의 성능은 이미 Netflix 콘테스트에서 증명이 되었으니..)게다가 다른 여타 개론 […]

계속 읽기

밀린 개인 업무를 처리하기 위해 휴가를…

급기야 개인 업무를 처리하기 위해 책 몇권을 들고 도서관을 찾았다. 주로 집 근처의 금천 구립 도서관을 찾는데, 오늘 휴관일이라 고대 도서관에 왔다. 시험기간이긴 해서 자리를 잡는게 힘들어 매뚜기를 뛰고 있기는 하다. 예전에는 랜 케이블을 꽂으면 바로 인터넷이 되었는데, 이제는 로그인까지 하라고 한다. 허허 그래서 졸업을 했지만 예전 포털 아이디를 넣으니 잘 된다. ㅋ 오전중에 번역 […]

계속 읽기

EM 클러스터링 알고리즘 코드

정확한 코드는 이곳에서 제공하고 있습니다. —————————————————–얼마만의 코드 관련 포스팅인지 모르겠다. 휴우~~~  어제 boost/math 라이브러리에 확률관련 모듈이 있는걸 보다가 문득 생각이 들어 EM 클러스터링 알고리즘을 구현해 봤다. EM 알고리즘은 k-means알고리즘과 접근 방식이 100% 동일하나 단 확률과 통계 관련 지식이 조금 필요하다. 특히나 likelihood 관련 개념 이해는 구현을 위해 필수적이다. 이 알고리즘의 구동 과정은 아래와 같다. 1. […]

계속 읽기

Expert?

어느날인가 홍콩 개발자하고 업무 관련 논의를 하다가 아이폰 개발을 하는 것에 서로 관심이 있어서 이것 저것 이야기 할 기회를 얻었다. 아이폰 개발을 하려면 여러가지 배워야 할 것들이 있는데 아직 시간을 내가 힘든 상황이다. 라고 이야기 하니 “이미 너는 C++ Expert니까 Object-C정도는 크게 어렵지 않게 할 수 있을거다” 뭐 이런 내용의 이야기를 하더라… C++을 잘 한다…켘~~~ […]

계속 읽기