직관과 데이터 기반
오늘도 데이터 분석을 하면서 사람의 직관과 그리고 실제 데이터를 기반으로 해서 나온 결과물의 차이를 확인했다. 더불어 데이터 기반으로 나온 결과물들을 어떻게 직관에 의해 나온 것들과 조화를 시킬것인가 하는 그런 복잡한 문제도 잠깐이나마 고민을 해봤다. 사실 그럴듯해 보이고 꽤 괜찮은 결과를 보이는 직관의 산물들을 보면서 이를 데이터 기반으로 나온 것들과 조화시키는건 쉽지 않다. 게다가 이런 작업을 […]
계속 읽기당신의 나의 뜨거운 감자!
오늘도 데이터 분석을 하면서 사람의 직관과 그리고 실제 데이터를 기반으로 해서 나온 결과물의 차이를 확인했다. 더불어 데이터 기반으로 나온 결과물들을 어떻게 직관에 의해 나온 것들과 조화를 시킬것인가 하는 그런 복잡한 문제도 잠깐이나마 고민을 해봤다. 사실 그럴듯해 보이고 꽤 괜찮은 결과를 보이는 직관의 산물들을 보면서 이를 데이터 기반으로 나온 것들과 조화시키는건 쉽지 않다. 게다가 이런 작업을 […]
계속 읽기이달에 경조사가 많았는데, 그 중에 가장 중요한 경조사가 우리 아들 돌잔치 였다. 이를 위해 전날 새벽까지 iMovie로 만든 성장 동영상을 올려본다. 지난 1년동안 잘 커준 우리 아들에게 고맙고, 1년전에 이런 예쁜 아들을 낳아준 아내에게 고마운 마음을 전하고 싶다. 그리고 무엇보다 우리 내외가 회사에 아무 걱정없이 다닐수 있게끔 수빈이를 잘 키워주신 장모님에게 감사의 마음을 이 자리를 […]
계속 읽기전문가의 시대, 대용량 데이터의 시대 약 1년 전에 썼던 포스팅의 제목이다. 왜 이 이야기를 하느냐 하면, 이 글과 관련된 책이 지난 3월에 슈퍼크런처라는 제목으로 번역되어 국내에 출간 되었기 때문이다. 사실 이 정보도 오늘 데이터 마이닝 관련 검색을 하다가 알게 되어 바로 퇴근하면서 사와 현재 열독중에 있다. 사실 이 책은 메사추세츠 대학에서 정보검색 관련 공부를 하시는 […]
계속 읽기아웃라이어 이 outlier라는 단어는 내 업무에도 상당히 많이 등장하는 단어이다. 그리고 항상 이놈들을 생각하지 않고서는 정확한 데이터 마이닝이 힘들다. 얼마전에 이 책을 한번 보라는 추천을 블로그를 통해 받아서, 주말에 주문하고 지하철에서 틈틈히 읽어 오늘 아침에 완독을 했다. 이 책을 추천한 분에게 감사하다고 말씀 드리고 싶은건 이 책은 일반적인 성공 관련 서적하고는 전혀 다른 접근 방법을 […]
계속 읽기이 블로그 서비스의 아파치 로그를 보내달라고 cafe24에 문의했으나 개인정보 관련 문제로 제공할 수 없다라는 답변만 받았다. 이 로그를 기반으로 외카 3회 연재때 아파치 로그와 외카를 활용한 웹 로봇 로그 분류기를 만들어볼 예정이였는데.. 일단 로그를 구할 수 없어서 마소에 3회 연재 주제 변경 요청을 해둘까 한다. 사실 imaso.co.kr 사이트의 웹 로그를 활용할 수 있는지 여부를 함께 […]
계속 읽기주문했던 Algorithms of the Intelligent Web 책이 도착했다.한 2주 걸렸나 모르겠다. 쩝 .. 점심 시간에 쭉 보고 있었는데,… 책의 예제 설명들이 괜찮은거 같다는 느낌이 든다. 게다가 이 책의 내용중에 여러 분류기를 조합해서 만드는 bootstrap bagging 을 실제 이용한 예제는 다른 책에서 보기 힘든 예제임에 확실하고…(분류기 조합의 성능은 이미 Netflix 콘테스트에서 증명이 되었으니..)게다가 다른 여타 개론 […]
계속 읽기급기야 개인 업무를 처리하기 위해 책 몇권을 들고 도서관을 찾았다. 주로 집 근처의 금천 구립 도서관을 찾는데, 오늘 휴관일이라 고대 도서관에 왔다. 시험기간이긴 해서 자리를 잡는게 힘들어 매뚜기를 뛰고 있기는 하다. 예전에는 랜 케이블을 꽂으면 바로 인터넷이 되었는데, 이제는 로그인까지 하라고 한다. 허허 그래서 졸업을 했지만 예전 포털 아이디를 넣으니 잘 된다. ㅋ 오전중에 번역 […]
계속 읽기정확한 코드는 이곳에서 제공하고 있습니다. —————————————————–얼마만의 코드 관련 포스팅인지 모르겠다. 휴우~~~ 어제 boost/math 라이브러리에 확률관련 모듈이 있는걸 보다가 문득 생각이 들어 EM 클러스터링 알고리즘을 구현해 봤다. EM 알고리즘은 k-means알고리즘과 접근 방식이 100% 동일하나 단 확률과 통계 관련 지식이 조금 필요하다. 특히나 likelihood 관련 개념 이해는 구현을 위해 필수적이다. 이 알고리즘의 구동 과정은 아래와 같다. 1. […]
계속 읽기월간 마이크로소프트웨어의 7,8,9월 연재로 Weka에 대해서 하기로 계획을 올해 초 잡았던 적이 있었는데, 실제 그렇게 집필을 하게 될 듯 하다. 사실 요 집필 계획은 번역하고 있는 collective intelligence in action의 add-on 성격으로 집필 계획을 잡았으나 아직 이책이 현재 퇴고 과정인 관계로, 연재가 더 빠르게 세상이 나오게 될 듯 하다. 3회 연재는 처음인데, 이런 집필 계획을 […]
계속 읽기