통계학 공부

위 그림은 내 블로그 통계다.  별의미는 없고 통계관련 포스팅을 쓰다가 그냥 넣게 되었다. 사실 요즘 통계공부를 하고 있다. 예전부터 정말 많이 긁고 싶었던 가려운 부분이였는데 예전과 다르게 꾸준히 차근차근 공부하고 있다. Machine Learning 공부하면서 봐왔던 것들 Pattern Classification 책을 보면서 어려워 스킵했던 부분들이 주마등처럼 뇌리를 스쳐 지나간다. “고급의 창조력은 고통스런 기초 확립 과정을 거쳐야 한다” […]

계속 읽기

Introduction to Information Retrieval 출간!

Introduction to Information Retrieval 짧게 IIR이라고도 불리우는 책이 계속 출간 연기가 되다가 드디어 출간이 되었다.사실 이 책은 몇일 전까지만 해도 올해 8월중에 출간을 목표로 하고 있었다. 하지만 오늘 찾아보니 지난 7일에 출간하였더라. 서둘러 amazon에서 주문을 마치고 글을 쓴다. 이 책에 대한 극찬들이 하도 많아서 나열하기도 힘들다. ㅎㅎ 책의 draft가 어떻게 변해가는지 꾸준히 지켜봤었다. 약 10개월 […]

계속 읽기

Feature Selection

Machine Learning을 하기 전에 수가지의 후보 Feature 셋중에 쓸만한 것들을 골라내는 작업을 한다. 이 작업이 필요한 이유는 쓸데없는 noise feature를 추가할 경우 실험셋에서만 적합한 classifier가 나올 가능성이 많고(overfitting) 실제 새로운 데이터를 입력했을때 잘못 판정할 가능성이 많기 때문이다. Feature Selection알고리즘에는 많은 알고리즘들이 있다. 그러나 대부분의 알고리즘의 원리는 어떤 Class를 판정하는데 가장 영향을 많이 끼치는 feature에 높은 […]

계속 읽기

지민 아빠의 글을 또 읽고 – 한rss vs 야후블로그랭킹

사람손과 로봇손의 비교 – 한RSS TOP1000 과 야후블로그랭킹 단순비교 와우… 지민아빠님 정말 블로그 검색에 관심이 많으신분 같다. 글 정말 재밋게 잘 봤습니다. ^^ 이거 야후 비공식 검색 블로그도 아니고 쩝…. 예전에 hanrss 수집한적이 있었다. 물론 이 분석은 내 개인적으로 이뤄진것이고 그 구독자수를 기반으로 러닝을 시켜서 나온 결과가 그리 좋지 않았다는 개인적인 판단에 의해서 제안도 못하고 […]

계속 읽기

A Field Guide to Genetic Programming

A Field Guide to Genetic Programming  Genetic Algorithm을 요즘 보고 있는데, 이 알고리즘 코딩을 하려면 좀 난이도가 있다. 여러가지 feature들이 mutation, crossover를 일으키기 때문에 상당히 유연한 프로그래밍 모델이 필요하다. 랭귀지 파서 만드는거랑 약간 비슷하다고 봐야 하나? 그래서 막막하던 찰라에 좋은 책을 찾았다. 그것도 공짜로… 책이 상당히 멋지게 생겨서 읽다 맘에 들으면 주문할거 같다.  요놈을 공부하고자 […]

계속 읽기

전문가의 시대, 대용량 데이터 분석의 시대

Illustration: Marian Bantjes 전문가의 시대는 끝났나얼마전 블로그를 통해서 알계된 분의 포스팅 제목이다.링크가 된 원본 칼럼의 내용이 다소 과격하다고 느낄 수 있겠지만 두 글 다 정말 흥미롭게 읽었다. 데이터의 힘에 대해서 알고 싶은 분들은 한번정도 읽어봄 직 할거 같다. 게다가 여기 소개된 super crunchers 라는 책도 읽어 봐야 겠다.  ps. 사실 장문의 같은 제목의 포스팅을 썻지만 […]

계속 읽기

알고리즘을 학습할때 – Genetic Algorithm

사실 뭔가를 배울때 동기부여는 시작시 쉽게 지치지 않게 하기 위한 가장 좋은 방법이라 생각한다. 예를들면 전투에서도 지휘관이 전투직전에 병사들이게 독려를 하는것도 마찬가지 이유가 되겠다. 사 실 ML알고리즘을 학습할때 그 많은 수식과 복잡함에 혀를 내두를 때가 많다. 어떨때는 10년전에 보던 정석책을 뒤적일때도 있고, 논문에 나온 내용보다 훨씬 많은 내용을 가진 수학책을 봐야할때도 부지기수다. 그래서 이런것을 공부하는데 […]

계속 읽기

Amazon EC2를 스패머가 사용한다.

참으로 스패머들은 대단한거 같다. Amazon: Hey Spammers, Get Off My Cloud! 가격도 싸고, IP대역도 다양하고, 가입시 많은걸 물어보지도 않으니 스패머들에게는 쓸만한 시스템인거 같다. “pay-as-you-go”류의 서비스가 이런방향으로 악용될 수도 있겠다는 생각을 잠시 해본다.그나저나 EC2의 ip대역도 blacklist에 모조리 올라가 있을껀데 참 걱정이다. 이제는 스팸메일을 detect하는것보다 스팸머(스팸을 발송하는 사람)를 detect하는 방법이 나와야 하는건가? 좋은 방향으로 클라우드 컴퓨팅을 쓰는사례가 […]

계속 읽기

좋은 툴도 좀 사용할 줄 알아야 겠다.

데이터를 한눈에 볼 수 있는 방법을 찾다가 결국 Excel로 넘어가고, 좀더 내가 하고자 하는 일에 맞는 결과를 빨리 보기 위해 weka로 넘어갔다. 그러다 이놈이 메모리 문제, 불안정성 등을 이유로 요즘엔 matlab으로 넘어가려고 한다. 실제 matlab은 야후 전사적으로 research 그룹에서 빈번하게 사용하는 툴이라서 매킨토시, Windows, Linux 등 여러 플랫폼의 바이너리가 사내에서 직원에게 제공이 되고 있었다. 사실 […]

계속 읽기