Feature Selection

Machine Learning을 하기 전에 수가지의 후보 Feature 셋중에 쓸만한 것들을 골라내는 작업을 한다. 이 작업이 필요한 이유는 쓸데없는 noise feature를 추가할 경우 실험셋에서만 적합한 classifier가 나올 가능성이 많고(overfitting) 실제 새로운 데이터를 입력했을때 잘못 판정할 가능성이 많기 때문이다. Feature Selection알고리즘에는 많은 알고리즘들이 있다. 그러나 대부분의 알고리즘의 원리는 어떤 Class를 판정하는데 가장 영향을 많이 끼치는 feature에 높은 […]

계속 읽기

지민 아빠의 글을 또 읽고 – 한rss vs 야후블로그랭킹

사람손과 로봇손의 비교 – 한RSS TOP1000 과 야후블로그랭킹 단순비교 와우… 지민아빠님 정말 블로그 검색에 관심이 많으신분 같다. 글 정말 재밋게 잘 봤습니다. ^^ 이거 야후 비공식 검색 블로그도 아니고 쩝…. 예전에 hanrss 수집한적이 있었다. 물론 이 분석은 내 개인적으로 이뤄진것이고 그 구독자수를 기반으로 러닝을 시켜서 나온 결과가 그리 좋지 않았다는 개인적인 판단에 의해서 제안도 못하고 […]

계속 읽기

A Field Guide to Genetic Programming

A Field Guide to Genetic Programming  Genetic Algorithm을 요즘 보고 있는데, 이 알고리즘 코딩을 하려면 좀 난이도가 있다. 여러가지 feature들이 mutation, crossover를 일으키기 때문에 상당히 유연한 프로그래밍 모델이 필요하다. 랭귀지 파서 만드는거랑 약간 비슷하다고 봐야 하나? 그래서 막막하던 찰라에 좋은 책을 찾았다. 그것도 공짜로… 책이 상당히 멋지게 생겨서 읽다 맘에 들으면 주문할거 같다.  요놈을 공부하고자 […]

계속 읽기

전문가의 시대, 대용량 데이터 분석의 시대

Illustration: Marian Bantjes 전문가의 시대는 끝났나얼마전 블로그를 통해서 알계된 분의 포스팅 제목이다.링크가 된 원본 칼럼의 내용이 다소 과격하다고 느낄 수 있겠지만 두 글 다 정말 흥미롭게 읽었다. 데이터의 힘에 대해서 알고 싶은 분들은 한번정도 읽어봄 직 할거 같다. 게다가 여기 소개된 super crunchers 라는 책도 읽어 봐야 겠다.  ps. 사실 장문의 같은 제목의 포스팅을 썻지만 […]

계속 읽기

Amazon EC2를 스패머가 사용한다.

참으로 스패머들은 대단한거 같다. Amazon: Hey Spammers, Get Off My Cloud! 가격도 싸고, IP대역도 다양하고, 가입시 많은걸 물어보지도 않으니 스패머들에게는 쓸만한 시스템인거 같다. “pay-as-you-go”류의 서비스가 이런방향으로 악용될 수도 있겠다는 생각을 잠시 해본다.그나저나 EC2의 ip대역도 blacklist에 모조리 올라가 있을껀데 참 걱정이다. 이제는 스팸메일을 detect하는것보다 스팸머(스팸을 발송하는 사람)를 detect하는 방법이 나와야 하는건가? 좋은 방향으로 클라우드 컴퓨팅을 쓰는사례가 […]

계속 읽기

좋은 툴도 좀 사용할 줄 알아야 겠다.

데이터를 한눈에 볼 수 있는 방법을 찾다가 결국 Excel로 넘어가고, 좀더 내가 하고자 하는 일에 맞는 결과를 빨리 보기 위해 weka로 넘어갔다. 그러다 이놈이 메모리 문제, 불안정성 등을 이유로 요즘엔 matlab으로 넘어가려고 한다. 실제 matlab은 야후 전사적으로 research 그룹에서 빈번하게 사용하는 툴이라서 매킨토시, Windows, Linux 등 여러 플랫폼의 바이너리가 사내에서 직원에게 제공이 되고 있었다. 사실 […]

계속 읽기

야후는 왜 얼음집을 좋아하는걸까요?

지민아빠님의 글을 읽고 써본다. 솔직히 여름이여서 얼음집이 인기가 좋다. 라고 말하기에는 좀 썰렁하군… ^^; 나도 왜 순위가 높은지 말해주고 싶어서 입이 근질거리는 찰라다. 사실 이 문제에 대해서 내부적으로 많은 이야기가 나왔었다. 몇가지 이유를 댈수 있겠지만 이글루스라는 서비스 자체 사용자들의 블로그 스피어에 대한 기여도가 높아서 신뢰도가 높다는 정도로 말씀 드린다. (아마도 더 자세한 이야기는 추후 열릴것이라 […]

계속 읽기

야후 코리아 블로거 랭킹

예전에 Platformday에서 블로그 서비스에 Webmap을 사용하고 있다는 말을 한적이 있다. 그리고 그것에서 파생되어 나오는 여러 서비스(?)가 어떤것이 될것인지 살짝 언급을 했었다. 바로 내 블로그 우측하단에 있는 뱃지가 그 결과물중에 하나이다. 972 이미 typos 형님이 이 부분에 대해서 잠깐 언급을 하고 계신다. 위 랭킹이 기존의 블로거 랭킹과 다른점이라면 Machine Learning 알고리즘에 의해서 나온 결과라는것이다. 이전에 올블이나 […]

계속 읽기

랭킹 비교 함수

어떤 데이터셋의 나열에 대한 비교를 수행할때 Correlation을 많이 사용한다.이전에 inlink 카운트와 인덱스된 페이지의 갯수에 대한 분석을 Correlation을 이용해서 했는데 이 식은 그런 경향성을 분석하는데 유용하게 쓰일 아주 중요한 식이다. Pearson correlation 일반적으로 Correlation이라고 함은 Pearson Correlation을 지칭함을 의미한다. 그리고 이 Pearson Correlation은 랭킹을 비교할때 쓰이는 Spearman’s rank correlation coefficient 같은 특수한 식의 기본 개념이 된다. […]

계속 읽기