검색 기능 개선의 두가지 관점 – 12월 마소 기고문

12월 월간 마이크로소프트웨어 기고문을 올린다. pdf로 올릴까도 했는데, 그래도 전문가가 편집한 잡지글이 현실감 있을거 같아서 잡지 스캔을 떤것을 공개한다(사실 이 파일은 사내 공유가 되어버린 파일이다). 검색 기능 개선의 두가지 방법이란 Rule 베이스 방법과 Machine Learning 베이스 방법이다. 수식 한개도 들어가지 않았으니 마음 편하게 한번정도 보면 두가지 기술을 이해하는데 조금이나마 도움일 될거라 생각한다. 사실 이 글을 […]

계속 읽기

기계학습 이제 어렵지 않다.

최근 들어서 가장 나에게 많은 영향을 끼친 다른 어느분의 이야기를 들어보면 아래와 같다. “희원씨는 머신러닝을 너무 어렵게 생각하는거 같아요.” 최근에 가장 나에게 임펙트를 많이 준 이야기였다. 왜 충격적이였냐 하면 실제 외부에 표출되는 나의 이야기에 대한 느낌이 다분히 그럴 수 있을거라는 나 자신에 대한 반성때문이다. 수년간 ML 알고리즘 공부하고 했지만 학교에서 배운 알고리즘과 개인적으로 습득한 알고리즘을 […]

계속 읽기

머신러닝 컨퍼런스

아침에 회사 메일링을 열어보고 아주 도움이 많이 될 내부 컨퍼런스가 본사에서 있다는 소식을 접하고 서둘러 팀 메일링을 돌리고 블로그에 몇 글자 써본다. 단순한 알고리즘 강의가 아닌 실제 프로덕트에 적용된 예를 기반으로 설명하게 되는데, 그 예와 기술적인 매칭정도만 파악하고 있어서 충분히 동기부여가 될거란 생각이 든다. 물론 본사에서 치러지니 직접참여해서 볼 수는 없지만, 어떻게든 비디오 컨퍼런스로 꼭 […]

계속 읽기

CI in Action 12장 추천엔진에 대해서

추천엔진이라는게 아시는분들은 잘 아시겠지만 자신이 구매한 물품을 기반으로 사용자 프로파일을 만들어서 그 프로파일과 비슷한 유저를 찾아 그 사람이 제일 많이 선호한 물품을 추천하는 알고리즘을 쓴다.(물론 상품 기반으로 계산할 수도 있다.)물론 이 말은 굉장히 피상적인 내용이고, 실제 서비스에 적용하기 위해서 이런 작업은 검색 전에 인덱싱을 하는것처럼 pre processing 작업을 거쳐서 정제 후 나올 수 있는 비동기적인 […]

계속 읽기

P(구매|광고클릭) : 광고를 클릭한 사람이 물품을 구매할 확률

회원가입시 알수 있는 재미난 feature가 있다. 대부분 주소를 입력하라고 하는데, 이들 주소를 이용해 이곳에 살고있는 사람들의 소득 수준을 가늠 할 수 있다. 물론 이런 데이터는 부동산 시세가 가늠이 되겠고 우리나라 통계청에서 제공하는 그런 데이터를 사용해도 될 듯 하다. 사용자 매칭 광고를 올릴때 이들 소득 수준에 대한 감안을 하게 되는데 P(구매|광고를 볼 시) 같은 확률을 올리기 […]

계속 읽기

Clojure로 짜본 weka API 활용 예제

Weka API와 Clojure를 활용 남자인지 여자인지 맞추는 프로그램을 짜보았다.Weka API와 Clojure 모두 아직 익숙치 않다는 점 염두에 보시길 바란다. ^^; 일단 아래와 같이 학습셋이 주어져 있다. 나이, 성별, 로그인 횟수 40   , 남자,      1020   , 여자,      1310   , 여자,      1530   , 남자,      920 […]

계속 읽기

포털 첫 화면 뉴스 자동 제너레이션 고민들

예전에 포털의 뉴스 편집권에 대한 이야기들이 정치권에서 많은 이슈가 되었던 적이 있었다. 그때 집단지성이라는 말도 나오고 편집 방향에 따른 잘못된 편집들이 이상한 여론을 조장한다는 이야기들이 상당한 반향을 일으켰다.  대표적으로 아고라가 표적이 되기도 했고… 사실 대부분의 포털에서 메인 창에 뜨는 뉴스를 에디터가 직접 편집한다. 물론 이런 에디터들의 교육은 뉴스섹션의 편집장이 하겠지만 말이다. 그래서 포털마다 뉴스의 방향성이 […]

계속 읽기

머신러닝 결과물을 좋게하기 위한 방법

오늘 책을 좀 보다가 정말 주옥과 같은 표현을 발견했다. Jackson and Moulinier (2002) suggest that “Understanding the data is one of the keys to successful categorization, yet this is an area in which most categorization tool vendors are extremely weak. Many of the `one size fits all’ tools on the market have not been tested […]

계속 읽기

sigmoid 함수를 이용한 확률값 만들기

값을 0 ~ 1 사이의 값으로 사상시켜주는 함수이다. 이거 말고 비슷한 tanh 함수등이 있지만 이 함수가 가장 많이 알려져 있다.     sigmoid function   위 함수가 가장 많이 쓰이는 곳은 역시나 neural network (ANN) 알고리즘일 것이다.   사실 저 수식을 암기하는것보다 위 그래프를 보면서 어떨때 쓰면 좋을까 생각해보는것도 꽤 재밋다. 0 ~ 1 사이의 […]

계속 읽기

GIGO에 대한 두가지 관점

데이터를 핸들링 하는 사람들이 가장 많이 듣는 말중에 하나가 GIGO(Garbage In, Garbage Out)이라는 말이다. 이는 “잘못된 데이터가 입력이 되면 아무리 알고리즘이 좋고 퍼포먼스가 좋은 시스템이 있더라도 결국 잘못된 값을 출력할 수 밖에 없다” 라는 의미를 내포하고 있다. 그러나 통계쪽나 ML쪽을 하다보면 많은 사람들이 GIGO의 의미를 잘못 이해하고 있다는것을 볼 수 있다. 바로 Garbage In, Gospel […]

계속 읽기