기계학습 이제 어렵지 않다.

최근 들어서 가장 나에게 많은 영향을 끼친 다른 어느분의 이야기를 들어보면 아래와 같다. “희원씨는 머신러닝을 너무 어렵게 생각하는거 같아요.” 최근에 가장 나에게 임펙트를 많이 준 이야기였다. 왜 충격적이였냐 하면 실제 외부에 표출되는 나의 이야기에 대한 느낌이 다분히 그럴 수 있을거라는 나 자신에 대한 반성때문이다. 수년간 ML 알고리즘 공부하고 했지만 학교에서 배운 알고리즘과 개인적으로 습득한 알고리즘을 […]

계속 읽기

구글 사전 검색

구글 사전 검색이 나왔다. 최근 영어 사전에 관심이 많이가고 실제 번역하면서 많이 쓰고 있는데, 사전 컨텐츠가 낮이 익어서 좀 조사해보니 네이버 사전 검색에 쓰이는 사전과 같은 사전DB를 쓰는거 같다.(동아 프라임 영한사전) 가장 재미난 기능은 쿼리 자동완성에 단어의 뜻까지 같이 표시가 된다는 건데… 이정도면 굳이 검색을 하지 않더라도 자동완성되는 글상자만 보고 대부분의 뜻 확인은 가능하게 된다. […]

계속 읽기

머신러닝 컨퍼런스

아침에 회사 메일링을 열어보고 아주 도움이 많이 될 내부 컨퍼런스가 본사에서 있다는 소식을 접하고 서둘러 팀 메일링을 돌리고 블로그에 몇 글자 써본다. 단순한 알고리즘 강의가 아닌 실제 프로덕트에 적용된 예를 기반으로 설명하게 되는데, 그 예와 기술적인 매칭정도만 파악하고 있어서 충분히 동기부여가 될거란 생각이 든다. 물론 본사에서 치러지니 직접참여해서 볼 수는 없지만, 어떻게든 비디오 컨퍼런스로 꼭 […]

계속 읽기

CI in Action 12장 추천엔진에 대해서

추천엔진이라는게 아시는분들은 잘 아시겠지만 자신이 구매한 물품을 기반으로 사용자 프로파일을 만들어서 그 프로파일과 비슷한 유저를 찾아 그 사람이 제일 많이 선호한 물품을 추천하는 알고리즘을 쓴다.(물론 상품 기반으로 계산할 수도 있다.)물론 이 말은 굉장히 피상적인 내용이고, 실제 서비스에 적용하기 위해서 이런 작업은 검색 전에 인덱싱을 하는것처럼 pre processing 작업을 거쳐서 정제 후 나올 수 있는 비동기적인 […]

계속 읽기

P(구매|광고클릭) : 광고를 클릭한 사람이 물품을 구매할 확률

회원가입시 알수 있는 재미난 feature가 있다. 대부분 주소를 입력하라고 하는데, 이들 주소를 이용해 이곳에 살고있는 사람들의 소득 수준을 가늠 할 수 있다. 물론 이런 데이터는 부동산 시세가 가늠이 되겠고 우리나라 통계청에서 제공하는 그런 데이터를 사용해도 될 듯 하다. 사용자 매칭 광고를 올릴때 이들 소득 수준에 대한 감안을 하게 되는데 P(구매|광고를 볼 시) 같은 확률을 올리기 […]

계속 읽기

Clojure로 짜본 weka API 활용 예제

Weka API와 Clojure를 활용 남자인지 여자인지 맞추는 프로그램을 짜보았다.Weka API와 Clojure 모두 아직 익숙치 않다는 점 염두에 보시길 바란다. ^^; 일단 아래와 같이 학습셋이 주어져 있다. 나이, 성별, 로그인 횟수 40   , 남자,      1020   , 여자,      1310   , 여자,      1530   , 남자,      920 […]

계속 읽기

포털 첫 화면 뉴스 자동 제너레이션 고민들

예전에 포털의 뉴스 편집권에 대한 이야기들이 정치권에서 많은 이슈가 되었던 적이 있었다. 그때 집단지성이라는 말도 나오고 편집 방향에 따른 잘못된 편집들이 이상한 여론을 조장한다는 이야기들이 상당한 반향을 일으켰다.  대표적으로 아고라가 표적이 되기도 했고… 사실 대부분의 포털에서 메인 창에 뜨는 뉴스를 에디터가 직접 편집한다. 물론 이런 에디터들의 교육은 뉴스섹션의 편집장이 하겠지만 말이다. 그래서 포털마다 뉴스의 방향성이 […]

계속 읽기

머신러닝 결과물을 좋게하기 위한 방법

오늘 책을 좀 보다가 정말 주옥과 같은 표현을 발견했다. Jackson and Moulinier (2002) suggest that “Understanding the data is one of the keys to successful categorization, yet this is an area in which most categorization tool vendors are extremely weak. Many of the `one size fits all’ tools on the market have not been tested […]

계속 읽기

Hadoop 헤게모니 논쟁을 벗어나자!

어제 Hadoop 커뮤니티 모임이 Daum에서 있었다. 그 모임에서 Daum에 계시는걸로 보이는 어떤분이 MPI로도 가능한데 Hadoop으로 꼭히 써야될 필요가 있는가에 대해서 굉장히 열정적으로(?) 조목조목 hadoop의 단점과 문제점에대한 질문을 하셨다. 처음에는 질문이 날카로웠지만 점점 끝나지 않을거 같은 헤게모니 논쟁으로 흘러가는 분위기였다. ㅡㅡ; 솔직히 MPI를 사용해본적은 없고 멀티코어CPU 관련된 프로그래밍 라이브러리 이야기 할때 잠깐 소개를 받은적이 있었다. 메시지 […]

계속 읽기

sigmoid 함수를 이용한 확률값 만들기

값을 0 ~ 1 사이의 값으로 사상시켜주는 함수이다. 이거 말고 비슷한 tanh 함수등이 있지만 이 함수가 가장 많이 알려져 있다.     sigmoid function   위 함수가 가장 많이 쓰이는 곳은 역시나 neural network (ANN) 알고리즘일 것이다.   사실 저 수식을 암기하는것보다 위 그래프를 보면서 어떨때 쓰면 좋을까 생각해보는것도 꽤 재밋다. 0 ~ 1 사이의 […]

계속 읽기