웹검색

웹 검색에서는 세가지 종류의 쿼리가 있다고 분류한다. Informational queries – 말 그대로 특정 정보를 다루는 다양한 토픽을 요구하는 쿼리를 의미한다. “이효리” 쿼리의 경우 상당히 많은 양의 다양한 정보 문서가 나올 것이다. 게다가 경우에 따라서 결과에서 최신성을 중요시 하기도 할 것이다. Navigational queries – “삼성전자”라는 쿼리에 삼성전자 홈페이지가 연결이 되는게 대부분 맞을 것이다. 대부분 정답이 거의 […]

계속 읽기

데이터마이닝 수사기법을 소재로한 미드 Numbers

원래 미드를 잘 안보는데 Numbers라는 미드가 데이터마이닝 기법으로 수사를 하는 그런 드라마라는 이야기를 듣고 요즘 몸 좀 쉬고있는 동안이라 보게 되었다. 사실 이곳에 나오는 데이터를 기반으로 하는 수사기법도 수사기법이지만 찰스라는 주인공이 하는 이야기들과 또 그와 대화하는 교수의 말속에 그냥 지나치기에 힘든 그런 주옥같은 말들이 많이 포함되어 있다는 것을 알 수 있었다.  사실 수사의 스토리 라인보다는 […]

계속 읽기

단순한 데이터 하나 뽑는것도 고민을 하자!

랜덤 쿼리 1000개만 뽑아주세요. 요즘 집중하고 있는 일이 몇개 있어서 매우 바쁜데 위와 같은 요청이 들어와서 단순하게 쿼리 각각을 늘어놓고 n번째 쿼리를 뽑아 주면 되겠다 하고 생각을 했었다. 하지만 점심 시간에 밥먹으면서 고민했는데, 우리가 랜덤 샘플링을 하는 이유가 무엇인지 생각을 해봤다. 그것은 바로 모집단의 특징을 알아보기 위해서 샘플링을 하는 것인데, 샘플링은 반드시 모집단의 특징을 띄고 […]

계속 읽기

데이터를 분석한다면 참고가 될 좋은 책 몇 가지

1. Head First Statistics2. Head First Algebra 3. Head First Data Analysis  (출간 예정) Head First 시리즈는 뭔가 출간 스토리라인이 있는거 같다는 느낌을 요즘 많이 받는다. 위 시리즈를 순서대로 읽는다면 앞으로 Data Mining이나 Machine Learning을 공부하는데 큰 도움이 될거라 믿어 의심치 않는다. 2번 책은 이미 주문해서 아마도 월요일정도 받아서 읽어보지 않을까 한다. 그리고 1번책의 경우 […]

계속 읽기

검색에 대한 몇가지 정보 링크들

Comparing Google and Yahoo! Search Result구글과 야후의 검색 결과 링크 순위를 비교하는 페이지인데 사실 많은 분들이 모 그러려니 생각하겠지만 나에겐 이 두 검색 결과가 큰 의미를 가지고 있다. 2007년 구글  인덱스 사이즈2008년 구글 인덱스 사이즈 물론 구글의 인덱스의 크기도 큰 의미를 가지고 있긴 하다. 위 측정 방법이 어느정도 신뢰도가 있을지 모르겠지만 나름 쿼리를 조합해 저런방식으로 […]

계속 읽기

Google News의 클릭 로그를 활용한 개인화

Google News에서는 특정 사용자들이 어떠한 뉴스글에 관심을 보이는지 쌓아두고 이를 기반으로 해당 사용자들에게 뉴스글을 추천해 준다. 뉴스글에는 댓글이나 태깅같은 것을 할 수 없으므로 그저 클릭 로그를 사용할 수 밖에 없는데, 이 클릭 로그를 사용해서 특정 사용자가 이 뉴스글에 관심이 있는지 없는지를 판단하게 된다. 그렇다면 클릭 로그를 어떻게 사용하는 것일까? 그것은 바로 특정 뉴스에 클릭을 하고 […]

계속 읽기

인턴 프로젝트로 한해 시작!

최근에 우리 검색팀의 인턴을 뽑느데 서류심사 및 면접에 참관을 했다. 서류전형 및 면접과정을 거치면서 특히 면접과정에서는 혹시나 이분들이 떨어지더라도 “면접에서 배울게 많았다” 라는 생각이 들게끔 준비를 좀 했었다. 물론 어떻게 느꼈는지는 그분들의 소관이지만 내가 지금까지 느껴왔던 A+ 면접들을 벤치마킹 했다는것은 부정하지 않겠다. 이번에 면접을 공식적으로 처음 진행해 보면서 느낀점은… 학교에서 배운것만으로는 일단 어떤 입사든지간에 광장히 […]

계속 읽기

검색 기능 개선의 두가지 관점 – 12월 마소 기고문

12월 월간 마이크로소프트웨어 기고문을 올린다. pdf로 올릴까도 했는데, 그래도 전문가가 편집한 잡지글이 현실감 있을거 같아서 잡지 스캔을 떤것을 공개한다(사실 이 파일은 사내 공유가 되어버린 파일이다). 검색 기능 개선의 두가지 방법이란 Rule 베이스 방법과 Machine Learning 베이스 방법이다. 수식 한개도 들어가지 않았으니 마음 편하게 한번정도 보면 두가지 기술을 이해하는데 조금이나마 도움일 될거라 생각한다. 사실 이 글을 […]

계속 읽기