from __future__ import dream 검색엔진

학습 전략

작성일자 2007년 12월 11일 고감자님이 작성

학습이라고 해서 공부하는걸 의미하는건 아니고 Machine Learning에서의 학습을 의미한다. 나도 처음에 그랬지만 ML학습하는 과정을 아래와 같이 수행을 하곤한다. 대부분의 ML 초심자들도 마찬가지라 생각한다. 1. 분류하고자 하는 문서정보를 입력 데이터 형식으로 변환한다.2. 분류기의 파라메터 값을 랜덤하게 선택해서 학습을 시킨다.3. 테스트 해보고 가장 좋은 파라메터를 선택한다. 위의 과정에서 가장 문제시 되고 있는것이 바로 학습기의 파라메터인데 이 부분에 […]

계속 읽기

네이버의 Query 마이닝

작성일자 2007년 12월 05일 고감자님이 작성

컨텐츠검색 스토리(2) – 컨텐츠검색은 어떻게 만들어질까 라는 글을 보다가 쿼리 자동완성에 마이닝 기술과 클러스터링 기술이 들어 갔다고 해서 생각 좀 해봤다. 문제의 그림…. 요걸 보니까.. 딱 생각나는 방법이 있다. 쿼리의 유형을 빠르게 분석하기 위해서는 형태소 분석의 방법을 쓰는게 좋을까?개인적으로는 n-gram방법이 효율적이라고 생각한다. 특히나 다국어나 인터넷 신조어 처리를 해야 한다면 말이다.위의 결과를 보자면 “꽃보다남자”라는게 클러스터링 되어서 […]

계속 읽기

문서집합에서 문서 상호 빈도수가 높은 feature 셋을 뽑아내는 알고리즘

작성일자 2007년 12월 05일 고감자님이 작성

요즘 Text Mining Handbook을 보고 있는데, 예전에 보지 못한 알고리즘이 나와서 한번 적어본다. 처음 보는 알고리즘인데, 이미 나온지 꽤 된 많은곳에 쓰이는 알고리즘 이란다. ^^; 특정 카테고리의 문서집합에서 빈도수가 높은 컨셉을 뽑아내는 알고리즘으로 support와 Confidence라는 개념으로 이루어져 있다. support는 주어진 룰을 포함하는 문서의 빈도수를 의미하고, confidence는 그 룰이 참이라고 생각할 수 있는 휴리스틱한 threshold를 의미한다. […]

계속 읽기

분류 문제에서 앙상블 방법.

작성일자 2007년 11월 27일 고감자님이 작성

일전에 Decision Tree나 SVM, ANN 등등 많은 분류기 모델을 공부했는데, 이것들에서 파생되는 많은 분류기를 또 다시 공부해야 하나 하는 생각을 한적이 있었다. 하지만 이것은 기우에 불과했고, 많은 새로운 분류 방법들이 훈련집합이나 입력특징, 클래스 레이블을 조작하면서 얻어지는 앙상블 방법들중에 하나였음을 알게 되었다. (어제 데이터 마이닝 수업시간의 주제였다.) 일반적으로 단일의 분류기의 모델만을 빌드해서 실제 실무에서 사용하지는 않는다. […]

계속 읽기

19회 한글 및 한국어 정보처리 학술대회에서 생각해본것들..

작성일자 2007년 10월 13일 고감자님이 작성

1. 내가 제안한 동시출현 주제어들에 적절한 coefficient를 주기 위한 학습을 또 다시 시행할 수 있을것이다. 그러니까 베이지언 룰에서 휴리스틱한 값으로 넣었던 값을 구하기 위한 학습 과정이 추가될 수 있겠다. (이런 방법을 설명한 논문이 있다고 한다.) 2. 뉴스(블로그)에서 본문을 크롤링 하기 위한 방법 웹페이지는 본문 이외에 상당히 많은 가비지(?)가 포함되어 있는데 이것들을 크롤링 타임에 제한할 수 […]

계속 읽기

검색엔진 감동의 Architecture

작성일자 2007년 10월 10일 고감자님이 작성

From : An Intorduction to Information Retrieval 최근에 논의된 개념들이 어느정도(?) 추가된 가장 최신의 검색엔진 Arcitecture다. 어제 책에 이 그림이 나오는것을 보고 감동을 먹었다.

계속 읽기

현실 세계의 기준들을 어떻게 하면 숫자로 표현할 것인가?

작성일자 2007년 10월 04일 고감자님이 작성

요즘 고민하는 화두다. 말 그대로 Data Mining의 전처리 단계라고 볼 수도 있는데, 사실 collective Intelligence라는 책을 보면서 다시 한번 놀랐던것이 현실적인 수치적 문제(돈, % 등) 뿐만아니라 다른 것들, 예를 들어서 성별, 취미 등 의 그런 데이터를 어떻게 수치화 해서 표현하고 그것들의 의미를 목적에 맞게 모델링하는 과정을 보면서 꼭 이 부분에 대해서는 다양한 방법론을 공부해야 겠다는 […]

계속 읽기

야후 블로그 검색 간담회

작성일자 2007년 08월 30일 고감자님이 작성

정말 오랜만에 열혈블로거들의 모임이 있었다. 처음에는 별 말씀들이 없다가, 각자 생각하는 블로그 검색의 방향과 블로그란 무엇인가에 대한 토론 그리고 더 심오하게 블로그 검색을 왜 하느냐의 질문까지…. 정말 다양했다.사실 블로그 검색을 논하기 전에 블로그가 무엇인지, 왜 쓰는지 그리고 왜 블로그 검색을 하는지에 대해서 고민이 먼저 되었어야 되지 않을까 했다.블로그 검색 서비스라는 테마에서 블로그 검색을 왜 하느냐까지 […]

계속 읽기

모야… Freshness가 이렇게 좋아? 야후 블로그 검색…

작성일자 2007년 08월 25일 고감자님이 작성

이전 포스팅을 올린지 30분 정도 지났는데 야후 블로그 검색에 떡하니 나타났다.(정확히 포스팅 후에 평균적으로 얼마정도 걸리는지는 잘 모르겠지만 정말 빠른 시간임에는 분명하다.) Freshness가 좋다는 이야기를 많이 들었는데, 실제 체험하니 장난아니다. 거의 웹기반 rss 리더기 수준이구먼.. 30분만에 떡하니 나타나다.. 야후 블로그 검색이요. 검색 rss 버튼 추가해 주세요…! 검색 이야기를 하는 블로그들만 rss로 받고 싶어요. ㅎㅎ 암튼 […]

계속 읽기

네이버 불펌 검사 시스템 – 성능

작성일자 2007년 08월 16일 고감자님이 작성

네이버의 불펌 검사 시스템이 나왔나 보다. 네이버 공식 블로그에 나온 글인데…꽤나 잘 설계되었다면 좋은 검색 결과로 보답을 하리라 생각한다. 원본? 복사본! 네이버 복사문서판독시스템이 알아냅니다! mapreduce같은 분산처리를 이용해 이런 시스템을 구현했으리라 감히 예상해 본다. 중복 검사 프로세스는 알고리즘상 정확도와 처리복잡도간의 trade-off가 발생하기 때문에 정확한 검사를 위해 분산처리를 하지 않을수 없을것이다. 검색결과의 freshness를 위해서 저놈이 병목이 되어 […]

계속 읽기