백터공간모델

논문에 대한 주제를 교수님과 이야기 도중에 바꾸었다.
솔직히 웹 2.0에 대한 개인적인 관심도 있고 웹 2.0이 나온다면 검색모델에 대한 가중치 부여 방법에 따른 feature가 바뀌어야 한다는 생각이 있었기 때문에 “웹 2.0 랭킹모델”에 대한 연구를 논문 토픽으로 잡아 봤다.

먼저 가장 많이 쓰이고 가장 쉽게 접근할수 있는 백터공간모델(vector space model)에 대한 정리작업을 해본다.
참고한 도서는 Modern Information Retrieval, Information Retrieval Algorithms 라는 책이다.
어렴풋하게 전부터 알고 있었던 모델링 방법이였지만 이번에 정리함으로써 확실히 인지하길 희망한다.

tf-idf 를 구하기 위해서 전체 문서갯수와 그에따른 색인어 숫자를 알아야 되고 매번 정보수집시 그 정보를 업데이트 해야한다는 것이 좀 복잡해서 구현할시에는 많은 고민이 필요한 부분이긴 하지만 이것보다는 원론적인 부분에 중점을 두고 정리해봤다. (처음 접근하시는 분들에게는 좋은 문서일듯 하다.)

XEsjhwweRM.pdf

다음에 정리할 모델은 ‘확률모델’이 되겠고 그 다음엔 내가 제일 기대하던 그리고 요즘 뜨고 있다던 ‘okapi 모델’을 정리해보도록 하겠다.

p.s okapi 모델에 대한 정리된 좋은 문서 있음 살짝 던져주세용~ ^^

from future import dream

당신의 나의 뜨거운 감자!

관련