논문에 대한 주제를 교수님과 이야기 도중에 바꾸었다.
솔직히 웹 2.0에 대한 개인적인 관심도 있고 웹 2.0이 나온다면 검색모델에 대한 가중치 부여 방법에 따른 feature가 바뀌어야 한다는 생각이 있었기 때문에 “웹 2.0 랭킹모델”에 대한 연구를 논문 토픽으로 잡아 봤다.
먼저 가장 많이 쓰이고 가장 쉽게 접근할수 있는 백터공간모델(vector space model)에 대한 정리작업을 해본다.
참고한 도서는 Modern Information Retrieval, Information Retrieval Algorithms 라는 책이다.
어렴풋하게 전부터 알고 있었던 모델링 방법이였지만 이번에 정리함으로써 확실히 인지하길 희망한다.
tf-idf 를 구하기 위해서 전체 문서갯수와 그에따른 색인어 숫자를 알아야 되고 매번 정보수집시 그 정보를 업데이트 해야한다는 것이 좀 복잡해서 구현할시에는 많은 고민이 필요한 부분이긴 하지만 이것보다는 원론적인 부분에 중점을 두고 정리해봤다. (처음 접근하시는 분들에게는 좋은 문서일듯 하다.)
다음에 정리할 모델은 ‘확률모델’이 되겠고 그 다음엔 내가 제일 기대하던 그리고 요즘 뜨고 있다던 ‘okapi 모델’을 정리해보도록 하겠다.
p.s okapi 모델에 대한 정리된 좋은 문서 있음 살짝 던져주세용~ ^^
헛.. okapi 모델까지 공부하시다니…
okapi 모델 공부할만한것을 아직 못찾고 있습니다.
교수님께서 확률모델에서 좀더 발전한게 okapi하고 하시던데요…쩝
헛… 제가 위키 연구하면서 생각한 ‘유명인은 좀 덜 유명해도 돼’라는 모델이랑 비슷하네욧;
아, 그리고 GUESS라고 들어보셨는지요? graphexploration.cond.org 에 가면 있습니다만. 이런저런 실험을 해 볼 수 있더군요(한글이 안되는게 귀찮음). 꽤나 시각적이라서 굿!
핵심을 잘 잡아내시는 군요. ㅎㅎ
tf/idf…