Language Model (2)

점심시간을 틈타 Language Model의 마지막 포스팅을 해본다. 먼저번 포스팅헤서 P(q|Md)를 구하는게 목적이라는 언급을 했었고, 그 값을 구하기 위한 식을 만들었다. 그럼 문서 기반으로 정확히 식을 구하기 위해 어떻게 해야 할까? 모든 쿼리에 대해서 문서에 대한 t.f(term frequency)를 구하고 문서에 존재하는 모든 텀의 갯수를 dl이라는 변수에 할당을 해서 위와 같은 식으로 model과 쿼리의 확률을 구하는것이다. 그런데 […]

계속 읽기

Language Model (1)

그동안 좀 봐뒀던 Language Model을 정리하고자 한다.사실 Language Model은 예전에 내가 보던 Information Retrival : Algorithm and Heuristic이라는 책에서 봤었지만, 정리까지는 안해봤다.(난 뭐든 정리가 필요하다.) Language Model이라함은 정보검색을 하다보면 나오는 unigram, bigram trigram이라는 말과 전혀 다르지 않다. 위 자체가 그대로 문서를 표현하는 모델링 방법이 될수 있는것이다. 각 문서 내에서 빈도수 및 여러 factor를 가지고 아래와 […]

계속 읽기