Lucene에서 정규화를 위한 인자에 대한 정리
위의 두가지 식이 루씬에서 순위를 결정하는 식이 되겠다. 정확히 DefaultSimilarity라고 볼 수 있다.(현재 Lucene in Action 책의 식과 다르다.) 여기서 .f[0-9]* 라는 파일에 저장이 되는 값이 lengthNorm이라는 함수로 계산된 값인데. 식은 (float)(1.0 / Math.sqrt(numTerms)) 이와 같이 정의가 된다. numTerms은 해당 텀이 속해있는 Field의 Term의 갯수를 의미한다. 그래서 짧은 Field의 경우 굉장한 스코어상의 이득을 볼 수 […]
계속 읽기