문서 중복에 대해서 .
문서 중복에 대해서 예전에 Shingle 방법에 대한글을 쓴 경험이 있다. 주로 중복문서의 제거의 Key Issue는 검색 복잡도를 해결하는것이라고 할 수 있다. md5 hash를 이용하는 방법은 O(n)의 복잡도를, Shingle 계열의 방법을 사용하는것은 O(n^2)의 복잡도를 자랑한다. 어느글과 비슷한 글을 찾기 위한 기능을 검색엔진에서 제공한다면 아마도 주로 Shingle을 이용한 여러가지 방법들중에 하나를 사용해서 제공하리라 본다. 하지만 이는 미리 […]
계속 읽기