네이버 불펌 검사 시스템 – 성능
네이버의 불펌 검사 시스템이 나왔나 보다. 네이버 공식 블로그에 나온 글인데…꽤나 잘 설계되었다면 좋은 검색 결과로 보답을 하리라 생각한다. 원본? 복사본! 네이버 복사문서판독시스템이 알아냅니다! mapreduce같은 분산처리를 이용해 이런 시스템을 구현했으리라 감히 예상해 본다. 중복 검사 프로세스는 알고리즘상 정확도와 처리복잡도간의 trade-off가 발생하기 때문에 정확한 검사를 위해 분산처리를 하지 않을수 없을것이다. 검색결과의 freshness를 위해서 저놈이 병목이 되어 […]
계속 읽기