네이버의 불펌 검사 시스템이 나왔나 보다.
네이버 공식 블로그에 나온 글인데…
꽤나 잘 설계되었다면 좋은 검색 결과로 보답을 하리라 생각한다.
원본? 복사본! 네이버 복사문서판독시스템이 알아냅니다!
mapreduce같은 분산처리를 이용해 이런 시스템을 구현했으리라 감히 예상해 본다.
중복 검사 프로세스는 알고리즘상 정확도와 처리복잡도간의 trade-off가 발생하기 때문에 정확한 검사를 위해 분산처리를 하지 않을수 없을것이다.
검색결과의 freshness를 위해서 저놈이 병목이 되어 버리면 안되기 때문에 분산처리를 필수로 해야한다.
암튼 저 시스템의 구현이 궁금하기 보다는 어떤 중복 패턴이 요즘 인터넷에 성행이 되고 있는지 참으로 궁금하다. 몇몇 패턴으로 압축이 될거 같은데 말이다. 아마도 그런 집합을 장기적으로 모아두면 나중에 참 잘 쓰일거란 생각도 해본다.
내부 DB를 이용해 작성 시간으로 원본 문서를 판독하는건 정확도가 상당하겠지만, 외부 자료들을 이용해 원본을 유추하는건 힘들꺼다.
아마도 네이버는 이 시스템으로 말미암아 내부자료를 돈독히 하고자 하는 의지와 외부 데이터 검색비율을 높이고자 하는 의지간의 중요한 펙터로 작용하지 않을까 생각해본다.
이 시스템의 원본 판독 정확도가 높아진다면 외부 검색 비율이 늘어가는데 별다른 지장이 없을테고, 외부 비율을 높일만큼 정확도가 나와주지 않는다면 외부 검색 비율은 낮아지겠지.
ps. 이 판독 시스템의 성능에 대한 의구심 관련 글들이 allblog에 많이 올라오는데, 아직 섯부른 판단은 금물이라고 생각한다. 이 분류라는 문제 자체가… false positive문제가 항상 이슈이기 때문에 아무래도 내부적으로 충분한 검증 및 테스트가 있지 않는 이상 과감하게 시스템을 돌리지는 못할것이기 때문이다.
그러나.. 차츰 좋아지리라 믿는다.
네이버 불펌 검사 시스템 – 성능 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.