typos님의 블로그 검색엔진

typos님의 2천만건의 데이터를 색인한 결과물이 나왔다. 물론 Lucene 기반이지. 시범적으로 서버 두대로 색인하셨다는데 아직 테스트 버전이다.

http://www.blogreader.co.kr

아직 가지고 계신 1억 3천만건의 블로그 데이터를 색인하지는 않았지만 조만간 뭔가 결과물들을 보여주시지 않을까 한다.
그런데 매일 한국어 분석기가 없다고 하시는데 할말이 없다. (현재 공적이든 사적이든 무지 바쁜 나날을 보네고 있다. 하긴 휴가 이후로 분석기 소스코드 손도 못데고 있답니다. ㅜㅜ)

무엇보다 대단하신건 저 작업을 혼자 하신다는거다. 10명 몫은 족히 하시는듯 하다. 이제 클러스터링을 고민중이시라는데 그 열정에 탄복하지 않을 수 없다.

아래는 “네이트 써플”로 검색한 결과물

오마이 뉴스가 첫 페이지다.

CC BY-NC 4.0 typos님의 블로그 검색엔진 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.