Lucene을 쓰고도…

자신의 검색기술에 Lucene이 기반이 되는데도 그에 대한 말 한마디 없는 사람들 참으로 대단하다는 생각이 든다. 게다가 한술 더떠서 자신의 업체가 검색기술력이 있다고 미디어에 떠들고 다닌다. Lucene을 쓰면서 Lucene의 장점과 단점을 속시원히 말씀하고 다니시는 분들이 있는가 하면, 미디어에 Lucene이 자신의 기술인양 뻥을 치는 곳을 요즘 부쩍 많이 본다.(그런곳은 절대 Lucene을 쓴다는 말을 안한다. ) 무엇보다 가장 […]

계속 읽기

이 책 살까 말까?

Google’s PageRank and Beyond 이 책 보신분? 수학이 나온다니 일반인을 위한 책은 아닌거 같고. 그렇다고 전문가 수준의 책인가? 5월달에 나온 책인데 별다른 서평도 없다. 궁금하군. 아 쉬~~~~ 그나저나 Building Search Applications with Lucene and Nutch책이 올해 10월에 나오기로 했는데 내년 3월로 연기가 되어 버렸다. 이런 낭패가… ㅜㅜ 참으로 기대를 많이한 책인데.. 쩝

계속 읽기

typos님의 블로그 검색엔진

typos님의 2천만건의 데이터를 색인한 결과물이 나왔다. 물론 Lucene 기반이지. 시범적으로 서버 두대로 색인하셨다는데 아직 테스트 버전이다. http://www.blogreader.co.kr 아직 가지고 계신 1억 3천만건의 블로그 데이터를 색인하지는 않았지만 조만간 뭔가 결과물들을 보여주시지 않을까 한다. 그런데 매일 한국어 분석기가 없다고 하시는데 할말이 없다. (현재 공적이든 사적이든 무지 바쁜 나날을 보네고 있다. 하긴 휴가 이후로 분석기 소스코드 손도 못데고 […]

계속 읽기

Lupy 주석 정리한것

Lucene의 Python버전인 Lupy의 개발이 중단 되었지만 소스코드 분석하는데 많은 도움을 줬던게 사실이다. 뭐 이래저래 파일 시스템 분석하는데도 코드 편하게 볼 수 있게 도움이 되었고 예제 돌려보기도 편했던게 사실이였다. 소스코드 분석하면서 나름대로 분석한 결과를 주석으로 표현을 했었다. 물론 나에게도 중요한 자료가 되겠고 searcher쪽을 분석하면서 또 주석을 달아보겠지만 indexer부분정도 정리된걸 한번 이곳에 올려본다. 물론 이것들의 결과물이 Lucene […]

계속 읽기