루씬(Lucene) 인 액션

오픈소스 자바 검색엔진 Lucene

위와 같은 포스팅을 쓴적이 있다.
물론 책이 나오기도 전에 설래는 맘에 나름대로의 포스팅을 한건데. 오늘 책을 사서 보구 트랙백을 해본다.
(너무 기대가 된 책이라서 구입 전 구입 후 모두 포스팅했다.)

루씬 인 액션Lucene오픈소스 자바 검색엔진에 대해서 올라운드로 설명을 해준책이다. 게다가 역자들이 정보검색에 종사하는 분들이여서 현대 IR(Information Retrieval)에서 사용하는 용어를 그대로 사용해서 더 보기가 편했다. 물론 IR분야에 분외한이라면 이번 기회에 IR분야에 대해서 익혀두는것도 좋을거라 생각이 든다.

책은 아주 대 만족. 번역도 나름대로 잘 되어 있고, 소스코드도 보기 쉽고(역시나 Java코드가 보기 편하다), 게다가 뒷부분에는 Lucene의 색인DB구조를 설명해줘서 아주 알차게 이용할수 있을거 같기도 하다.

그런데 한글 분석기는 형태소 분석기를 만들고 있는 내가 봤을땐 좀 어처구니없는 로직이였다….ㅡㅡ; 조사사전을 직접 만들라는 이야긴가??? (사실 살짝 비법을 공개하자면 통계적인 방법으로도 얼마든지 조사를 분리할수 있다.)
하긴 형태소 분석만 책으로 한권이니 아마 짧게 소개를 시켜주려고 그랬나 보다.

무엇보다 이런 IR분야의 실용서가 번역이 되어 일반에게 다가갔다는 것에 큰 의미를 부여하고 싶다. IR이라는 분야가 일반 개발자들에게 그렇지 않아도 생소한 분야이거나 특정 개발자에게 국한된 전문 분야일텐데 이렇게 쉽게 접할수 있는 번역본이 나왔다는게 정말 기뻤다. 그리고 전부터 관심이 있던 엔진이였는데 이번 기회에 사용도좀 하고 취약점인 한국어 형태소 분석부분을 내손으로 만들어 봤으면 하는 생각도 해본다.
또한 소스코드를 헤집에 보면서 고수들의 생각을 읽어보는 작업도 해봐야 겠다.

그리고 이 책에서 나온 이야기지만… Lucene이 Verity사의 검색엔진과 경쟁관계라는 말에 놀랐다. 국내에서 3soft사가 수입 / 커스터마이징해서 판매하는걸로 알고 있는 대단히 유명한 검색엔진인데 경쟁이라는 말이 나올정도로 Lucene이 대단하다니…
글에서 보기에는 Verity사의 검색엔진 개발자들의 도움도 어느정도 받은걸로 보인다. 재밋군..

하지만 시장성은 별루 없으리라 본다. 몇몇 SI업체들이 간단하게 엔진을 쓸수도 있겠지만 웹 검색이라는 자체가 여러 부가적인 프로세스들을 필요로 하는 분야라 만만치 않음이 분명할것이니까…

검색엔진을 개발하는 사람으로써 또한 공부하는 학생으로써 아주 보기 힘든 정말 잘 구조화된 검색엔진을 해부할수 있는 기회가 주어진게 정말 기쁘기 한량없다. 재빠르게 기능을 익힌다음에 하나둘씩 벗겨봐야 겠다.ㅋㅋㅋ

오랜만에 나의 탐구 욕구를 충족시켜줄만한 기회가 나타나 벌써부터 기분이 설랜다.

CC BY-NC 4.0 루씬(Lucene) 인 액션 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.