Joinc에 있던 Lucene 관련 자료

Lucene 쿼리 Nutch를 통해서 분석한 문서를 conv2님께서 직접 메일로 보네주셨다. 내가 강좌한 문서는 정보검색에 대해서 어느정도 공부를 해본 사람을 대상으로 했지만 이 문서는 그보다 더 쉽고 그림이 많아서 쉽게 이해할 수 있을거라는 생각이 든다. 아직 완성된 문서는 아니지만 완성해 나가는 과정을 쭉 지켜보면 많은 도움이 되리라 생각된다. 마지막으로 conv2님 정말 감사합니다. ^^

계속 읽기

블로그는 나의 인생의 텃밭

블로그 ON이라는 책에서 나온 글귀다. 책을 다 봤지만 가끔 책장에 꽂힌 책을 보면서 이걸 읽을때의 느낌을 살려내 보려고 노력한다. 그리고 그때의 생각과 지금의 생각은 어떤지 다시금 책장을 뒤적일 때가 많다. 블로그를 적는 이유가 예전에는 “글쓰기 연습을 위해”, “나를 위한 무엇의 정리”, “세상으로의 핫라인” 등등 많은 이유를 느꼈지만 전에는 몰랐지만 “블로그는 나의 인생의 텃밭을 가꾸는것과 같다”는 […]

계속 읽기

Lucene에서 정규화를 위한 인자에 대한 정리

위의 두가지 식이 루씬에서 순위를 결정하는 식이 되겠다. 정확히 DefaultSimilarity라고 볼 수 있다.(현재 Lucene in Action 책의 식과 다르다.) 여기서 .f[0-9]* 라는 파일에 저장이 되는 값이 lengthNorm이라는 함수로 계산된 값인데. 식은 (float)(1.0 / Math.sqrt(numTerms)) 이와 같이 정의가 된다. numTerms은 해당 텀이 속해있는 Field의 Term의 갯수를 의미한다. 그래서 짧은 Field의 경우 굉장한 스코어상의 이득을 볼 수 […]

계속 읽기

사랑에 대한 16가지 생각들

저기 네가 오고있다라는 책이다. 요즘 책사는데 투자보다는 전에 구한책들을 조금씩 다시 펼쳐보기 시작하고 있다. 이 책은 시멘틱웹:웹 2.0 시대의 기회라는 책에 대한 서평 이벤트시에 이벤트에 당첨이 되어서 받은 책이다. 별 기대없었구 수필이라서 처음부터 등외시 하던 책이였는데 가끔 화장실 갈때마다 가지고 다니다가 결국 책가방에 넣고 다니고 있다. 한동안 이 구절에 대해서 구구절절하게 공감했다. 사랑의 감정은 공유할 […]

계속 읽기

오카리나 구입 그리고 그 밖의것….

예성 오카리나 Sop C키를 구매했다. 그 남자 그 여자를 연주하기 위해 급한 마음에 옥션에서 9900원 떨이 제품을 구매했다. 받아보니 정품이긴 한거 같은데 아직 연주는 못해봐서 소리 검증은 나중에 해야할거 같다. 예성 오카리나는 그나마 국내 공장(?) 생산 오카리나 중에서 제품의 음질이 믿을만 하다고 정평이 나 있다. 원래 정가가 3만원에 넘지만 옥션에서 아주 싸게 속는셈 치고 구매 […]

계속 읽기

타인의 외로움이 더 작게 보인다구요?

타인이 외로움을 잘 견딘다고 그 사람이 외로움을 덜 탄다고 생각되면 큰 오산이다. 그 사람은 그걸 다른 어떤 것으로 해소하는 방법을 알고 있거나, 최소한 표현을 안할 뿐이다. 단지 그 뿐이다. 타인이 잘 견뎌내 보인다고 절대 타인의 외로움의 강도를 섯불리 판단하려고 들면 안된다. 그렇게 판단하는건 자신의 외로움을 고집스런 방법으로 해소할 변명을 만들뿐이다. 한가지 분명한건 그 고집스런 해소방법은 […]

계속 읽기

그남자 그여자

이곡을 연습하려고 한다. 그럴려면 Sop C키의 오카리나가 있어야 하는데… 이 기회에 하나 사버릴까? 악보도 구했고 반주도 구해서 진짜 연습하고픈 욕구가 막 올라오는데 Sop G키로는 바이브 파트밖에 연주를 못하니…쩝… ㅡㅡ; 오카리나 구입의 애로사항은 바로 이거다. 사고 싶어도 돈이 있어도 지금 당장 손에 넣지 못한다는 이야기다. 공장에서 집단생산하는 오카리나를 혐오하기 때문에 수제품을 매우 고집하기 때문이지. Sop G키하고 […]

계속 읽기

좌절 금지

“최선을 다하고 하늘의 뜻을 기다린다.” 최선을 다 해서 후회는 없다. 다만 하늘의 뜻이 너무 야속했을 뿐이다. 아무리 야속하더래도 결국 내가 할 수 있는일은 최선을 다 하는것 뿐이다. 싫건 좋건 다시 최선을 다 하면서 생활 할 수 밖에. 그러니 좌절하지 말자! 회사 근처에 있던 여행사 간판..ㅋㅋ OTL 라는 글자로 보이는게 나뿐이려나?

계속 읽기

Lucene에서 Position과 offset에 대한 설명 과 그 밖의 추가들

루씬 파일 포멧 두번째 강좌에서 .fnm파일을 설명하다가 FieldBits에 대한 설명을 얼렁뚱땅 해버려서 다시 자세히 설명한다. FieldBits 가장 낮은 비트는 인덱스 여부 저장 두번째 비트 term vector 저장 여부 세번째 비트 term positions 저장 여부 네번째 비트 term offsets 저장 여부 세번재, 네번째 비트를 왜 저장하는지 몰랐느데 겨우 알아넸다. 결론적으로는 세번째 비트는 구문질의나 스팬질의를 위한 정보를 […]

계속 읽기