conv2님의 집필과 일을 병행하는 비결을 전수받다.

Apache Lucene 入門 의 내용 정리라는 포스팅에 댓글로 물어봤는데 정말 잘 설명해 주셨다. 고감자님// 일과 집필을 병행하는 비결은 단 두 가지, 첫 번째로 뭐든지 배운다는 것을 즐겁게 받아들이는 긍정적인 생각, 두 번째로 돈을 벌기 위한 탐욕은 버리고, 내가 갖고 있는 지식을 나누자라는 그런 마음이 있는 게 아닐까요? 물론 저도 사람인지라 손해를 볼때가 많고, 몇일만이라도 쉬고 […]

계속 읽기

25일은 책 사는 날

왜 이날이 책 사는 날인지는 잘 모르겠는데(?ㅋㅋㅋ) 이제 회사에서 가까운 반디앤루니스를 애용할 수 밖에 없는 상황이라서 오늘 점심 시간을 이용해 책을 구입하러 갔다. 폰카라서 영~~~~ 첫번째 책은 ‘빗방울처럼 나는 혼자였다’라는 책이고, 두번째 책은 ‘GCC 완정정복‘이라는 책이다. 공지영의 ‘빗방울~’책은 누군지는 모르겠지만 어느분의 블로그 글을 보고 꼭 보고 싶어서 구입한 책이다. 커버에 둘러있는 종이에 쓰여진 문구가 너무 […]

계속 읽기

Lupy 주석 정리한것

Lucene의 Python버전인 Lupy의 개발이 중단 되었지만 소스코드 분석하는데 많은 도움을 줬던게 사실이다. 뭐 이래저래 파일 시스템 분석하는데도 코드 편하게 볼 수 있게 도움이 되었고 예제 돌려보기도 편했던게 사실이였다. 소스코드 분석하면서 나름대로 분석한 결과를 주석으로 표현을 했었다. 물론 나에게도 중요한 자료가 되겠고 searcher쪽을 분석하면서 또 주석을 달아보겠지만 indexer부분정도 정리된걸 한번 이곳에 올려본다. 물론 이것들의 결과물이 Lucene […]

계속 읽기

왜 알고 있는걸 공유하느냐?

때때로 아버지께서 블로그에 들어오셔서 글들을 읽고 댓글은 안달으시고 전화를 하신다. “희원아 넌 왜 알고있는 기술 지식을 이곳으로 공유하려고 하니?” 그럴때마다 전부터 가지고 있던 생각을 이야기 해 드린다. “그건요. 음 ~~~ 제가 공부하면서 힘들게 알아낸 사실을 정리하는 의미가 가장 큽니다. 저만 어설프게 알고 있기는 쉬운데 그걸 다른사람이 이해하기 편하게 설명하기는 그것보다 더 높은 수준의 뭔가가 필요하거든요. […]

계속 읽기

지구 한 구석에서는 포화로 아이들이 숨지고 있었다.

내가 요즘 시덥지 않게 별 이유같지 않은 이유 같은걸로 고민하고 있는 순간에도 지구 한구석에서는 전쟁으로 아이들이 숨지고 있었다. 링크열기 글의 내용을 보자면 UN본부쪽으로 가고자 했던(UN본부는 폭격을 하지 않으니) 아이들과 선량한 시민들이 UN이 거부하고 돌아갈것을 요구한 수분 후에 폭격이 일어나 다 죽어버린 현장 사진이다. 사실 엇그제 두바이에서 있던 친구가 그쪽 신문에 실리는 사진이 너무 잔인하다며 그리고 […]

계속 읽기

술좀 작작 마셔라!

뭐 이래저래 카드 고지서를 받아보고 놀란적이 한두번이 아니였지만 이번엔 좀 심했다. ㅜㅜ 이래저래 고민하고 또 고민하고 그리고 체육관 선배님에게 고민상담 한 결과 “술 마시지 말자!” 하고 결론을 내렸다. 운동으로 다져둔 체력을 새벽 5시까지 술마시고 거뜬하게 회사 출근하는 그런 용도로 쓰다보니 운동한게 도루묵 되는게 사실이고 또한 한번 두번 마시는 술값이 1달 되면 제법 솔솔하게 쌓여서 목돈이 […]

계속 읽기

Joinc에 있던 Lucene 관련 자료

Lucene 쿼리 Nutch를 통해서 분석한 문서를 conv2님께서 직접 메일로 보네주셨다. 내가 강좌한 문서는 정보검색에 대해서 어느정도 공부를 해본 사람을 대상으로 했지만 이 문서는 그보다 더 쉽고 그림이 많아서 쉽게 이해할 수 있을거라는 생각이 든다. 아직 완성된 문서는 아니지만 완성해 나가는 과정을 쭉 지켜보면 많은 도움이 되리라 생각된다. 마지막으로 conv2님 정말 감사합니다. ^^

계속 읽기

블로그는 나의 인생의 텃밭

블로그 ON이라는 책에서 나온 글귀다. 책을 다 봤지만 가끔 책장에 꽂힌 책을 보면서 이걸 읽을때의 느낌을 살려내 보려고 노력한다. 그리고 그때의 생각과 지금의 생각은 어떤지 다시금 책장을 뒤적일 때가 많다. 블로그를 적는 이유가 예전에는 “글쓰기 연습을 위해”, “나를 위한 무엇의 정리”, “세상으로의 핫라인” 등등 많은 이유를 느꼈지만 전에는 몰랐지만 “블로그는 나의 인생의 텃밭을 가꾸는것과 같다”는 […]

계속 읽기

Lucene에서 정규화를 위한 인자에 대한 정리

위의 두가지 식이 루씬에서 순위를 결정하는 식이 되겠다. 정확히 DefaultSimilarity라고 볼 수 있다.(현재 Lucene in Action 책의 식과 다르다.) 여기서 .f[0-9]* 라는 파일에 저장이 되는 값이 lengthNorm이라는 함수로 계산된 값인데. 식은 (float)(1.0 / Math.sqrt(numTerms)) 이와 같이 정의가 된다. numTerms은 해당 텀이 속해있는 Field의 Term의 갯수를 의미한다. 그래서 짧은 Field의 경우 굉장한 스코어상의 이득을 볼 수 […]

계속 읽기