Lucene Incremental Algorithm

루씬 파일 시스템 두번째 강좌에서 증분색인(incremental indexing)에 대해서 약간이나마 설명을 했지만 뭔가 다른 설명할 거리가 필요함을 절절하게 느낀 나머지 “증분색인”에 대해서 다시 이야기 해보고자 한다. 루씬은 증분색인을 지원을 함으로서 색인에 문서를 추가했을 경우에 문서 전체를 재색인 할 필요가 없다. 따라서 문서가 추가된 다음에 즉시 검색이 가능하다는 이야기 이다. 그래서 색인에 문서가 추가될 때마다 색인이 있는 […]

계속 읽기

새로운 도메인명으로 블로그를 운영합니다.

이전 주소도 여전히 동작을 하게 했고, 새로운 도메인을 구매해서 운영하기로 했다. http://www.freesearch.pe.kr 워낙에 많은 분들이 왔다 갔다 해서 기억하기 좋은 도메인을 만들어 볼라고 한 5분 생각해보다가 위와같이 “자유로운 검색(free search)”으로 했다. 앞으로 검색엔진에 대한 많은 자료가 공유될 수 있도록 노력해야겠다.

계속 읽기

[강좌]Lucene Index File Format-4 (마지막)

마지막 강좌이다. 이곳에서는 텀벡터(Term Vectors)를 저장하는 방식과 삭제되는 문서들을 어떻게 저장을 하는지에 대해서 알아보도록 한다. Term Vectors 1) 텀 벡터 인덱스 파일 또는 .tvx 파일 이 파일은 Document(.tvd)안에있는 문서 정보에 대한 포인터를 제공한다. <구조 요약> DocumentIndex (.tvx) –> TVXVersion<DocumentPosition>^NumDocs <각 인자별 자료형 정의> TVXVersion –> Int DocumentPosition –> UInt64 문서 갯수만큼 .tvd파일로의 파일 포인터 정보를 […]

계속 읽기

루씬에 대해서 몇가지…

루씬(Lucene)을 분석하면서 여러 사이트를 검색해보고 메일링도 받아보고 그러는 중인데 의외로 자료가 적음에 실망을 했지만 조금이나마 힘이 될 수 있는 주소 몇개를 알아냈다. 1. 루씬 개발 메일링 리스트 2. 루씬을 이해하기 위한 정보검색 자료들 3. 루씬 창시자 더그커팅의 블로그 더그 커팅의 블로그로 가보면 현재 그는 야후에서 일하고 있는것으로 나와있다. 그리고 간간히 여러 대학에서 정보검색에 대한 강의도 […]

계속 읽기

[강좌]Lucene Index File Format-3

텀 사전(Term Dictionary) 텀 사전은 두개의 파일로 구성된다: 1) 텀 정보 파일 또는 .tis 파일 <구조 요약> TermInfoFile (.tis)–> TIVersion, TermCount, IndexInterval, SkipInterval, TermInfos <각 인자별 자료형 정의> TIVersion –> UInt32 TermCount –> UInt64 IndexInterval –> UInt32 SkipInterval –> UInt32 TermInfos –> <TermInfo>^TermCount TermInfo –> <Term, DocFreq, FreqDelta, ProxDelta, SkipDelta> Term –> <PrefixLength, Suffix, FieldNum> […]

계속 읽기

첫눈 장사 잘 하셨습니다.

첫눈 NHN에 인수 첫눈이 한국의 구글이 되겠다고 좋아라 했는데, 결국 네이버(NHN)로 넘어갔군.(솔직히 넘어갔다는 이야기는 전부터 지인(?)에게 들어서 알고 있었다.) 전에 서울대 강연때 수익모델 어쩌구 저쩌구 질문하던 그 학생이 갑자기 생각나고 기술력으로 승부하겠다던 그때의 장병규 사장의 말이 순간적으로 스치는 그런 순간이였다. “장병규 사장님 그곳에서 이야기하던 그 꿈은 이룬것인가요?” 어짜피 기업은 쇼맨쉽이 있어야 하니 뭐 사장을 욕할 […]

계속 읽기

이번 학기도 역시…

장학금을 탈 수 있을거 같다. 아니 탄다! 오늘 성적공시 기간인데, 다 잘(?) 나왔다. 저번학기처럼 All A+이다. 쩝. 이번 학기는 뭔가 방황이 많은 학기여서 성적에 큰 기대를 안한게 사실이긴 한데, 잘 나와줘서 고맙다. 솔직히 운도 조금 좋았던거 같기도 하다. 자료구조론은 뭐 평소 관심이 가던 분야였고, 멀티미디어 특론은 거의 인공지능과 기계학습 공부나 다름 없었고(내가 좋아하는 분야다.), 디지털 […]

계속 읽기

[강좌]Lucene Index File Format-2

이번 강좌에서 설명할 파일구조는 Field의 정보에 대한 파일이다. 단순히 필드의 속성 및 이름 값을 루씬이 어떤식으로 접근하려고 하는지 확인해 보는 장이 될것이다. 5. 세그먼트당 포함된 파일들 세그먼트에 포함된 모든 파일들은 확장자에 의해 구분이 된다. Fields 1)필드정보(Field Info) 저장파일 필드정보 저장파일은 .fnm이라는 확장자로 저장이 된다. <구조 요약> FieldInfos (.fnm) –> FieldsCount, <FieldName, FieldBits>^FieldsCount <각 인자별 자료형 […]

계속 읽기

왜! R&D 쪽으로는 장교출신을 보기 힘들까?

내가 프로그래머, 개발자, 연구원 등의 공대 출신 사람으로써 달아볼 수 있는 많은 직함을 달아봤지만 3년 가까이 이 생활을 하면서 R.O.T.C 출신이라든지 사관학교출신의 예비역 장교분을 거의 만나보지 못했다. 뭐 개발자 중에서는 그나마 예전에 장교특별과정이라는 삼성멀티캠퍼스 교육과정에서 만난 선배님들이라든지 동기들이 전부이다. 그 뒤로 여러 개발자 모임이나 세미나에 참석을 많이 해봤지만 한번도 단 한번도 그런 분들을 만나본적이 없다. […]

계속 읽기

달콤한 백수와 사랑 만들기 (Failure To Launch, 2006)

주말을 맞이하야 오랜만에 아주 오랜만에 집에서 영화를 봤다. 제목은 이 포스팅 제목과 같고 외국에서도 33살까지 부모님에게 엊혀사는 사람들이 있을줄을 몰랐는데 뭐 영화니까 그냥 그럭저럭 잘 봤다. 보는 중간에 한국어 제목인 “달콤한 백수와 사랑 만들기”라는게 잘못된 제목이라는 것을 알았다. 영화 최대의 반전은 이 제목이 전혀 영화 내용을 반영하지 못한다는 사실이였다. ㅎㅎ 그렇지만 영화 자체는 볼만했다. 내가 […]

계속 읽기