루씬에 대해서 몇가지…

루씬(Lucene)을 분석하면서 여러 사이트를 검색해보고 메일링도 받아보고 그러는 중인데 의외로 자료가 적음에 실망을 했지만 조금이나마 힘이 될 수 있는 주소 몇개를 알아냈다. 1. 루씬 개발 메일링 리스트 2. 루씬을 이해하기 위한 정보검색 자료들 3. 루씬 창시자 더그커팅의 블로그 더그 커팅의 블로그로 가보면 현재 그는 야후에서 일하고 있는것으로 나와있다. 그리고 간간히 여러 대학에서 정보검색에 대한 강의도 […]

계속 읽기

[강좌]Lucene Index File Format-3

텀 사전(Term Dictionary) 텀 사전은 두개의 파일로 구성된다: 1) 텀 정보 파일 또는 .tis 파일 <구조 요약> TermInfoFile (.tis)–> TIVersion, TermCount, IndexInterval, SkipInterval, TermInfos <각 인자별 자료형 정의> TIVersion –> UInt32 TermCount –> UInt64 IndexInterval –> UInt32 SkipInterval –> UInt32 TermInfos –> <TermInfo>^TermCount TermInfo –> <Term, DocFreq, FreqDelta, ProxDelta, SkipDelta> Term –> <PrefixLength, Suffix, FieldNum> […]

계속 읽기

첫눈 장사 잘 하셨습니다.

첫눈 NHN에 인수 첫눈이 한국의 구글이 되겠다고 좋아라 했는데, 결국 네이버(NHN)로 넘어갔군.(솔직히 넘어갔다는 이야기는 전부터 지인(?)에게 들어서 알고 있었다.) 전에 서울대 강연때 수익모델 어쩌구 저쩌구 질문하던 그 학생이 갑자기 생각나고 기술력으로 승부하겠다던 그때의 장병규 사장의 말이 순간적으로 스치는 그런 순간이였다. “장병규 사장님 그곳에서 이야기하던 그 꿈은 이룬것인가요?” 어짜피 기업은 쇼맨쉽이 있어야 하니 뭐 사장을 욕할 […]

계속 읽기

이번 학기도 역시…

장학금을 탈 수 있을거 같다. 아니 탄다! 오늘 성적공시 기간인데, 다 잘(?) 나왔다. 저번학기처럼 All A+이다. 쩝. 이번 학기는 뭔가 방황이 많은 학기여서 성적에 큰 기대를 안한게 사실이긴 한데, 잘 나와줘서 고맙다. 솔직히 운도 조금 좋았던거 같기도 하다. 자료구조론은 뭐 평소 관심이 가던 분야였고, 멀티미디어 특론은 거의 인공지능과 기계학습 공부나 다름 없었고(내가 좋아하는 분야다.), 디지털 […]

계속 읽기

[강좌]Lucene Index File Format-2

이번 강좌에서 설명할 파일구조는 Field의 정보에 대한 파일이다. 단순히 필드의 속성 및 이름 값을 루씬이 어떤식으로 접근하려고 하는지 확인해 보는 장이 될것이다. 5. 세그먼트당 포함된 파일들 세그먼트에 포함된 모든 파일들은 확장자에 의해 구분이 된다. Fields 1)필드정보(Field Info) 저장파일 필드정보 저장파일은 .fnm이라는 확장자로 저장이 된다. <구조 요약> FieldInfos (.fnm) –> FieldsCount, <FieldName, FieldBits>^FieldsCount <각 인자별 자료형 […]

계속 읽기

왜! R&D 쪽으로는 장교출신을 보기 힘들까?

내가 프로그래머, 개발자, 연구원 등의 공대 출신 사람으로써 달아볼 수 있는 많은 직함을 달아봤지만 3년 가까이 이 생활을 하면서 R.O.T.C 출신이라든지 사관학교출신의 예비역 장교분을 거의 만나보지 못했다. 뭐 개발자 중에서는 그나마 예전에 장교특별과정이라는 삼성멀티캠퍼스 교육과정에서 만난 선배님들이라든지 동기들이 전부이다. 그 뒤로 여러 개발자 모임이나 세미나에 참석을 많이 해봤지만 한번도 단 한번도 그런 분들을 만나본적이 없다. […]

계속 읽기

달콤한 백수와 사랑 만들기 (Failure To Launch, 2006)

주말을 맞이하야 오랜만에 아주 오랜만에 집에서 영화를 봤다. 제목은 이 포스팅 제목과 같고 외국에서도 33살까지 부모님에게 엊혀사는 사람들이 있을줄을 몰랐는데 뭐 영화니까 그냥 그럭저럭 잘 봤다. 보는 중간에 한국어 제목인 “달콤한 백수와 사랑 만들기”라는게 잘못된 제목이라는 것을 알았다. 영화 최대의 반전은 이 제목이 전혀 영화 내용을 반영하지 못한다는 사실이였다. ㅎㅎ 그렇지만 영화 자체는 볼만했다. 내가 […]

계속 읽기

연봉계약서에 서명하면서

오늘 연봉계약서에 서명을 했다. 무슨무슨 회사 대표 OOO (인) XXXXXX-XXXXXXX(주민번호) 고감자 (인) 쭉 읽어보고 서명 쓱~쓱~ 하고 나서 엇듯 나를 대표하는게 주민번호 밖에 없다니….ㅜㅜ 솔직히 나를 대표할만한게 몇개 있다. 이 ‘블로그’도 그렇고, ‘대학원 과 총무’, ‘오카리나 서울마을의 고감자’, ‘검색엔진 개발자 그룹에 고감자’ 그렇고 다들 고유한 내가 하는 일인데 말이다. 또한 내가 자랑하는 구글에서 “검색엔진 개발자”라고 […]

계속 읽기

[강좌]Lucene Index File Format-1

Lucene Index File Format Overview에 이어 오늘은 하나의 인덱스에 한개나 두개정도 필수적으로 필요한 파일에 대한 설명을 하겠다. 물론 오늘의 백미는 세그먼트 병합(segment merge)이다. 4. 인덱스 파일당 포함되어 있는 것들 1)세그먼트(Segments) 파일 그 해당 인덱스에 포함되어 있는 세그먼트들에 대한 정보를 가지고 있는 파일이다. 오직 이 파일하나만 인덱스 파일에 포함되어 있으며 “segments”라는 파일명으로 존재한다. 이 리스트는 각 […]

계속 읽기

[강좌] Lucene Index File Format Overview

뭐 이번에 루씬(Lucene) 파일시스템을 분석할 일이 생겼다. 물론 일적으로 하는것이고 전에 한번 쭉 봐서 그런지 이젠 뭔가가 보이기 시작하는군. 역시 100번 읽으면 뭐든지 이해가 되는거 같다(讀書百遍意自見). 그냥 어제 문서를 보면서 간단하게 정리를 할 필요가 있다는 생각이 들어서 한번 이곳에 정리해 본다. 1.개요 루씬(Lucene)은 세그먼트라는걸 유지한다. 뭐 sub-index라고 이해해도 될것이다. 이런 세그먼트들이 모여서 하나의 큰 인덱스로 […]

계속 읽기