[강좌]Lucene Index File Format-3

텀 사전(Term Dictionary) 텀 사전은 두개의 파일로 구성된다: 1) 텀 정보 파일 또는 .tis 파일 <구조 요약> TermInfoFile (.tis)–> TIVersion, TermCount, IndexInterval, SkipInterval, TermInfos <각 인자별 자료형 정의> TIVersion –> UInt32 TermCount –> UInt64 IndexInterval –> UInt32 SkipInterval –> UInt32 TermInfos –> <TermInfo>^TermCount TermInfo –> <Term, DocFreq, FreqDelta, ProxDelta, SkipDelta> Term –> <PrefixLength, Suffix, FieldNum> […]

계속 읽기

첫눈 장사 잘 하셨습니다.

첫눈 NHN에 인수 첫눈이 한국의 구글이 되겠다고 좋아라 했는데, 결국 네이버(NHN)로 넘어갔군.(솔직히 넘어갔다는 이야기는 전부터 지인(?)에게 들어서 알고 있었다.) 전에 서울대 강연때 수익모델 어쩌구 저쩌구 질문하던 그 학생이 갑자기 생각나고 기술력으로 승부하겠다던 그때의 장병규 사장의 말이 순간적으로 스치는 그런 순간이였다. “장병규 사장님 그곳에서 이야기하던 그 꿈은 이룬것인가요?” 어짜피 기업은 쇼맨쉽이 있어야 하니 뭐 사장을 욕할 […]

계속 읽기

이번 학기도 역시…

장학금을 탈 수 있을거 같다. 아니 탄다! 오늘 성적공시 기간인데, 다 잘(?) 나왔다. 저번학기처럼 All A+이다. 쩝. 이번 학기는 뭔가 방황이 많은 학기여서 성적에 큰 기대를 안한게 사실이긴 한데, 잘 나와줘서 고맙다. 솔직히 운도 조금 좋았던거 같기도 하다. 자료구조론은 뭐 평소 관심이 가던 분야였고, 멀티미디어 특론은 거의 인공지능과 기계학습 공부나 다름 없었고(내가 좋아하는 분야다.), 디지털 […]

계속 읽기

[강좌]Lucene Index File Format-2

이번 강좌에서 설명할 파일구조는 Field의 정보에 대한 파일이다. 단순히 필드의 속성 및 이름 값을 루씬이 어떤식으로 접근하려고 하는지 확인해 보는 장이 될것이다. 5. 세그먼트당 포함된 파일들 세그먼트에 포함된 모든 파일들은 확장자에 의해 구분이 된다. Fields 1)필드정보(Field Info) 저장파일 필드정보 저장파일은 .fnm이라는 확장자로 저장이 된다. <구조 요약> FieldInfos (.fnm) –> FieldsCount, <FieldName, FieldBits>^FieldsCount <각 인자별 자료형 […]

계속 읽기

왜! R&D 쪽으로는 장교출신을 보기 힘들까?

내가 프로그래머, 개발자, 연구원 등의 공대 출신 사람으로써 달아볼 수 있는 많은 직함을 달아봤지만 3년 가까이 이 생활을 하면서 R.O.T.C 출신이라든지 사관학교출신의 예비역 장교분을 거의 만나보지 못했다. 뭐 개발자 중에서는 그나마 예전에 장교특별과정이라는 삼성멀티캠퍼스 교육과정에서 만난 선배님들이라든지 동기들이 전부이다. 그 뒤로 여러 개발자 모임이나 세미나에 참석을 많이 해봤지만 한번도 단 한번도 그런 분들을 만나본적이 없다. […]

계속 읽기

달콤한 백수와 사랑 만들기 (Failure To Launch, 2006)

주말을 맞이하야 오랜만에 아주 오랜만에 집에서 영화를 봤다. 제목은 이 포스팅 제목과 같고 외국에서도 33살까지 부모님에게 엊혀사는 사람들이 있을줄을 몰랐는데 뭐 영화니까 그냥 그럭저럭 잘 봤다. 보는 중간에 한국어 제목인 “달콤한 백수와 사랑 만들기”라는게 잘못된 제목이라는 것을 알았다. 영화 최대의 반전은 이 제목이 전혀 영화 내용을 반영하지 못한다는 사실이였다. ㅎㅎ 그렇지만 영화 자체는 볼만했다. 내가 […]

계속 읽기

연봉계약서에 서명하면서

오늘 연봉계약서에 서명을 했다. 무슨무슨 회사 대표 OOO (인) XXXXXX-XXXXXXX(주민번호) 고감자 (인) 쭉 읽어보고 서명 쓱~쓱~ 하고 나서 엇듯 나를 대표하는게 주민번호 밖에 없다니….ㅜㅜ 솔직히 나를 대표할만한게 몇개 있다. 이 ‘블로그’도 그렇고, ‘대학원 과 총무’, ‘오카리나 서울마을의 고감자’, ‘검색엔진 개발자 그룹에 고감자’ 그렇고 다들 고유한 내가 하는 일인데 말이다. 또한 내가 자랑하는 구글에서 “검색엔진 개발자”라고 […]

계속 읽기

[강좌]Lucene Index File Format-1

Lucene Index File Format Overview에 이어 오늘은 하나의 인덱스에 한개나 두개정도 필수적으로 필요한 파일에 대한 설명을 하겠다. 물론 오늘의 백미는 세그먼트 병합(segment merge)이다. 4. 인덱스 파일당 포함되어 있는 것들 1)세그먼트(Segments) 파일 그 해당 인덱스에 포함되어 있는 세그먼트들에 대한 정보를 가지고 있는 파일이다. 오직 이 파일하나만 인덱스 파일에 포함되어 있으며 “segments”라는 파일명으로 존재한다. 이 리스트는 각 […]

계속 읽기

[강좌] Lucene Index File Format Overview

뭐 이번에 루씬(Lucene) 파일시스템을 분석할 일이 생겼다. 물론 일적으로 하는것이고 전에 한번 쭉 봐서 그런지 이젠 뭔가가 보이기 시작하는군. 역시 100번 읽으면 뭐든지 이해가 되는거 같다(讀書百遍意自見). 그냥 어제 문서를 보면서 간단하게 정리를 할 필요가 있다는 생각이 들어서 한번 이곳에 정리해 본다. 1.개요 루씬(Lucene)은 세그먼트라는걸 유지한다. 뭐 sub-index라고 이해해도 될것이다. 이런 세그먼트들이 모여서 하나의 큰 인덱스로 […]

계속 읽기

윈도 라이브 메신저 좋넹~~

달라진 기능들 문자보내기 화면 무료문자 보내려고 이제 네이트 온 로긴 할 필요 없겠군. ㅎㅎ 이 밖에 많은 기능이 있는듯 하지만 써보고 느낄수밖에 없군. 그나저나 스페이스라는게 있어서 거의 싸이월드 수준의 개인 커뮤니티가 만들어지는게 아닌가 한다. 그렇지만 스페이스는 약간 사무적인 느낌이 많이 나는군. 난 메신저 친구 공개로만 해놓았다. 라이브 메신저 받는곳

계속 읽기