[강좌]Lucene Index File Format-1

Lucene Index File Format Overview에 이어 오늘은 하나의 인덱스에 한개나 두개정도 필수적으로 필요한 파일에 대한 설명을 하겠다. 물론 오늘의 백미는 세그먼트 병합(segment merge)이다. 4. 인덱스 파일당 포함되어 있는 것들 1)세그먼트(Segments) 파일 그 해당 인덱스에 포함되어 있는 세그먼트들에 대한 정보를 가지고 있는 파일이다. 오직 이 파일하나만 인덱스 파일에 포함되어 있으며 “segments”라는 파일명으로 존재한다. 이 리스트는 각 […]

계속 읽기

[강좌] Lucene Index File Format Overview

뭐 이번에 루씬(Lucene) 파일시스템을 분석할 일이 생겼다. 물론 일적으로 하는것이고 전에 한번 쭉 봐서 그런지 이젠 뭔가가 보이기 시작하는군. 역시 100번 읽으면 뭐든지 이해가 되는거 같다(讀書百遍意自見). 그냥 어제 문서를 보면서 간단하게 정리를 할 필요가 있다는 생각이 들어서 한번 이곳에 정리해 본다. 1.개요 루씬(Lucene)은 세그먼트라는걸 유지한다. 뭐 sub-index라고 이해해도 될것이다. 이런 세그먼트들이 모여서 하나의 큰 인덱스로 […]

계속 읽기

검색엔진 개발자 그룹 비공식 오프모임 합니다.

안녕하세요 검개그 유흥부장입니다 오는 6월 27일에 검개그 비공식 오프모임을 진행하려 합니다 (일정을 일부 수정합니다) 그동안 다들 R&D에 매달리셨던 것 같은데, 오프모임에서 축적된 노하우 보따리를 풀어봐 주시기 바랍니다 아마도 다양하고 심도 있는 IT 트렌드, 포털 서비스 기획 부분, 검색엔진 개발 테크닉 등에 대한 대화가 나오지 않을까 싶습니다 날짜가 화요일인 이유는, 최근 금요일에 시간내기가 어려운 분들이 많아진 […]

계속 읽기

Sorting Algorithm

Insertion Sort, Quick Sort, Heap Sort 속도비교 프로그램을 작성해 봤다. 처음에 정렬할 데이터 갯수를 입력받고 그것을 바탕으로 랜덤숫자를 생성해 정렬하는데 걸리는 시간을 계산하는 프로그램이다. 전에 자료구조 레포트 작성을 위해 만든 프로그램인데 이 프로그램에 정렬하고픈 숫자갯수를 입력받는 기능만 살짝 추가해서 다시 만들어 봤다. Quick Sort의 pivot 값은 가장 왼쪽 값으로 주었고 이 부분에 대한 적절한 수정으로 […]

계속 읽기

블로그 현황 실시간 통계 사이트

뭐 별 말씀은 없지만 검색엔진 개발자 그룹의 typos님이 만드신걸로 추정되는 국내 블로그 실시간 통계 사이트를 올려본다. (아니시라면 댓글달아 주세요.) 블로그 리포트 내가 이것을 만든 사람이 typos님이라 생각하는건 그 동안 나와 나눈 대화들 때문이다. 국내 블로그 통계정보를 다 가지고 계신다는 … 보다시피 네이버 블로그가 압도적으로 많다. 어떻게 이렇게 실시간으로 수집을 하는지 잠시 생각해 봤는데 블로그 서비스에서 […]

계속 읽기

첫눈 캠퍼스 세미나를 찾아서(서울대)

FriBirdz님의 블로그 포스팅을 보구 나두 한번 세미나 후기를 올려본다. 회사하고 가까워서 첫눈에 직접 전화까지 걸어 고대학생이 서울대로 가도 되냐고 물어보고 서울대를 방문해 세미나를 들었다. 눈치로 봤을땐 서울대 컴공과 학생들이 수업 대신에 듣는 세미나인 듯 싶었다. 시작전에 세미나 소감 적는 종이를 나눠 주더라. ㅡㅡ; 뭐 예상대로 이상호 박사님께서는 패턴인식 관련한 PPT를 준비 하셨다. 베이지언 룰을 이용한 […]

계속 읽기

첫눈이 캠퍼스를 찾아온다고 하는데…

갠적으로 첫눈을 상당히 좋아라 한다. 아직 정확한 수익 모델을 보여주지 못하고 있다고는 하지만 개발자인 내가 볼때는 한번 일해보고 싶은 기업이라는 생각이 들정도로 뭔가 심상치 않은 분위기가 조성된 회사로 알고 있다. 이런 첫눈이 캠퍼스를 방문한다고 하넹. 5월 3일 고려대 방문한다고 하는데 왜 하필 서울대와 고려대가 강사가 다른거시지? 이왕이면 서울대 강연하시는 분이 고려대도 강연해주시면 좋겠는데. 왜냐면 서울대 […]

계속 읽기

형태소 분석기 개발의 전환점이 될거 같은 문서 획득

저번 대학원 임해창 교수님 수업시간에 논문관련해서 이런저런 이야기 해보다가 형태소 분석기를 개발해보는것이 어떠겠느냐 하는 말씀을 하시는걸 들었는데 그 와중에 문서 하나 보네주신다고 읽어보라고 하셨다. 그래서 어제 그 문서를 받았다. 우와~! 형태소 분석에 관한 문서는 모조리 다 읽었다고 생각했는데 대학원 연구실에 이런 보물이 숨어 있을줄 꿈에도 생각못했다. 개발하다가 모든 한국어 불규칙 처리에 관한 한국어 문법책을 찾아보러 […]

계속 읽기

웹 로봇 만들기 위한 참고 도서 추천

검색엔진공부 모델링에 대한 글을 예전에 쓴적이 있다. 여기 보면 웹로봇은 “쓸만한 전문도서 없음”이라고 되어 있다. 뭐 그래서 이곳에 덧붙이고자 포스팅을 써본다. 웹로봇을 개발을 하다 보니 이런저런 책을 많이 찾아보게 되는게 사실이다. 그중에서 가장 많은 도움이 된 책을 꼽아 본다면 HTTP: The Definitive Guide라는 책이다. Ch.9에서는 웹로봇을 위한 단원까지 마련되어 있다. 물론 HTTP 프로토콜을 이정도로 다룬 […]

계속 읽기

고려대학교 리포트 표절 검사 프로그램

오늘 오랜만에 학교 홈페이지를 둘러보다가 재미난걸 발견했다. 공고중에 학생들 리포트 표절을 방지하기 위한 일환으로 표절검사 프로그램을 이용하라는 공고였다. 참 재미날걸 발견했다는 생각으로 바로 포탈에 가서 다운받아서 설치를 하고 메뉴얼을 훓어 보았다. 고려대학교 학생이면 고려대학교 포탈에 들어가서 프로그램을 다운받아 사용할수 있다. 이게 정확히 라이센싱이 어떻게 되는지 명시되곳이 없어서 현재로서는 여기에 업로드는 힘들거 같다는 생각이 든다. 임해창 […]

계속 읽기