검색엔진에 관한 일

개인적인 프로젝트까지 추가해서 내가 하는 검색엔진 관련 일이 무려 3가지이다.

1. 색인기
2. 웹로봇 다운로더
3. 공개 형태소 분석기

어제는 공개 형태소 분석기의 음절정보테이블 생성을 위한 Python스크립트를 짜다가 소개팅을 하러갔다.ㅎㅎ

그러니까.

기존의 완성형 기준의 음절정보테이블을 같은 음절에 대응되는 유니코드문자에 대한 인덱스 배열을 만들어 주는 작업이었다.(음절순서가 완전하게 대응되지 않아서 의외로 많은 생각을 요한 문제였다.) 잘 만들어졌는지 검증은 안되지만 알고리즘상으론 그리 무리가 없게끔 스크립트를 짰다.
6234개의 음절에 대한 정보 배열인데 분석 전반에 걸쳐 아주 많이 사용되는 중요한 정보이니. 쩝

색인기쪽두 회사일이구 웹로봇 관련일도 회사일이여서 자세한 이야기는 공개를 못하겠으나, 형태소 분석기 작업은 이곳을 통해 하나하나 로깅을 해나갈 예정이다.

오늘 점심 식사하면서 생각해보니 검색엔진의 중요한 세가지 부분에 대한 작업을 동시에 하는 셈이 되어 버렸다. C언어구현이 2개, Java구현이 1개…

아주 재미있는 경험이 되겠다는 생각…..

CC BY-NC 4.0 검색엔진에 관한 일 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.