여러분과(?) 논의한 결과 여러 문제를 없애기 위해서는 기존에 내가 가지고 있던 C기반의 형태소 분석기 보다는 Lucene의 기반이 되는 Java언어로 만들기가 확장성 측면에서 좋을거 같다는 의견에 동의를 하고 자바기반 공개 한국어 형태소 분석기 개발을 시작하려 한다.
일단 Analyzer분석을 틈틈히 하고 있고, 테스트도 간간히 해보면서 기존의 Lucene이 가지고 있는 Tokenizer나 Filter의 특성을 파악하고 있는 중이다. 조금 보니까….쩝
Tokenizer는 전처리 부분이 되겠고, Filter는 본격적인 형태소 분석 모듈이 안착하게 될거 같다.
일단 확장성이 좋게 만드는게 좋을거 같다는 생각이 드니 Lucene의 기본 분석기 모듈의 구조에 잘 맞게끔 만들어야 할 것이다.
본격적인 코딩 작업은 8월 둘째주에 있는 여름 휴가기간에 도서관에 가서 코딩하기로 하고…(아마 이때쯤 최소한 조사분리기능 정도는 되어 있으리라 생각된다.)
그 전까지 해야될 일은
1. 확률기반의 품사규칙 테이블을 유니코드에 맞게 커스터마이징 작업을 하고 자바언어에서 쓰기 편한 포멧으로 변경하는 작업.(생각 밖으로 간단할 수도 엄청난 노가다 작업이 될 수도 있다.)
2. 전에 수집해 놓은 14만 한국어 사전을 B-Tree 기반의 파일 DB에 저장.(이부분은 버클리DB를 사용할 예정이고, 간단히 Python 스크립트로 사전파일은 구성이 가능하리라.)
3. 클래스 설계
4. 고향집에서 조용히 작업할 작업환경 알아보기.(아마두 군산대학교 도서관이 될듯)
오랜만에 Eclipse기반의 Java열혈 코딩을 하게되겠군. ㅎㅎㅎ
그나저나 휴가기간에 코딩하는건 미덕이 아닌데…쩝
Lucene 공개 한국어 형태소 분석기 개발 시작의 변 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.