저번에 검개그 오픈소스 검색엔진 프로젝트 차원에서 형태소 분석기를 만들어 보자는 의견이 있었고, 오늘 그에 대한 첫 비공식 모임을 가졌다.
개발할 시간이 없어서 이래저래 많은 의욕적인 분들과 접촉을 하면서 함께 코웍하기를 그동안 그렇게나 원했지만 기회가 나지 않았다.
그동안 안철수 연구소에서 일하시면서 함께 개발하고자 하는 의욕을 보여주신 분도 있었고,(이분은 학교를 외국에서 다닌다며 출국해버렸다. ㅜㅜ) 금전적(ㅜㅜ)으로 도움까지 주시려 하셨던 분들도 있었다. 그리고 사전 데이터 스트럭쳐에 대해서 조언과 따끔한 질책까지 주셨던 분들도 있었다.
그런데 더 큰 문제는 시간이 가면서 점점 개발에 투자할 시간이 없어졌고,(학교, 회사일 등등) 그에따라 개인 프로젝트 자체가 부담으로 다가왔다. 그리고 내 이름 석자를 걸고 하기에는 조금은 버거운 일이 되어 버린것이다.
그렇게 시간이 흘렀고 검개그 차원에서 추진해 보자는 의견을 개진해 Lucene 기반 분석기를 공식적으로 추진하게 되었다.
정말 기분이 좋았고, 같은 주제로 다들 상당한 내공을 가진 분들이 이런저런 의견을 개진해 주셔서 아주 재미있는 시간이 되었다.
오늘 가장 흥미로웠던 부분은 typos님이 모은 1테라이상의 블로그 글들에서 어절을 추출해 랭킹을 구해본 다음에 그 랭킹의 우선순위에 따라 형태소 분석기를 적용해 가면서 랭킹에 많이 오른 어절들의 분석률을 높이고 예외의 것이나 빈도수가 비정상 적으로 높은 어절에 대해서 우선 공통으로 처리할 수 있는 논리적 기능을 구현하고 속도 향상과 예외 처리를 위해 기분석 사전으로까지 발전 시켜 보자는 의견이 있었다. 물론 이 의견은 형석형님이 내신거였고, typos 큰 형님이 흔쾌히 해주신다고 말씀 하셨다. 이렇게 기가막히게 재밋는 일을 형석 형님이 독차지 하게 놔두지는 않을것이다. ㅋㅋㅋ
(typos 형님이 500기가의 정도의 html 테그가 제거된 양질의 블로그 글을 주신다고 하신다. 역시나 typos형님의 구루봇은 정말 열심히 일한다. ㅋㅋ )
모임의 장은 typos 큰 형님이 하시고, 설계및 조언과 노하우 전수는 형석 형님이 해주시기로 했다. 그래서 개발은 싸이오형님과 내가 주로 하게 될거 같다.(곧 방학이니 크게 힘들지는 않을거 같다.)
싸이오 형님도 실제 형태소 분석기를 개발해보신 경험이 있는 분이라서 중간 노하우 공유같은 작업은 하지 않고 오늘 바로 모여서 설계를 했다.
기존에 내가 이곳에 포스팅 하면서 혼자 만들어간 모듈을 모두 다시 설계작업에 투입해 정리가 될 예정이다. 물론 사전 검색 인터페이스는 바뀌겠지만 유니코드 음절정보테이블 룩업하는 모듈과 테이블 그리고 음소변환 및 조합 모듈은 나의 간단한 설명과 코드의 주석을 끝으로 적용이 될듯하다.
중간 커뮤니티 할 수 있는 그룹웨어를 형석형님의 솔류션을 적용해서 만들어 두고 그동안 소스 만들어 놓은거 정리해서 다 올리고 일주일에 한번정도 모여서 중간점검과 회의를 하기로 했다.
오늘 너무 많은 이야기를 하려고 해서 머리가 복잡하지만 다들 좋은 의견을 많이 내주셔서 좋은 시간이 되었던거 같다.
내년 apress에서 nutch 책이 나올때까지는 Lucene KoreanAnalyzer가 나오길 바래야 겠다. ^^
ps. 이렇게 공개 포스팅으로 질러 놨으니 다들 부담좀 가지시고 함께 잘 해나갔으면 좋겠다. ㅋㅋ
Lucene KoreanAnalyzer : 다시 시작하다. by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.