형태소 분석기 코딩에 들어가기전 마지막 정리를 블로그에 하려고 한다.
팀장님에게 휴가 다녀오고 난 다음부터 코딩으 들어가겠다고 단언을 했으니
내일부터 코딩에 들어가려면 여독을 좀 빼고 논문정리도 좀 해가면서 글로 정리해봐야 겠다.
우선 형태소 분석기를 담당하게 해주신 팀장님께 감사드리고 음절정보를 이용한 형태소 분석 논문을 만들어 주신 국민대학교 강승식 교수님에 감사하다는 말을 전하고 싶다.
이 정리는 전적으로 강승식 교수님의 “음절 정보와 복수어 단위 정보를 이용한 한국어 형태소 분석”논문을 기초로 하였다.
일단 논문에 나온 전처리건 머건 나중에 생각하고…
1. 문자열을 토큰 형태로 저장하는 모듈 작성하자.
2. 그리고 조합형 <-> 완성형 상호 변환 모듈을 작성하자.
3. 음절이 어미인지 조사인지 판별하는 어절정보 테이블 작성(논문 기반)
우선 조사하고 어미 사전만 구축하고 형태소 분석을 해보자!
3번까지 완료가 되었다.(05.08.10)
4. 먼저 분리가 필요없는 단일어절을 찾는다. 부사, 관형사, 감탄사 조사없는 체언정보를 찾는 모듈을 만들자.
5. 그리고 용언에만 오는 음절이 있는지 조사하고 그런 음절이 있을경우 굳이 체언 + 조사 정보를 써치할 필요가 없어진다.
형태소 분석기 개발 1 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.