형태소 분석기를 한참 개발하다가 저질 사전이 문제가 많아 사전구축 작업에 들어간지 이틀만에 사전을 완성하였다.
9품사별로 나뉘었고, 음절별로 나누어 DB파일로 저장을 했다.
용언은 사전에 나온 그래로 DB로 만들었고 형용사와 동사를 합칠까 고민도 해봤는데 따로 놓는게 나중을 생각해서라도 나을거 같아서 분리해서 놓았다.
단독 어절로 등장하는 단어(관형사, 부사, 감탄사, 단일어 체언) 같은 경우도 따로 저장을 해서 분류하였다.
물론 사전에 신조어등은 나오지 않는다. 신조어 같은건 실제 손으로 직접 넣어야될 것들이니….
암튼 오래 걸릴거 같았던 사전DB구축 작업이 빨리 끝났다.
이번 작업하면서 에디터에서 정규식으로 Find하고 Replace하는 기능 덕을 톡톡히 보았다.
형태소 분석기 개발3 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.