형태소 분석기개발에 여념이 없다.
지금 중점을 두고 있는 부분이 사전 써치하는 부분이다. 이 부분을 바이너리 써치로 할려고 하는데…
C로 모듈을 개발하고 나니 가지고 있던 사전 정렬이 형편없이 되어 있는 사실을 알았다. ㅜㅜ
집에내려가는 기차안에서 임시정렬 스크립트를 Python 스크립트로 대충 만들어 돌려보니..
이런….
사전이 다 깨져 있었다. 부사 사전7개 중에 3개가 형태를 알아볼수 없을정도로 깨져있어. 난관에 봉착…
다행이도… 14만 국어사전파일을 구해서(?) (어떻게 구했을까요??? ㅋㅋㅋ)
사전파일을 직접 구축하기로 했다.
한번쓰고 버리는 코드는 되도록 스크립트언어로 하자고 맘 먹은지라…
Python으로 정규식을 이용해 부사만 추출했다.
서의히[성기게,엉성하게]///서의히[부사]<옛말>성기게. 엉성하게. ¶工夫ㅣ 다가 흐워기 디위 고 서의히 디위 야(蒙法38).
…
이것에서 “서의히” 만 추출했지만…중간에 ‘-‘,’ː’ 이런 문자가 포함되고 ‘[]’ 걸로 둘러쌓여 있는것 태반에…
전처리 작업이 심하게 들어갈거 같다.
사전을 만들다 보니 사전관리툴의 필요성이 절실하게 느껴지고 또한 “사전관리” 라는 업무영역이 꼭 필요할것같다는 생각이 들었다.
일단 단일어(부사, 감탄사,관형사, 단일어 체언) 형태소 부분의 사전을 우선 만든다음에…
체언사전,,,…. 그리고 죽음의(?) 용언사전 구축작업에 들어가야겠다.
사전 파일제작 스크립트 작업은 Python으로 ….
사전관리툴은 MFC로…
형태소 분석기는 C로 만들고 있으니…..
하면 할수록 해야할게 늘어난다는 느낌……켁…
형태소 분석기 개발2 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.