형태소 분석기 개발2

형태소 분석기개발에 여념이 없다.

지금 중점을 두고 있는 부분이 사전 써치하는 부분이다. 이 부분을 바이너리 써치로 할려고 하는데…
C로 모듈을 개발하고 나니 가지고 있던 사전 정렬이 형편없이 되어 있는 사실을 알았다. ㅜㅜ

집에내려가는 기차안에서 임시정렬 스크립트를 Python 스크립트로 대충 만들어 돌려보니..
이런….

사전이 다 깨져 있었다. 부사 사전7개 중에 3개가 형태를 알아볼수 없을정도로 깨져있어. 난관에 봉착…

다행이도… 14만 국어사전파일을 구해서(?) (어떻게 구했을까요??? ㅋㅋㅋ)

사전파일을 직접 구축하기로 했다.

한번쓰고 버리는 코드는 되도록 스크립트언어로 하자고 맘 먹은지라…

Python으로 정규식을 이용해 부사만 추출했다.


서의히[성기게,엉성하게]///서의히[부사]<옛말>성기게. 엉성하게. ¶工夫ㅣ 다가 흐워기 디위 고 서의히 디위 야(蒙法38).

이것에서 “서의히” 만 추출했지만…중간에 ‘-‘,’ː’ 이런 문자가 포함되고 ‘[]’ 걸로 둘러쌓여 있는것 태반에…
전처리 작업이 심하게 들어갈거 같다.

사전을 만들다 보니 사전관리툴의 필요성이 절실하게 느껴지고 또한 “사전관리” 라는 업무영역이 꼭 필요할것같다는 생각이 들었다.

일단 단일어(부사, 감탄사,관형사, 단일어 체언) 형태소 부분의 사전을 우선 만든다음에…

체언사전,,,…. 그리고 죽음의(?) 용언사전 구축작업에 들어가야겠다.

사전 파일제작 스크립트 작업은 Python으로 ….

사전관리툴은 MFC로…

형태소 분석기는 C로 만들고 있으니…..

하면 할수록 해야할게 늘어난다는 느낌……켁…

0 0 votes
Article Rating
Subscribe
Notify of
guest

5 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
곡선

아.. 예전 생각이 새록새록 나는 군요…
대학원에서 졸업논문을 Text Mining에 관한 것을 써서… 삽질을 꽤 했다는 쿨럭…
플밍은 대충 책보고 ㅠ.ㅠ
Keyword Dic 만들 때 생각나는 군요…
Polysemy … Synonym … Homonym … 아흑..

한글은 너무 너무 과학적인 언어이지만..
조사 <- 땜시 단어나 형태소 분할이 어렵다는... (영어는 형 변화로... 또 좌절 모드죠...) 여러 가지 툴이 있습니다(잘 아시겠지만...) 그런 것도 한번 둘러보심이 ^^;; 이상.. 예전 생각 끝...

독존

조사때문에 분할이 어려운게 아니라 불규칙용언의 분할을 우리가 잘 모르니 어려운게 아닐까요 :> 할는지 라는 단어는 하+ㄹ는다 라니 이런걸 제대로 분석해내는건 너무 어려운 작업이에요. 이 예는 그나마 좀 쉽긴 하지만.
여튼 정말 어려운 작업하고계시네요. 힘들겠어요-

곰곰이

곡선 님 : 아 제가 한글 공부한지 얼마 안되지만 한글도 어느정도 규칙성이 있다는 연구 결과가 있더군요. 예를들어 1음절 조사에 오는 음절, 용언에만 오는 음절 등등 음절정보를 이용하면 사전 서치하는 부분의 로드를 많이 줄일수 있더군요.

아직은 쓸만한 사전 DB를 구축하느라 여념이 없습니다. ㅡㅡ;

독존 님 : 불규칙 용언 처리는 음절을 음소로 분할한다음에 처리를 할 예정입니다. 아직 구현은 안되어 있구요. 상당한 노가다성 코드가 많이 삽입이 될 여지가 많더군요.

독존님 말씀대로 어려운 작업임에는 틀림없습니다. (ㅜㅜ)

미친병아리

음.. 역시 세상에 쉬운일 하나 없다더니.. 힘내세요..

곰곰이

미병 님 : 간만에 국어 문법 공부하고 있습니다. 차라리 영어 분석기가 편했을거라는 생각이 든건 왜일까요? ㅋㅋㅋ