선어말 어미가 있는 용언을 복원하는 부분을 완료 했다.
1. 어간이 바뀌는 불규칙 확용
2. 어미가 바뀌는 불규칙 활용
3. 어간과 어미가 바뀌는 불규칙 활용
이렇게 나눠서 작업을 했다.
어떤분이 ㅎ불규칙은 선어말 어미가 있을경우 고려할 필요가 없다고 그러셨는데 고려해서 작업을 했다.
예를 들어 (파랬다)의경우 (파래)가 선어말 어미를 분리했을때 분리될 것이고 (파랗 + 이)로 분리되어서
최종적으로 (파랗)을 사전을 검색해서 판정을 내리게 된다.
그런데 (누랬다)처럼 이것같은 경우는 (누랗 + 이)로 변환이 될경우도 있기때문에 ‘ㅏ’와’ㅓ’모두에 대해서 사전검색이 필요할것이다.
작업하면서 논문에 나와있지 않아서 바꾼 부분은 이정도 이고
조심해야 할 부분은 ‘으’탈락, ‘러’불규칙, ‘르’불규칙의 원형을 복원할때 ‘으’탈락을 제일 마지막에 하고 ‘러’나 ‘르’의 경우에는 서로 겹치는 부분이 생기기 때문에 변환법칙을 잘 숙지해서 특징적으로 분류를 해야한다.
프로그램으로 구현한다면 플래그를 주는 방법도 괜찮은 방법이다. ‘러’나 ‘르’불규칙에 해당되지 않은 용언이 ‘으’탈락의 후보에 오르기 때문이지.
작업해면서 용언의 원형을 복원하는데 촛점을 맞추다 보니 선어말어미가 엉망으로 정리가 되더군.
‘ㅎ’ 불규칙 처리의 경우 (누렇 + 이ㅆ + 다) 이렇게 변형이 된다. (누렇 + 있 + 다)로 변형이 되어야 예쁘게 보니긴 할거 같은데 나로서는 그리 의미없는 작업이라 생략하기로 했다.
나중에 충분히 함수 하나로 작업이 가능한 부분이라는 개인적인 위로도 해본다. ^^;
이제 선어말 어미가 없을경우 작업을 들어갈 시점이다.
각종 불규칙이나 탈락 현상이 선어말 어미가 있을경우와 대동소이 할것이라 생각이 된다.
형태소 분석기 개발5 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.