논문을 읽기는 했는데 별다른 감흥이 없어서 접어두고 있던 논문 분석을 해본다.
분석 논문 : 한국어 문법 검사기를 위한 형태론적 중의성 제거와 미등록어 추정 (부산대학교)
저자 : 이도관
위와 같은 논문이고 미등록어 추정부분에 대한 부분은 아주 조금 나와있어서 그렇게 많은 도움은 되지 않았지만 몇몇 중요한 사항을 정리해 보고자 한다.
무엇보다 이 논문은 형태론적 중의성해소를 중점으로 두고 있는 논문이고 규칙과 통계적 기반을 바탕으로 해서 97.87%의 정확도를 달성한 논문이다. 규칙부분은 어절 좌 우측의 형태소를 기반으로 하여 해당 어절의 형태소를 추측하는 과정이며 이 단계에서 가중치 부여를 함으로 최대 가중치를 받은 결과를 도출하는 것이다.
이 부분에서 중심어절을 선택하는게 중요한 해결 실마리가 되고 이 중심어절을 중심으로 좌 우측 문맥에 따라 중의성을 제거한다.
유형을 정리해보자면.
유형 1. 중의성을 처리하는 방법은 중의성을 가진 어절이 중심 어절이 되어 좌우 어절에 의해 자신의 중의성을 제거하는 방법
유형 2. 중의성이 없는 어절이 중심이 되어 좌우의 중의성을 제거하는 방법 (중의성은 없으나 중심어절로 놓는다.)
유형 3. 중의성이 있는 어절이 중심이 되어 문맥에 따라 좌우 어절과 자신의 중의성을 제거하는 방법
구문적 제약에 의한 중의성 제거방법 또한 사용이 되는데 총 22개의 문법적 제약에 따른 제가 방법이라 이곳에 나열하지는 않겠다. 따로 논문을 참고하기 바란다.
마지막으로 통계정보 학습을 이용해 나머지 분석 결과는 정제하게 된다.
통계적인 방법으로 어미나 조사의 갯수가 늘어나기 때문에 최장일치선택 방법이나 규칙에 의한 가중치 값을 활용을 하였다.
마지막으로 미등록어 추정 부분은 조사 역사전 및 어미 역사전을 이용해 최장일치 우선의 경험적 지식에 기반한 방법을 선택했다. 그러니까 조사, 어미, 기본 역사전 순으로 사전 검색을 해서 최장으로 나오는 결과에 가중치를 부여하고 “에게”, “께”, “한테” 같은 조사와 호칭을 의미하는 접미사와 결합하는 것, 길이가 3자인 미등록어는 사람이름으로 추정하는 규칙을 정해서 미등록어 추정을 하였다.
논문을 미등록어에 치중해 보다보니 그리 만족스럽지 못한게 사실이였지만 미등록어 추정이 그리 단순한 문제가 아니라는 것을 알기엔 충분한 논문이였던거 같다.(복합명사분리 문제도 포함이 되더라. ㅡㅡ;) 여러 규칙과 통계를 조합한 방법이 상당히 좋은 결과를 가져온다는것도 알게 되었고 더 많은 feature를 발견해 분류에 적용한다면 논문의 방향을 잡기가 훨씬 쉬워 질꺼라는 생각을 해보기도 하였다.
논문 분석 2 – 한국어 문법 검사기를 위한 형태론적 중의성 제거와 미등록어 추정 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.