논문 분석 1 – 한국어 정보검색을 위한 색인어 추출 방법에 대한 연구

주말이긴 하고 집에서 그냥 시간 보네기 뭐해서 논문을 분석하려 학교에 와 이렇게 정리해본다.

논문을 쓰기 위해서는 기존의 논문을 분석하는 방법이 가장 좋다는건 이미 알고 있었고, 이미 읽었던 논문이라도 이렇게 정리를 해보는게 나중을 위해서 좋은 방법이라고 생각해 정리해본다.

분석 논문 : 한국어 정보검색을 위한 색인어 추출방법에 관한 연구 (고려대학교)
저자 : 최순우

이 논문은 형태소 분석을 위주로 하는게 아닌 여러 색인어 추출 방법론을 고려해서 여러 조건들을 주고 어떤 경우에 색인어가 잘 추출이 되고 검색 정확도가 높게 되는지에 대한 연구 논문이다. 임해창 교수님이 처음 읽어보라고 주신 논문이기도 하고 논문 주제 발표시 이 논문의 연구결과를 많이 이용했기 때문에 먼저 정리해 본다.

여기서 다룬 색인법은 형태소 단위 색인법, 바이그램 단위 색인법, 명사 단위 색인법, 어절 단위 색인법을 사용하였다. (개인적으로는 형태소 단위 색인법이 명사 단위 색인법을 포함한다고 생각하는데 이 논문의 저자분께서는 분리해서 사용을 하였다.) 그리고 또한 대부분의 형태소 분석기는 복합명사에 대한 분리 기능을 가지고 있는게 추세인데 명사 단위 색인법에서만 복합명사가 분리 가능하다고 가정하였다.

분석 결과는 이렇다.

1. 복합명사만 색인하는 것보다, 분해된 명사를 색인하는게 좋은 성능을 보인다.
2. 외래어 및 신조어들을 통칭하는 추정명사를 분해하지 못하는 경우가 발생한다.(발음 확장부분에 대한 고민 필요)
3. 복합명사 분해후 복합명사를 색인어에 추가하는 경우에 좋은 검색결과를 보일수도 있고 뺄 경우에 더 좋은 검색 결과가 나올수도 있다. 실험 결과로는 복합명사가 3개 이상이거나 명사 길이가 6음절 이상일때 복합명사 자체를 색인어로 넣는걸 추천한다.

이에 따른 제안 알고리즘

1. 빈칸, 특수문자 등을 구분자로 어절을 추출한다.
2. 전처리 후 각 부분별로 분리하고 영어를 Stemming 처리 한다.
3. 어절을 명사분해 하여 명사 등의 실질 형태소를 추출/색인한다.
4. 실질형태소가 추정명사 이거나 동사이면 바이그램 색인한다.
5. 추출된 실질형태소가 3음절이고 명사분해가 발생하지 않는다면 앞 2음절을 색인한다. (내 생각으로는 나머지 1음절은 접미사나 1음절 명사로 가정해버린게 아닐까 한다. 그런데 만일 접두사가 있는 명사라면???)
6. 6음절 이상의 복합명사일 경우 색인어로 추가한다.

논문에서 발쵀한 위 목록을 정리한 그림

개인적으로는 5번은 약간 고려해볼만한 의미가 있는 부분일꺼 같다. 이 논문이 형태소 분석 전문 논문이 아닌바, 5번과 같이 처리 했으리라 판단이 된다. 이경우 더 많은 후보 색인어의 추출이 가능하지 않을까 한다.
6번은 본 논문에서 경험적으로 얻은 실험결과 이기 때문에 상당히 가치있는 부분이라 생각한다. 사실 이 논문을 보기전에는 복합명사 자체가 색인어에 추가될 필요가 없다고 생각했기 때문이다.

그리고 사전 미등록된 형태소 분리가 안되는 어절에 대해서는 바이그램 색인을 해서 상당한 효과를 봤다고 한다. 이 부분에 내가 바이그램 색인 이외의 방법을 고완고안하고자 하는 계기를 마련해준 부분이다. 물론 바이그램 색인이 알고리즘 복잡도에 비해서 결과가 잘 나오는 색인법이기는 하지만 일단 무식한 색인DB를 잡아먹는 방법이기에 일단 고려해보기로 했다.

마지막으로 논문의 저자분께서 복합명사 자체를 색인어로 추가할지 말지에 대한 숙제를 남겨줬다. 개인적인 생각으로는 복합명사 자체가 많은 의미를 가지고 있는지 아닌지에 대한 판단법이 필요하다는 생각이 든다. 그걸 이 논문에서는 6음절 이상의 복합명사라고 하였지만 그 의미가 음절정보만으로 판단되는게 아니기 때문에 더 많은 변수의 고려가 필요할거 같다.

논문을 읽고 느낀점은 기존의 방법론의 조합만으로도 하나의 분석 프레임웍을 만들수 있다는걸 보여줬고 성능향상도 기대할만하다는 걸 보여준 아주 기분좋은 논문이였다. 형태소 분석 등의 색인어 추출에 대한 내가 가지고 있던 많은 고정관념들이 해소가 될수 있었던 좋은 기회였던거 같다.

이 글 공유하기:

이것이 좋아요:

Related Post