논문 세미나(2010.07.09)

사실 오늘 학교에 온 이유는 교수님하고 약속이 있었기 때문이다. 물론 컨퍼런스 콜도 없는 주이기도 하고…

2주전에 보낸 작성중인 논문 – 가제(“외래어 분류 속성을 이용한 한글 쿼리 오타 교정 성능향상”) 때문인데, 짧지만 많은 이야기를 나누고 온 거 같다.
그런데, 한글 쿼리 다시 말해 한국 쿼리(한국인이 한국어 검색 서비스에 입력한 쿼리)들에 대한 기존 연구가 전무한 현재 상황에 대해서 나 역시 생각하고 있었지만, 교수님도 그렇게 생각하고 계셨다. 따라서 논문이 내가 성능향상을 했던 부분만 톡 따내서 보여주기에는 배경 설명이 너무 없을 수 있다는 말씀을 하셨다.
한마디로 논문이 충분히 길어질 수 있다는 말씀이셨다.

일단 두 가지 서베이가 필요하다.

1. 한국 쿼리에 대한 분석
2. 한글 쿼리 오타 교정에 대한 분석


사실 1번만 해도 거의 국내 연구가 없는 상황이라 이 정도만으로도 서베이 논문 한편 감이다.
전체 쿼리셋 중에서 한글 쿼리가 차지하는 크기는 88%정도였다. 영문 쿼리는 3.6%, 한글/영문 혼합 쿼리가 4.33% 이외 쿼리들이 2.81% 정도다.
따라서 교정 서비스는 초기에 한글 쿼리에 집중하는 것이 가장 효율적인 접근 방법이 될 것이다.
어제 한국 검색 서비스에 들어오는 영문 쿼리의 비율 그리고 영문 쿼리들의 길이에 대한 통계 결과를 살짝 산출해 봤는데, 영문 쿼리만 놓고 보더라도 영어권 사람들이 입력하는 영문 쿼리하고 판이하게 다른 입력 패턴이 도출되었다. 이런 결과라면 당연히 한국 사람들이 입력하는 영문 쿼리 교정이라든지 여타 다른 마이닝 처리가 외국 엔진하고는 살짝 다르게 동작해야 된다는 것을 의미한다.
한글 쿼리의 경우는 2단어 이상을 가진 쿼리가 전체 56%를 차지하고 있었다. 이 정도면 바이그램 확률 정보가 교정기 성능향상에 영향을 크게 줄 수 있음을 알 수 있다.
따라서 1번만으로도 다양한 양의 서베이가 가능하고 이런 서베이가 국내에 거의 없는 관계로 사명감이 남다르기도 하다.
그럼 2번은 어떤가?
한글 쿼리 오타 교정의 국내 연구 결과 또한 거의 없다. 이는 쿼리 자체에 대한 분석이 지금까지 전무했던 이유와 비슷할 것이다.
사실 1,2번에 대한 설명이 모두 이전에 되어 있어야 외래어 쿼리에 대한 성능향상을 설명할 상황이 되는 것이다.


일단 가장 기대되는 부분은 한글 쿼리 오타 유형 분석 부분이다.
사람들이 어떤 오타를 가장 많이 범할까? 이의 원인은 무엇이고 이를 해결하기 위해서 어떤 성능향상 방안을 제안할 것인가? 이 부분을 위해 오늘부터 약 3천개의 한글 오타 쿼리를 이용해서 분석해볼 생각이다. 아마도 이 통계작업이 끝날 즈음에서는 기존 내가 만들었던 시스템에 대한 좀 더 확고한 확신과 더불어 더 나은 성능향상 방안도 도출할 수 있을 거라 생각한다.

CC BY-NC 4.0 논문 세미나(2010.07.09) by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.