회사 업무를 기반으로 했던 몇 가지 발견들을 가지고 한글날 논문을 투고할 예정이다. (한글 쿼리가 주가 되는 거니 한글날 학술대회로 내야지…)
물론 회사 이름으로 나가야 할 것은 분명하고…
그리고 아이디어에 대한 상담과 자료를 흔쾌히 제공해 주신 지도교수님도 역시.. ^^
그래서 약 한 2년 만에 논문 관련 카테고리 글을 하나 써본다. 정리 겸…
쿼리 스펠링 관련 몇가지 관련 논문을 읽고 생각 정리를 해봤다.
1. 통계적으로 쿼리 타이핑 에러는 10번중에 1번~1.5번 일어난다.
2. 일반적인 사전 기반의 쿼리 교정은 새로운 용어 및 약어 그리고 많은 상표명들이 새로 만들어지고 사라지는 인터넷 세계에서는 한계가 있다. 따라서 이들에 대한 접근 방법은 워드프로세서 등에서 제공하는 사전 기반의 교정 기법과 달라야 한다.
3. 고전적으로 edit distance를 사용한 방법들이 사용되고 있고 현재도 그렇다. 그리고 단순하게 insertion, deletion, replacement에 모두 같은 1의 cost를 적용하기 보다는 각 문자별로 cost를 정해놓고 weighted edit distance 알고리즘을 주로 쓴다.
4. weighted edit distance의 cost 테이블을 어떻게 하면 동적으로 로그를 기반으로 만들어 내느냐가 최근 논문 트랜드인듯 하다. (이미 훌륭한 방법들이 많이 나와 있다.)
한글 오타에 대한 몇 가지 나의 생각…
1. 한글은 자음, 모음, 자음의 구조로 이루어져 있어서 insertion, deletion, transposition은 상대적으로 그리 많이 일어나지 않고, 대신 replacement는 자주 일어난다.(대충 cost는 어떻게 줘야 하는지…감이 잡힐 것이다.)
한글은 insertion, deletion, transposition 으로 인해 쉽게 한글 문자열이 깨진다. 따라서 이런 오류는 사용자 입력시 쉽게 인지된다. 하지만 replacement는 심지어 한국인이더라도 어떤게 진짜 맞는 단어인지 모를 때가 많다. (디지털, 디지틀, 디지탈 … )2. 음성적으로 유사한 모음, 자음 끼리의 오타가 가장 빈번히 일어난다. 한글은 자음, 모음의 형태가 비슷한 것들이 음도 비슷하다는 특징을 가지고 있다. 게다가 2벌식 키보드 키간 거리가 아들 사이에 짧을 경우도 많다.
3. 두벌식 키보드는 좌측에 자음, 우측에 모음… 오타가 날 것들이 끼리끼리 잘도 모여 있는 구조다.. 게다가 왼손이 일반적으로 더 피로하다..
한글 오타에 대해서는 이것 말고 여러 발견점이 많다. 실제 실험도 수도 없이 해봤고, 아직 공개하긴 이르지만 말이다.
그래서 10월에 있을 한글 및 한국어 정보처리 학술대회때 논문을 낼 계획이다. 한글 쿼리 오타에 대한 것으로…
학술대회 발표가 정말 좋은 이유는… 나보다 더 잘 아는 한글 전문가들이 모두 모여서 이야기 할 수 있는 장이 되기 때문이다. 아마도 내가 발표하는 것 이상으로 이날 얻어 가는 것들이 더 많을 것으로 예상해 본다. 물론 이날 얻은 것들은 다시 프로덕트 퍼포먼스 개선에 쓰이겠지?
쿼리 오타에 대한 정리 몇 가지 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.