같은 의미의 영어와 한글을 어떻게 한 색인항목에 넣을 수 있을까?

교수님이 주신 “Concept Unification of Terms in Different Languages for IR“이라는 논문을 분석해서 논문 세미나를 했다.

이 논문의 내용은 무엇이냐 하면….ㅎㅎ

“디지털”이라는 쿼리를 넣었을때 “Digital”, “디지털”, “디지틀” 이라는 단어가 포함되는 문서 모두가 나오게 하려면 어떻게 할 것인가? 라는것이다. 물론 외래어 뿐만 아니라 세계무역기구(WTO), 서울대(Seoul National University) 등의 약어나 복합어에 대한 Unification까지 생각하면 어떻게 알고리즘을 구현해야 하는지에 대해 고민이 주된 내용이긴 하지만 말이다.

기존의 외래어의 Unification을 하는 알고리즘인 “back transliteration”은 영어단어의 한글 발음을 표현한걸 Unification하는것이고(디지털,디지틀,디지탈,Digital)등. sementic(의미), phonetic(음성) method 및 확률 방법론을 가미한 가중치로 후보구를 축소해 그걸 같은 색인항목에 넣어버리는것이다.

어제 오늘 논문 분석을 하고 발표자료 만드는데 우~~~ ㅜㅜ 쫌 힘들었지만 다른 신기한 뭔가를 본듯한 느낌이 들 정도로 재미있는 논문이였다.

논문의 기능을 구현하자면 검색엔진을 위한 검색엔진 크롤러도 구현을 해야겠고 색인을 위한 Unification DB도 만들어야 하겠다. 논문 결과로 14.9%의 한글 검색 정확도가 나왔다니 무시할만한 기능 구현은 아니라고 본다.

방금 논문 세미나 발표를 했는데(교수님께서 별말씀 없으셨다.^^;) 아래의 파일은 논문 발표한 pdf이다. 본문을 보자면 제일 위의 링크를 클릭하면 된다.

XQtRQdkPlJ.pdf

ps. 요즘 너무 바쁘다. 내일은 좀 쉴 수 있을라나. ㅡㅡ;

CC BY-NC 4.0 같은 의미의 영어와 한글을 어떻게 한 색인항목에 넣을 수 있을까? by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.