논문준비

어제 수업시간에 수업대신 임해창 교수님과 논문주제에 대해서 이야기를 나누었다.
그러면서 수업시간에 꺼네놓지도 않은 노트북을 꺼내서 교수님이 이야기하신것과 내가 생각한것을 정리해 봤다.

일단 주제는 사전미등록어에 대한 색인어 추출방법론으로 방향을 잡았고 처리 대상은 신조어라든지 인명등으로 잡고 있고 기회가 된다면 전에 이야기한 개체명 인식까지도 다뤄볼 생각이다.

교수님이 아주 좋은 지적을 해주셨다.

검색질을 향상시키고자 하는 목적인가? 아니면 형태소 분석이 목적인가?

기존에 교수님이 알려주신 논문인 정보검색을 위한 색인어 추출방법에 관한 연구 = (A) Study on Keyword Extraction for Korea Information Retrieval System을 참고 하자면 이곳에서는 사전 미등록어에 대한 처리를 n-gram 방법으로 처리를 했다. 다만 이렇게 하면 검색성능의 저하는 거의 오지 않지만 색인DB의 용량이 늘어나는 치명적인 단점이 있다. DB가 늘어난다 함은 검색속도에 영향을 상당히 많이 줄수 있다는 것이다.

교수님이 지적하신 부분에서 나는 두마리 토끼를 잡고자 논문의 방향을 잡을 것이다. 뭐 구글도 n-gram으로 색인어 추출을 한다는 소문이 있고 첫눈도 n-gram으로 추출하는걸로 이미 알고 있다. 검색결과에 별 불만은 없지만 대용량으로 갈수록 색인 용량은 발목을 잡게 마련이라고 생각한다.
이런 배경때문에 사전미등록어의 품사 추정을 해보고자 한다.

뭐 그래서 정리된 Mind Map을 공개한다.(수업시간에 살짝 정리한 맵)

붉은색 부분이 논문 주제가 될 부분이다.

일단 형태소 분석기는 강승식 교수님 논문의 기반으로 제작한것이 있고 앞으로 발전을 계속 시켜나갈 것이기 때문에 논문과 무관하지 않다. 일단 여러 색인어 관련논문을 많이 보고 블로그 논문카테고리에 정리해 나가야 겠다.

게다가 이번에 논문 지도교수님 선정을 하는데 임해창 교수님께서 지도해주신다는 약속을 했다. 6명의 동기중에 2명만 받으신다고 했는데 그중에 한명은 나로 확정되었다.
교수님 기대에 부흥하고자 노력해보자!

CC BY-NC 4.0 논문준비 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.