저번 대학원 임해창 교수님 수업시간에 논문관련해서 이런저런 이야기 해보다가 형태소 분석기를 개발해보는것이 어떠겠느냐 하는 말씀을 하시는걸 들었는데 그 와중에 문서 하나 보네주신다고 읽어보라고 하셨다.
그래서 어제 그 문서를 받았다.
우와~! 형태소 분석에 관한 문서는 모조리 다 읽었다고 생각했는데 대학원 연구실에 이런 보물이 숨어 있을줄 꿈에도 생각못했다.
개발하다가 모든 한국어 불규칙 처리에 관한 한국어 문법책을 찾아보러 서점에서 고생했던 점들이 모조리 아주 잘 정리되어 여기에 담겨 있었다. (180여 페이지…)
게다가 사전 자료구조라든지 구성방법, HMM을 이용한 품사태깅모델, 여러가지 형태소 분석 방법등 한국어 형태소 분석과 정보검색에 나오지 않은 많은 알짜 최신 기술이 망라되어 있었다.(일단 정리가 매우 잘 되어 있고, 예시가 많아서 좋다.)
이거 완전 보물이네.
내가 만든 형태소 분석기에 보강을 해서 만들어 나가야 겠다. 일단 사전구조를 기존의 이진탐색에서 트라이구조로 바꾸는 작업을 먼저 하고, 문서를 처음부터 차근차근 읽어가야겠다.
기존 나의 코드 / 생각 + 문서정보 = 새로운 방법
을 도출하는것도 아주 재미날거 같다.
실무와 학교공부의 적절한 조화, 회사도 좋구 학교도 좋구, 1석2조
내가 원하는 셀러던트의 참다운 모습이 아닐까 한다.
교수님 자료 감사드립니다. ㅜㅜ (감격)
ps. 이 글을 보구 개인적으로 문서 달라는 메일 보네지 않았으면 좋겠다. 교수님이 절대 타인에게 배포하지 말라는 추상과 같은 말씀을 하셨기 때문에 절대 불가하다. 교수님은 자신의 자료가 불법적으로 타학교에서 강의되거나 Copy되는데 굉장히 민감하시니 절대 양해부탁드린다.
형태소 분석기 개발의 전환점이 될거 같은 문서 획득 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.