형태소분석기
여러분과(?) 논의한 결과 여러 문제를 없애기 위해서는 기존에 내가 가지고 있던 C기반의 형태소 분석기 보다는 Lucene의 기반이 되는 Java언어로 만들기가 확장성 측면에서 좋을거 같다는 의견에 동의를 하고 자바기반 공개 한국어 형태소 분석기 개발을 시작하려 한다. 일단 Analyzer분석을 틈틈히 하고 있고, 테스트도 간간히 해보면서 기존의 Lucene이 가지고 있는 Tokenizer나 Filter의 특성을 파악하고 있는 중이다. 조금 보니까….쩝 [...]
운동하고 집에와서 잠시 게임으로 긴장을 풀어준 다음에 바로 코딩에 들어갔다. 간만에 하는 C언어 코딩이지만 풋~~~ 역시나 나름의 맛이 있는거 같다. ㅎㅎ 오랜만에 형태소 분석기 코딩을 하는 이유는…..???. typos님 께서 공개된 형태소 분석기가 필요하다고 해서 썩혀 두려고 한 분석기 소스를 오랜만에 훓어 보았다. 게다가 역방향 복합명사 분해 알고리즘을 실제 적용해 보고 싶은 욕구가 불끈 솥아 올랐던것도 [...]
저번 대학원 임해창 교수님 수업시간에 논문관련해서 이런저런 이야기 해보다가 형태소 분석기를 개발해보는것이 어떠겠느냐 하는 말씀을 하시는걸 들었는데 그 와중에 문서 하나 보네주신다고 읽어보라고 하셨다. 그래서 어제 그 문서를 받았다. 우와~! 형태소 분석에 관한 문서는 모조리 다 읽었다고 생각했는데 대학원 연구실에 이런 보물이 숨어 있을줄 꿈에도 생각못했다. 개발하다가 모든 한국어 불규칙 처리에 관한 한국어 문법책을 찾아보러 [...]