Lucene spellcheck package

요즘 루씬 코드 리딩을 하고 있다. 루씬 core 패키지는 예전에 한번 분석 해본 경험이 있어서 이번엔 contrib 패키지를 중점적으로 살펴보고 있다. 그중에서도 spellcheck 모듈은 가장 최근에 성능좋은 라이브러리로 구현한 경험이 있어서 관심이 갔다.  이 패키지 내에서는 Jaro Winkler Distance 라는 짧은 이름에서 사용 가능한 string 비교 클래스가 구현이 되어 있었으며 n-gram 기반의 string 비교 클래스도 […]

계속 읽기

학술대회 우수 논문으로 선정되었네요

지난 한글날 전남대에서 있었던 22회 한글 및 한국어 정보처리 학술대회 오랄세션에서 발표한 논문이 학술대회 우수논문으로 선정이 되었다는 메일을 받았다. 기대하지도 않았는데… 막상 받아보니 기분은 좋다. 그나저나 이번에 쓴 논문에서 30%의 내용을 추가 해야 된다고 하는데 그럼 또 하나의 논문을 쓰는건가? 여튼 교수님 및 회사분들하고 논의를  해봐야겠다. 어떤게 우수논문이 되는지 보시고 싶은신 분들을 위해 링크를 다시 […]

계속 읽기

야후!의 검색어 오타 교정 시스템

아래 글은 이번 “야후! 검색어 오타 교정 시스템“을 론치 하면서 일반 사용자들이 이해하기 편한 소개글을 써달라고 해서 써본 글이다. 이 글을 쓸 당시 “글로리아 스튜어트”의 타개 뉴스가 올라왔고, 그분의 이름이 인기쿼리로 올라온게 눈에 띄어서 이를 소재로 삼아 봤다. 야후! 블로그 담당자분이 글을 보기 좋게 편집/수정해 주셔서, 더욱 빛나는거 같다. ——————————————————————————————————————————   “글로리아 스튜어드?” 얼마전 향년 100세의 일기로 […]

계속 읽기