KoNLP와 같이 쓰면 정말 좋은 R 패키지중에 tm이라는 아주 좋은 패키지가 있다. R에서 텍스트 분석을 한다면 이 패키지를 반드시 쓰게 되어 있다. 이 패키지의 가장 큰 장점은 텍스트를 숫자로 표현하는 대표적인 방법인 Term Document Matrix를 만들어 준다는 것이다. 이것으로 뭘 할지는 이후의 분석에 달려 있겠지만 일단 숫자로 변환된 텍스트는 다른...
요즘 루씬 코드 리딩을 하고 있다. 루씬 core 패키지는 예전에 한번 분석 해본 경험이 있어서 이번엔 contrib 패키지를 중점적으로 살펴보고 있다. 그중에서도 spellcheck 모듈은 가장 최근에 성능좋은 라이브러리로 구현한 경험이 있어서 관심이 갔다. 이 패키지 내에서는 Jaro Winkler Distance 라는 짧은 이름에서 사용 가능한 string 비교 클래스가 구현이 되어 있었으며...
아래 글은 이번 "야후! 검색어 오타 교정 시스템"을 론치 하면서 일반 사용자들이 이해하기 편한 소개글을 써달라고 해서 써본 글이다. 이 글을 쓸 당시 "글로리아 스튜어트"의 타개 뉴스가 올라왔고, 그분의 이름이 인기쿼리로 올라온게 눈에 띄어서 이를 소재로 삼아 봤다. 야후! 블로그 담당자분이 글을 보기 좋게 편집/수정해 주셔서, 더욱 빛나는거 같다. ------------------------------------------------------------------------------------------------------------------------------...
구글 음성검색, 다음 음성검색 최근 동생 휴대폰으로 구글 음성검색만 살짝 써봤는데, 역시 핸드폰에서 음성검색의 잠재성을 확인하기 충분한 경험이였다. 몇몇 발음에 대해서는 단어 인식이 확실히 되지 않는것도 확인했는데, 점점 검색을 사용하는 사람들이 늘어나면 늘어날 수록 퍼포먼스는 좋아질 수 밖에 없을 거라는 생각을 해봤다. 사실 음성검색도 로그로 충분히 성능 향상을 할 수...