Lucene spellcheck package

요즘 루씬 코드 리딩을 하고 있다. 루씬 core 패키지는 예전에 한번 분석 해본 경험이 있어서 이번엔 contrib 패키지를 중점적으로 살펴보고 있다. 그중에서도 spellcheck 모듈은 가장 최근에 성능좋은 라이브러리로 구현한 경험이 있어서 관심이 갔다.  이 패키지 내에서는 Jaro Winkler Distance 라는 짧은 이름에서 사용 가능한 string 비교 클래스가 구현이 되어 있었으며 n-gram 기반의 string 비교 클래스도 […]

계속 읽기

Buffalo NAS WSL/R1 이런 저런 메모들

최근에 Buffalo NAS 장비 하나를 구매했다. 사실 사진 및 동영상 저장 용도로 쓸라고 했는데, 아직 그 용도로 활용 보다는 파일 공유 및 웹서버 설정해서 Django 코드 테스트 해보는데 사용 하고 있는 중이다. 이래저래 많은 시행 착오 끝에, 머신 ssh 로그인을 외부에서도 가능하게 만들어 두었고, 기본적으로 사용할 수 있는 BitTorrent 웹 클라이언트까지 외부 접속이 가능하게 오픈해 […]

계속 읽기

찰스 펫졸드의 코드:CODE

이번달 인사이트 출판사 리뷰용 도서로 받은 “CODE:코드“에 대한 서평을 올려본다. 처음 이 책을 받아보고 바로 느낀건, 내가 학교에서 가장 흥미를 느끼지 못했던 “컴퓨터 구조”에 대한 책이구나, 하는 생각을 했다. 그러나 이 생각은 초반 몇 장을 읽으면서 사라졌고, 컴퓨터 구조에 대한 책이라기 보다는 컴퓨터에서 사용하는 언어 즉 코드들이 하드웨어로 어떻게 구현이 되는지 여러 코드 체계에 대한 […]

계속 읽기

학술대회 우수 논문으로 선정되었네요

지난 한글날 전남대에서 있었던 22회 한글 및 한국어 정보처리 학술대회 오랄세션에서 발표한 논문이 학술대회 우수논문으로 선정이 되었다는 메일을 받았다. 기대하지도 않았는데… 막상 받아보니 기분은 좋다. 그나저나 이번에 쓴 논문에서 30%의 내용을 추가 해야 된다고 하는데 그럼 또 하나의 논문을 쓰는건가? 여튼 교수님 및 회사분들하고 논의를  해봐야겠다. 어떤게 우수논문이 되는지 보시고 싶은신 분들을 위해 링크를 다시 […]

계속 읽기

제22회 한글 및 한국어 정보처리 학술대회 논문과 소감들

잠깐 기차 시간까지 시간이 남아 광주역 로비에서 던킨 도너츠 커피와 함께 블로그 포스팅을 해본다. 일단 발표된 논문을 공개한다. 한글 검색 질의어 오타 패턴 분석과 사용자 로그를 이용한 질의어 오타 교정 시스템 구축 (DropBox 공개 링크를걸어 봤다.) 한글 쿼리 오타 패턴에 대한 리서치 내용과 추천 시스템 구현이 주요 내용이다. 아무래도 국내 관련 논문이 거의 없어서 분량이 […]

계속 읽기

Word Segmentation

Natural language processing with Python 이라는 책을 보다가 3.8절에 Word segmentation 프로그램을 simulated annealing 방법으로 예제를 올려 놓았길래.. 호기심이 발동해 이것을 유전(Genetic) 알고리즘으로 해찾기를 코드를 작성해 봤다. “doyouseethekittyseethedoggydoyoulikethekittylikethedoggy” 위 문자열을 제대로 자른다면… “do you see the kitty see the doggy do you like the kitty like the doggy” 뭐 이런식으로 될 것이다. 이런 세그먼트를 표현하기 위해 […]

계속 읽기

실리콘벨리의 개발자에서 국내 기업 CTO까지 경험하신 분의 이야기

어느때부터인가 책을 고를때 저자의 이력을 먼저 살피는 습관이 생겼다. 이는 저자의 학력을 확인하고자 하는건 전혀 아니고 다면 저자가 어떤 경험을 해왔는지 살펴보기 위함이다. 특히나  컴퓨터 공학쪽 그리고 소프트웨어 공학의  경우 이는 상당히 큰 의미가 있다고 생각한다. 그런 의미에서 “글로벌 소프트웨어를 꿈꾸다“를 집필한 김익환님의 책은 나의 구미를 당기기에 충분한 책이였다. 이분의 이력은 소프트웨어 개발의 엘리트코스를 밟은 […]

계속 읽기

야후!의 검색어 오타 교정 시스템

아래 글은 이번 “야후! 검색어 오타 교정 시스템“을 론치 하면서 일반 사용자들이 이해하기 편한 소개글을 써달라고 해서 써본 글이다. 이 글을 쓸 당시 “글로리아 스튜어트”의 타개 뉴스가 올라왔고, 그분의 이름이 인기쿼리로 올라온게 눈에 띄어서 이를 소재로 삼아 봤다. 야후! 블로그 담당자분이 글을 보기 좋게 편집/수정해 주셔서, 더욱 빛나는거 같다. ——————————————————————————————————————————   “글로리아 스튜어드?” 얼마전 향년 100세의 일기로 […]

계속 읽기

번역서 1차 프린트물

이렇게 편집된 번역서 프린트물을 보다니.. 감회가 정말 새롭다. <클릭하면 큰 화면으로 볼 수 있다.> 10월 말이면 번역 이외에도 많은 일들이 마무리 될거 같은 예감이 든다.  이런 저런 새로운 소식도 있을 것이고 아마도 올해중에 가장 중요한 달이 될듯 한 예감이 든다. 여튼 2주안에 최대한 독자의 마음으로 번역물을 최종 점검하고 출판사로 넘겨야 되겠다. ps. 마지막 페이지가 526페이지인데… 생각보다 […]

계속 읽기

한글날 논문 구두 발표 확정

돌아오는 22회 한글 및 한국어 정보처리 학술대회에서 논문 구두발표로 심사 결과를 통보 받았다. 제목은 “한글 쿼리 오타 패턴 분석과 사용자 로그를 이용한 한글 쿼리 오타 교정 시스템 구축” 2년전에 포스터 발표를 했었는데, 구두발표는 처음이군… 여튼 추석 연휴에 발표자료 만들고 논문 최종 손질을 해야 될듯 하다. 개인적으로 한글 연구자분들도 좋지만 실제 서비스 가능한 지능형 애플리케이션을 개발하는데 관심이 […]

계속 읽기