Lucene KoreanAnalyzer : 음소 <-> 음절 클래스 제작

유니코드 한글 자소 분리모듈에 대한 설명을 conv2님의 도움을 받아서 분석을 하고 음소분리정보테이블을 추가해서 Jaso클래스를 만들었다. 그런데 이뿐만 아니라 음소에서 음절로 만들어지는 메서드가 있어야함을 느껴서(실제 빈번하게 쓰인다.) 만들고자 했는데 전에 포스팅한 유니코드 생성 원리 포스팅에 쓴 함수를 적용하기 위해서는 음소정보를 이용한 인덱스 번호 추출이 필요했다. 한 글자의 유니코드 값 계산 법 = 0xAC00(유니코드 한글 시작점) + […]

계속 읽기

휴가랍니다.

8월 5일부터 8월 13일까지 휴가이다. 뭐 이번 휴가 기간에 도서관에와서 개발하기로 했고 실제로 이렇게 환경를 만들어 놓고 뭔가를 하고 있다. 장소는 군산대학교 도서관이고 도서관 열람실이 다 차있고 또한 자리에 코드 및 인터넷 환경이 거의 안되어 있어서 매점에 둥지를 틀었다. 문제는 인터넷인데…. 이상하게 넷스팟으로 그냥 접속하니 잘 된다. ㅎㅎ 학교 내에서 무선 인터넷을 맘대로 사용하게끔 해놓았나 […]

계속 읽기

conv2님과의 만남

오늘 “루씬 인 액션”의 번역자이신 conv2님을 만났다. 게다가 싸이오블레이드님과 더불어 상희님까지. 간단히 커피만 마시면서 짧은 이야기만 했지만 솔직히 커피타임 이후로 피자를 먹으로 갈때 가지 못한게 심히 아쉬웠다.(개인적인 약속 때문에…) 하고싶은 이야기도 많고 듣고 싶은 이야기들도 많았기 때문이다. 게다가 이번에 conv2님이 쓰신 “오픈소스 CxImages를 이용한 Visual C++ 디지털 영상처리”라는 책에 직접 싸인과 좋은글까지 해서 받았다는데 의의가 […]

계속 읽기

눈을 비비고 일어나서 본 첫글

어제 저녁 마교와 이야기 하던중에 “남녀사이엔 친구가 없다.” 라는 주제로 이래저래 이야기 했었는데 무명가수님의 블로그에서 남녀 사이에 친구란 없다고 얘기 했잖아라는 글을 보고 트랙백 해봤다. 한마디로 이야기 해서 남녀간의 친구라는건 아슬아슬 동상이몽[同床異夢]이라는것이지. 와니님이 말씀하신 남녀간의 동상이몽 예제들이다. 1. 상대방이 꽤 괜찮긴 한데 사귀기까진 싫은 경우 (혹은 현재 애인이 있는 경우) 2. 한쪽만이 그 상대방을 좋아하지만 […]

계속 읽기

Lucene KoreanAnalyzer : 유니코드기반 음절정보 테이블 완성

Python 스크립트로 간단하게 유니코드기반 음절정보 테이블을 완성했다. 일단 완성형 한글의 order에 맞춰서 테이블이 구현되어 있어 테이블의 순서에 따른 완성형 한글 코드를 기반으로 같은 음절을 표현하는 유니코드 한글 테이블을 만든 후 이걸 ‘{유니코드 한글:음절정보}’ 형식의 사전형식으로 저장을 했다. 그 뒤에 ‘가~힝’ 사이에 있는 모든 유니코드들(0xac00 ~ 0xd79d)을 순환해 가면서 위에서 만든 사전에 조회를 해가면서 정보를 추출해 […]

계속 읽기

OpenOffice2.0용 한글 맞춤법 검사기

OpenOffice 2.0.3이 출시되었지만 줄곧 한글 맞춤법 검사기의 부재가 점점 크게 작용한게 사실이었다. 이번 버전에 추가된 pdf출력 옵션 조절기능은 정말 좋았지만 내가 진실로 그리고 많은 한글 사용 유저들이 한글 맞춤법 검사기에 그토록 목말라 했던게 사실이다.(정말 목말라 했다우~ㅋ) 솔직히 나두 이것때문에 MS-Office를 구매하려고 까지 했으니까. 하지만 오늘 우연히 검색해본 결과 한글 맞춤법 검사기가 2.0에 특화되어 벌써 나와있었다. […]

계속 읽기

이스라엘 제품 불매운동

이스라엘로부터 사랑을 담아 레바논에게 : 방안의 쉰들러리스트 DVD는 가져다 버려라 위 글을 보고. 이스라엘 제품 불매운동을 할 수 밖에 없었다. 까르뿌, 인텔과 맥도날드, 스타벅스까지 이스라엘 브랜드라니…쩝 유태인의 돈버는 능력은 실로 대단하군. ps) 헉~~~ 그런데 엇그제 Calvin Klein 티셔츠하고 청바지를 구매했는데…이런…ㅜㅜ

계속 읽기

포스팅 할 것들이 있지만 못하는 이유

아주 개인적인 일이기 때문이다. 어제 그제 한 일주일동안 그 사람과 내가 이야기한 내용을 정리하면 책 한권은 족히 나올듯…. 이런 상큼한 기억을 로깅하기 위해 아무래도 블로그 계정을 하나 더 열어야 할 듯 하다. ps) 에궁 염치없지만 이글 보시는 분중에 티스토리 계정 있으신분 초대장 좀 부탁드립니다. (영 테터에 익숙해져 버려서 다른곳엔 엄두도 못내겠습니다. ㅜㅜ )

계속 읽기

검색엔진에 관한 일

개인적인 프로젝트까지 추가해서 내가 하는 검색엔진 관련 일이 무려 3가지이다. 1. 색인기 2. 웹로봇 다운로더 3. 공개 형태소 분석기 어제는 공개 형태소 분석기의 음절정보테이블 생성을 위한 Python스크립트를 짜다가 소개팅을 하러갔다.ㅎㅎ 그러니까. 기존의 완성형 기준의 음절정보테이블을 같은 음절에 대응되는 유니코드문자에 대한 인덱스 배열을 만들어 주는 작업이었다.(음절순서가 완전하게 대응되지 않아서 의외로 많은 생각을 요한 문제였다.) 잘 만들어졌는지 […]

계속 읽기

Lucene 공개 한국어 형태소 분석기 개발 시작의 변

여러분과(?) 논의한 결과 여러 문제를 없애기 위해서는 기존에 내가 가지고 있던 C기반의 형태소 분석기 보다는 Lucene의 기반이 되는 Java언어로 만들기가 확장성 측면에서 좋을거 같다는 의견에 동의를 하고 자바기반 공개 한국어 형태소 분석기 개발을 시작하려 한다. 일단 Analyzer분석을 틈틈히 하고 있고, 테스트도 간간히 해보면서 기존의 Lucene이 가지고 있는 Tokenizer나 Filter의 특성을 파악하고 있는 중이다. 조금 보니까….쩝 […]

계속 읽기