from __future__ import dream

Lucene KoreanAnalyzer : 14만 한국어 사전 파일 완성

작성일자 2006년 08월 10일 고감자님이 작성

Java 실행파일 하나로 완성을 하긴 했지만 실제 바이너리트리로 되어 있던 사전 파일에서 추출해서 품사별DB 내에 음절별DB로 분리해서 저장을 했고 추가로 단어에 대한 설명이 필요할 경우를 대비해 Extra 영역까지 할당을 해놓았다. 쓸데없이 품사정보를 개개의 단어마다 정보를 넣어두었는데 그렇게 할 필요를 못느낀게 사실이지만 일단 넣어두도록 하자. (용량이 상당히 늘어났다. 1메가가 채 되지 않던 파일이 7메가가 되었으니…내일 바로 […]

계속 읽기

휴가중 간간히 게임도 하고 있습니다.

작성일자 2006년 08월 09일 고감자님이 작성

어제 오늘 그동안 인스톨만 하고 플레이 하지 않던 ‘홈월드’라는 게임을 하고 있다. 발매 당시 스타크래프트의 아성에 가려 빛을 보지 못한 게임인데 지금 하고 있는데도 스토리나 음악의 장엄함에 몰두할 수 밖에 없는 게임이 되어 버렸다. 히가라인들이 히가라(homeworld(이스라엘))에 도착하기 위한 여정을 다룬 게임으로 현재 이스라엘의 건국과정과 매우 흡사한 게임라는게 매니아들의 일반적인 생각이다.(참고글) 작가가 유태인이 아니냐는 말까지 나오니…쩝 […]

계속 읽기

Lucene KoreanAnalyzer : 음소 <-> 음절 클래스 제작

작성일자 2006년 08월 07일 고감자님이 작성

유니코드 한글 자소 분리모듈에 대한 설명을 conv2님의 도움을 받아서 분석을 하고 음소분리정보테이블을 추가해서 Jaso클래스를 만들었다. 그런데 이뿐만 아니라 음소에서 음절로 만들어지는 메서드가 있어야함을 느껴서(실제 빈번하게 쓰인다.) 만들고자 했는데 전에 포스팅한 유니코드 생성 원리 포스팅에 쓴 함수를 적용하기 위해서는 음소정보를 이용한 인덱스 번호 추출이 필요했다. 한 글자의 유니코드 값 계산 법 = 0xAC00(유니코드 한글 시작점) + […]

계속 읽기

휴가랍니다.

작성일자 2006년 08월 07일 고감자님이 작성

8월 5일부터 8월 13일까지 휴가이다. 뭐 이번 휴가 기간에 도서관에와서 개발하기로 했고 실제로 이렇게 환경를 만들어 놓고 뭔가를 하고 있다. 장소는 군산대학교 도서관이고 도서관 열람실이 다 차있고 또한 자리에 코드 및 인터넷 환경이 거의 안되어 있어서 매점에 둥지를 틀었다. 문제는 인터넷인데…. 이상하게 넷스팟으로 그냥 접속하니 잘 된다. ㅎㅎ 학교 내에서 무선 인터넷을 맘대로 사용하게끔 해놓았나 […]

계속 읽기

conv2님과의 만남

작성일자 2006년 08월 05일 고감자님이 작성

오늘 “루씬 인 액션”의 번역자이신 conv2님을 만났다. 게다가 싸이오블레이드님과 더불어 상희님까지. 간단히 커피만 마시면서 짧은 이야기만 했지만 솔직히 커피타임 이후로 피자를 먹으로 갈때 가지 못한게 심히 아쉬웠다.(개인적인 약속 때문에…) 하고싶은 이야기도 많고 듣고 싶은 이야기들도 많았기 때문이다. 게다가 이번에 conv2님이 쓰신 “오픈소스 CxImages를 이용한 Visual C++ 디지털 영상처리”라는 책에 직접 싸인과 좋은글까지 해서 받았다는데 의의가 […]

계속 읽기

눈을 비비고 일어나서 본 첫글

작성일자 2006년 08월 04일 고감자님이 작성

어제 저녁 마교와 이야기 하던중에 “남녀사이엔 친구가 없다.” 라는 주제로 이래저래 이야기 했었는데 무명가수님의 블로그에서 남녀 사이에 친구란 없다고 얘기 했잖아라는 글을 보고 트랙백 해봤다. 한마디로 이야기 해서 남녀간의 친구라는건 아슬아슬 동상이몽[同床異夢]이라는것이지. 와니님이 말씀하신 남녀간의 동상이몽 예제들이다. 1. 상대방이 꽤 괜찮긴 한데 사귀기까진 싫은 경우 (혹은 현재 애인이 있는 경우) 2. 한쪽만이 그 상대방을 좋아하지만 […]

계속 읽기

Lucene KoreanAnalyzer : 유니코드기반 음절정보 테이블 완성

작성일자 2006년 08월 04일 고감자님이 작성

Python 스크립트로 간단하게 유니코드기반 음절정보 테이블을 완성했다. 일단 완성형 한글의 order에 맞춰서 테이블이 구현되어 있어 테이블의 순서에 따른 완성형 한글 코드를 기반으로 같은 음절을 표현하는 유니코드 한글 테이블을 만든 후 이걸 ‘{유니코드 한글:음절정보}’ 형식의 사전형식으로 저장을 했다. 그 뒤에 ‘가~힝’ 사이에 있는 모든 유니코드들(0xac00 ~ 0xd79d)을 순환해 가면서 위에서 만든 사전에 조회를 해가면서 정보를 추출해 […]

계속 읽기

OpenOffice2.0용 한글 맞춤법 검사기

작성일자 2006년 07월 31일 고감자님이 작성

OpenOffice 2.0.3이 출시되었지만 줄곧 한글 맞춤법 검사기의 부재가 점점 크게 작용한게 사실이었다. 이번 버전에 추가된 pdf출력 옵션 조절기능은 정말 좋았지만 내가 진실로 그리고 많은 한글 사용 유저들이 한글 맞춤법 검사기에 그토록 목말라 했던게 사실이다.(정말 목말라 했다우~ㅋ) 솔직히 나두 이것때문에 MS-Office를 구매하려고 까지 했으니까. 하지만 오늘 우연히 검색해본 결과 한글 맞춤법 검사기가 2.0에 특화되어 벌써 나와있었다. […]

계속 읽기

이스라엘 제품 불매운동

작성일자 2006년 07월 31일 고감자님이 작성

이스라엘로부터 사랑을 담아 레바논에게 : 방안의 쉰들러리스트 DVD는 가져다 버려라 위 글을 보고. 이스라엘 제품 불매운동을 할 수 밖에 없었다. 까르뿌, 인텔과 맥도날드, 스타벅스까지 이스라엘 브랜드라니…쩝 유태인의 돈버는 능력은 실로 대단하군. ps) 헉~~~ 그런데 엇그제 Calvin Klein 티셔츠하고 청바지를 구매했는데…이런…ㅜㅜ

계속 읽기

포스팅 할 것들이 있지만 못하는 이유

작성일자 2006년 07월 31일 고감자님이 작성

아주 개인적인 일이기 때문이다. 어제 그제 한 일주일동안 그 사람과 내가 이야기한 내용을 정리하면 책 한권은 족히 나올듯…. 이런 상큼한 기억을 로깅하기 위해 아무래도 블로그 계정을 하나 더 열어야 할 듯 하다. ps) 에궁 염치없지만 이글 보시는 분중에 티스토리 계정 있으신분 초대장 좀 부탁드립니다. (영 테터에 익숙해져 버려서 다른곳엔 엄두도 못내겠습니다. ㅜㅜ )

계속 읽기