from __future__ import dream 검색엔진

루씬 메일링 리스트에 올라온 Information Retrieval Resources

작성일자 2006년 08월 30일 고감자님이 작성

Lucene 메일링에 이런 질문도 올라오더군. ㅎㅎㅎ 그리고 답변은 한개의 링크 하지만 그 링크에 있는 정보에 놀랐다. 내가 본 책은 이 목록에서 세발의 피군. http://www-csli.stanford.edu/~schuetze/information-retrieval.html 다만 Mining the Web 만이라도 수업한번 들어봤으면. ㅜㅜ

계속 읽기

재미난 기사.. 온네트이야기인데 다음소프트 이야기가 나오고..

작성일자 2006년 08월 18일 고감자님이 작성

온네트, 토종 同感 검색엔진 ‘크로스마인드’ 개발중 검.개.그를 통해 온네트의 연구소장님하고 알게 되었는데 전부터 개발하신다는 이야기는 알고 있었지만 서서히 베일을 벗기 시작하는군. 그렇지만 이 부분은…. 최근 첫눈이 네이버에 인수됐으며 자회사 형태로 있던 다음소프트의 검색엔진 기술이 다음커뮤니케이션으로 모두 이관되고 있다. 네이트도 자체 검색엔진을 개발한다는 소식이다. 포털을 중심으로 움직이고 있는 이같은 검색엔진 개발 대결에서 상대적으로 중소 벤처업체들의 연합으로 […]

계속 읽기

Lucene KoreanAnalyzer : 사전써치 인터페이스

작성일자 2006년 08월 15일 고감자님이 작성

오늘 고작 사전써치 인터페이스를 만들었다. 1. 각 사전마다 커넥션은 하나 (싱글톤 패턴) 2. 각 품사 사전 싱글톤 객체를 통해서 사전에 접근할 수 있다.(각 사전파일의 메모리 로딩 여부가 저장되어 있다. <- 나중에 구현할 예정) 3. 품사 사전에 대한 쿼리 정보를 잘못 입력했을 경우를 대비한 예외처리 기능들 4. 그리고 테스트 모듈들 별 기능에 대한 구현은 없었지만 나름대로 […]

계속 읽기

구글에서두 광복절

작성일자 2006년 08월 15일 고감자님이 작성

구글에서 광복절이라는걸 새삼 알려줬다. 나조차 아침에 일어나서 그런생각을 안하고 있었는데, 구글이 알려주는군. 가운데 무궁화 구글이 알려주는 광복절… 고맙기두 하고 씁쓸하기두 하고(우리나라 포탈들은 구석에 쬐그만 태극기만 올려놓드만..) 부끄럽기도 하고(그저 그냥 쉬는날 정도로만 생각한 나) 예전처럼 이미지에 광복절에 대한 설명글이라두 링크를 걸어주면 더 쉽게 알아볼 수 있었으련만 아쉽네.

계속 읽기

Lucene KoreanAnalyzer : 14만 한국어 사전 파일 완성

작성일자 2006년 08월 10일 고감자님이 작성

Java 실행파일 하나로 완성을 하긴 했지만 실제 바이너리트리로 되어 있던 사전 파일에서 추출해서 품사별DB 내에 음절별DB로 분리해서 저장을 했고 추가로 단어에 대한 설명이 필요할 경우를 대비해 Extra 영역까지 할당을 해놓았다. 쓸데없이 품사정보를 개개의 단어마다 정보를 넣어두었는데 그렇게 할 필요를 못느낀게 사실이지만 일단 넣어두도록 하자. (용량이 상당히 늘어났다. 1메가가 채 되지 않던 파일이 7메가가 되었으니…내일 바로 […]

계속 읽기

Lucene KoreanAnalyzer : 음소 <-> 음절 클래스 제작

작성일자 2006년 08월 07일 고감자님이 작성

유니코드 한글 자소 분리모듈에 대한 설명을 conv2님의 도움을 받아서 분석을 하고 음소분리정보테이블을 추가해서 Jaso클래스를 만들었다. 그런데 이뿐만 아니라 음소에서 음절로 만들어지는 메서드가 있어야함을 느껴서(실제 빈번하게 쓰인다.) 만들고자 했는데 전에 포스팅한 유니코드 생성 원리 포스팅에 쓴 함수를 적용하기 위해서는 음소정보를 이용한 인덱스 번호 추출이 필요했다. 한 글자의 유니코드 값 계산 법 = 0xAC00(유니코드 한글 시작점) + […]

계속 읽기

Lucene KoreanAnalyzer : 유니코드기반 음절정보 테이블 완성

작성일자 2006년 08월 04일 고감자님이 작성

Python 스크립트로 간단하게 유니코드기반 음절정보 테이블을 완성했다. 일단 완성형 한글의 order에 맞춰서 테이블이 구현되어 있어 테이블의 순서에 따른 완성형 한글 코드를 기반으로 같은 음절을 표현하는 유니코드 한글 테이블을 만든 후 이걸 ‘{유니코드 한글:음절정보}’ 형식의 사전형식으로 저장을 했다. 그 뒤에 ‘가~힝’ 사이에 있는 모든 유니코드들(0xac00 ~ 0xd79d)을 순환해 가면서 위에서 만든 사전에 조회를 해가면서 정보를 추출해 […]

계속 읽기

검색엔진에 관한 일

작성일자 2006년 07월 31일 고감자님이 작성

개인적인 프로젝트까지 추가해서 내가 하는 검색엔진 관련 일이 무려 3가지이다. 1. 색인기 2. 웹로봇 다운로더 3. 공개 형태소 분석기 어제는 공개 형태소 분석기의 음절정보테이블 생성을 위한 Python스크립트를 짜다가 소개팅을 하러갔다.ㅎㅎ 그러니까. 기존의 완성형 기준의 음절정보테이블을 같은 음절에 대응되는 유니코드문자에 대한 인덱스 배열을 만들어 주는 작업이었다.(음절순서가 완전하게 대응되지 않아서 의외로 많은 생각을 요한 문제였다.) 잘 만들어졌는지 […]

계속 읽기

Lucene 공개 한국어 형태소 분석기 개발 시작의 변

작성일자 2006년 07월 26일 고감자님이 작성

여러분과(?) 논의한 결과 여러 문제를 없애기 위해서는 기존에 내가 가지고 있던 C기반의 형태소 분석기 보다는 Lucene의 기반이 되는 Java언어로 만들기가 확장성 측면에서 좋을거 같다는 의견에 동의를 하고 자바기반 공개 한국어 형태소 분석기 개발을 시작하려 한다. 일단 Analyzer분석을 틈틈히 하고 있고, 테스트도 간간히 해보면서 기존의 Lucene이 가지고 있는 Tokenizer나 Filter의 특성을 파악하고 있는 중이다. 조금 보니까….쩝 […]

계속 읽기

Lupy 주석 정리한것

작성일자 2006년 07월 23일 고감자님이 작성

Lucene의 Python버전인 Lupy의 개발이 중단 되었지만 소스코드 분석하는데 많은 도움을 줬던게 사실이다. 뭐 이래저래 파일 시스템 분석하는데도 코드 편하게 볼 수 있게 도움이 되었고 예제 돌려보기도 편했던게 사실이였다. 소스코드 분석하면서 나름대로 분석한 결과를 주석으로 표현을 했었다. 물론 나에게도 중요한 자료가 되겠고 searcher쪽을 분석하면서 또 주석을 달아보겠지만 indexer부분정도 정리된걸 한번 이곳에 올려본다. 물론 이것들의 결과물이 Lucene […]

계속 읽기