Anchor Text에 대한 고찰

오늘 Crawler 커스터 마이징을 했다.(아주 오랜만이다…) 문제가 있었는데 그 문제라는게.. HTML 한페이지에서 나오는 Url과 Anchor Text를 저장을 하는데 개발하면서 한페이지에서 같은 Url이 다른 Text로 표현되어 나올것이라는 생각은 하지 못하였다. 그래서 계속 덮어 쓰기를 한거였다. 그래서 뉴스수집페이지에서 동일한 Url에 의미가 없는 짧은 Anchor Text가 저장이 된거였다. (뒤에 나오는 Anchor Text가 의미없는 Text였다) 그래서 Anchor Text의 길이를 […]

계속 읽기

형태소 분석기 개발6

검색엔진 개발자 그룹에서 헐랭이님이 아주 좋은 글을 올려주셔서 블로그에 적어본다. 내가 형태소 분석기 전처리 부분에 대한 질문을 올려준것에 대한 답변을 주셨다. 아래와 같이 그대로 한다면 만일 “C++ 템플릿”을 겁색할 경우 “C, 템플릿”만 분리가 될거다. 그렇게 되면 잘못 검색되는 결과가 나오지만 아래 답글은 의미가 있는 글이다. 최소한 어떻게 처리하면 된다 하는 아이디어 제공이라고나 할까… 아무튼 아래 […]

계속 읽기

루씬(Lucene) 인 액션

오픈소스 자바 검색엔진 Lucene 위와 같은 포스팅을 쓴적이 있다. 물론 책이 나오기도 전에 설래는 맘에 나름대로의 포스팅을 한건데. 오늘 책을 사서 보구 트랙백을 해본다. (너무 기대가 된 책이라서 구입 전 구입 후 모두 포스팅했다.) 루씬 인 액션은 Lucene오픈소스 자바 검색엔진에 대해서 올라운드로 설명을 해준책이다. 게다가 역자들이 정보검색에 종사하는 분들이여서 현대 IR(Information Retrieval)에서 사용하는 용어를 그대로 […]

계속 읽기

형태소 분석기 개발5

선어말 어미가 있는 용언을 복원하는 부분을 완료 했다. 1. 어간이 바뀌는 불규칙 확용 2. 어미가 바뀌는 불규칙 활용 3. 어간과 어미가 바뀌는 불규칙 활용 이렇게 나눠서 작업을 했다. 어떤분이 ㅎ불규칙은 선어말 어미가 있을경우 고려할 필요가 없다고 그러셨는데 고려해서 작업을 했다. 예를 들어 (파랬다)의경우 (파래)가 선어말 어미를 분리했을때 분리될 것이고 (파랗 + 이)로 분리되어서 최종적으로 (파랗)을 […]

계속 읽기

Matlab 7.1 R14

공대생 필수품이라고 별명이 지워져 있지만 처음 써봤다.(물론 난 공대생이다.) Pattern Recognition공부를 하면서 Matlab이야기가 심심치 않게 나와서 기어이 깔아보구 돌려봤다. 공분산 가우시안 형태다. x,y의 값이 서로 아무 상관이 없는 형태다. 서로 영향을 주지 않지. 아주 매끈하게 나오는군..저 높이의 크기가 확률이라는 말이지.ㅋㅋㅋㅋ Matlab의 대안책으로 Numeric Python을 써보라는 분들도 있었는데 Matlab이 거의 범용적이라서 이걸 써봤다. 많은 사람들이 쓰니 […]

계속 읽기

Google과 Yahoo를 합쳐놓은 메타검색 사이트

점심먹고 웹 서핑을 잠시하다 재미난 사이트를 발견했다. Google과 Yahoo의 메타검색을 해주는 사이트다. 이걸 발음상 어떻게 읽어야 하나??? 가후유글???? 아무튼 재미난 사이트다. 검색 결과는 좀 특이하게 나온다. 프레임을 나눠서 결과가 나오는군… Yahoo를 별루 안써서 그리 필요하진 않겠지만 이름을 지어 놓은게 너무 웃겨서 포스팅 해봤다.

계속 읽기

검색엔진 관련 책들

검색엔진 개발자 그룹에서 박병재님께서 올려주신 글이다. 책 목록을 기억할 필요가 있을거 같아서 블로그에 담아본다. 에공 Text Mining 부분을 제외하고 각 부분에서 한권정도는 읽고 있는 중이거나 아니면 읽은 책이 있군. 그나마 다행이다. 여태 놀고 있지는 않았군. 처음에 이 글을 올려주셨을때는 “뭐 이렇게 공부할게 많아” 하는 생각을 했는데 어느새 몇몇 책은 읽을려고 계획을 잡고 있거나 아니면 읽은 […]

계속 읽기

오픈소스 자바 검색엔진 Lucene

예전부터 Lucene에 대한 관심이 상당히 많아서 여러 문서들을 섭렵하던 때가 있었다. 어언 1년 전 이야기 인데.웹 로봇의 부재로 인해 많은 양의 데이터를 시험해 보지는 못했지만 검색엔진이 어떻게 돌아가게 되는지에 대해서 많은걸 알려주었던 오픈소스 프로젝트임에는 확실했다. 루씬 인 액션 예전에 이 책의 pdf 파일을 구해서 짬을 내 봤던 기억이 있는데 벌써 이런 책이 번역이 되어 나온다니 […]

계속 읽기

기계학습(Machine Learning)과목을 배우며

평상시에 정말 배우고 싶었던 분야중에 기계학습(Machine Learning)이 있었다. 좀 접근하기 힘든 분야라서 그런지 생각만 하고 있다가 금번 대학원 과목으로 책정되어 있는걸 확인하고 바로 수강 신청을 해버렸다. 처음엔 수강인원이 꽤 많았는데 프로그래밍 과재 2번에 시험 두번이라고 교수님이 말씀하신 후로 9명으로 수강인원이 줄었다. 다른분들 덕분에(?) 교수님과 좀 친하게 출발을 할수 있어서 좋았다. 여기서 배우는 책은 이거다. MACHINE […]

계속 읽기

형태소 분석기 개발4

형태소 분석기 개발이 한창이다. 솔직히 C로 문자열 헨들링하기가 무척 고달프긴한데 나름대로 퍼포먼스가 좋아서 코딩수가 많은건 그리 문제되지 않는다. C언어로 개발하지 않았다면 어느정도 속도문제에 대해서 분명 언젠가 불만이 나왔을거 같다는 생각까지 들게 했다. 왜냐면 어절에서 형태소를 분석해 내는데 음절테이블써치부터 마지막 사전써치까지 생각보다 많은 가능성을 타진해 보려면 코딩수는 둘째치고 퍼포먼스가 문제가 될수 있기 때문이다. 전에도 포스팅 했다시피 […]

계속 읽기