from __future__ import dream 검색엔진

검색엔진 개발자 그룹 비공식 오프모임 합니다.

작성일자 2006년 06월 19일 고감자님이 작성

안녕하세요 검개그 유흥부장입니다 오는 6월 27일에 검개그 비공식 오프모임을 진행하려 합니다 (일정을 일부 수정합니다) 그동안 다들 R&D에 매달리셨던 것 같은데, 오프모임에서 축적된 노하우 보따리를 풀어봐 주시기 바랍니다 아마도 다양하고 심도 있는 IT 트렌드, 포털 서비스 기획 부분, 검색엔진 개발 테크닉 등에 대한 대화가 나오지 않을까 싶습니다 날짜가 화요일인 이유는, 최근 금요일에 시간내기가 어려운 분들이 많아진 […]

계속 읽기

Sorting Algorithm

작성일자 2006년 06월 09일 고감자님이 작성

Insertion Sort, Quick Sort, Heap Sort 속도비교 프로그램을 작성해 봤다. 처음에 정렬할 데이터 갯수를 입력받고 그것을 바탕으로 랜덤숫자를 생성해 정렬하는데 걸리는 시간을 계산하는 프로그램이다. 전에 자료구조 레포트 작성을 위해 만든 프로그램인데 이 프로그램에 정렬하고픈 숫자갯수를 입력받는 기능만 살짝 추가해서 다시 만들어 봤다. Quick Sort의 pivot 값은 가장 왼쪽 값으로 주었고 이 부분에 대한 적절한 수정으로 […]

계속 읽기

확률모델

작성일자 2006년 06월 05일 고감자님이 작성

패턴인식과 기계학습 공부한 덕을 톡톡히 보는구나. 오늘 정보검색론 책도 없고 그래서 인터넷으로 ‘확률모델’문서를 보고 있는데, 이거 왠걸… 확률모델 별거 아니더라. 전에 베이지언(Bayesian) 룰을 공부하면서 관심이 있었던, 스팸처리 알고리즘과 거의 흡사했다. 하긴 생각해보니 스팸이 아닌 글과 스팸인 글을 분류하는거 자체가 쿼리에 맞는 문서집합과 퀘리에 맞지않는 문서집합을 분류하는거와 마찬가지더라는… 게다가 색인어 각각이 서로의 색인어의 존재에 별 영향을 […]

계속 읽기

백터공간모델

작성일자 2006년 06월 03일 고감자님이 작성

논문에 대한 주제를 교수님과 이야기 도중에 바꾸었다. 솔직히 웹 2.0에 대한 개인적인 관심도 있고 웹 2.0이 나온다면 검색모델에 대한 가중치 부여 방법에 따른 feature가 바뀌어야 한다는 생각이 있었기 때문에 “웹 2.0 랭킹모델”에 대한 연구를 논문 토픽으로 잡아 봤다. 먼저 가장 많이 쓰이고 가장 쉽게 접근할수 있는 백터공간모델(vector space model)에 대한 정리작업을 해본다. 참고한 도서는 Modern […]

계속 읽기

첫눈이 캠퍼스를 찾아온다고 하는데…

작성일자 2006년 04월 23일 고감자님이 작성

갠적으로 첫눈을 상당히 좋아라 한다. 아직 정확한 수익 모델을 보여주지 못하고 있다고는 하지만 개발자인 내가 볼때는 한번 일해보고 싶은 기업이라는 생각이 들정도로 뭔가 심상치 않은 분위기가 조성된 회사로 알고 있다. 이런 첫눈이 캠퍼스를 방문한다고 하넹. 5월 3일 고려대 방문한다고 하는데 왜 하필 서울대와 고려대가 강사가 다른거시지? 이왕이면 서울대 강연하시는 분이 고려대도 강연해주시면 좋겠는데. 왜냐면 서울대 […]

계속 읽기

논문 분석 1 – 한국어 정보검색을 위한 색인어 추출 방법에 대한 연구

작성일자 2006년 04월 23일 고감자님이 작성

주말이긴 하고 집에서 그냥 시간 보네기 뭐해서 논문을 분석하려 학교에 와 이렇게 정리해본다. 논문을 쓰기 위해서는 기존의 논문을 분석하는 방법이 가장 좋다는건 이미 알고 있었고, 이미 읽었던 논문이라도 이렇게 정리를 해보는게 나중을 위해서 좋은 방법이라고 생각해 정리해본다. 분석 논문 : 한국어 정보검색을 위한 색인어 추출방법에 관한 연구 (고려대학교) 저자 : 최순우 이 논문은 형태소 분석을 […]

계속 읽기

형태소 분석기 개발의 전환점이 될거 같은 문서 획득

작성일자 2006년 04월 06일 고감자님이 작성

저번 대학원 임해창 교수님 수업시간에 논문관련해서 이런저런 이야기 해보다가 형태소 분석기를 개발해보는것이 어떠겠느냐 하는 말씀을 하시는걸 들었는데 그 와중에 문서 하나 보네주신다고 읽어보라고 하셨다. 그래서 어제 그 문서를 받았다. 우와~! 형태소 분석에 관한 문서는 모조리 다 읽었다고 생각했는데 대학원 연구실에 이런 보물이 숨어 있을줄 꿈에도 생각못했다. 개발하다가 모든 한국어 불규칙 처리에 관한 한국어 문법책을 찾아보러 […]

계속 읽기

웹 로봇 만들기 위한 참고 도서 추천

작성일자 2006년 04월 04일 고감자님이 작성

검색엔진공부 모델링에 대한 글을 예전에 쓴적이 있다. 여기 보면 웹로봇은 “쓸만한 전문도서 없음”이라고 되어 있다. 뭐 그래서 이곳에 덧붙이고자 포스팅을 써본다. 웹로봇을 개발을 하다 보니 이런저런 책을 많이 찾아보게 되는게 사실이다. 그중에서 가장 많은 도움이 된 책을 꼽아 본다면 HTTP: The Definitive Guide라는 책이다. Ch.9에서는 웹로봇을 위한 단원까지 마련되어 있다. 물론 HTTP 프로토콜을 이정도로 다룬 […]

계속 읽기

휴리스틱, 매직넘버

작성일자 2006년 03월 21일 고감자님이 작성

개인적으로 휴리스틱(heuristic) 방법이라는 말을 무지 싫어한다. 하지만 오늘(정확히는 어제) 수업시간에 수도없이 들은 말이 휴리스틱이였다. 사람이 생각하는 대로 그 방법론을 적용해서 어떤 문제의 목표를 달성하는건데, 생각해보면 휴리스틱이라는 말은 참 무책임하다는 생각까지 든다. 게다가 이 말과 더불어 매직넘버(magic number)를 넣어 어쩌구 저쩌구 하는것을 논문같은곳에서 꽤 많이 볼수 있는데 이것도 참 애매한 단어다. 오늘 인공지능 수업 쉬는시간에 교수님한테 […]

계속 읽기

루씬(Lucene) 파일 포멧 초벌번역 공개

작성일자 2006년 03월 15일 고감자님이 작성

루씬(Lucene) Index File Format 초벌번역을 완료했다. 기준 문서는 1.9 Final 배포본에 있는 문서를 참고 했고, document, field, term 등의 한글용어 혼용이 있을수 있으나, 일반적으로 Document, Term, Field 같은 첫 문자가 대문자인 개체명(자료형?)일경우 그대로 사용하였다. 개인적인 생각으로는 초벌 번역정도의 수준이라도 생각된다. 아직 인덱스 파일 구조에 대해서 통달한게 아니라서 텀 사전 이하 부분에 대해서는 정확하게 개념 파악을 […]

계속 읽기