Google may use ‘Edit Distance’ in ‘Query suggestion’?

이전 포스팅에 Edit Distance를 설명하고 Lucene의 Fuzzy Query에 대해서 설명을 했는데, 곰곰히 생각을 해보니 Google에서 Edit Distance를 “이것을 원하셨습니까?”에서 사용하지 않을까 생각을 해봤다. (주의 : 전적으로 나의 생각이고 이렇게 하고 있을수도 아니면 다른방법을 쓸수도 있다.) 우리가 단어를 잘못 입력했다는것은 대부분 1글자내지 2글자의 삭제, 갱신, 삽입의 연산 내에 있다는 가정하에….. 1) Delete, Update, Insert에 대한 cost를 […]

계속 읽기

Dynamic Programming : Edit Distance (and Lucene FuzzyQuery)

Lucene에서 Edit Distance를 이용해 쿼리를 날려서 검색 결과를 받는 기능이 있다. 그때 막연하게 시간이 많이 걸린다고 책에서 나와 있는 관계로 왜 많이 걸릴까 고민을 하지 않던 찰라 기회가 생겨서 Edit Distance를 구하는 알고리즘을 공부하고 구현해 봤다. 결과적으로 Dynamic Programming 문제이긴 한데, 이것과 배낭문제 그리고 어제 학교에서 공부했던 Routing Algorithm(최단 라우팅 거리 측정 알고리즘)을 비교해서 보니 […]

계속 읽기

sphere 블로그 검색엔진의 랭킹에 대한 생각

sphere 블로그 검색에 대한 약간의 힌트를 얻을 수 있는 자료들을 모아서 mind map으로 정리를 해봤다. 블로그의 링크 구조에 대한 외국 논문은 약간 구할 수 있었는데, 블로그 검색에 대한 글을 전혀 볼 수가 없었다. 일단 학위논문 주제를 블로그 검색으로 정한봐 이런저런 논문을 보고 있고 정리도 좀 하고 있는데 sphere를 그냥 지나칠 수가 없군. 그래서 sphere에 대한 […]

계속 읽기

MapReduce와 GFS

GFS의 구조를 단적으로 보여주는 그림이다. Master서버에 거의 부하가 가지 않는 그런 구조로 되어 있고, 여러 replics를 두어서 chunk 서버 하나가 다운이 되도 그대로 수행이 가능하게끔 구성이 되어 있다. 64MB의 크기로 chunk가 나뉘어져 있어서 chunk 인덱스를 계산하기가 편하게 되어 있고, 네임 스페이스 검색은 Trie 구조로 되어 있다는것을 그림으로 살짝 엿볼 수 있다. 이런 구조의 가장 큰 […]

계속 읽기

GP2X 하드웨어 컨트롤

평소 GP2X를 Telnet으로 연결을 했을때 Backlight가 계속 켜져 있고 LCD가 활성화 되어 있는걸 보고 LCD의 수명을 늘리고저 이놈의 하드웨어 스펙을 찾아 보고 있었다.(주로 Telnet으로 가지고 논다.) 대부분의 하드웨어를 컨트롤하는 소프트웨어는 내부 IO를 관장하는 메모리 부분의 값으로 하드웨어를 제어 한다는 사실을 알았고, GP2X의 내부 IO메모리의 메모리 맵에 대한 정보를 찾던중 GPIO Reference를 찾아 응용해서 LCD 제어 […]

계속 읽기

[검.개.그 공지] 검색엔진 개발 프로젝트를 진행하려 합니다.

이런 저런 문제 때문에 오픈소스로 개발하고 있던 형태소 분석기의 소스공개도 못하고 개발할 시간이 없어서 망설이고 있는 시점에 지지난주 주말에 한번 모여서 “하얀눈길”님이 추진하고자 하셨던 공개 검색엔진 개발 프로젝트가 가시화 되는거 같다. 몇일전에 공지 문서 하나가 날라왔었는데 카페에 가보니 드디어 공지가 떳다. 안녕하세요. 카페지기 하얀눈길입니다. 카페차원에서 검색엔진 개발을 시작해 보려 합니다. 자세한 사항은 아래 첨부내용 참고하시구요.. […]

계속 읽기

PageRank와 확률론

Google’s PageRank and Beyond를 보는데 역시나 선형대수학을 넘으니 이제는 확률론이 발목을 잡는다. 확률론은 기초적인 부분만 알지, 여기서 나오는 마르코프 체인 같은 부분은 잘 모른다. HMM에 대한 공부를 해봤지만 여기서 쓰이는 부분에 대한 지식이 없어서 마르코프 체인의 수렴 조건에 대한 이해를 잘 하지 못하고 있다. 그래서 책을 잡았다. (하지만 책도 마지막 쳅터에 이걸 다루고 있다는.. ㅡㅡ;) […]

계속 읽기

수학에서 쓰는 기호 정리

내가 정리한건 아니고 예전에 정보검색책을 볼때 어디선가 찾은건데, 출처가 생각이 안난다.(원작자에겐 정말 죄송합니다. 나중에 보시고 누구라고 뎃글이라두 달아주시면 고맙겠습니다. 바로 링크 걸겠습니다. ^^;) 바탕화면에 두고 계속 보고 있다가 이걸 블로그에 올려 놓으면 좋을거 같아서 올려본다. 물론 나의 편의를 위해서지만 말이다. 원문을 그대로 넣었다. 따라서 첫부분의 저작자 분 생각도 함께 넣었다. 제가 보기엔 모두 다 수학기호 […]

계속 읽기

프로그래머가 경계 해야할 것이 무엇이 있을까 ?

김정은님의 글에 대한 트랙백 1) 자만심은 금물 훌륭한 분들이 많은 회사가서 부딧쳐 보면 세상 넓고 고수는 많다는 느낌을 확~ 받게 된다. 하지만 절대 주눅들지 말고 자신감은 잃지 말아야 겠다. 자신이 그 고수만큼의 경력을 쌓는다면 더 훌륭해 질꺼라 생각하자. 2) 완벽한 프로그래머는 없다. 자신의 잘못이라 말 할 수 있다는 것은 자신을 더 발전 시킬 수 있다고 […]

계속 읽기

code reading

약 1년전만해도 남의 소스 코드 보는걸 굉장히 싫어 했다. 물론 지금도 처음 보기 시작할때는 정말 고통의 연속이다. 눈이 충혈되고, 짜증도 나고….. 쩝 그러다 때려 치기를 여러번, 드디어 고지를 점령했을때 그 느낌… ㅎㅎ 지금 이래저래 소스코드 뷰를 굉장히 많이 하고 있긴 하다. 그러면서 코드 리딩에 관한 책도 하나 발견해서 보고 있는데. code reading : 오픈소스 관점에서 […]

계속 읽기