고감자 – 페이지 73 – from __future_

이제 정리가 되어 갑니다.

작성일자 2007년 03월 15일 고감자님이 작성

지난 한달동안 …. 이랬다. ㅡㅡ; 엄청난 심리적 공황을 경험 했다. 하지만 오늘 저녁에…. 이렇게 편하게 맥주를 마신다. 쉬는 한달동안 저에게 격려해주시고, 관심을 가져준 typos님, 홍모형님, 싸이오형님, 아폴로형님, 박모누님 그리고 저의 여친님 등 많은 분들에게 감사하다고 전했고 이 포스팅을 통해서 또 한번 드리고 싶습니다.기대에 부흥할 수 있도록 열심히 하는 고감자가 되기를 다짐합니다. 그리고 본의 아니게 오해와 […]

계속 읽기

웹 검색에서 크롤링

작성일자 2007년 03월 12일 고감자님이 작성

크롤러 제작으로 검색쪽일을 시작한거나 다름 없으나, 지금은 거의 신경을 안쓰고 있지만, 시간이 가면 갈수록 웹 검색 인프라로서 크롤링 기술의 중요성은 커지는거 같다. 검색에서 크롤링 기술을 가지고 있느냐 아니냐가 검색 랭킹에 대한 펙터 수집을 원하는 대로 할수 있냐 없냐로 판가름 되어버리기 때문이다. 웹 검색, 특히나 그 분야는 링크구조로 되어 있어서 링크 펙터를 고려하지 않고서는 좋은 검색 […]

계속 읽기

이번학기 중점 과목

작성일자 2007년 03월 07일 고감자님이 작성

저번 학기부터 교수님에게 개설해 달라구 노래를 불렀던…. Data Mining 과목이 이번에 학기에 개설이 되었다. 대학원은 실제 과목 이름이 애매할 경우가 있어서 의심이 가는 과목은 되도록 첫 강의 시간에 들어가서 들어봐야 한다. 어제의 과목 이름도 “지능형 실시간 시스템”이였는데, 저번학기에는 Machine Learning 으로 강의를 하셨고, 이번학기는 Data Mining으로 강의를 하신다. 첫 시간부터 Data Mining에서 Spam에 관련된 질문을 […]

계속 읽기

요기조기 기술면접 소감

작성일자 2007년 03월 06일 고감자님이 작성

나름대로 기술면접을 다양하게 봐서 정리를 좀 해볼라구 한다. 전체적 소감으로는 경력이 많아지면 많이질수록 그리고 회사의 name value나 기술 수준이 높으면 높을수록 기술면접의 강도는 높아지는것 같다. 그래서 결국 실력이 없으면 반드시 뽀록이 나게 되어있다. 몇몇 회사는 기술 면접이 거의 형식적이고 질문의 수준도 낮은 회사가 있는 반면. 어떤 회사는 기술적 질문이 내가 요즘 고민하고 예전에 고민했던거, 그러나 […]

계속 읽기

오픈마루에서 Inverted Index Compression에 대해서 발표했습니다.

작성일자 2007년 02월 27일 고감자님이 작성

오늘 오픈마루에서 inverted index compression 발표를 했다. ppt는 아래 논문과 서적을 참고로 만들었다. 무엇보다 이 발표자료를 만들면서 그동안 몇가지 알고리즘을 알고 있었던것과 더불어 새로운 알고리즘까지 내 자신이 스스로 총정리 할 수 있었던 아주 좋은 기회가 되었던거 같다.그리고 앞으로 어떤 Doc Id특성을 가지고 있을경우는 어떤걸 쓴다든지 하는 그런 나만의 아니 그 누구나 수긍할 수 있는 설득력 […]

계속 읽기

정보검색관련 볼만한것들과 갈만한 곳

작성일자 2007년 02월 23일 고감자님이 작성

이번주 꽤 좋은 자료들을 봐서 몇가지 정리해 봤다. “프리챌의 장면 인식 동영상 검색엔진 개발에 대해” 기사 보구 conv님이 불끈 하셨나 보다.역시 책 쓰시는 분이라서 포스팅에 정성이 뭇어난다. 동영상 feature에 대한 고민이 선행이 되어서 색인을 설계하는게 맞는거란 생각이 든다. 데스크탑 검색이 날짜에 대해서 정렬이 default로 된다고 했을때 색인도 그에 맞춰서 구성이 되는것처럼 말이다. 좀더 버티면 conv2님이랑 […]

계속 읽기

Distribute Indexing과 MapReduce

작성일자 2007년 02월 22일 고감자님이 작성

오늘 커널 공부하다가 지루한 나머지 Distribute Indexing에 대한 공부를 좀 해봤다. (역시나 지루한 코드를 보는것보다 이런 개념 학습이 더 재미난다. ^^) 예전에 MapReduce에 대한 개념을 설명할 때가 있었다. 이때 내가 느낀것은 단 한가지 였다. MapReduce는 큰일을 작은 일로 분산시켜서 처리할때 굉장히 심플한 처리 공정을 보여 준다는 것이다. 그럼 여기서 Distribute Indexing을 하는 이유는 무엇인가? 1. 웹 […]

계속 읽기

Query Processing을 효율적으로 하자면?

작성일자 2007년 02월 20일 고감자님이 작성

쿼리 프로세싱(Query Processing)은 검색 결과를 가져오는 프로세스이다. 그럼 어떻게 Query에 맞는 결과를 가져올 것인가? 각 term의 모든 posting list를 가져와서 교집합을 하던가 합집합을 하던가… 아니면 이것들 후보 문서 모두를 vector space 모델이나 확률모델을 적용해서 가져오는 방법이 있겠다.하지만 위의 방법은 너무 복잡도가 크고, 이 문제때문에 검색 시간이 많이 걸릴것이다. 그래서 Query Process분야에서는 얼마나 빨리 가져오는 문제가 […]

계속 읽기

검색 엔진 개발자에게 OS 커널 프로그램 능력이 필요한 이유?

작성일자 2007년 02월 11일 고감자님이 작성

요즘 리눅스 커널 공부에 한창이다. 대학원에서 OS를 작년에 배운지라. OS에 대한 개념을 그때 확실히 세워둬서 아주 보기가 좋다. 오늘 내내 코드 보고 테스트 프로그램 짜보고 하면서 왜 검색엔진 개발자에게 커널에 대한 개념이 필요한지를 어렴풋이 알았다. (솔직히 두근거리기까지 했다. 실험해보고 싶은 욕구까지해서..) 1. 검색엔진에 최적화된 OS를 구비하기 위함2. 색인시 빈번히 일어나는 파일 쓰고 읽기에 대한 접근성 […]

계속 읽기

goto문에 대한 Dijkstra의 논문을 보며.

작성일자 2007년 02월 09일 고감자님이 작성

리눅스 커널을 공부하다가 커널단에서 goto문이 쓰이는걸 보고, 예전에 모듈을 작성할때 에러처리 부분에서 goto문을 쓰다가 팀장님에게 혼났던 기억이 나서 책에서 소개하는 논문을 한번 봤다. Go To Statement Considered Harmful 최단경로 알고리즘으로 알려진 유명한 다익스트라(Dijkstra)의 논문이다. 이 논문과 관련자료검색을 해보면서 느낀거지만, goto문 자체에 대해서 완전 부정이 아니라는것을 알았다. 내가 이해한 바로는 사람이 코드를 작성할때 절차에 중점을 두고 […]

계속 읽기