BigTable의 Tablet Serving과 Compaction 그리고 Lucene의 Incremental Indexing

김형준님의 강의를 바탕으로 논문을 보고 있는데, 강의 들으면서 낯설지 않은 부분이 Tablet Serving과 Compaction 부분이였다. 한번 정리해 본다. 논문에 나온 그림 새로운 데이터가 들어올때. BigTable의 DB 무결성을 유지하기 위해서 메모리기반의 버퍼를 유지하고 또한 그 버퍼의 Copy를 이용해서 계속 서비스를 유지하게 하면서 minor compaction을 수행한다. 물론 minor compaction이 완료가 되면 메모리를 지운다. 그 강의에는 나오지 않았지만, […]

계속 읽기

Google BigTable에 대한 번개 세미나

오늘 typos님이 주최하신(?) 비공식 BigTable 모임에 참가를 했었다. 이 모임에 맨주먹 불끈쥐고 참가할 수 없어서 잠깐 BigTable논문을 어제 학교 다녀오면서 쬐금 봤었는데 수박 겉핧기로 알고 자리에 참석을 했다. (시간이 없다는 핑계~~~ ㅡㅡ;) XXW0t8lzhe.pdf 한 두어시간 정도 B.T.B 맥주집에서 typos님과 나와, 이름을 밝힐 수 없는 어느분과 http://jaso.co.kr의 운영자이신 김형준님과 함께 자리를 함께 했다. 주로 검색쪽보다는 대용량 […]

계속 읽기

ThinkWise5.0 구매

ThinkWise5.0을 구매했다. 6만6천원으로 말이다. 이 프로그램을 3년 전부터 심심치 않게 써왔는데 생각 정리하는데 탁월한 기능이 있다는걸 중학교때부터 알아온지라 (토니부잔의 마이드맵 이라는책에서) 결국 구입하고 말았다. 외산 툴도 있지만 이게 더 인터페이스가 더 좋고 한글에 최적이라는 판단 그리고 국산이라는 애국심도 작용을 했다. 솔직히 이 프로그램의 크랙을 많이 찾아봤지만 찾지 못했던 이유를 알았다. 라이센스를 굉장히 세심하게 관리를 하고 […]

계속 읽기

Lucene을 쓰고도…

자신의 검색기술에 Lucene이 기반이 되는데도 그에 대한 말 한마디 없는 사람들 참으로 대단하다는 생각이 든다. 게다가 한술 더떠서 자신의 업체가 검색기술력이 있다고 미디어에 떠들고 다닌다. Lucene을 쓰면서 Lucene의 장점과 단점을 속시원히 말씀하고 다니시는 분들이 있는가 하면, 미디어에 Lucene이 자신의 기술인양 뻥을 치는 곳을 요즘 부쩍 많이 본다.(그런곳은 절대 Lucene을 쓴다는 말을 안한다. ) 무엇보다 가장 […]

계속 읽기

Information Retrieval Algorithms and Heuristics

Information Retrieval Algorithms and Heuristics 이라는 책을 주문을 한지 보름이 다 되어 가는데 이제야 도착했다. 오늘 도착 할 줄 알고 그동안 보던 1판을 반납하려 가져와서 두 책의 비교를 목차를 통해 해봤다. 눈에 띄게 달라진건 2판이 Cross-Language Retrieval Syatem, p2p Retrieval Syatem 등의 업계에서 관심을 두고 있는 검색에 대한 챕터가 추가된 부분과, 검색모델 부분에서는 Language Model […]

계속 읽기

포탈 블로그는 쓰레기들로 가득 차 있다.

몇일전 typos 큰형님과 맥주한잔을 하면서 이런저런 이야기를 했다. 현재 블로그 데이터를 시기별로 수집하고 계시는데. 수억건의 블로그 포스트중에 스팸이 엄청나다는 말씀을 하셨다. 그런데 재밋는건…. 포탈 블로그만 빼고 검색해보면 스팸은 확~~아~~악 줄어버린다는 말씀도 빼놓지 않으셨다. 예전에 무수한 펌질 블로그로 가득찬 네이버에 한방 먹이기 위해 구글이 들어왔다는 서명덕 기자님의 동영상이 순전히 상상력만으로 만들어진게 아님을 알 수 있었다. (based […]

계속 읽기

Google PageRank의 Personalization Vector

어제 구글이 개인의 선호도를 어떻게 랭킹에 반영하는지 알아냈다. 이름하여 개인화 검색의 구글버전이라고 해야하나? ㅎㅎ 위의 마지막 식에서 V^T라는 벡터가 개인화 랭킹을 위한 부분인데, Random Surfer가 주소를 직접 넣어서 페이지를 점프할때 적용이 되는 Vector이다. 이 부분을 모든 웹페이지가 동일한 확률로 점프를 한다는게 처음의 개념이다. 하지만 실제로는사람에게는 선호도라는게 있기 때문에 그렇게 하지 않는것이다. 그 벡터 자체가 선호도의 […]

계속 읽기

Deeper Inside PageRank

Google’s PageRank and Beyond책의 초안이라고 추정되는 논문 발견 논문은 책과 동일한 저자가 만들었고, 내용도 상당히 비슷하다. 물론 책이 더 상세하지만 말이다. Deeper Inside PageRank Amy N. Langville† and Carl D. Meyer∗

계속 읽기

마침표는 구글이 찍을 것인가?

1. 구글의 R&D 센터 설립 2. SK 커뮤니케이션즈가 엠파스를 인수 3. 주가가 올라가는 다음, 떨어지는 야후 4. 아직까지 움직이지 않는 구글과 파란 누구나 예상하는 삼국지의 형태로 2007년이 시작되지 않을까 한다. 마침표는 구글이 찍을것 같은데, 아직 의중을 드러내지 않는 모습에 조바심이 난다. 하지만 어제 큰형님과 이야기한 결론은.. 이럴때일 수록 동요되지 말고 관망하는 자세를 가지고 자신의 실력을 […]

계속 읽기