오늘 typos님이 주최하신(?) 비공식 BigTable 모임에 참가를 했었다.
이 모임에 맨주먹 불끈쥐고 참가할 수 없어서 잠깐 BigTable논문을 어제 학교 다녀오면서 쬐금 봤었는데 수박 겉핧기로 알고 자리에 참석을 했다. (시간이 없다는 핑계~~~ ㅡㅡ;)
한 두어시간 정도 B.T.B 맥주집에서 typos님과 나와, 이름을 밝힐 수 없는 어느분과 http://jaso.co.kr의 운영자이신 김형준님과 함께 자리를 함께 했다. 주로 검색쪽보다는 대용량 분산처리와 자료구조에 대한 이야기가 주로 오갔다. 대용량 처리에 거의 경험이 거의 없는 나는 술자리지만 어느것 하나 흘려들을까 귀를 쫑긋 세우고 있었고, typos님은 그걸 어떻게 검색에 붙이는게 좋을지 생각하고 계셨다.
재미난 시간이 지나고 갑작스럽게 세미나 요청을 했는데 흔쾌히 Kaist에서 발표 하신 ppt 자료로 typos님 사무실에서 번개 세미나를 해주셨다. (와우~~~~ 이런 대박이다.)
들었던 소감은 Lucene 인덱스 파일 시스템을 분석 했을때와 아주 유사한 희열을 느낄 수 있었다. 그리고 Lucene에서 구조적으로 유지하는 파일 시스템의 운영방식과 유사한 부분도 있어서 뭔가 동기를 배가 할 수 있었다. 무엇보다 기존 RDBMS에서의 고정관념을 깨는 구조로 컨텐츠에 적합하게 예를 들어 검색을 위해 역파일을 구성하듯이 DB를 만들었다는데 굉장히 의미가 컷다. (기존의 것을 당연하게 받아들이지 않고 새로운 개념으로 만든다는게 쉬운일이 아니다.)
예로 나온 구글에서 사용하는 웹페이지를 저장하는 Table구조를 볼때 3 dimension으로 구성된 그 테이블은 구글 페이지 랭크 계산에 최적화 되어 있었고, 도메인 네임으로 검색이 빠르게끔 설계가 되어 있었다. 그래서 Data Modeling이 Table의 구조를 결정하는데 큰 요소로 작용한다고 하셨다.
Reliable하게 운영되는 그 메커니즘이 정말 획기적이였고, 또한 김형준님이 가장 강조하신 파일DB가 깨지지 않는 그 원리 부분도 눈물날 정도로 감동적이였다. (물론 Lucene도 색인 무결성을 유지하기 위해 비슷한 개념을 쓰기는 하지만 더 나아가 log를 활용한다는 점이 정말 감동이였습니다.)
아주 듣는 내내 맥주 한 2000은 마신거 같은데 술도 다 깨고 아주 확 깨는 번개 세미나 였다. 자세한건 내일 학교 셤 끝나고 논문을 나름대로 분석하고 정리를 해봐야 겠다.
14장이 넘는 그것도 관련 자료를 찾아보지 보고 의미를 곱씹기 위해 시간을 투자해야되는 그런 부분에 대한 설명을 흔쾌히 해주신 김형준님 정말 감사했습니다. 또한 자리를 마련해 주시고 내내 생각할 꺼리를 많이 던져 주시던 typos님 큰형님 정말 감사했습니다.(자주 찾아가 뵈어야 할듯 ㅋㅋㅋ )
정보검색의 마지막 관문이라 느껴지는 대용량검색에 대한 첫발을 BigTable로 하게 되다니 난 정말 운이 좋은거 같기도 하다. ㅎㅎㅎ
ps. 나두 뭔가 드릴게 있어야 하는데, 주머니 속에 몇가지 있기는 한데, 기회가 되면 나두 그런식의 세미나를 해드려야 겠다.
앞으로 할일이 또 생겼다.
BigTable, hadoop, nutch를 분석해보기
Google BigTable에 대한 번개 세미나 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.