야후 본사에 있는 hadoop 클러스터 사용허가.

hadoop wiki에 밝혀져 있는 야후 본사의 클러스터 사용 허가를 신청했다. 벌써 관계자는 승인이 난 상태이고, 계정 생성만 남았다. ^^ 내용은 분산 한글 형태소 분석에 대해서 신청했고, 이번기회에 600노드클러스터를 어떤방식으로 구성했는지 살짝 엿보고, 실제 그 퍼포먼스도 어느정도 가늠해 볼수 있을거 같다. 오늘 아침부터 hadoop관련 사내 위키로 문서작성해 올리고 관계자에게 메일보내고, 만들었던 코드들 정리하고 그랬다. 재미난것은 분산처리 […]

계속 읽기

Hadoop으로 Distribute indexing을 시뮬레이션 해보고나서….

물론 아직 형태소 분석기는 작동시켜서 한건 아니였지만, 참으로 재미난 경험이였다. 문서를 (term, docids)로 만들기위해서, 문서 파싱하고 텀단위 추출하기 위한 map,reduce작업, 그리고 그것들을 역파일 구조로 만들기 위한 combine과 reduce 작업을 했다. 여기서 가장 고민을 많이 했던점은 Docid를 제너레이션 하기가 쉽지 않았다는 것이다.(이것은 피보나치 수열을 mapreduce모델로 제너레이션 하기 힘든것과 비슷한 문제다. )솔직히 Class 객체하나에 static 멤버변수를 모든 […]

계속 읽기

주말에 고민해본 Distribute Spam sniping.

전에 포스팅에서 구글 엔지니어에게 Map&Reduce가 어디에 쓰이는지 여쭈어 본적이 있었다고 글을 썼다. 오늘 스팸 처리 알고리즘 모듈을 생각하다가, 이거 스팸처리 하는 확률을 계산하는데, complexity가 상당히 높게 나오고, 스팸 리포팅들어오면 거의 모든 텀의 스팸 확률을 재계산 해야 한다는 그런 어려움(?) 생길거 같다는 생각을 해보다가, 결국 MapReduce로 분산처리를 해볼수 있을거라는 생각을 해봤다. 만일 스팸처리 자체가 텀의 독립성 […]

계속 읽기

Hadoop을 보면서

약 4일동안 Hadoop을 가지고 놀고 있다. 논다기 보다는, 약간의 삽질과 개념 이해를 위해 코딩 약간… 정도. (가장 힘들었던것은 역시나 한글 코드가 깨지는 것이였다. 물론 하루 반나절만에 해결을 했다. 이런 삽질은 역시나 빨리 해결하려고 하는게 정신 건강에 좋다. 이자리는 빌어 김형준님에게 감사드린다. JVM fork관련된 충고가 없었다면 이렇게 빠르게 해결하지 못했을 것이다.) 전에 Distribute Sort에 대해서 한번정도 […]

계속 읽기

MapReduce와 GFS

GFS의 구조를 단적으로 보여주는 그림이다. Master서버에 거의 부하가 가지 않는 그런 구조로 되어 있고, 여러 replics를 두어서 chunk 서버 하나가 다운이 되도 그대로 수행이 가능하게끔 구성이 되어 있다. 64MB의 크기로 chunk가 나뉘어져 있어서 chunk 인덱스를 계산하기가 편하게 되어 있고, 네임 스페이스 검색은 Trie 구조로 되어 있다는것을 그림으로 살짝 엿볼 수 있다. 이런 구조의 가장 큰 […]

계속 읽기

Google BigTable에 대한 번개 세미나

오늘 typos님이 주최하신(?) 비공식 BigTable 모임에 참가를 했었다. 이 모임에 맨주먹 불끈쥐고 참가할 수 없어서 잠깐 BigTable논문을 어제 학교 다녀오면서 쬐금 봤었는데 수박 겉핧기로 알고 자리에 참석을 했다. (시간이 없다는 핑계~~~ ㅡㅡ;) XXW0t8lzhe.pdf 한 두어시간 정도 B.T.B 맥주집에서 typos님과 나와, 이름을 밝힐 수 없는 어느분과 http://jaso.co.kr의 운영자이신 김형준님과 함께 자리를 함께 했다. 주로 검색쪽보다는 대용량 […]

계속 읽기