Mapreduce

고감자 on 12월 27th, 2007

오늘 businessweek지에서 상당히 흥미로운 기사를 봐서 포스팅 해본다. The Two Flavors of Google 이라는 글인데, 요즘(?) MapReduce기술을 기반으로 각광 받고 있는 cloud computing 분야에서 두가지 기술적인 조류를 이루고 있는 Google의 mapreduce와 Hadoop에 대해서 이야기 하고 있다. 이 글을 보고 Hadoop이 구글의 기술을 99% 배껴서 만들어 졌다는 편견을 말끔히 해소할 수 있었다. 구글에서 Hadoop에 컨트리뷰트 하고 [...]

Continue reading about Google의 MapReduce 와 Hadoop

고감자 on 7월 31st, 2007

일반적으로 많은 데이터를 학습 시킬때 메모리나 프로세서의 부족으로 학습에 많은 시간이 걸리는 고질적인 문제가 있다. 학습 데이터의 차원이 늘어날 때마다 필요한 메모리는 기하급수적으로 늘어나기 때문인데,  코드 레벨에서나 알고리즘 레벨에서 복잡도를 줄이는건 새로운 알고리즘을 창안하지 않는이상 거의 불가능 하다.(뭔 약간의 코드 핫스팟을 찾아서 최적화를 시켜주는건 가능하겠지만.) 그래서 분산처리를 사용해 시간(전체) 복잡도를 줄이고자 하는 논문이 스텐포드에서 나왔다. [...]

Continue reading about Machine Learning과 MapReduce는 천생연분

고감자 on 4월 15th, 2007

전에 포스팅에서 구글 엔지니어에게 Map&Reduce가 어디에 쓰이는지 여쭈어 본적이 있었다고 글을 썼다. 오늘 스팸 처리 알고리즘 모듈을 생각하다가, 이거 스팸처리 하는 확률을 계산하는데, complexity가 상당히 높게 나오고, 스팸 리포팅들어오면 거의 모든 텀의 스팸 확률을 재계산 해야 한다는 그런 어려움(?) 생길거 같다는 생각을 해보다가, 결국 MapReduce로 분산처리를 해볼수 있을거라는 생각을 해봤다. 만일 스팸처리 자체가 텀의 독립성 [...]

Continue reading about 주말에 고민해본 Distribute Spam sniping.

고감자 on 2월 22nd, 2007

오늘 커널 공부하다가 지루한 나머지 Distribute Indexing에 대한 공부를 좀 해봤다. (역시나 지루한 코드를 보는것보다 이런 개념 학습이 더 재미난다. ^^) 예전에 MapReduce에 대한 개념을 설명할 때가 있었다. 이때 내가 느낀것은 단 한가지 였다. MapReduce는 큰일을 작은 일로 분산시켜서 처리할때 굉장히 심플한 처리 공정을 보여 준다는 것이다.  그럼 여기서 Distribute Indexing을 하는 이유는 무엇인가? 1. 웹 [...]

Continue reading about Distribute Indexing과 MapReduce

고감자 on 11월 17th, 2006

GFS의 구조를 단적으로 보여주는 그림이다. Master서버에 거의 부하가 가지 않는 그런 구조로 되어 있고, 여러 replics를 두어서 chunk 서버 하나가 다운이 되도 그대로 수행이 가능하게끔 구성이 되어 있다. 64MB의 크기로 chunk가 나뉘어져 있어서 chunk 인덱스를 계산하기가 편하게 되어 있고, 네임 스페이스 검색은 Trie 구조로 되어 있다는것을 그림으로 살짝 엿볼 수 있다. 이런 구조의 가장 큰 [...]

Continue reading about MapReduce와 GFS