구글이 20 petabyte의 데이터를 얼마만에 처리할까?

구글이 MapReduce를 어떻게 사용하는지 상당히 구체적으로 제시한 재미있는 글이다.

20,000 테라바이트의 웹데이터를 하루하루 처리한다는데 엄청나구나. 그것을 처리하기 위해 100,000 개의 MapReduce jobs를 이용한다고 하고 말이다.

이 논문에도 나와 있는데 ACM에 접근해서 받아보기 힘들어서 첨부한다.

XEuFb8k3ap.pdf

2004년도 이전 논문에 비하면 비슷하지만 내용상의 최신 내용이 조금 있는거 같다. 위의 내용도  약간 초록에 나와 있다.

Yahoo의 Hadoop 클러스터 이외에도 MS에는 Dryad라는게 있다는 것도 새로 알게 되었다.

0 0 votes
Article Rating
Subscribe
Notify of
guest

5 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
cybaek

‘재밋는 글’이라고 쓰셨는데 ‘재밌는’ 이라고 고쳐 적어야 맞습니다. ^^

마루날

좋은 논문 감사합니다.
항상 관심있게 보고 있습니다. ^^

kenu

잘 봤습니다.
자료 링크 또한 감사하구요.

leepro

Amazon의 Dynamo도 재미있습니다. ^^;

leanu

관심영역이 너무 넓은가봐요; 큰일임;

좋은 논문 감사드립니다.