구글이 20 petabyte의 데이터를 얼마만에 처리할까?

구글이 MapReduce를 어떻게 사용하는지 상당히 구체적으로 제시한 재미있는 글이다.

20,000 테라바이트의 웹데이터를 하루하루 처리한다는데 엄청나구나. 그것을 처리하기 위해 100,000 개의 MapReduce jobs를 이용한다고 하고 말이다.

이 논문에도 나와 있는데 ACM에 접근해서 받아보기 힘들어서 첨부한다.

XEuFb8k3ap.pdf

2004년도 이전 논문에 비하면 비슷하지만 내용상의 최신 내용이 조금 있는거 같다. 위의 내용도  약간 초록에 나와 있다.

Yahoo의 Hadoop 클러스터 이외에도 MS에는 Dryad라는게 있다는 것도 새로 알게 되었다.

CC BY-NC 4.0 구글이 20 petabyte의 데이터를 얼마만에 처리할까? by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.