Google의 MapReduce 와 Hadoop

오늘 businessweek지에서 상당히 흥미로운 기사를 봐서 포스팅 해본다.

The Two Flavors of Google 이라는 글인데, 요즘(?) MapReduce기술을 기반으로 각광 받고 있는 cloud computing 분야에서 두가지 기술적인 조류를 이루고 있는 Google의 mapreduceHadoop에 대해서 이야기 하고 있다.

이 글을 보고 Hadoop이 구글의 기술을 99% 배껴서 만들어 졌다는 편견을 말끔히 해소할 수 있었다.

구글에서 Hadoop에 컨트리뷰트 하고 있는 개발자가 하나도 없는 이유가 구글이 MapReduce에 몸담고 있는 개발자를 이런 오픈소스 프로젝트에 참여하지 못하게 철저히 막고 있다는 것과 단지 ‘구글 인턴만 어사인 하고 있다’고 말하고 있는 cutting의 말을 듣자면 조금은 안타깝게 생각이 든다. (Hadoop은 Yahoo!가 리딩 그룹이 되어 10여명의 개발자가 참여하고 외부에서도 수명이 참여하여 프로젝트를 운영하고 있다.)

많은 학술 관련 공개 프로젝트가 구글이나 IBM에서 지원하고, 그의 핵심에 MapReduce가 있지만 정작 그 기술을  써본 학자들은 나중에 Hadoop을 쓰게 된다는 것인데, MapReduce의 팬은 구글과 IBM의 폐쇠적인 기술 정책으로 말미암에 Hadoop쪽으로 넘어가게 되어 있다는 것이다.
또한 오픈이 되어 있는 프로젝트기 때문에 구글의 MapReduce보다는 더 flexibility 측면을 더 많이 가지고 있고, 그에따라 사람들의 usability는 더 늘어나게 될 것이다고 이야기 하고 있다.

한마디로 MapReduce의 제시는 구글이 했지만 정작 필드에서 많이 쓰이는건 Hadoop이 될거라는 이야기다.

이곳에 제시된 Hadoop의 기술이 어디에 쓰이는지 예시가 나와 있는데 참으로 흥미롭다.

FaceBook에서 유저데이터를 분석하는 용도로 쓰고 있다고 하고…

In early November, for example, the tech team at The New York Times (NYT) rented computing power on Amazon’s (AMZN)
cloud and used Hadoop to convert 11 million archived articles, dating
back to 1851, to digital and searchable documents. They turned around
in a single day a job that otherwise would have taken months.

아마존의 클러스터를 이용해 하루만에 작업해 버린 일화가 위 내용이다.

또한 야후에서도 여러 분야에서 활발하게 Hadoop을 사용하고 있다는것도 널리 알려진 사실이다.

Cutting의 이야기를 보자니 기술을 오픈하지 않고 지원하지도 않는 구글에 대한 냉소가 담겨 있는거 같기도 하고 잘난 니들 힘이 없어도 잘 하고 있다는 느낌을 내뿜고 있기도 한거 같다.

CC BY-NC 4.0 Google의 MapReduce 와 Hadoop by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.