Mapreduce
금번 8월 월간 마소에 올렸던 Erlang관련 기고문을 공개한다. 한달정도 지나면 공개해도 된다는 말씀을 기자 분에게 들었었고 게다가 저작권이 본인과 월간 마소에 있어서 큰 문제가 없다고 생각한다. 글을 쓰면서 지면 여건상 많은 내용을 넣지 못한것이 조금 아쉬웠다. 11장으로 집약하기에는 부족한 감이 없지않아 있지만 초보분들에게는 좋은 시작점이 될 수 있을거란 생각을 해본다. 추가적으로 리서치가 되는 [...]
마소 기고문 쓰다가 발견한 자료다.얼랭언어에 대한 간략한 소개 후에 간단한 Map/Reduce 알고리즘을 구현/설명을 하고 있다. Exploring Erlang with Map/Reduce 블로그에 올린 공짜글 치고는 정말 좋은 글이다.
사실 대부분 코드의 본체는 Programming Erlang 의 예제코드에서 얻었고 간단하게 멀티 코어용 MapReduce 모듈을 구현한것을 보고 감동을 받아서 조금 고쳐 봤다. 책에서는 Reducer 하나만을 생성해서 결과를 combine 했는데 이 모듈에서는 Reducer 갯수를 조절할 수 있게 해놓았고, Hadoop과 유사하게 Key, Values 쌍으로 소팅해서 결과를 가져오게 했다.Hadoop처럼 대용량 파일을 모두 메모리에 올릴 수 없어 파일로 쓸수 밖에 [...]
netflix prize라는 해당 사용자가 보지 않은 영화의 점수를 예측하는 시스템을 만드는 대회이다. 상금이 무려 100만달러에 육박한다…@.@ 이것을 접하게된 계기는 hadoop mapreduce를 이용한 canopy clustering에 대한 자료를 찾다가 이 숙제 데이터셋을 보고 알게 되었다. netflix prize사이트에 가면 많은 설명이 되어 있고, 이 블로그에 가면 쉽게 정리된 자료를 볼 수 있다. 아무래도 서비스를 위한 빠른 알고리즘을 원하기 [...]
구글이 MapReduce를 어떻게 사용하는지 상당히 구체적으로 제시한 재미있는 글이다. 20,000 테라바이트의 웹데이터를 하루하루 처리한다는데 엄청나구나. 그것을 처리하기 위해 100,000 개의 MapReduce jobs를 이용한다고 하고 말이다. 이 논문에도 나와 있는데 ACM에 접근해서 받아보기 힘들어서 첨부한다. XEuFb8k3ap.pdf 2004년도 이전 논문에 비하면 비슷하지만 내용상의 최신 내용이 조금 있는거 같다. 위의 내용도 약간 초록에 나와 있다. Yahoo의 Hadoop 클러스터 [...]