뭐 사내에서는 오래전부터 진행이 되어 왔던 일이고, 이런 오픈 플랫폼 지원에 대해서 대대적으로 홍보를 하고 있는바 쓰지 않을수가 없다.
이미 대세는 대용량 처리의 시대가 되고 있고, 야후는 오래전부터 이런부분에 대해서 준비하며 앞으로 가장 많이 쓰일 상업용 어플리케이션의 오픈소스화를 성공시켰다. 아마도 이런 정보처리 부분에 대해서 리딩 그룹으로 야후가 앞장을 설 것이라 믿어 의심치 않고 있다.
Hadoop의 가능성은 수많은 Hadoop 파생 프로젝트를 확인해 보면 알수 있다. Hbase를 비롯해 HyperTable 등등 BigTable류의 프로젝트가 대표적이고 그 밖에 Pig 등 Hadoop을 사용하기 편하게 하는 몇몇 프로젝트가 진행중에 있다.
또한 mahout가 진행중인데, 이건 이전에 내 블로그에서 소개된 논문이 시발점이 된것이 아닐까 한다.
역시나 machine learning에서 부족한 메모리와 프로세싱 타임을 줄이기 위해 분산처리를 쓰게 되는 시점까지 온 것이다. 게다가 오픈소스로 말이다.
앞으로 더 많은 mahout 같은 Hadoop 알고리즘 플러그인들이 많이들 나왔으면 한다.
데이터 프로세싱 작업을 하다가 시간이 많이 걸리는 작업이면 이제 항상 Hadoop이 생각난다.
그런데 Map Resuce작업으로 Hadoop에 돌리기위해서 PIPE같은 트릭을 써야 함으로 약간 코딩이 필요한 문제가 있는데, 간단히 만들어놓은 로직에 껍데기만 발라서 쓰면 되니 그리 어렵지 않게 Hadoop클러스터를 이용해 프로세싱이 가능하다.
ps. 참..그리고 아래는 보너스로 Map Reduce를 이용한 클러스터링 알고리즘 강좌 동영상을 올려본다.
상당히 또박또박 발표를 해줘서 그리 어렵지 않게 강좌를 들을 수 있다. 게다가 강사님이 꽤 미인이여서 몰입도도장난 아니다.
Hadoop이 야후 검색의 심장역할을 하게 될듯합니다. by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.