netflix prize에 도전하고 있습니다.

netflix prize라는 해당 사용자가 보지 않은 영화의 점수를 예측하는 시스템을 만드는 대회이다. 상금이 무려 100만달러에 육박한다…@.@ 이것을 접하게된 계기는 hadoop mapreduce를 이용한 canopy clustering에 대한 자료를 찾다가 이 숙제 데이터셋을 보고 알게 되었다. netflix prize사이트에 가면 많은 설명이 되어 있고, 이 블로그에 가면 쉽게 정리된 자료를 볼 수 있다. 아무래도 서비스를 위한 빠른 알고리즘을 원하기 […]

계속 읽기

Hadoop이 야후 검색의 심장역할을 하게 될듯합니다.

Hadoop이 야후 검색의 심장역할을 하게된다. 뭐 사내에서는 오래전부터 진행이 되어 왔던 일이고, 이런 오픈 플랫폼 지원에 대해서 대대적으로 홍보를 하고 있는바 쓰지 않을수가 없다. 이미 대세는 대용량 처리의 시대가 되고 있고, 야후는 오래전부터 이런부분에 대해서 준비하며 앞으로 가장 많이 쓰일 상업용 어플리케이션의 오픈소스화를 성공시켰다. 아마도 이런 정보처리 부분에 대해서 리딩 그룹으로 야후가 앞장을 설 것이라 […]

계속 읽기

가고 싶다…Hadoop summit

돌아오는 3월 25일 Yahoo! 본사에서 Hadoop summint 행사가 열린다.역시나 제리양이 분산컴퓨팅에 상당한 관심을 두고 있음을 이 서밋 행사에서 말해주고 있다. The latest proposed agenda follows: Time Topic Speaker(s) 8:30-8:55 Breakfast 8:55-9:00 Welcome to Yahoo! & Logistics Ajay Anand, Yahoo! 9:00-9:30 Hadoop Overview Doug Cutting / Eric Baldeschwieler, Yahoo! 9:30-10:00 Pig Chris Olston, Yahoo! 10:00-10:30 JAQL […]

계속 읽기

Hadoop 한글 인코딩 문제

이 문제는 한 9개월 전에 Hadoop으로 미니 프로젝트를 하면서 날려본 문제다. 문제를 해결하기 위해 백방으로 알아보고(심지어 더그커팅에게 문의까지…) 엄청난 삽질을 했지만 문제 해결을 위한 결정적 단서를 김형준님께서 주셨었다. 알다시피 자바는 유니코드, utf8기반이다. 그래서 로그 처리를 하고 역색인 파일을 만드는데 입력 파일을 utf8로 변환을 해서 Hadoop 5대의 머신에 넣고 설치를 했다. 뭐 처음에 영문으로만 간단하게 테스트 […]

계속 읽기

구글이 20 petabyte의 데이터를 얼마만에 처리할까?

구글이 MapReduce를 어떻게 사용하는지 상당히 구체적으로 제시한 재미있는 글이다. 20,000 테라바이트의 웹데이터를 하루하루 처리한다는데 엄청나구나. 그것을 처리하기 위해 100,000 개의 MapReduce jobs를 이용한다고 하고 말이다. 이 논문에도 나와 있는데 ACM에 접근해서 받아보기 힘들어서 첨부한다. XEuFb8k3ap.pdf 2004년도 이전 논문에 비하면 비슷하지만 내용상의 최신 내용이 조금 있는거 같다. 위의 내용도  약간 초록에 나와 있다. Yahoo의 Hadoop 클러스터 […]

계속 읽기

Google의 MapReduce 와 Hadoop

오늘 businessweek지에서 상당히 흥미로운 기사를 봐서 포스팅 해본다. The Two Flavors of Google 이라는 글인데, 요즘(?) MapReduce기술을 기반으로 각광 받고 있는 cloud computing 분야에서 두가지 기술적인 조류를 이루고 있는 Google의 mapreduce와 Hadoop에 대해서 이야기 하고 있다. 이 글을 보고 Hadoop이 구글의 기술을 99% 배껴서 만들어 졌다는 편견을 말끔히 해소할 수 있었다. 구글에서 Hadoop에 컨트리뷰트 하고 […]

계속 읽기

야후에서 CMU에 Hadoop 클러스터 제공하기로…

오늘 아침에 팀장님에게 이 좋은 소식을 들었고, 다시 YDN에서 눈으로 확인을 했다. 이름하여 M45라는 컴퓨팅 환경을 제공하는 프로그램을 학술 목적에 쓸수 있게 개방을 한다는 것이다. 내용인 즉슨, 학술연구 목적으로 야후의 Hadoop 클러스터에 대한 컴퓨팅 환경 지원을 약속했다는것인데, 대용량 데이터에 대한 컴퓨팅 리소스가 많이 들어가는 웹 마이닝분야나 자연언어 처리, 기계번역, 컴퓨터 그래픽스 분야에서 이런 환경이 쓰일수 […]

계속 읽기

Hbase 세미나 후기

1년전 논문으로 맛만 보았던 google의 Bigtable을 다시 오늘 맛보았다.그 구현체는 Hbase라는 놈을 통해서 였는데, NHN에 다니시는 김형준님이 아주 맛깔나게 세미나를 해주셨다. 사실 개인적으로는 Hadoop기반으로 Hbase가 돌아간다고 했는데 솔직히 두개가 어떻게 맞붙어서 돌아갈까 하는 의문을 가지고 참석을 했다. 그러다가 이날 1시간이 넘는 세미나를 하고 나서 정확히 어떻게 돌아가는지 알게 되었다. 역시나 Hadoop는 분산 프로세싱에만 관여를 하는것이였고, […]

계속 읽기

Yahoo!에서 Hadoop이 어떻게 쓰일까?

야후에서 직접 Hadoop이 내부적으로 어떻게 쓰이는지 공개 했다. 뭐 쓰임새야 야후직원이고 평소 관심이 많아 알고 있었던 사실이고 직접 써보기 까지 했으니… 내부 자료인데, 적당한 레벨에서 공개를 한거 같다. 실제 Hadoop에 대한 소개글 수준인 Doug Cutting의 ppt 보다 Eric의 ppt가 볼만하다.왜냐면 실무에서 어떻게 사용이 되는지 간단하게 나마 소개되어 있기 때문이다. Hadoop at OSCON Yahoo!의 Hadoop cluster […]

계속 읽기

About Hadoop Streaming

Hadoop을 처음에 Java로만 접근을 했다. 물론 Java API가 기본이기 때문에 그럴것이다.물론 저번주 사내 Tech Talk에서도 Java Code만 공개해서 예제를 보여줬다. 사내에서 많이 쓰는 언어에 대해서 예제를 만들고 보여줬어야 하는데 조금 아쉽기는 하다.(설명 당시에는 전혀 감을 못잡은 상태였다.)그러다 짬을내서 API와 소스를 보고 예제를 구현해 봤다. Java api is not a only way to construct map&reduce function. […]

계속 읽기