Erlang과 Hadoop

Erlang을 보고 있자면 계속 Hadoop이 생각난다. 만일 Hadoop을 Java가 아닌 Erlang으로 구현했으면 상당히 깔끔하게 구현이 되었을 거란 느낌이 든다. Hadoop에서 Job 스케줄링을 하는것과 Job 생성, 파괴 등등 아마도 Java에서 이런 기능들을 직접 구현했을 테지만, Erlang에서는 이런 멀티 프로세스 관리를 언어레벨에서 지원을 해주기 때문이다. 그것도 Hadoop의 특징인 fault tolerance를 충분히 지원하도록 말이다. 게다가 Hadoop 외부 API지원 […]

계속 읽기

Hadoop 성능 측정

 Hadoop이 느리다는 글을 우리 와이프님이 보시고 기정 사실로 받아 들이려고 하는걸 아래 테스트로 무마하고자 한다. 그럼 근거를 제시해 보도록 하겠다. 전에 netflix 데이터를 돌려본다는 포스팅을 쓴적이 있다. 그곳에서 제공해준 10억건이 넘는 데이터가 아래와 같은 포멧으로 있다. movieid(key), <rating, date, userid>,<rating, date, userid>, <rating, date, userid>, …….. 이것을 아래와 같은 유저 아이디를 키로 하는 데이터를 만드는 […]

계속 읽기

netflix prize에 도전하고 있습니다.

netflix prize라는 해당 사용자가 보지 않은 영화의 점수를 예측하는 시스템을 만드는 대회이다. 상금이 무려 100만달러에 육박한다…@.@ 이것을 접하게된 계기는 hadoop mapreduce를 이용한 canopy clustering에 대한 자료를 찾다가 이 숙제 데이터셋을 보고 알게 되었다. netflix prize사이트에 가면 많은 설명이 되어 있고, 이 블로그에 가면 쉽게 정리된 자료를 볼 수 있다. 아무래도 서비스를 위한 빠른 알고리즘을 원하기 […]

계속 읽기

“경력 7년차 개발자의 선택” 을 읽고…

제목의 글을 읽고 나름의 생각들… 회사는 자신의 능력을 향상시키기 위해서 일을 주는건 아니다. 물론 회사의 도전적인 일을 맡음으로서 그런 일이 가능할지는 모르겠지만, 대부분 이사람이 하던일, 잘 하는일을 부여한다. 따라서 자신의 복수의 칼을 갈려면 회사와 일을 탓해서는 안되고 자신이 관심있고 추후 ‘칼’로 쓰일 기술 분야에 대해 자신의 시간을 할애해서 공부해야 한다는 것이다. 내 주변에 새벽에 가족들이 […]

계속 읽기

스팸필터 두번째 강좌 올라갔습니다.

결혼식 전에 집필했던 강좌가 올라갔다. 1회때보다는 많이 발전한듯한 느낌이 든다. (자퍽… ㅜㅜ)정말 1회 강좌는 올리고 나서 많이 후회하기도 했는데 이번 강좌는 좀 다르다.(마눌님이 보고는 저번것보다 이해하기 쉬웠단다. ^^) 이걸로 스팸필터 강좌는 마무리 짓는다.저번에 이메일로 어떤분이 상품 추천하는 로직에 대해서 설명해 달라고 그러셨는데 스팸필터로 하는 바람에 약속을 지키지 못해서 죄송하다는 생각이 든다.다음 기회가 된다면 상품 추천 […]

계속 읽기

가고 싶다…Hadoop summit

돌아오는 3월 25일 Yahoo! 본사에서 Hadoop summint 행사가 열린다.역시나 제리양이 분산컴퓨팅에 상당한 관심을 두고 있음을 이 서밋 행사에서 말해주고 있다. The latest proposed agenda follows: Time Topic Speaker(s) 8:30-8:55 Breakfast 8:55-9:00 Welcome to Yahoo! & Logistics Ajay Anand, Yahoo! 9:00-9:30 Hadoop Overview Doug Cutting / Eric Baldeschwieler, Yahoo! 9:30-10:00 Pig Chris Olston, Yahoo! 10:00-10:30 JAQL […]

계속 읽기

IBM Developerworks 기고 글 프로그램 소스와 데이터

IBM Developerworks에 스팸 문서 필터링에 대한 2회에 걸친 기고글을 쓰고 있는중인데, 오늘 첫 칼럼이 올라온것을 보니 소스코드하고 데이터 파일이 빠진걸 확인 했다. (게다가 수식을 캡처한 부분도 너무 크게 한듯 하다. ㅋ ) 또한 수식 번호도 빠진거 같은데, 이 부분은 고쳐달라고 요청을 했다. 이 부분에 대해서 바로 확인해보실 분들을 위해서 소스코드하고 데이터 파일을 첨부한다. 첫번째 칼럼 […]

계속 읽기

Hadoop 한글 인코딩 문제

이 문제는 한 9개월 전에 Hadoop으로 미니 프로젝트를 하면서 날려본 문제다. 문제를 해결하기 위해 백방으로 알아보고(심지어 더그커팅에게 문의까지…) 엄청난 삽질을 했지만 문제 해결을 위한 결정적 단서를 김형준님께서 주셨었다. 알다시피 자바는 유니코드, utf8기반이다. 그래서 로그 처리를 하고 역색인 파일을 만드는데 입력 파일을 utf8로 변환을 해서 Hadoop 5대의 머신에 넣고 설치를 했다. 뭐 처음에 영문으로만 간단하게 테스트 […]

계속 읽기

프로그래밍을 사랑하는 사람

얼마전에 출간된 사랑하지 않으면 떠나라 라는 책을 틈틈히 보고 있다. 처음부터 이 책에 대한 몰입도는 대단했다. 책에서 제기하는 문제의 출발점은 “급변하는 IT기술 그리고 개방되는 개발자 시장에서 어떻게 하면 성공(?)할 수 있는가“에 대해서 이야기 하고 있다. 아직 1/5 정도 밖에 읽지 않았지만 이전무터 내가 이야기 해온 “개발자의 새로운 언어 배우기 성향”이 채용자 입장에서 좋은 사람을 뽑는 […]

계속 읽기

SICP 2.23 풀이 – scheme –

고민하다가 답만 봐볼라고 인터넷 뒤져보다 몇몇 답들이 조금씩 틀려 있길래 그냥 풀어본거 올려본다. [CODE Ruby ](define (for-each func tlist)   (if (not (null? tlist))      (begin              (func (car tlist))              (for-each func (cdr tlist))             )      )  […]

계속 읽기