Hadoop
금번 8월 월간 마소에 올렸던 Erlang관련 기고문을 공개한다. 한달정도 지나면 공개해도 된다는 말씀을 기자 분에게 들었었고 게다가 저작권이 본인과 월간 마소에 있어서 큰 문제가 없다고 생각한다. 글을 쓰면서 지면 여건상 많은 내용을 넣지 못한것이 조금 아쉬웠다. 11장으로 집약하기에는 부족한 감이 없지않아 있지만 초보분들에게는 좋은 시작점이 될 수 있을거란 생각을 해본다. 추가적으로 리서치가 되는 [...]
재미있었다. 발표자료 준비하는과정에서 뭘 발표할까 몇가지 중에서 고르다가 시작 2시간 전에 PPT 작성하고 발표 했다. 한재선 박사님은 역시 Hadoop을 이용한 ML관련 내용을 발표 하셨고, 형준님은 HBase의 성능테스트 해보신 경험을 발표 하셨다. 내가 했던 발표는 Thinking Parallel 이고 map/reduce를 해보면서 궁금했던 몇가지 질문에 답변을 찾는 방법으로 발표를 이끌어 나갔다. 발표자료 첨부한다. 결론은 개발자들에게 하드웨어를 추가만함으로서 얻는 [...]
위 질문은 어제 내 발표가 끝나고 어떤분이 했던 질문이였다.어제 대다수의 질문이 hadoop(야후 그리드 시스템 구성이나 operation) 자체에 대한 질문이였다면(이런 질문은 confidential 이슈로 대부분 답변하지 않았다.) 그러나 이 질문은 가장 유일했던 hadoop을 이용한 알고리즘에 대한 질문이였다. 이 이야기를 좀더 심도깊게 이야기 하지 못한게 약간 후회되서 포스팅을 써본다. 변명을 하자면 어제 상당히 많은 분들이 질문과 명함교환을 요청하셔서 [...]
Continue reading about Hadoop 클러스터를 실시간 서비스에 적용 가능할까요? 라는 질문에 대해서
Erlang을 보고 있자면 계속 Hadoop이 생각난다. 만일 Hadoop을 Java가 아닌 Erlang으로 구현했으면 상당히 깔끔하게 구현이 되었을 거란 느낌이 든다. Hadoop에서 Job 스케줄링을 하는것과 Job 생성, 파괴 등등 아마도 Java에서 이런 기능들을 직접 구현했을 테지만, Erlang에서는 이런 멀티 프로세스 관리를 언어레벨에서 지원을 해주기 때문이다. 그것도 Hadoop의 특징인 fault tolerance를 충분히 지원하도록 말이다. 게다가 Hadoop 외부 API지원 [...]
Hadoop이 느리다는 글을 우리 와이프님이 보시고 기정 사실로 받아 들이려고 하는걸 아래 테스트로 무마하고자 한다. 그럼 근거를 제시해 보도록 하겠다. 전에 netflix 데이터를 돌려본다는 포스팅을 쓴적이 있다. 그곳에서 제공해준 10억건이 넘는 데이터가 아래와 같은 포멧으로 있다. movieid(key), <rating, date, userid>,<rating, date, userid>, <rating, date, userid>, …….. 이것을 아래와 같은 유저 아이디를 키로 하는 데이터를 만드는 [...]