컴퓨터 공학 그리고 통계

빅 데이터 시대에 데이터 사이언티스트의 요구 능력이 뭔지 정말 알고 싶다면 빅 데이터 분석 프로젝트를 직접 해보면 된다. 경험해보면 Linux 기반의 데이터 핸들링이 왜 중요하고. Hive, Hadoop이 왜 중요하며, R이 왜 중요한지 알게된다. 통계 전공이나 산업공학 전공하신 분들은 CS쪽 경험이 부족해 어려움을 겪는 걸 많이 봤고, CS 전공 분들은 통계학적인 지식이 부족해서 고생하시는 것을 많이 […]

계속 읽기

빅 데이터 쌓기 경쟁

최근 작금의 상황을 보자면 빅 데이터를 모아서 쌓아두는데 목적을 두는 기업들이 상당히 많다는 것을 자주 느끼곤 한다. 빅 데이터를 쌓아두면 뭔가 가치 있는 정보들이 나올거라는 미신같은것 때문에 너도 나도 빅 데이터 클러스터를 구성하는데 관심을 가지고 있는 듯 하다. 물론 빅 데이터에 가는 가장 명시적인 마일스톤이 빅 데이터 처리 플랫폼을 구축하는 것이고 어쩌면 이는 돈을 투자하면 […]

계속 읽기

데이터는 두뇌이자 도서관이다.

오늘 아주 흥미로운 글 하나를 읽었다. 우연히 Beautiful Data라는 책을 펼쳤는데, 전에 내가 읽지 않았던 부분중에서 Facebook의 데이터 플랫폼을 구축하는 과정을 그리는 Jeff Hammerbacher의 글을 보게 되었다.
읽는 내내 정신을 놓게 하지 않을 정도로 굉장히 흥미로운 글이였다.

계속 읽기

Hadoop tutorial workshop 후기

오늘 Hadoop tutorial workshop이 서울대 치대 건물에서 있었다. 회사분들 몇분과 같이 가서 함께 코딩도 해보고 설명도 듣고 참 좋은 시간이 되었던거 같다. 최근 시간을 들여 map/reduce 프로그래밍을 자바기반으로 해보려고 했었는데 딱 예전 느낌을 되살리기 좋은 시간이였고, 좋은 팀들과 설명 많이 들었다. 무엇보다 출간 전부터 상당히 관심이 있었던 구글을 지탱하는 기술 책을 선물로 받을 수 있어서 […]

계속 읽기

Hadoop 헤게모니 논쟁을 벗어나자!

어제 Hadoop 커뮤니티 모임이 Daum에서 있었다. 그 모임에서 Daum에 계시는걸로 보이는 어떤분이 MPI로도 가능한데 Hadoop으로 꼭히 써야될 필요가 있는가에 대해서 굉장히 열정적으로(?) 조목조목 hadoop의 단점과 문제점에대한 질문을 하셨다. 처음에는 질문이 날카로웠지만 점점 끝나지 않을거 같은 헤게모니 논쟁으로 흘러가는 분위기였다. ㅡㅡ; 솔직히 MPI를 사용해본적은 없고 멀티코어CPU 관련된 프로그래밍 라이브러리 이야기 할때 잠깐 소개를 받은적이 있었다. 메시지 […]

계속 읽기

Erlang으로 구현한 분산처리 플랫폼 : PDF 공개

금번 8월 월간 마소에 올렸던 Erlang관련 기고문을 공개한다.   한달정도 지나면 공개해도 된다는 말씀을 기자 분에게 들었었고 게다가 저작권이 본인과 월간 마소에 있어서 큰 문제가 없다고 생각한다.   글을 쓰면서 지면 여건상 많은 내용을 넣지 못한것이 조금 아쉬웠다. 11장으로 집약하기에는 부족한 감이 없지않아 있지만 초보분들에게는 좋은 시작점이 될 수 있을거란 생각을 해본다. 추가적으로 리서치가 되는 […]

계속 읽기

야후에서 있었던 Hadoop Community 모임

재미있었다. 발표자료 준비하는과정에서 뭘 발표할까 몇가지 중에서 고르다가 시작 2시간 전에 PPT 작성하고 발표 했다. 한재선 박사님은 역시 Hadoop을 이용한 ML관련 내용을 발표 하셨고, 형준님은 HBase의 성능테스트 해보신 경험을 발표 하셨다. 내가 했던 발표는 Thinking Parallel 이고 map/reduce를 해보면서 궁금했던 몇가지 질문에 답변을 찾는 방법으로 발표를 이끌어 나갔다. 발표자료 첨부한다. 결론은 개발자들에게 하드웨어를 추가만함으로서 얻는 […]

계속 읽기

Hadoop 클러스터를 실시간 서비스에 적용 가능할까요? 라는 질문에 대해서

위 질문은 어제 내 발표가 끝나고 어떤분이 했던 질문이였다.어제 대다수의 질문이 hadoop(야후 그리드 시스템 구성이나 operation) 자체에 대한 질문이였다면(이런 질문은 confidential 이슈로 대부분 답변하지 않았다.) 그러나 이 질문은 가장 유일했던 hadoop을 이용한 알고리즘에 대한 질문이였다. 이 이야기를 좀더 심도깊게 이야기 하지 못한게 약간 후회되서 포스팅을 써본다. 변명을 하자면 어제 상당히 많은 분들이 질문과 명함교환을 요청하셔서 […]

계속 읽기

Erlang과 Hadoop

Erlang을 보고 있자면 계속 Hadoop이 생각난다. 만일 Hadoop을 Java가 아닌 Erlang으로 구현했으면 상당히 깔끔하게 구현이 되었을 거란 느낌이 든다. Hadoop에서 Job 스케줄링을 하는것과 Job 생성, 파괴 등등 아마도 Java에서 이런 기능들을 직접 구현했을 테지만, Erlang에서는 이런 멀티 프로세스 관리를 언어레벨에서 지원을 해주기 때문이다. 그것도 Hadoop의 특징인 fault tolerance를 충분히 지원하도록 말이다. 게다가 Hadoop 외부 API지원 […]

계속 읽기

Hadoop 성능 측정

 Hadoop이 느리다는 글을 우리 와이프님이 보시고 기정 사실로 받아 들이려고 하는걸 아래 테스트로 무마하고자 한다. 그럼 근거를 제시해 보도록 하겠다. 전에 netflix 데이터를 돌려본다는 포스팅을 쓴적이 있다. 그곳에서 제공해준 10억건이 넘는 데이터가 아래와 같은 포멧으로 있다. movieid(key), <rating, date, userid>,<rating, date, userid>, <rating, date, userid>, …….. 이것을 아래와 같은 유저 아이디를 키로 하는 데이터를 만드는 […]

계속 읽기