Hadoop 클러스터를 실시간 서비스에 적용 가능할까요? 라는 질문에 대해서

위 질문은 어제 내 발표가 끝나고 어떤분이 했던 질문이였다.어제 대다수의 질문이 hadoop(야후 그리드 시스템 구성이나 operation) 자체에 대한 질문이였다면(이런 질문은 confidential 이슈로 대부분 답변하지 않았다.) 그러나 이 질문은 가장 유일했던 hadoop을 이용한 알고리즘에 대한 질문이였다. 이 이야기를 좀더 심도깊게 이야기 하지 못한게 약간 후회되서 포스팅을 써본다. 변명을 하자면 어제 상당히 많은 분들이 질문과 명함교환을 요청하셔서 […]

계속 읽기

Platformday2008 후기

어제 PlatformDay2008 이라는 행사에 All day 참석을 했다. 아랫부분 누구 머리인지 살짝 예상이 된다. ㅋ 한재선 박사님의 부탁으로 나름 준비 좀 해서 발표를 했다. 이전에도 언급했지만 역시 이 발표에서도 하지 말아야 될 말들과 해도 될 말들에 대한 고민을 많이 했고, 발표 중간 중간 질문이 있을때 솔직히 답변을 생각하기 보다는 이걸 말해도 되는지에 대한 생각을 가장 […]

계속 읽기

Distributed Untar.

내가 사용하는 서버중에 core가 8개인 서버가 있다. 메모리도 4기가 정도 되고… 오늘 이 서버에 데이터를 옮기로 압축을 풀고 있는데 이 압축 푸는 속도가 너무 느리고 htop을 쳐서 보면 1개 코어만 쓰고 나머지는 핑핑 놀고 있어서 나중에 써먹을 것을 생각해서 코어에 분산시켜서 untar를 하는 Erlang 프로그램을 짜봤다. [CODE js]#!/usr/bin/env escript main(_) ->    OptionList = [{cwd, […]

계속 읽기

Yahoo!의 Slurp가 너무 자주 사이트를 방문한다면 이렇게 해보시죠?

사이트나 블로그의 크롤 어뷰징을 줄일 수 있는 몇가지 방법을 소개한다. 일단 일반적인 구글이나 야후 크롤러의 성향을 말해보자면…크롤러들은 사이트가 바뀌었다고 생각하면 일단 자주 방문을 하게 되고 이전 방문때와 비교했을때 별다르게 바뀐점이 없다는 판단을 하면 방문 횟수를 적절하게 줄여나간다.그래서 본인의 블로그 스킨을 바꾸었을때 굉장히 많은 트래픽이 몰려서 트래픽 초과를 당한적이 좀 있었다. 물론 지금은 이전보다 트래픽이 훨씬 […]

계속 읽기

블로그, 기존 미디어 그리고 책임감

이번 광우병 파동을  겪으면서 우리가 진실에 얼마나 가까운 생활을 하고 있는지 다시한번 느끼게 되었다. 수많은 구독자들의 신뢰를 받아온 블로거들이 속속들이 광우병 촛불집회에 대한 주말 경찰의 대응과 시민에 대해서 직접 발로 뛰거나 밤새도록 그곳의 생중계를 보면서 하얗게 지세우고 있다. 이런 블로거들의 대응과 느낌은 바로 거침없이 RSS 피드를 타고 날라와 그 숨결을 직접 느끼게끔 해주었으나, 주말 동안 […]

계속 읽기

아마존에서 쇼핑을 즐기다.

국내 온/오프 서점에서 AI Application Programming이라는 책을 구하려다 포기하고 드뎌 아마존을 두들겼다.회사 PC에 우분투가 깔려 있어서 결재가 될까 하고 리눅스 머신에서 결재를 해보니 깔끔하게 결재가 되더라. 우리나라 쇼핑몰들은 언제쯤 이런게 가능해질까…쩝 이 책은 예전에 Erlang으로 구현한 Neural Network Article을 보다가 발견했다. 이 아티클의 저자가 아마도 구현을 하면서 이 책을 참고한듯 하다. 게다가 책을 한권을 구입하니 […]

계속 읽기

덧글스팸 폭탄 맞다 – 2

시간은 정확하게 2008년 5월 23일 새벽 4시 15분부터 스팸 폭탄 투하가 시작되었다.그래서 정확하게 4963개의 스팸 comment가 달리다가, 같은날 아침 7시 56분에 끝이 났다. 지우다 지쳐서.. db에서 delete 명령으로 해결했으나 그 전에 스팸 데이터를 백업해 두었다. comment에 달린 링크의 host에 약간의 중복이 있는듯해서 카운팅 해보고 나서 이  스팸 폭탄 지능적으로 발송이 된걸 알았다. (물론 ip도 다양한 […]

계속 읽기

덧글스팸 폭탄 맞다.

참.. 날이 가면 갈수록 교묘해 진다.같은 IP의 반복을 카운팅해서 스팸을 막는다고 해고 이렇게 다양한 IP대역으로 들어오니 또한 링크를 몰아주는 Porn사이트도 정말 다양하게 보내줬다. 허허 여기서 가장 잘 알수 있는 공통적인 사실은 모든 URL을 Porn사이트로 몰아간다는건데 그럼 막기 위해서 링크를 따라서 링크를 한 페이지의 Porn을 판단해야 한다는건데 그렇다면 또 여기서 새로운 논문거리가 하나 나오는군. 대상 사이트를 […]

계속 읽기

발표에 대한 고민

전에 무슨 컨퍼런스를 한다고 하면 자세한건 이야기 안해주는 발표자 분들이 꽤나 미웠다. 그래서 이런 포스팅도 써봤다. 그런데 막상 뭔가 사내의 플랫폼을 소개를 하려고 하는데 이게 Confidential한 문제가 발표에 가장 큰 장애물로 점점 부각이 되고 있다. 오늘 이것때문에 고민도 많이하고 여기저기 물어보기도 좀 해보고 했지만 뽀족한 답이 없었다. 본사의 몇몇 발표경험이 좀 있다는 엔지니어에게 문의도 해보고 […]

계속 읽기

PlatformDay2008

공지 떳다. PlatformDay2008 강연중에 가장 기대가 되는것…. “광우병과 대용량 데이터 처리 플랫폼” 먹거리와 관련이 되어서도 그렇고 유전자 데이터를 어떻게 처리하고 무슨 작업을 주로 할까 하는 궁금증 때문이다.

계속 읽기