Machine Learning 관련 프로젝트에서

가장 중요하고 가장 많은 시간을 잡아 먹는것이… “데이터 전처리” 라는걸 많은 사람들이 간과한다. 나도 역시 ML 코어작업에 완전 푹 빠져서 이 부분을 간과하고 있다가 크게 뒤통수를 맞았다. 에러데이터 제거, 데이터 노말라이즈, 컴퓨터가 알아보기 쉬운 Feature Vector로의 변환작업 등등 그중에 입력 데이터의 정확도를 확인하는 부분은 정말 힘든 작업이다. 어느책을 보면 이 전처리 부분이 전체 마이닝 관련 […]

계속 읽기

Hadoop 클러스터를 실시간 서비스에 적용 가능할까요? 라는 질문에 대해서

위 질문은 어제 내 발표가 끝나고 어떤분이 했던 질문이였다.어제 대다수의 질문이 hadoop(야후 그리드 시스템 구성이나 operation) 자체에 대한 질문이였다면(이런 질문은 confidential 이슈로 대부분 답변하지 않았다.) 그러나 이 질문은 가장 유일했던 hadoop을 이용한 알고리즘에 대한 질문이였다. 이 이야기를 좀더 심도깊게 이야기 하지 못한게 약간 후회되서 포스팅을 써본다. 변명을 하자면 어제 상당히 많은 분들이 질문과 명함교환을 요청하셔서 […]

계속 읽기

Distributed Untar.

내가 사용하는 서버중에 core가 8개인 서버가 있다. 메모리도 4기가 정도 되고… 오늘 이 서버에 데이터를 옮기로 압축을 풀고 있는데 이 압축 푸는 속도가 너무 느리고 htop을 쳐서 보면 1개 코어만 쓰고 나머지는 핑핑 놀고 있어서 나중에 써먹을 것을 생각해서 코어에 분산시켜서 untar를 하는 Erlang 프로그램을 짜봤다. [CODE js]#!/usr/bin/env escript main(_) ->    OptionList = [{cwd, […]

계속 읽기

덧글스팸 폭탄 맞다 – 2

시간은 정확하게 2008년 5월 23일 새벽 4시 15분부터 스팸 폭탄 투하가 시작되었다.그래서 정확하게 4963개의 스팸 comment가 달리다가, 같은날 아침 7시 56분에 끝이 났다. 지우다 지쳐서.. db에서 delete 명령으로 해결했으나 그 전에 스팸 데이터를 백업해 두었다. comment에 달린 링크의 host에 약간의 중복이 있는듯해서 카운팅 해보고 나서 이  스팸 폭탄 지능적으로 발송이 된걸 알았다. (물론 ip도 다양한 […]

계속 읽기

덧글스팸 폭탄 맞다.

참.. 날이 가면 갈수록 교묘해 진다.같은 IP의 반복을 카운팅해서 스팸을 막는다고 해고 이렇게 다양한 IP대역으로 들어오니 또한 링크를 몰아주는 Porn사이트도 정말 다양하게 보내줬다. 허허 여기서 가장 잘 알수 있는 공통적인 사실은 모든 URL을 Porn사이트로 몰아간다는건데 그럼 막기 위해서 링크를 따라서 링크를 한 페이지의 Porn을 판단해야 한다는건데 그렇다면 또 여기서 새로운 논문거리가 하나 나오는군. 대상 사이트를 […]

계속 읽기

Functional Programming Creeps into Job Specs

서광열님의 블로그를 보고 다시 생각해봤다. Functional Programming Creeps into Job Specs 즉, 돈 안 되는 이상한 언어를 구사자를 찾을수록 실력 있는 개발자를 뽑을 확률이 높다는 이야깁니다. 함수 언어를 먹고 살기 위해 배우는 언어가 아니라 열의를 가지고 공부해야만 알 수 있는 언어이기 때문에, 함수 언어 구사자를 찾으면 자연적으로 다른 언어 구사자에 비해 실력 좋은 개발자를 뽑을 […]

계속 읽기

사내 핵데이

참가하면 티셔츠한장, 프로토타입 제출하면 전자액자…. 머리속에 하고 싶은건 가득한데, PlatformDay2008 발표준비와 6월초에 예정된 서비스 런치 덕분에 초 간단 Machine Learning 토이프로젝트로 하기로 했다. 게다가 프로토타입 제출날짜와 PlatformDay2008 발표 날짜가 같으니, 더 간단하게… 작년에 ML관련 스팸 Hack을 했었고 올해도 역시 ML에 대한 사내 개발자들의 관심을 좀 불러 일으키고저 ML프로젝트로 결심했다. ML이라고 하면 데이터를 수집하고 정제, 분류하는데 […]

계속 읽기

역시나 자바스크립트…

typos 형님의 포스팅을 보다가, 다시금 생각나서 주절대 본다. 형님 말씀대로 예나 지금이나 크롤러의 가장 큰 지향점은 자바스크립트 처리인거 같다. 뭐 어제인가 나온 기사에서도 자바스크립트 처리와 인증관련 문제를 IE를 사용해 처리한다고 한다. 다시금 자바스크립트 처리에 대한 이야기가 나오는구나. 자바스크립트 관련 문제는 이쪽 일을 해본 사람들에게는 오래된 주제이다. 나도 이것 때문에 모질라 재단의 spider monkey를 사용해보기 까지 […]

계속 읽기

Linear classification.

어제 모임이 있어서 갔다가 요즘 블로깅 뜸하다는 이야기를 친구에게 들었다. 사실 요즘에 정말 바쁘다. 회의도 많고 일도 만만치 않고…회의가 많다는건 참여하고 있는 프로젝트가 많다는 걸 의미하니.. 회의를 줄여야만이 일이 줄일수 있을거 같다는 생각이 좀 든다.그래서 회의를 가급적이면 피해볼라고 노력중이다. ㅋㅋ 머리속에 들어있는 생각중에 가장 큰 것은 랭킹이다. 랭킹 디자인을 하고 함수를 만드는 일을 하고 있는데 […]

계속 읽기

개발자여서.

세상이 이제는 단순히 개발만을 하는 개발자를 원하지는 않는거 같다는 생각이 든다. 무어의 법칙에 기대어 사는 개발자에게 멀티코어 CPU는 다른 개발 방식을 요구하고 있고, web2.0은 Data의 홍수 속에서 빠르고 정확한 정보를 뽑아내야 하는지 그 방법과 구현을 개발자에게 요구하고 있다. 위의 분위기를 둘다 느끼게끔 해주는 주변 환경이 나를 항상 흥분하게 만든다. 이쪽 세상…. 참으로 재미있는 세상이다.

계속 읽기