아마존에서 쇼핑을 즐기다.

국내 온/오프 서점에서 AI Application Programming이라는 책을 구하려다 포기하고 드뎌 아마존을 두들겼다.회사 PC에 우분투가 깔려 있어서 결재가 될까 하고 리눅스 머신에서 결재를 해보니 깔끔하게 결재가 되더라. 우리나라 쇼핑몰들은 언제쯤 이런게 가능해질까…쩝 이 책은 예전에 Erlang으로 구현한 Neural Network Article을 보다가 발견했다. 이 아티클의 저자가 아마도 구현을 하면서 이 책을 참고한듯 하다. 게다가 책을 한권을 구입하니 […]

계속 읽기

덧글스팸 폭탄 맞다 – 2

시간은 정확하게 2008년 5월 23일 새벽 4시 15분부터 스팸 폭탄 투하가 시작되었다.그래서 정확하게 4963개의 스팸 comment가 달리다가, 같은날 아침 7시 56분에 끝이 났다. 지우다 지쳐서.. db에서 delete 명령으로 해결했으나 그 전에 스팸 데이터를 백업해 두었다. comment에 달린 링크의 host에 약간의 중복이 있는듯해서 카운팅 해보고 나서 이  스팸 폭탄 지능적으로 발송이 된걸 알았다. (물론 ip도 다양한 […]

계속 읽기

덧글스팸 폭탄 맞다.

참.. 날이 가면 갈수록 교묘해 진다.같은 IP의 반복을 카운팅해서 스팸을 막는다고 해고 이렇게 다양한 IP대역으로 들어오니 또한 링크를 몰아주는 Porn사이트도 정말 다양하게 보내줬다. 허허 여기서 가장 잘 알수 있는 공통적인 사실은 모든 URL을 Porn사이트로 몰아간다는건데 그럼 막기 위해서 링크를 따라서 링크를 한 페이지의 Porn을 판단해야 한다는건데 그렇다면 또 여기서 새로운 논문거리가 하나 나오는군. 대상 사이트를 […]

계속 읽기

발표에 대한 고민

전에 무슨 컨퍼런스를 한다고 하면 자세한건 이야기 안해주는 발표자 분들이 꽤나 미웠다. 그래서 이런 포스팅도 써봤다. 그런데 막상 뭔가 사내의 플랫폼을 소개를 하려고 하는데 이게 Confidential한 문제가 발표에 가장 큰 장애물로 점점 부각이 되고 있다. 오늘 이것때문에 고민도 많이하고 여기저기 물어보기도 좀 해보고 했지만 뽀족한 답이 없었다. 본사의 몇몇 발표경험이 좀 있다는 엔지니어에게 문의도 해보고 […]

계속 읽기

PlatformDay2008

공지 떳다. PlatformDay2008 강연중에 가장 기대가 되는것…. “광우병과 대용량 데이터 처리 플랫폼” 먹거리와 관련이 되어서도 그렇고 유전자 데이터를 어떻게 처리하고 무슨 작업을 주로 할까 하는 궁금증 때문이다.

계속 읽기

Functional Programming Creeps into Job Specs

서광열님의 블로그를 보고 다시 생각해봤다. Functional Programming Creeps into Job Specs 즉, 돈 안 되는 이상한 언어를 구사자를 찾을수록 실력 있는 개발자를 뽑을 확률이 높다는 이야깁니다. 함수 언어를 먹고 살기 위해 배우는 언어가 아니라 열의를 가지고 공부해야만 알 수 있는 언어이기 때문에, 함수 언어 구사자를 찾으면 자연적으로 다른 언어 구사자에 비해 실력 좋은 개발자를 뽑을 […]

계속 읽기

사내 핵데이

참가하면 티셔츠한장, 프로토타입 제출하면 전자액자…. 머리속에 하고 싶은건 가득한데, PlatformDay2008 발표준비와 6월초에 예정된 서비스 런치 덕분에 초 간단 Machine Learning 토이프로젝트로 하기로 했다. 게다가 프로토타입 제출날짜와 PlatformDay2008 발표 날짜가 같으니, 더 간단하게… 작년에 ML관련 스팸 Hack을 했었고 올해도 역시 ML에 대한 사내 개발자들의 관심을 좀 불러 일으키고저 ML프로젝트로 결심했다. ML이라고 하면 데이터를 수집하고 정제, 분류하는데 […]

계속 읽기

PlatformDay 2008 발표하게 되었습니다.

이달 초에 한재선 박사님의 부탁과 팀장님의 요청으로 그리고 typos 형님의 뽐뿌질로 탄력 받아서 PlatformDay 2008의 발표를 하게 되었다. 시간: 2008년 5월 30일 금요일 10:00 ~ 18:00 (예정)장소: 서울대 엔지니어하우스 (310동) 대강당 (101호)인원: 200명 (추후 선착순으로 등록)대상: 플랫폼에 관심있는 누구나(대학, 기업, 연구소 등)비용: 무료주최: NexR Inc. 아직 확정된 일정은 NexR 블로그에 공개가 되어 있지는 않지만 위 […]

계속 읽기

Hanrss 구독자수를 기반으로 한 블로거 top 1000

저녁에 잠깐 Hanrss 사이트를 기반으로 해서 구독자별로 top1000 블로거 직접 크롤링해서 모아 봤다. 이 데이터를 1년 전부터 가지고 싶었었는데 막상 마음 먹으니 30분도 안되서 가져올 수 있었다.Beautifulsoup 과 Feedparser를 이용하니 40라인도 안되는 코드로 크롤링이 가능하더라. 데이터를 구하는 작업 자체도 힘든 과정중에 하나인데 그런 부분을 편리한 언어와 라이브러리의 도움으로 쉽게 건너뛸 수 있으니 참 좋은 세상이다. […]

계속 읽기

역시나 자바스크립트…

typos 형님의 포스팅을 보다가, 다시금 생각나서 주절대 본다. 형님 말씀대로 예나 지금이나 크롤러의 가장 큰 지향점은 자바스크립트 처리인거 같다. 뭐 어제인가 나온 기사에서도 자바스크립트 처리와 인증관련 문제를 IE를 사용해 처리한다고 한다. 다시금 자바스크립트 처리에 대한 이야기가 나오는구나. 자바스크립트 관련 문제는 이쪽 일을 해본 사람들에게는 오래된 주제이다. 나도 이것 때문에 모질라 재단의 spider monkey를 사용해보기 까지 […]

계속 읽기