데이터 마이닝은 과학과 기예의 결합작

과학(science)와 기예(art)… 뭐 일단 이렇게 영어로 표현해 볼 수 있겠다. 국어 사전을 보니 기예가 “기술에 대한 재주”라고 표현되어 있는데, 내가 의도한 의미와 일맥상통한다. 개인적으로 데이터 마이닝이라는 단어를 좋아한다. 이 처럼 이 학문 영역을 잘 성명할 수 있는 이름은 없기 때문이다. 과정 자체가 금맥을 찾는 과정과 흡사하다. 많은 데이터 마이너들이 알고리즘으로부터 시작을 한다. 하긴 거의 모든 […]

계속 읽기

Data Mining, Third Edition: Practical Machine Learning Tools and Techniques

Data Mining, Third Edition: Practical Machine Learning Tools and Techniques (The Morgan Kaufmann Series in Data Management Systems) 2판은 현재 내 책상 위에도 있을 정도로 즐겁게 참고하는 책이 되어 버렸다. 2판이 나온지 5년이 되가고 있고 3판 언제 나올까? 하고 찾아보고 있었는데 2011년 초 출간 예정이다. 역시 최신 트렌드를 다루고 있다.대용량 데이터 셋 처리, 앙상블 러닝, […]

계속 읽기

Fullwidth Forms in Unicode

알파벳을 표현하는 이런 다양한 방법들이 있다는 것에 감사한다. 따라서 유니코드 문자들을 속속들이 한번쯤 들여다 보는 경험을 해보는게 정말 중요한듯 하다. from Wikipedia Chart Halfwidth and Fullwidth Forms Unicode.org chart (PDF) 0 1 2 3 4 5 6 7 8 9 A B C D E F U+FF0x ! " # $ % & ' ( […]

계속 읽기

성공적인 성능 개선

계속 금요일날 일을 못하다 보니 일이 좀 밀려 있었고, 몇몇은 선행 작업들이 연기되면서 덩달아 나 자신의 성과도 내기가 쉽지 않았다.  일도 중간에 자주 끊기는거 같기도 하고 말이다. 근 3주동안 컨퍼런스콜에서 거의 업데이트를 못하고 있다가,  고향 내려가기 전날 오늘…의미심장한 결과를 컨퍼런스콜에서 이야기 할 수 있었다. 무엇보다 오늘 발표한 작업이 서브 프로젝트였으며, 다른 개발자의 작업 결과를 기다리는 […]

계속 읽기

나의 디지털 자료들에 대한 소유권

오늘 기사글을 보다가 블로거가 사망한 이후에 그 블로그 자료에 대한 소유권에 대해서 어떻게 할것인가 하는 기사를 봤다. 그래서 생각난김에 내 블로그 계정을 비롯해 여러 서비스를 나열하고 정리해 보고자 한다. 일단 이 블로그는 워드프레스 개인 호스팅 계정이며 http://www.mireene.com/ 에서 호스팅 되고 있다. 포스팅 개수가 꽤 되는데 전체글중에 비공개 글이 내 예상에는 20% 정도는 되리라 생각한다. 블로그의 […]

계속 읽기

플랫폼, 개발자의 나라 미국으로..

먼저 이 글을 쓰기 전에, 소프트웨어 개발의 본좌는 미국이라는 것을 미리 밝혀둔다. 가장 소프트웨어 개발의 역사가 긴만큼, 그들의 능력, 환경 그리고 소프트웨어에 대한 관점은 너무도 한국 개발자… 심지어 아시아쪽 개발 환경하고는 다르다는것을 …. 요즘 회사 내적으로 많은 변화를 겪고 있는게 사실이다. 그래서 개발자 채용에 대한 문의가 참으로 나에게는곤혹스럽기 그지 없다. 그러니 이 글을 보시는 분들중에 […]

계속 읽기

Deep Crawl

웹 크롤로 검색일을 시작 해서 그런지 웹 크롤의 여러 이슈에 대해서 지금도 많은 관심이 있다. 그러다 구글에서 연구하고 실제 적용한 Deep Crawl알고리즘을 틈틈히 지하철에서 살펴볼 기회가 있었다. 구글이 이야기하는 Deep Crawl은, Form 태크의 실행(submission)으로 생성되는 get방식의  URL을 어떻게 하면 정보가 많게끔 자동으로 생성해 내느냐를 고민한 결과였다. 실제 아래와 같은 폼들을 이용해 검색 하는 방식이 주된 […]

계속 읽기

데이터는 두뇌이자 도서관이다.

오늘 아주 흥미로운 글 하나를 읽었다. 우연히 Beautiful Data라는 책을 펼쳤는데, 전에 내가 읽지 않았던 부분중에서 Facebook의 데이터 플랫폼을 구축하는 과정을 그리는 Jeff Hammerbacher의 글을 보게 되었다.
읽는 내내 정신을 놓게 하지 않을 정도로 굉장히 흥미로운 글이였다.

계속 읽기