흉내내기 힘든 인간 지적판단과 지능형 소프트웨어

요 데이터마이닝 관련 프로젝트는 많은 소프트웨어 개발자들이 느끼는 개발자 자신의 겸손한 자세를 요구하는것과 더불어 인간 지적판단의 위대함을 다시한번 느끼게 해주는 몇 안되는 프로젝트이다. 많은 소프트웨어의 버그 해결 과정은 깊은 자기 반성의 시간이 된다. 자신에 대한 확신이 강한 사람은 심지어 컴파일러까지도 의심하지만 대부분의 경우 본인에게 문제가 있다. 이런 과정이 반복되고 경험이 쌓이면 개발자 자신이 자신에 대해서 […]

계속 읽기

데이터 마이닝은 과학과 기예의 결합작

과학(science)와 기예(art)… 뭐 일단 이렇게 영어로 표현해 볼 수 있겠다. 국어 사전을 보니 기예가 “기술에 대한 재주”라고 표현되어 있는데, 내가 의도한 의미와 일맥상통한다. 개인적으로 데이터 마이닝이라는 단어를 좋아한다. 이 처럼 이 학문 영역을 잘 성명할 수 있는 이름은 없기 때문이다. 과정 자체가 금맥을 찾는 과정과 흡사하다. 많은 데이터 마이너들이 알고리즘으로부터 시작을 한다. 하긴 거의 모든 […]

계속 읽기

Data Mining, Third Edition: Practical Machine Learning Tools and Techniques

Data Mining, Third Edition: Practical Machine Learning Tools and Techniques (The Morgan Kaufmann Series in Data Management Systems) 2판은 현재 내 책상 위에도 있을 정도로 즐겁게 참고하는 책이 되어 버렸다. 2판이 나온지 5년이 되가고 있고 3판 언제 나올까? 하고 찾아보고 있었는데 2011년 초 출간 예정이다. 역시 최신 트렌드를 다루고 있다.대용량 데이터 셋 처리, 앙상블 러닝, […]

계속 읽기

성공적인 성능 개선

계속 금요일날 일을 못하다 보니 일이 좀 밀려 있었고, 몇몇은 선행 작업들이 연기되면서 덩달아 나 자신의 성과도 내기가 쉽지 않았다.  일도 중간에 자주 끊기는거 같기도 하고 말이다. 근 3주동안 컨퍼런스콜에서 거의 업데이트를 못하고 있다가,  고향 내려가기 전날 오늘…의미심장한 결과를 컨퍼런스콜에서 이야기 할 수 있었다. 무엇보다 오늘 발표한 작업이 서브 프로젝트였으며, 다른 개발자의 작업 결과를 기다리는 […]

계속 읽기

Deep Crawl

웹 크롤로 검색일을 시작 해서 그런지 웹 크롤의 여러 이슈에 대해서 지금도 많은 관심이 있다. 그러다 구글에서 연구하고 실제 적용한 Deep Crawl알고리즘을 틈틈히 지하철에서 살펴볼 기회가 있었다. 구글이 이야기하는 Deep Crawl은, Form 태크의 실행(submission)으로 생성되는 get방식의  URL을 어떻게 하면 정보가 많게끔 자동으로 생성해 내느냐를 고민한 결과였다. 실제 아래와 같은 폼들을 이용해 검색 하는 방식이 주된 […]

계속 읽기

데이터는 두뇌이자 도서관이다.

오늘 아주 흥미로운 글 하나를 읽었다. 우연히 Beautiful Data라는 책을 펼쳤는데, 전에 내가 읽지 않았던 부분중에서 Facebook의 데이터 플랫폼을 구축하는 과정을 그리는 Jeff Hammerbacher의 글을 보게 되었다.
읽는 내내 정신을 놓게 하지 않을 정도로 굉장히 흥미로운 글이였다.

계속 읽기

기본 개발자 소양을 갖추기 전에 Machine Learning은 하지 마라!

Machine Learning을 사용하는 International 프로젝트를 처음 경험하다보니 ML에 대한 관점이 많이 바뀌었다. 사실 프로젝트를 하면서 사내에서 쓰는 ML라이브러가 어떻게 돌아가는지 소스코드를 까볼 기회조차 없었고, 심지어 여러 세부 세팅을 조작해볼 기회도 역시 없었다. 그럼 뭘 했나???ㅋㅋㅋ 사실 위와 같이 ML 라이브러리를 살펴볼 필요가 없었다. 대강 어떻게 알고리즘이 돌아가는걸 알고, 이 라이브러리는 잘 돌아갈 것이라 믿으면 그만이다. […]

계속 읽기

패턴인식 – 오일석

작년10월경에 이 책을 접한것은 정말 행운이였던거 같다. 연습문제 풀고, 오타관련해서 리포팅도 하고… 답변을 받고 하면서 책에 대한 신뢰도 및 애정이 커지는 것을 경험했다. 좀 늦었지만, 책 너무 좋아서 포스팅 하나 이렇게 올려본다. 패턴인식 – 오일석 저 어려운 개념들을 최대한 쉽게 설명하고 있는 저자분의 공력에 깊은 존경을 보낸다. 한글로 글 쓸라면 이정도는 되어야 되는데… ㅎㅎ

계속 읽기

Query Reformulation(쿼리 재구성)에 대한 이야기

얼마전 야후 리서치 랩에서 논문 몇 편을 발표 했는데, 그 중에서 재미있는 논문에 대한 이야기를 하고자 한다. “From ‘dango’ to ‘japanese cakes’: Query Reformulation Models and Patterns” 쿼리를 마이닝 한다. 이 이야기는 대부분의 경우 클릭 기반의 정보를 이용함을 의미한다. 하지만 위와 같은 주제의 논문은 사용자 세션을 기준으로 사용자의 쿼리 의도를 파악하는 마이닝 작업이다. 위 논문에서는 […]

계속 읽기