데이터 마이닝의 재미와 그 의미를 이야기 하는 책

얼마전에 슈퍼 크런처(super cruncher) 책에 대한 서평을 블로그에 올린적이 있었다. 그 때에는 읽기 전이였고,,, 지금은 다른 관련 책들을 서둘러 찾아 읽고 있는 중이여서 좀더 정리해 서평을 다시 올려본다.

읽는중…


$2

안진환 역/이언 에어즈 저

예스24 | 애드온2

사실 위 책 한권이 근래 8권의 책을 선정해서 읽는데 엄청난 영향을 끼쳤다. 대부분 사람의 의사결정에 대한 책들이다.

계량 경제학은 특히 데이터 마이닝과 상당히 관련이 많은 경제학 분야이며, 이 분야의 최근 책은 “괴짜경제학“이라는 이름으로 번역되어 출간되었다.
이 괴짜 경제학 저자들이 2005년에 야후와 구글에 초빙되어 강연을 했던 적이 있었는데 그때 “구글의 데이터가 있다면 당신은 어떤 실험을 해보고 싶나요?” 하는 아주 재미난 질문을 많은 구글러들에게 받았다고 한다. 물론 이 질문에 어떻게 답했는지는 아직 확인해보지 못했다(책에 나온다고 언급한 부분이 있었는데, 책에는 그 답변 내용이 나오지 않았다). 구글과 야후가 왜 2005년에 이 사람을 초빙해서 강연을 들었는지는 책을 보면 잘 알수 있다. 이 책의 저자가 가지고 있는 창의력과 통찰력 그리고 데이터를 기반으로 결정을 내리는 괴짜 같은 글들이 야후나 구글 개발자들에게 어떤 어필을 했을 것인가는 우리 나라 데이터 기반 개발자들에게 시시하는 바가 클 거라 생각한다.

그리고 행동 경제학 관련해서는 “상식 밖의 경제학“이라는 책이 있다.
특정 상황에서 인간들의 의사결정은 충분히 예측 가능하다라고 이 책에서는 수많은 실험 데이터를 기반으로 이야기 하고 있다. 이 책을 보면서 계속 롱 테일 그래프가 생각 나는 까닭은 무엇일까? ㅎㅎ

여튼 슈퍼 크런처 책은 나로 하여금 데이터 마이닝을 왜 하는지 그리고 그 목적은 무엇이고 어디까지 활용이 가능할지 많은 시사점을 남겨준 책이였다. 그리고 한 분야에서 전문성을 가지기 위해서는 어떤 능력이 필요할지까지 많은 것들을 알려주었다.

사실 지금까지 나의 기술 선호 경향을 되 짚어 보면…
검색엔진이라는 데이터 처리 및 검색을 하는 시스템에 큰 관심과 개발을 해오면서 데이터 저장구조 및 효과적인 search 알고리즘에 대해서 많은 고민을 해왔었다. 그러다, 대량의 데이터를 처리하는데 관심을 가지게 되었고, 그러다 보니 하둡과 그리드 컴퓨팅을 파봤었다.
그러다가 그렇다면 이런 그리드 컴퓨팅을 이용해서 어떻게 해야 정확한 정보를 뽑을 수 있을지에 대해 관심을 가지게 된게 지금까지의 나의 기술 선호 경향들이였다. 

그러니까..

검색 -> 대용량 처리 -> 데이터 마이닝 or 머신러닝 -> 다시 검색….

이러다 보니 현재 데이터 마이닝을 하는데 그리드 시스템을 매번 사용하고 있으며, 그 결과물을 검색 퀄리티 증진에 그대로 사용하고 있다.

사실 데이터 마이닝이 검색 알고리즘의 효율성을 높이는데 사용될 수 있다는 개념을 아는 사람은 그리 많지 않다.
일단 사용자가 사용한다는 것은 어떤 패턴이 있을 가능성이 있다는 것을 의미하기도 한다. 그 패턴을 자세히 파악해 보면 이들을 알고리즘 효율성을 높이는데 아주 유용하게 사용 가능하다.
재밋는 사실은 많은 사람들이 그들 개개인의 행동 패턴이나 생각이 다른 이들과 다른 특별한 점들이 있다고 착각하고 있으나 대부분 80% 이상의 사람들은 놀랄만한 비슷한 패턴으로 행동하곤 한다.
이런 패턴을 읽기 위해 데이터 마이닝이 필요하고… 이를 검색에 적용시켜 검색의 정확도를 높이는 과정을 거치는 것이다.

많은 개발자가 프로그래밍이 재밋다고 한다. 물론 나도 느끼는 바이다. 거의 중독이라고 봐야 겠지..
하지만 데이터 마이닝의 재미는 이와 비교할 수 없는 다른 재미가 있다. 프로그래밍보다 중독성이 훨씬 강한 마약이라고나 할까?

이런 내용을 위 책에서는 수식 하나 사용하지 않으면서(뒷 부분에 확률 이야기가 쬐금 나오긴 하지만) 다양한 예제로 설명하고 있다.

CC BY-NC 4.0 데이터 마이닝의 재미와 그 의미를 이야기 하는 책 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.