데이터만이 진실을 이야기 한다?

전문가의 시대, 대용량 데이터의 시대

약 1년 전에 썼던 포스팅의 제목이다.

왜 이 이야기를 하느냐 하면, 이 글과 관련된 책이 지난 3월에 슈퍼크런처라는 제목으로 번역되어 국내에 출간 되었기 때문이다. 사실 이 정보도 오늘 데이터 마이닝 관련 검색을 하다가 알게 되어 바로 퇴근하면서 사와 현재 열독중에 있다.

사실 이 책은 메사추세츠 대학에서 정보검색 관련 공부를 하시는 어떤 블로그 방문자께서 추천해 주셨던 책인데, 그동안 잊고 있다가 오늘에서야 책을 잡고 읽고 있다. 1년전에 이 책을 봤다면 어땠을까 하는 재미있는 상상도 해보지만 지금 읽고 있는 나조차도 정말 흥미 진진하게 읽을 정도다.
이 희열을 비교하자면 처음 링크라는 책을 볼 때와 같다. 그 때 웹과 검색이라는 주제로 공부하고 열심히 일을 시작하던 시점에 매우 흥미롭게 봤던 책이고 지금도 가끔 펼쳐서 봐도 그 책의 가치는 퇴색하지 않았더라..

전에 잠깐 서평을 보고 생각했던 것과는 다르게 책의 내용은 데이터에서 나온 정보가 전문가를 대체한다는 아주 극단적인 의미를 내포하지는 않은거 같다. 그 전문가를 좀더 전문가 답게 만들 수 있는 수단이 바로 데이터 분석이고 데이터 마이닝이라는 것이다.

처음 책에 나오는 내용은 기후변수를 이용해 포도주의 가격을 예측하는 공식이 나온다. 자세한 구현 방식은 나오지 않았지만 수 세기동안의 데이터를 가지고 포도주의 품질과 관련될 만한 속성들을 찾아서 데이터 베이스화 하고 이들중에서 포도주의 품질에 가장 영향을 많이 끼치는 속성을 선별해 이들로 회귀분석을 한게 거의 분명하다.
이 공식이 상당히 정확했다는 이야기도 나오고 그 반면에 포도주 감별사(?)라는 전문가 집단과의 대립 이야기도 나오게 된다.

전에도 블로그에서 이야기 했지만 엔지니어라면 데이터 통계 분석 정도는 봐서 이해할줄 알아야 하고 더 나아가서 통계적 기법으로 뭔가를 증명할줄도 알아야 할듯 하다. 객관적인 통계 분석 결과는 천마디 말보다 더 강력한 의사 소통 수단이 되기도 한다. 영어로 의사소통하는 것도 중요하지만 데이터를 다룬다면 세계 만국의 공통 언어인 통계로 이야기 할 줄 알아야 겠다.

엄청난 데이터가 흘러나오는 때 많은 개발자들이 데이터를 가지고 일을 한다. 그리고 마이닝 방법론으로 나온 결과들을 실제 프로덕트의 알고리즘으로 차용하기도 한다. 그렇다면 엔지니어도 마이닝 프로세스에 대한 이해가 필요하다는 이야기 인데… 이 책에서 이야기 하는 내용도 이와 틀리지 않더라.
전문가들의 식견과 더불어 데이터를 기반으로 그 좀더 문제를 객관적으로 다른 관점으로 볼 수 있는 자세가 필요함을 역설하고 있다.

이 책의 제목 선정 방법도 꽤 넘버 크런칭한 방법인데, 저자가 구글 에드로 “데이터 마이닝”과 “넘버크런칭” 키워드에 결과로 나오는 광고로 “직관의 종말”과 “슈퍼 크런칭” 두 제목으로 노출이 되게 만들었는데, 슈퍼 크런칭 제목 클릭율이 64% 더 높았다고 한다.
책 제목 선정 방법도 참 재미나다. ㅋ

outlier 이후에 아주 재밋는 책을 선택한거 같다.
요즘 책 선정 감이 꽤 좋네.. ㅋ

CC BY-NC 4.0 데이터만이 진실을 이야기 한다? by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.