10T의 로그 데이터에서 새로운 비즈니스 니즈를 발굴해 봐라.

아마도 페이스북에 올린 사진을 통해 눈치 채신 분들이 있을지 모르겠지만 올해부터 방송대 정보 통계학과에 3학년 편입을 결정하게 되었다. 사실 지난 2010년 3월에 통계학 공부를 해보고자 이래저래 알아보던중 유일하게 회사를 다니면서 다닐 수 있는 통계학과에 방송대가 있다는 사실을 처음 알게 되었으나 2월에 이미 모집이 끝난 상황이어서 땅을 치고 후회를 했고 다시 1년을 기다려 편입을 하게 되었다. 그 와중에 IPTV에서 올라오는 통계학 개론과 데이터 마이닝 수업을 책과 함께 청강을 했고 생각보다 교재가 상당한 퀄리티를 가지고 있다는 것을 알게 되었으며 게다가 강의도 나쁘지 않다는 것을 알아 1월 초에 큰 결심을 하고 편입하게 되었다.

 

결심을 하기 전에 이미 통계적 기법을 회사일에서 사용을 잘 하고 있고, 시험삼에 논문 데이터 분석 아르바이트도 해본 경험이 있는데, 왜 굳이 학사과정을 들으려 하느냐는 분들의 이야기를 많이 들었다. 그럴바에야 박사과정을 가지 하는…그런 말씀들..

사실 지인분들의 의견이 전적으로 틀린것은 아니다. 게다가 얼마전까지만 해도 나도 비슷한 의구심을 가지고 있었으니 말이다. 하지만 3학년 1학기 커리큘럼과 더불어 좀 생소한 교재과목들 예를 들어 “금융 데이터의 이해”, “탐색적 자료분석”, “국가 통계의 이해”의 과목을 훓어 보고 있는데 이내 내 의구심이 틀렸다는 사실을 알게 되었다. 특히나 “탐색적 자료 분석(Exploratory Data Analysis)”과목은 주로 전통적 추론(inference)에 중점을 둔 내 통계적 관점에 신선한 충격을 주기 충분했다. 이미 책의 3장을 보고 있는데, 이 책의 내용이 바로 지난 주에 구매한 Data Analysis with Open Source Tools이라는 책과 일맥을 같이 한다는 사실을 알게 되었다.  그러니 굳이 내용이 그닥 잘 구성되지 않은 원서책을 먼저 보는 것보다 동영상 강의가 오픈되고 여러 좋은 교수님들이 다년에 걸쳐 집필한 교재를 먼저 보는게 훨씬 낫다는 사실을 오늘에서야 알았다.

한마디로 지금도 데이터 마이닝을 하면서 통계학을 사용하고는 있지만, 분명한것은 이 커리큘럼이 앞으로 데이터 분석을 하는데 매우 큰 도움이 될거란 확신이 더 드는 순간이였다고 할 수 있을거 같다. 예전 대학원을 다니면서 좋은 과목이 배정된것을 확인하면서 왔던 그 전율 비슷한것이 이번에도 왔다는 것은 충분히 통계학 공부에서 스스로 동기부여가 되고 있다고 봐도 될거 같다.

 

IBM의 리서치 결과 91%의 IT전문가들이 앞으로 클라우드 컴퓨팅이 대세가 될거라는 예측을 했다고 한다. 얼마전에 만난 클라우드 컴퓨팅 전문가 그룹 분들의 이야기를 들어봐도 올해안에 클라우드 컴퓨팅이 거품인지 아닌지 결정이 난다고 예측을 했다. 결국 IT의 새로운 밥상은 클라우드 컴퓨팅이 될거란 생각을 해본다 무엇보다 이제는 할만큼 했고 비용 절감의 시대이기 때문이니까….

사실 Hadoop을 데이터마이닝에 사용하면서 2년치 검색 로그 마이닝을 단 반나절만에 수행해 버리는 그런 편리함이 있었다. 결과적으로 전통적인 통계적 sampling 기법보다는 모집단을 모두 활용한 데이터마이닝이 가능해져 버렸다는 것이다.  게다가 그 결과에 대한 신뢰성 조차 높아졌다.

이렇게 손쉬운 대용량 데이터 핸들링이 가능해지면 그에 따라 비즈니스 니즈를 데이터에서 뽑아 내는게 훨씬 쉬워진다. 바로 이와 관련된 분야가 BI(Business Intelligence)이고 직접적인 이론적 기법이 설명된 과목이 위에 설명한 EDA이다. 물론 EDA를 어떻게 대용량 데이터에 맞게 적절히 사용을 할지에 대해서는 아직 나도 의문이다.  아마도 이번 학기가 지나면 대략 예측을 할 수 있을거라 생각해본다.

대부분의 기업들이 지금까지 tail보다 head에 집중을 해서 마케팅이나 장사를 해왔는데, 대용량 데이터를 신속히 분석하는 인프라가 갖춰지면 tail이 집중된 사람들이 무엇을 원하는지 단서를 좀더 쉽게 찾을 수 있지 않을까 한다, 그들의 needs를 먼저 찾는다면 아마존처럼 새로운 blue ocean의 강자로 군림하게 될거라 예상해 본다. 그리고 이를 가능케 하는건 클라우드 컴퓨팅과 데이터마이닝/데이터 분석 기술이 될 거라 의심치 않는다.

 

횡설수설 했지만 일단 학습을 위한 동기 부여는 끝낸듯 하다. ㅋ

 

ps. 방송대 통계학과는 전통적인 비인기 학과로 작년만해도 전체 정원에서 38%만 채워졌다. 뭐 지원하면 다 되는 그런 과였지만, 앞으로 5년 어떻게 변하게 될지 지켜볼 만 할거 같다. 여러 분야에서 통계적 지식을 요구하는 업무가 늘어나서 의사들도 공부를 위해 지원을 하고 있고 이밖의 다양한 분야에서 관심을 가지고 있는거 같다는 생각이 든다. 특히나 직장을 다니면서 통계를 배우려고 하는 분들이 어떤 일을 하는지 알아보는것도 참 재미있을거 같다는 생각이 든다.

CC BY-NC 4.0 10T의 로그 데이터에서 새로운 비즈니스 니즈를 발굴해 봐라. by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.