요즘 여러 기고 요청을 받고 인터뷰를 받아서 개인적으로 고민하고 경험했던 부분들에 대해서 정리할 기회가 있었다.
물론 가장 큰 화두인 빅 데이터에 대한 것이다.
일단 빅 데이터 화두의 중심에서 실무를 하고 있는지라, Bias되어 있는 의견을 보일 수 있겠으나 블로그에서는 항상 내 생각만을 공유해 왔으니 한줄 써보련다.
사실 빅 데이터를 가지고 가치를 내는 분들은 오래전부터 우리 주변에 있어온 사람들이다. 특히 검색 엔지니어들은 빅 데이터를 다루고 이들에 대한 랭킹을 효과적으로 하면서 이를 광고 수익과 연관짓거나 고객에게 정보를 빨리 가져다 주게끔 만들어 준다. 따라서 데이터 사이언티스트들에 가장 가까운 사람들은 바로 검색 엔지니어라도 자신있게 말할 수 있다.
이분들 일하는 거 보면 굉장히 큰 대량의 문서에서 색인어를 뽑고 이를 특화된 DB에 넣는다. 그런데 데이터가 크기 때문에 굉장히 많은 예외 상황이 발생한다. 이들에 대한 예외 처리 그런것을 효과적으로 하기 위해 많은 분들은 이런저런 스크립트 언어로 필터링을 하곤 한다. 일단 색인에 들어가면 랭킹 튜닝을 하기 시작하는데, 여기에 기계학습 기법이 주로 들어간다.
빅 데이터 전처리 -> 분석의 과정, 빅 데이터 처리를 하면서 거치는 작업 프로세스가 하고 차이가 없다.
사실 이렇게 되어보니 어찌보면 검색 서비스가 빅 데이터의 가장 좋은 예라고 볼 수 있을 것이다. 하지만 누구도 그런 이야기는 하지 않았다. 있던것이 부각되는건 임펙트가 없기 때문이다.
사실 빅 데이터의 최종 목적은 데이터에서 가치를 뽑는 것이다. 가치는 결국 분석을 통해서 이뤄지고 분석은 분석가의 손끝에서 완성이 된다. 따라서 플랫폼이 중심이 아니라 사람이 중심이라는 이야기다.
사실 웹 2.0의 경우도 빅 데이터와 종착점은 같다. 웹 데이터를 활용해 지능적인 웹 서비스를 만들어서 사용자에게 기쁨을 주자는게 목적이다. 하지만 어떤가?… 지금 우리 주변은 웹 2.0 바람이 남기고 간 흔적은 고작 Ajax뿐이다. 아마존의 지능적이고 개인화된 웹 서비스는 남의 나라 이야기가 되버렸다.
5년 전에 세상을 떠들썩하게 한 CRM, 데이터 마이닝 붐의 결과로 남은건 밴더들의 플랫폼 뿐이다. 이들 역시 핵심은 데이터에서 가치를 찾아내자는 것이였으나 거품이라고 이야기 하는 사람들이 현재로서는 더 많다. 그러나 그 거품은 플랫폼에 대한 기대의 거품이다.
분석을 하는 사람….분석을 기반으로 한 의사 결정 문화의 가치가 더 중요한 부분이였으나 그렇게 끝이 났다.
10년 가까이 IT 트랜트 핵심 가치는 데이터였고, 그것의 가치를 발굴하자는게 공통의 목적이였다. 하지만 빅 데이터든 뭐든 분석을 하는 사람들의 손끝의 가치는 부각이 된 적이 거의 없었다. 단어만 바뀌어 다른 것처럼 인식되어왔다. 웹 2.0에서는 그런 일을 하는 사람은 개발자였고, 데이터 마이닝 시절은 데이터 분석가, 빅 데이터 시대는 데이터 사이언티스트다.
잘 생각해보면 개발자와 데이터 분석가를 합쳐놓은 사람이 데이터 사이언티스트이다. 달라 보이지만 전혀 다른 사람들이 아니라는 이야기다.
분석을 하는 사람도 엇비슷하고, 추구하는 가치도 엇비슷하고 고작 단어만 바꿔서 밴더들은 툴을 팔고 있다. 분석을 하는 사람들의 가치…그리고 데이터의 가치에 대한 소고조차 없이 말이다.
개인적인 소망은, 금번 빅 데이터 붐으로 인해 플랫폼이 아니라 데이터의 가치를 다시 한번 생각하는 계기로 만들어야 된다고 생각한다. 그렇지 않고서는 빅 데이터는 또 다른 단어로 옷을 바꿔 입고 우리에게 꼬리를 치게 될 것이다.
빅 데이터… 웹 2.0…. 그리고 검색 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.