데이터사이언티스트를 말하다

 

 

 

 

원문링크 : http://www.sciencetimes.co.kr/article.do?todo=view&atidx=0000064069

 


빅데이터 처리 플랫폼과 분석을 하는 ‘NexR’에서 데이터사이언티스로 일하고 있는 전희원 씨. 예전부터 포털과 솔루션 회사에서 컴퓨터 공학적 측면의 데이터를 다뤄왔다. 빅데이터 처리를 위해 이것저것 배우다 보니 언젠가부터 주변에서 빅데이터 분석가인 데이터사이언티스트라고 부르기 시작했다. 그를 만나 데이터사이언티스트에 대한 궁금증을 풀어봤다.

컴퓨터 공학적 능력은 기본


“사회생활을 시작하면서 데이터 관련 일을 계속해왔습니다. 그중 빅데이터를 처음으로 현실세계에 적용했던 프로젝트가 가장 기억에 남습니다.”

▲ 데이터사이언티스트에게 통계학적 능력 외에 컴퓨터 공학적 능력이 요구된다.

전 씨는 야후에서 미국, 대만, 중국 프로그래머들과 검색자가 찾는 질문을 제대로 찾을 수 있도록 도와주는 프로젝트를 진행했다. 풀어 설명하자면 우리가 구글에서 검색했을 때, 오타가 나는 경우 ‘Do you mean?’ 이라는 문장과 함께 단어나 문구가 추천된다. 바로 이런 작업을 야후에서 진행했다. 만만치 않은 작업이었지만 구글 정도의 수준이 되도록 프로그램을 만들어냈다. 이 시스템은 아직도 야후에 적용되고 있다. 뿐만 아니라 이와 관련된 논문을 써 최우수 논문상을 받기도 했다.
“데이터를 분석하는 좋은 플랫폼이나 데이터 분석 언어 프로그램이 나와 있기는 하지만, 한 가지 툴로 모든 데이터를 관리할 수는 없습니다. 그래서 데이터 별로 다양한 툴을 이용하게 되는데, 데이터사이언티스트라면 여러 가지 툴을 자유자재로 활용해 데이터를 분석할 줄 알아야 합니다.”
과거에 데이터를 분석할 때는 분석가에게 대부분 정제된 데이터를 넘겨줬다. 양이 적어서 가능한 일이었지만 지금은 레코드뿐만 아니라 필드의 양도 엄청 늘었기 때문에 데이터를 타인이 정제한다는 것은 불가능하다. 데이터사이언티스트에게 통계학적 능력 외에 컴퓨터 공학적 능력이 요구되는 것은 바로 이 때문이다. 아이디어에 맞게 바로 데이터를 뽑아내 자유자재로 운용할 수 있는 능력은 데이터사이언티스트의 가장 기본적인 능력이라고 할 수 있다.

데이터 분석 과정 중 상상력과 창의성 요구돼

“데이터사이언티스트에게는 다양한 능력이 요구됩니다. 하지만 상상력과 창의성이 기반이 돼야만 자신이 갖고 있는 능력을 제대로 발휘할 수 있습니다.”
빅데이터 분석은 먼저 가설을 세우고 그 가설이 맞는지 검증하는 과정이다. 가설을 세우는 그 자체에서부터 데이터사이언티스트의 상상력이 들어가기 시작한다. 또한 데이터를 처리하고 모델링할 때와 결과물을 바탕으로 예측 방안을 내놓을 때도 창의적 아이디어가 필요하다. 거기에다 데이터 분석 과정마다 그 모든 가능성들을 연결할 수 있는 스토리를 만들어야 하는데, 이때도 어김없이 상상력과 창의력이 요구된다.

▲ 데이터사이언티스트 전희원 씨  ⓒiini0318

데이터를 시각화할 때도 상상력과 창의성은 필요하다. 보통 데이터 숫자로 중요성을 말할 수 있지만 숫자 이면의 또 다른 정보를 알려주기 위해 시각화 작업이 종종 이뤄지기도 한다. 뿐만 아니라 데이터를 통한 감동을 주기 위해 사람들의 다른 인지기관을 활용할 필요가 있는데, 이럴 때도 시각화는 좋은 도구가 된다.
하지만 그는 “데이터사이언티스 본인을 위해서도 시각화 작업은 필요하다”면서 “특히 분석과정마다 시각화하다보면 데이터 분석 단계에서 얻어지는 재미있고 새로운 혜안들이 데이터에 대한 안목을 높일 수 있게 된다”라고 설명했다.
커뮤니케이션 능력도 데이터사이언티스트에게 필수 항목이다. 데이터 분석의 목적은 데이터가 의미하는 것을 갖고 대안을 모색하거나 새로운 무언가를 시작하기 위해서이다. 그래서 데이터 분석이 끝나고 나면 의사결정권자들과 의견 조율 과정을 거치게 된다. 데이터사이언티스트는 해당 데이터를 다룬 담당자로 데이터의 성격을 가장 잘 알기 때문에 데이터의 가치를 제대로 설명하기 위해서라도 발표력과 의사소통 능력을 갖춰야 한다.

경험을 공유할 데이터 분석 대회 필요

“빅데이터 발전을 위해 데이터사이언티스트들의 노하우를 공유할 수 있는 기회가 활성화 되는 것이 중요합니다.”
현재 우리나라에는 분석 인력이 거의 없다. 역사가 짧다보니 분석을 통해 혜안을 찾아내는 경험치 또한 전무한 상태. 전 씨는 “호주의 ‘Kaggle(캐글)’과 같은 데이터마이닝 대회를 열게 되면 데이터 분석에 대한 정보를 공유할 수 있는 기회가 생기게 될 것”이라고 말했다.
‘캐글’ 대회에서는 기업의 빅데이터가 제공된다. 그 데이터를 가장 잘 처리해 좋은 결과를 낸 사람에게 상금을 주는 시스템의 대회다. 이런 데이터마이닝 대회를 열게 되면 우승자는 당연히 자신의 분석 기법을 공개하게 된다. 그래서 대회에 참여했던 경쟁자들은 우승자가 어떤 방식으로 데이터에 접근하고 변환했는지를 알게 된다. 더불어 데이터들 속에서 어떤 정보와 시각을 얻게 됐는지, 데이터 해석 스토리 구성이 자신들과는 어떻게 다른지를 배우게 된다.
그는 “데이터 분석 기법보다 책에서 배울 수 없는 데이터 분석에 대한 창의적인 생각들을 이런 기회에 경험할 수 있다”면서 “현재 빅데이터 발전과 데이터사이언티스 양성을 위해 고려해봐야 할 방법”이라고 언급했다. 
전 씨 역시도 데이터 분석 방법 공유를 위해 데이터 관련 블로그를 운영하고 있지만 아직 데이터의 가치를 확산시키는 데는 역부족이다. 하지만 빅데이터 시대는 지금부터이기 때문에 포기하고 싶은 생각은 눈곱만큼도 없다. 오히려 현재 데이터사이언티스트라고 불리는 것에 책임감을 느끼고 있다.
전 씨는 “데이터 분석 활성화를 위해 재능 기부와 같은 다양한 참여활동 방법을 생각하고 있는 중”이라면서 “아시아 국가 중 빅데이터 분석 노하우를 가장 많이 가진 나라가 되는데 일조할 수 있도록 최선을 다하겠다”고 포부를 밝혔다.

 

김연희 객원기자 | iini0318@hanmail.net

저작권자 2012.07.11 ⓒ ScienceTimes

CC BY-NC 4.0 데이터사이언티스트를 말하다 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.