인정받는 데이터 분석가 되기 – 외부 세미나 요약 –

얼마 전에 발표했던 외부 세미나 자료 요약을 공유한다. 발표자료에 워낙 내용이 없어서 핵심 내용 중심으로 간단한 코멘트를 해본다.

이날 발표제목은 “인정받는 데이터 분석가 되기”였다. 다소 자극적인 제목이나 실제 실무를 해보면서 느꼈던 부분에 기반해서 정리한 내용이라 이런 부분에 대해서 평소 고민했었던 분들에게는 정말 필요하고 힐링되는 내용이였으리라 생각한다.

필자에 대해 다른 분들은데이터 사이언티스트라 부르곤 하며,  자칭 데이터 분석가로 부르니 위 발표제목을 “인정받는 데이터 사이언티스트 되기”로 봐도 될 것이다.

발표때 언급했다시피 아래 11가지 지침은 지극히 개인적인 경험에 의해 도출된 포인트라는걸 염두에 두길 바란다. 개인적으론 이렇게 문장으로 모호한 것들을 정리할 수 있었다는데 의미를 두고 싶다.

손가락(R, Python, SAS …)을 보려하지 말고 달(데이터 분석, 통계…)을 봐라.

 

1

이 부분은 실제 데이터 분석에 입문하는 분들이 가장 많이 시행착오하는 부분이라 넣어본 것이다. 그나마 손가락에 시선이 머물다가 종국에는 달을 바라보는 분들도 적지 않아 나름 손가락을 쳐다보는게 의미있으나, 달을 쳐다보기 까지 시행착오가 필요한것은 안타까운 일이다. 취미로 혹은 잠시 데이터 분석의 맛을 보기 위한다면 달을 볼 필요까지는 없겠으나 업으로 삼으려면 달을 거쳐 저 멀리까지도 갈 의지와 시간이 있어야 할 것이다.

 

데이터 분석가라면 전문 도구를 사용해라! 맨토의 노하우는 도구에 존재하기도 한다.

 

2

 

 

도구라는것은 참 미묘해서 의미를 평가 절하하기도 과대 포장하기도 매우 어려운 존재이다. 시중에는 “도구는 도구일 뿐이다”라는 말이 거의 정답처럼 여겨지기도 하는데 이는 맞기도 하고 틀리기도 하다. 사실 도구는 사고(분석 방향)의 틀을 제공해주는 아주 긍정적인 역할을 수행한다. 게다가 언어적으로 데이터 분석에 맞는 언어를 사용할 경우 효율성도 좋지만 무엇보다 데이터 분석 과정의 여러 실수를 줄여줄 수 있다.

예상보다 우리가 세운 가정들에 대한 데이터 분석 실패가 비교할 수 없을 만큼 다수인 이유의 중요 요인중에 하나는 도구를 잘못 사용한 결과이지 않을까 하는 생각을 해본다. 유의미한 분석 결과는 그 과정 자체에 랜덤한 코딩 실수가 들어갈 경우엔 나오기 어려울 것이고, 코딩 실수는 코드가 복잡하면 할수록 발생할 확률이 높기 때문이다(아이러니하게도 대부분의 코더는 자신의 코드가 완벽하다고 믿는다). 이 때문에 전문 데이터 분석 도구를 사용하는건 반드시 필요하다고 생각한다.

도구를 잘못 사용한 예로는 엑셀불황사례가 있는데, 엑셀이라는 도구가 코드와 데이터가 혼재되는 형태로 만들어진 아주 직관적인 도구라는데서 실수가 나온 대표적인 사례가 아닐까 한다.

도구에는 이 분야의 선구자들의 노하우가 숨겨져 있기도 하다. 예를 들어 Tidy Data로 알려진 `dplyr`, `ggplot2`, `reshape2` 등의 패키지 셋은 정확하고 간단하게 데이터를 전처리하고 시각화하는 어떤 문법이 존재할 수 있음을 알려주며, 실제 여러 실무에서 널리 사용되고 있다는 사실이 그것을 증명하고 있다.

데이터 분석은 과학연구이다. 대조군을 빼먹지 마라!

 

3

 

대부분 과거 데이터를 기반으로 관찰 연구를 많이 하게 되는데, 데이터 분석이 실험연구의 연장선이란 생각을 많은 사람들이 하지 못하기 때문에 대조군 설정에 대한 생각을 하지 못하는 경우가 많다. 논문에서는 빠지지 않는 존재인데, 왜 데이터 분석에서는 빼먹기 일쑤인지 필자도 정확한 원인은 모르겠다.
이런 이유 때문에 논문 쓰기나 읽기가 좋은 데이터 분석 사례가 되는 경우가 많으니 많이 쓰고 읽으라고 권하곤 한다.
실제 이 부분은 자신이 보고자 하는 효과의 `Effect Size`가 어느정도인지 정확하게 설명할 수 있어야 된다는 것의 의미와 같다. 시각적인든 통계적이든 `대조군 대비 실험군의 효과크기`를 항상 생각해야 되며, 대부분의 분석 과제에서 대조군 설정이 어렵고 불가능하지 않다는 것을 잘 인지해야 될 것이다.

개인적으로 트위터 분석 등 대부분의 SNS 텍스트, 네트워크 분석을 신뢰하지 않는 이유중에 하나는 ‘대조군’이 대부분 누락되어 있어 과학이라 말하기 어렵기 때문이다.

 

대조군을 설정하기 너무 어려운가? 그럼 그냥 랜덤으로 선택하라!

 

대부분의 실무 클러스터링은 실패한다! 고객의 다양성을 인정하라!

 

4

from : http://www.kdnuggets.com/2015/08/paradoxes-data-science.html

 

클러스터링이 EDA의 과정이 될 수 있으나, 분석의 결과는 되기 매우 어렵다는 말을 다소 공격적으로 적어봤다. 특히나 고객분석의 경우 클러스터링이 교과서 처럼 될 수 있다는 환상을 버리는게 중요하고, 시간이 가면서 고객은 변하고 그 스펙트럼은 매우 다양하다는 것을 이해할 필요가 있으며 같은 기본가정을 기반으로 분석을 수행하는게 맞다고 생각한다. 이런 관점에서 고객을 베이지언적인 관점으로 바라보는게 때로는 적절하다고 본다.

가설 검증에 실패한것이 분석 실패를 의미하지는 않는다! 애정있게 정리하고 공유하라!

 

5

 

분석 실패는 다양한 원인에 의해서 발생한다.

1. 데이터 전처리 실수
2. 적법한 통계적 방법론 적용 실패
3. 무리한 가설… 혹은 불가능한 가설
4. 소프트웨어 버그
5. ….

1,2,3 항목은 주니어 데이터 분석가들이 주로 실수하는 것이며, 지식이 부족해서 실패한다기 보다는 경헝 부족으로 실패하는 경우라 볼 수 있다. 따라서 분석가 본인이 보기에 실패한 분석 결과라도 애정있게 정리하고 공유하면 여러 동료들의 예리한 눈으로 부족한 부분, 실수한 부분, 보완한 부분들을 찾을 가능성이 높다. 그럼 다시 그 가설은 살아날 기회를 얻게 된다.

자신의 생각을 모두 보여준다는 것에 대해 부끄럽게 생각하지 말고, 공유하고 논의하라!

큰 데이터가 항상 좋은건 아니다.

 

6

 

빅 데이터가 반드시 필요한 영역은 그렇게 많지 않다. 단적인 예로 outlier detection이라든지, anomaly detection류의 문제는 희소한 이벤트 때문에 모집단에 근접한 데이터량이 필요하지만 대부분 모델링, 통계분석을 기반으로 하는 의사 결정에 모집단의 모든 정보가 필요하지는 않다. 오히려 데이터 노이즈와 에러로 인해 전처리를 하는데 많은 시간이 소요되기 십상이다.

필자가 가장 난감하게 생각하는 빅 데이터 기술중에 하나는 통계 모델링을 대량의 데이터로 하게끔 하는 로직을 구성하는 오픈소스 결과물들이다. 예를들어 linear regression의 대용량 버전의 경우 구현이 그렇게 어렵지 않아서(matrix 계산 순서만 바꾸면 되는…) 많은 도구에서 제공하고 있으나 `influencer`들의 영향을 많이 받는 알고리즘적인 특징과 변수간의 평균적인 관계를 찾는 목적때문에 빅 데이터를 사실상 사용할 필요가 없다. 이는 모든 값을 이용한 평균값과 샘플링을 이용한 평균값의 차이가 그리 크지 않다는 간단한 실험만으로도 간접적으로 확인이 가능할 것이다. 물론 데이터가 많을수록 정확도가 향상되는 모델링 기법들이 존재하는데, 이 두 모델의 차이와 의미를 이해하고 빅 데이터 기반 방법론을 활용하는게 효과적일 것이다.

Agile하게 분석하자! 빠른 발걸음으로 보폭은 짧게!

 

7

데이터 분석 과정이나 결과를 주변과 자주 빠르게 공유하는 행위는 올바른 분석을 위해서 매우 필요한 행동이다. 이 과정을 통해서 좋은 분석 아이디어나 자신이 보지 못한 분석 포인트에 대한 힌트를 얻을 수 있으며, 공유를 염두에 두고 데이터를 분석하다 보면 항상 초기의 목적을 상기하는 효과를 가져와 분석이 다른길로 빠지는것을 막을 수 있다.

진짜 좋은것은 빛을 발하는데 시간이 걸릴 수 있다.조바심 내거나 실망하지 말고 때로는 자신만의 업무 가치관 관점으로 바라보는 것이 필요하다!

8

 

요건 데이터 분석가 혹은 과학자가 “장인”과 같은 자세로 일을 임해야 된다는 것을 의미한다. 자신의 가치관으로 혹은 과학적인 관점에서 올바르게 접근해서 나온 결과물은 주변의 상황에 따라서 받는 평가하고는 별개로 봐야 된다. 자신이 생각하기에도 과학적이고 멋진 분석 결과이나 주변에서 인정하지 않는 결과라면 그 가치를 인정받는데 시간이 걸릴 뿐 언젠가는 결국 인정받을 수 있게 된다.

또한 분석 결과에 대한 자신만의 퀄리티 기준과 가치관을 가지는것은 해당 분석 업무를 고퀄로 유지하는데 큰 동기부여가 된다.

EDA는 의뢰인에게 ‘인지적 편안함’을 주는 방향으로 시작하되 그 끝은 차별화된 성과로 맺어야 된다.

9

from : 데이터 분석 상담, 이태림 허명회 공저

 

많은 경우 EDA의 종말은 ‘이미 알고 있는 사실을 데이터로 확인한 결과’가 되는 경우가 많다. 이런 경우 의뢰인에게 `인지적 편안함`만 주고 분석은 끝나게 된다. 이는 대부분 초보 분석가 분들이 가지는 많은 고민중에 하나인데, 이러한 결과가 나오는 원인중에 하나는 대부분 교과서적인 분석만 해봤고, 봐왔기 때문이다. 하나의 분석 주제라도 이를 해결해 나가는 방식은 매우 다양하고 그 결과의 깊이도 다를 수 있다. 고수와 초보의 차이는 여기서 어떻게 한 발자국 더 나아가는지에 따라 갈라진다.

고수와 하수를 가르는 기준은 지능의 차이라기 보다는 이런 훈련이 되어 있느냐 아니느냐 차이인데, 따라서 이런 고민을 평소에 많이 해보는 방법밖에 없다. 그리고 그 도구로 통계를 사용하는 포인트가 매우 중요하다. 그렇지 않으면 분석가의 질문을 검증할수도 없고 검증이 불가능하면 의뢰인에게 전달할 수도 없기 때문이다.

필자가 하나의 팁을 알려주자면 해결하고자 하는 문제를  `Formula` 형태로 정의해 보는 것이다. 이와 같이 정의해보면 단면적으로 문제를 보는 것보다 입체적인 사고를 할 수 있게 되는데, 흡사 위 `Formula`를 `Regression`의 형태로 보는 것만으로도 상당히 많은 인사이트 단서를 발굴해 낼 수 있다. 물론 이를 위해서는 최소 `Regression`에 대해서는 예측 뿐만아니라 추론영역 혹은 이를 활용한 다양한 분석 방식에 통달해 있어야 될 것이다.

매년 1회씩 기초 통계학을 탐독하라!

10

from : 데이터 분석 상담, 이태림 허명회 공저

 

필자가 매년초에 주기적으로 하는 일중에 하나는 기초통계학 책을 탐독하는것이다. 신기하게도 매년 그 의미의 깊이가 다르게 느껴지고 문구 하나하나가 이전에 탐독을 했을때와는 다르게 느껴지는 것을 경험한다. 통계학은 의사결정의 학문이여서 하루에도 수십번 혹은 수백번 의사결정을 하고 살아가는 우리들이 다소 오해할 가능성이 많은 학문이라 생각한다. 왜냐면 우리 자신이 의사결정의 전문가라고 착각하기 때문이다. 따라서 다소 성경책과 같이 곁에 두고 의미를 곱씹어 통계적 의사결정 방식을 몸에 배게 하는 노력이 필요하다.

전공의 프레임에 빠지지 말고 필요한것은 집요하게 공부하고 익혀라!

11

 

대부분 어떠한 전공 커리큘럼을 따라서 공부하는것에 매우 큰 부담을 안고 있다. 이는 이전에 자신이 시간 투자하고 공부한 자신의 전공의 프레임에 빠져 있기 때문이라 생각한다.

능력있는 분석가가 되기 위해서는 사실 거의 체내화 되어 있어야 되는 개념(학문)들이 다수 존재하는데, 이를 위해 시간투자는 불가피하다. 게다가 개론서/소개서 몇권만으로 절대 익히기 어려운 개념들이 대다수여서 필자의 경우 커리큘럼 자체를 공부하라고 추천하곤 한다. 이는 개론서만으로 얻을 수 없는 해당 학문 응용의 지혜를 그 시간투자를 통해서 얻을 수 있기 때문이다. 단순히 교과서적인 분석만을 자신이 수행하고 있다고 한다면 잠시 업무를 내려놓고 여러 통계학 서적과 통계를 여러 다른 방식으로 활용한 방법론 책을 보길 추천하고, 이 과정을 확대하면 통계학 커리큘럼을 따라가게 되는 것이다.

 


 

데이터 분석가는 다소 중세시대의 “장인”과 유사한 직무분야라 생각한다. 상당히 고된 업무이고 분석실패하는 경우도 많으나 경험이 쌓일수록 좋은 분석 결과를 내기 마련이며, 그런 분석 결과를 안정적으로 내기 위해 자신만의 분석 결과 품질 가치관이 정립되는 과정을 겪게 된다. 따라서 긴 호흡으로 문제에 대한 발전적인 고민을 반복하고 개선하려 하는 자세를 가짐이 매우 중요하다 생각한다.

CC BY-NC 4.0 인정받는 데이터 분석가 되기 – 외부 세미나 요약 – by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.