인정받는 데이터 분석가 되기 – 외부 세미나 요약 –

얼마 전에 발표했던 외부 세미나 자료 요약을 공유한다. 발표자료에 워낙 내용이 없어서 핵심 내용 중심으로 간단한 코멘트를 해본다.

이날 발표제목은 “인정받는 데이터 분석가 되기”였다. 다소 자극적인 제목이나 실제 실무를 해보면서 느꼈던 부분에 기반해서 정리한 내용이라 이런 부분에 대해서 평소 고민했었던 분들에게는 정말 필요하고 힐링되는 내용이였으리라 생각한다.

필자에 대해 다른 분들은데이터 사이언티스트라 부르곤 하며,  자칭 데이터 분석가로 부르니 위 발표제목을 “인정받는 데이터 사이언티스트 되기”로 봐도 될 것이다.

발표때 언급했다시피 아래 11가지 지침은 지극히 개인적인 경험에 의해 도출된 포인트라는걸 염두에 두길 바란다. 개인적으론 이렇게 문장으로 모호한 것들을 정리할 수 있었다는데 의미를 두고 싶다.

손가락(R, Python, SAS …)을 보려하지 말고 달(데이터 분석, 통계…)을 봐라.

 

1

이 부분은 실제 데이터 분석에 입문하는 분들이 가장 많이 시행착오하는 부분이라 넣어본 것이다. 그나마 손가락에 시선이 머물다가 종국에는 달을 바라보는 분들도 적지 않아 나름 손가락을 쳐다보는게 의미있으나, 달을 쳐다보기 까지 시행착오가 필요한것은 안타까운 일이다. 취미로 혹은 잠시 데이터 분석의 맛을 보기 위한다면 달을 볼 필요까지는 없겠으나 업으로 삼으려면 달을 거쳐 저 멀리까지도 갈 의지와 시간이 있어야 할 것이다.

 

데이터 분석가라면 전문 도구를 사용해라! 맨토의 노하우는 도구에 존재하기도 한다.

 

2

 

 

도구라는것은 참 미묘해서 의미를 평가 절하하기도 과대 포장하기도 매우 어려운 존재이다. 시중에는 “도구는 도구일 뿐이다”라는 말이 거의 정답처럼 여겨지기도 하는데 이는 맞기도 하고 틀리기도 하다. 사실 도구는 사고(분석 방향)의 틀을 제공해주는 아주 긍정적인 역할을 수행한다. 게다가 언어적으로 데이터 분석에 맞는 언어를 사용할 경우 효율성도 좋지만 무엇보다 데이터 분석 과정의 여러 실수를 줄여줄 수 있다.

예상보다 우리가 세운 가정들에 대한 데이터 분석 실패가 비교할 수 없을 만큼 다수인 이유의 중요 요인중에 하나는 도구를 잘못 사용한 결과이지 않을까 하는 생각을 해본다. 유의미한 분석 결과는 그 과정 자체에 랜덤한 코딩 실수가 들어갈 경우엔 나오기 어려울 것이고, 코딩 실수는 코드가 복잡하면 할수록 발생할 확률이 높기 때문이다(아이러니하게도 대부분의 코더는 자신의 코드가 완벽하다고 믿는다). 이 때문에 전문 데이터 분석 도구를 사용하는건 반드시 필요하다고 생각한다.

도구를 잘못 사용한 예로는 엑셀불황사례가 있는데, 엑셀이라는 도구가 코드와 데이터가 혼재되는 형태로 만들어진 아주 직관적인 도구라는데서 실수가 나온 대표적인 사례가 아닐까 한다.

도구에는 이 분야의 선구자들의 노하우가 숨겨져 있기도 하다. 예를 들어 Tidy Data로 알려진 `dplyr`, `ggplot2`, `reshape2` 등의 패키지 셋은 정확하고 간단하게 데이터를 전처리하고 시각화하는 어떤 문법이 존재할 수 있음을 알려주며, 실제 여러 실무에서 널리 사용되고 있다는 사실이 그것을 증명하고 있다.

데이터 분석은 과학연구이다. 대조군을 빼먹지 마라!

 

3

 

대부분 과거 데이터를 기반으로 관찰 연구를 많이 하게 되는데, 데이터 분석이 실험연구의 연장선이란 생각을 많은 사람들이 하지 못하기 때문에 대조군 설정에 대한 생각을 하지 못하는 경우가 많다. 논문에서는 빠지지 않는 존재인데, 왜 데이터 분석에서는 빼먹기 일쑤인지 필자도 정확한 원인은 모르겠다.
이런 이유 때문에 논문 쓰기나 읽기가 좋은 데이터 분석 사례가 되는 경우가 많으니 많이 쓰고 읽으라고 권하곤 한다.
실제 이 부분은 자신이 보고자 하는 효과의 `Effect Size`가 어느정도인지 정확하게 설명할 수 있어야 된다는 것의 의미와 같다. 시각적인든 통계적이든 `대조군 대비 실험군의 효과크기`를 항상 생각해야 되며, 대부분의 분석 과제에서 대조군 설정이 어렵고 불가능하지 않다는 것을 잘 인지해야 될 것이다.

개인적으로 트위터 분석 등 대부분의 SNS 텍스트, 네트워크 분석을 신뢰하지 않는 이유중에 하나는 ‘대조군’이 대부분 누락되어 있어 과학이라 말하기 어렵기 때문이다.

 

대조군을 설정하기 너무 어려운가? 그럼 그냥 랜덤으로 선택하라!

 

대부분의 실무 클러스터링은 실패한다! 고객의 다양성을 인정하라!

 

4

from : http://www.kdnuggets.com/2015/08/paradoxes-data-science.html

 

클러스터링이 EDA의 과정이 될 수 있으나, 분석의 결과는 되기 매우 어렵다는 말을 다소 공격적으로 적어봤다. 특히나 고객분석의 경우 클러스터링이 교과서 처럼 될 수 있다는 환상을 버리는게 중요하고, 시간이 가면서 고객은 변하고 그 스펙트럼은 매우 다양하다는 것을 이해할 필요가 있으며 같은 기본가정을 기반으로 분석을 수행하는게 맞다고 생각한다. 이런 관점에서 고객을 베이지언적인 관점으로 바라보는게 때로는 적절하다고 본다.

가설 검증에 실패한것이 분석 실패를 의미하지는 않는다! 애정있게 정리하고 공유하라!

 

5

 

분석 실패는 다양한 원인에 의해서 발생한다.

1. 데이터 전처리 실수
2. 적법한 통계적 방법론 적용 실패
3. 무리한 가설… 혹은 불가능한 가설
4. 소프트웨어 버그
5. ….

1,2,3 항목은 주니어 데이터 분석가들이 주로 실수하는 것이며, 지식이 부족해서 실패한다기 보다는 경헝 부족으로 실패하는 경우라 볼 수 있다. 따라서 분석가 본인이 보기에 실패한 분석 결과라도 애정있게 정리하고 공유하면 여러 동료들의 예리한 눈으로 부족한 부분, 실수한 부분, 보완한 부분들을 찾을 가능성이 높다. 그럼 다시 그 가설은 살아날 기회를 얻게 된다.

자신의 생각을 모두 보여준다는 것에 대해 부끄럽게 생각하지 말고, 공유하고 논의하라!

큰 데이터가 항상 좋은건 아니다.

 

6

 

빅 데이터가 반드시 필요한 영역은 그렇게 많지 않다. 단적인 예로 outlier detection이라든지, anomaly detection류의 문제는 희소한 이벤트 때문에 모집단에 근접한 데이터량이 필요하지만 대부분 모델링, 통계분석을 기반으로 하는 의사 결정에 모집단의 모든 정보가 필요하지는 않다. 오히려 데이터 노이즈와 에러로 인해 전처리를 하는데 많은 시간이 소요되기 십상이다.

필자가 가장 난감하게 생각하는 빅 데이터 기술중에 하나는 통계 모델링을 대량의 데이터로 하게끔 하는 로직을 구성하는 오픈소스 결과물들이다. 예를들어 linear regression의 대용량 버전의 경우 구현이 그렇게 어렵지 않아서(matrix 계산 순서만 바꾸면 되는…) 많은 도구에서 제공하고 있으나 `influencer`들의 영향을 많이 받는 알고리즘적인 특징과 변수간의 평균적인 관계를 찾는 목적때문에 빅 데이터를 사실상 사용할 필요가 없다. 이는 모든 값을 이용한 평균값과 샘플링을 이용한 평균값의 차이가 그리 크지 않다는 간단한 실험만으로도 간접적으로 확인이 가능할 것이다. 물론 데이터가 많을수록 정확도가 향상되는 모델링 기법들이 존재하는데, 이 두 모델의 차이와 의미를 이해하고 빅 데이터 기반 방법론을 활용하는게 효과적일 것이다.

Agile하게 분석하자! 빠른 발걸음으로 보폭은 짧게!

 

7

데이터 분석 과정이나 결과를 주변과 자주 빠르게 공유하는 행위는 올바른 분석을 위해서 매우 필요한 행동이다. 이 과정을 통해서 좋은 분석 아이디어나 자신이 보지 못한 분석 포인트에 대한 힌트를 얻을 수 있으며, 공유를 염두에 두고 데이터를 분석하다 보면 항상 초기의 목적을 상기하는 효과를 가져와 분석이 다른길로 빠지는것을 막을 수 있다.

진짜 좋은것은 빛을 발하는데 시간이 걸릴 수 있다.조바심 내거나 실망하지 말고 때로는 자신만의 업무 가치관 관점으로 바라보는 것이 필요하다!

8

 

요건 데이터 분석가 혹은 과학자가 “장인”과 같은 자세로 일을 임해야 된다는 것을 의미한다. 자신의 가치관으로 혹은 과학적인 관점에서 올바르게 접근해서 나온 결과물은 주변의 상황에 따라서 받는 평가하고는 별개로 봐야 된다. 자신이 생각하기에도 과학적이고 멋진 분석 결과이나 주변에서 인정하지 않는 결과라면 그 가치를 인정받는데 시간이 걸릴 뿐 언젠가는 결국 인정받을 수 있게 된다.

또한 분석 결과에 대한 자신만의 퀄리티 기준과 가치관을 가지는것은 해당 분석 업무를 고퀄로 유지하는데 큰 동기부여가 된다.

EDA는 의뢰인에게 ‘인지적 편안함’을 주는 방향으로 시작하되 그 끝은 차별화된 성과로 맺어야 된다.

9

from : 데이터 분석 상담, 이태림 허명회 공저

 

많은 경우 EDA의 종말은 ‘이미 알고 있는 사실을 데이터로 확인한 결과’가 되는 경우가 많다. 이런 경우 의뢰인에게 `인지적 편안함`만 주고 분석은 끝나게 된다. 이는 대부분 초보 분석가 분들이 가지는 많은 고민중에 하나인데, 이러한 결과가 나오는 원인중에 하나는 대부분 교과서적인 분석만 해봤고, 봐왔기 때문이다. 하나의 분석 주제라도 이를 해결해 나가는 방식은 매우 다양하고 그 결과의 깊이도 다를 수 있다. 고수와 초보의 차이는 여기서 어떻게 한 발자국 더 나아가는지에 따라 갈라진다.

고수와 하수를 가르는 기준은 지능의 차이라기 보다는 이런 훈련이 되어 있느냐 아니느냐 차이인데, 따라서 이런 고민을 평소에 많이 해보는 방법밖에 없다. 그리고 그 도구로 통계를 사용하는 포인트가 매우 중요하다. 그렇지 않으면 분석가의 질문을 검증할수도 없고 검증이 불가능하면 의뢰인에게 전달할 수도 없기 때문이다.

필자가 하나의 팁을 알려주자면 해결하고자 하는 문제를  `Formula` 형태로 정의해 보는 것이다. 이와 같이 정의해보면 단면적으로 문제를 보는 것보다 입체적인 사고를 할 수 있게 되는데, 흡사 위 `Formula`를 `Regression`의 형태로 보는 것만으로도 상당히 많은 인사이트 단서를 발굴해 낼 수 있다. 물론 이를 위해서는 최소 `Regression`에 대해서는 예측 뿐만아니라 추론영역 혹은 이를 활용한 다양한 분석 방식에 통달해 있어야 될 것이다.

매년 1회씩 기초 통계학을 탐독하라!

10

from : 데이터 분석 상담, 이태림 허명회 공저

 

필자가 매년초에 주기적으로 하는 일중에 하나는 기초통계학 책을 탐독하는것이다. 신기하게도 매년 그 의미의 깊이가 다르게 느껴지고 문구 하나하나가 이전에 탐독을 했을때와는 다르게 느껴지는 것을 경험한다. 통계학은 의사결정의 학문이여서 하루에도 수십번 혹은 수백번 의사결정을 하고 살아가는 우리들이 다소 오해할 가능성이 많은 학문이라 생각한다. 왜냐면 우리 자신이 의사결정의 전문가라고 착각하기 때문이다. 따라서 다소 성경책과 같이 곁에 두고 의미를 곱씹어 통계적 의사결정 방식을 몸에 배게 하는 노력이 필요하다.

전공의 프레임에 빠지지 말고 필요한것은 집요하게 공부하고 익혀라!

11

 

대부분 어떠한 전공 커리큘럼을 따라서 공부하는것에 매우 큰 부담을 안고 있다. 이는 이전에 자신이 시간 투자하고 공부한 자신의 전공의 프레임에 빠져 있기 때문이라 생각한다.

능력있는 분석가가 되기 위해서는 사실 거의 체내화 되어 있어야 되는 개념(학문)들이 다수 존재하는데, 이를 위해 시간투자는 불가피하다. 게다가 개론서/소개서 몇권만으로 절대 익히기 어려운 개념들이 대다수여서 필자의 경우 커리큘럼 자체를 공부하라고 추천하곤 한다. 이는 개론서만으로 얻을 수 없는 해당 학문 응용의 지혜를 그 시간투자를 통해서 얻을 수 있기 때문이다. 단순히 교과서적인 분석만을 자신이 수행하고 있다고 한다면 잠시 업무를 내려놓고 여러 통계학 서적과 통계를 여러 다른 방식으로 활용한 방법론 책을 보길 추천하고, 이 과정을 확대하면 통계학 커리큘럼을 따라가게 되는 것이다.

 


 

데이터 분석가는 다소 중세시대의 “장인”과 유사한 직무분야라 생각한다. 상당히 고된 업무이고 분석실패하는 경우도 많으나 경험이 쌓일수록 좋은 분석 결과를 내기 마련이며, 그런 분석 결과를 안정적으로 내기 위해 자신만의 분석 결과 품질 가치관이 정립되는 과정을 겪게 된다. 따라서 긴 호흡으로 문제에 대한 발전적인 고민을 반복하고 개선하려 하는 자세를 가짐이 매우 중요하다 생각한다.

0 0 votes
Article Rating
Subscribe
Notify of
guest

28 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
eyelove

좋은글 감사합니다.

gogamza

도움이 되셨으면 합니다. ^^

Taehun Kim

좋은 글 감사합니다. 저도 말씀하신 “많은 경우 EDA의 종말은 ‘이미 알고 있는 사실을 데이터로 확인한 결과’가 되는 경우가 많다. 이런 경우 의뢰인에게 `인지적 편안함`만 주고 분석은 끝나게 된다” 가 걱정스러운 부분입니다.

음. 그리고 혹시 추천하는 “기초 통계학” 책이 있으시면 추천 부탁드립니다.

감사합니다.

gogamza

“논쟁거리로 배우는 통계학”이라는 번역서가 있습니다. 저는 주로 그 책을 추천하는데 많은 통계학과 교수님들도 같은 책을 추천하시더라구요..

Bongseok Ock

주옥같은 글입니다. 두고두고 읽어야 겠네요 감사합니다

gogamza

감사합니다. ^^

JIngeol Ryu

좋은 글 감사합니다. 공부해야 할 것들이 산더미네요!

gogamza

공부도 좋지만 실무를 해보는게 도움이 많이 됩니다.

JIngeol Ryu

답글 감사합니다!
역시 실무경험이 중요하군요ㅠㅠ
학생인지라 공모전 참여 정도가 그나마 분석 실무와 가장 가까운 경험이라고 생각하는데, 기업에서의 실무와는 많이 다를까요?

gogamza

학생이시라면 공모전 참여나 kaggle과 같은 분석 대회에 많이 참여해 보는게 좋습니다. 실무가 중요하다고 하는건 실무에서는 학교에서 처럼 깔끔한 데이터가 아니기 때문입니다. 그리고 실무에서는 교과서적인 분석 접근방식에서 탈피할 필요가 있는데, 그런 훈련은 빨리 하면 할수록 좋기 때문이죠.

윤일근

좋은글 감사합니다.
분석을 해보면서 전처리에 중요성을 많이 느꼈습니다. 그러면서도 놓치는 부분이 많다고 느끼고 정보가 모델링에 비해 많이 없다고 생각합니다.
혹시 관련해서 추천할 책이나 자료가 있으시면 추천 부탁드립니다.
감사합니다.

gogamza

전처리는 많이 해볼 수 밖에 없는거 같습니다. 뭐, 책도 별도 없고, 사실 이 분야 연구도 거의 없습니다. 이 부분은 직접 관련 도구를 기반으로 익히는 것도 방법입니다.

dplyr 같은 R 패키지와 연결된 Tidy Data 논문을 보시는것도 추천드립니다.

김환

정말 감사합니다. 혹시 실례가 안된다면 하나만 여쭈어 보겠습니다.
저는 현재 경영학과 4학년이며, 앞으로 진로 고민 중 데이터 분석가에 대한 관심을 가지고 있습니다. 만약 공부 방법을 조언해주신다면, 어떤식으로 접근해야하는지 궁금합니다.(너무 질문이 포괄적이라 죄송합니다.)

gogamza

http://sktreporter.com/220575620290

위 글이 도움이 될거 같습니다. ^^

김환

정말 감사합니다. 저도 통계쪽으로 진로를 잡고 있는데, 제 길에 확신을 가질 수 있는 글이였습니다. ^_^

행복한 연말 되세요.~ ^^

DoHyun Jung

좋은글 잘 읽었습니다. 감사합니다.

gogamza

감사합니다. ^^

[…] 인정받는 데이터 분석가 되기 – 외부 세미나 요약 – […]

박지원

통계를 살려 일하고 싶은데..그럼 한국에서 석사를 나오는건 필수인가요..?

gogamza

통계에 대한 전반적 이해가 있냐 없냐가 중요한 부분이고, 이는 학위의 문제라기 보다는 유연한 분석이 통계 기반으로 가능하느냐의 문제입니다. 반드시 석사를 한다고 이게 해결되는건 아닙니다. 석사의 가장 큰 장점은 논문 경험 유무이죠.. 하지만 논문도 석사만 쓸 수 있는게 아니라서요… ^^;

kg

잘 읽었습니다. 유용하고 실질적인 조언 감사합니다!
블로그에 공유했는데 괜찮으신거죠?^^
앞으로도 이 분야에 대한 전문적인 포스팅 부탁드립니다.
자주 찾아뵙겠습니다.

kg

잘 읽었습니다. 유용하고 실질적인 조언 감사합니다!
블로그에 공유했는데 괜찮으신거죠?^^
앞으로도 이 분야에 대한 전문적인 포스팅 부탁드립니다.
자주 찾아뵙겠습니다.^^

gogamza

잘 보셨다니 기분이 좋네요.
출처만 명시하신다면 공유는 얼마든지 가능합니다. ^^

Song Hyo Jin

정독하고 갑니다. 좋은글 감사합니다 ^^

Joon

좋은글 감사합니다.

trackback

[…] 인정받는 데이터 분석가 되기 (SKT 전희원님 등) […]