컴퓨터 공학 그리고 통계

빅 데이터 시대에 데이터 사이언티스트의 요구 능력이 뭔지 정말 알고 싶다면 빅 데이터 분석 프로젝트를 직접 해보면 된다. 경험해보면 Linux 기반의 데이터 핸들링이 왜 중요하고. Hive, Hadoop이 왜 중요하며, R이 왜 중요한지 알게된다.

통계 전공이나 산업공학 전공하신 분들은 CS쪽 경험이 부족해 어려움을 겪는 걸 많이 봤고, CS 전공 분들은 통계학적인 지식이 부족해서 고생하시는 것을 많이 봤다. 통계, CS 둘중에 어느쪽이 배우기 쉽냐고 물어보신다면, 답변드리기 어렵지만, 빅 데이터 분석에서의 활용도는 CS 기술 쪽이 지식이 좀 더 많은것을 요구한다는 것은 사실이다. 왜냐하면 데이터 마이닝의 70% 이상을 차지한다는 데이터 전처리에서 이 70%의 소요 시간을 획기적으로 줄일 수 있는 가장 빠른 기술은 바로 CS이기 때문이다.

물론 마지막 고지에 깃발을 꽂는 기술은 통계, 마이닝 기술이지만..

전반적으로 고달프고 힘든 작업이다… 이 빅 데이터 분석..

0 0 votes
Article Rating
Subscribe
Notify of
guest

2 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
DH(Dong-Hwan) Cho

동감입니다. 그래서 Sqoop같은 것들이 잘 동작해주면 정말 땡큐고. Flume처럼 생각한 대로 잘 동작하지 않으면 이런…시간만 낭비하고가 되는 거죠. 

gogamza

네 맞습니다. 좋은 플랫폼을 잘 사용해서 분석하는 능력도 중요하더군요.