빅 데이터 시대에 데이터 사이언티스트의 요구 능력이 뭔지 정말 알고 싶다면 빅 데이터 분석 프로젝트를 직접 해보면 된다. 경험해보면 Linux 기반의 데이터 핸들링이 왜 중요하고. Hive, Hadoop이 왜 중요하며, R이 왜 중요한지 알게된다.
통계 전공이나 산업공학 전공하신 분들은 CS쪽 경험이 부족해 어려움을 겪는 걸 많이 봤고, CS 전공 분들은 통계학적인 지식이 부족해서 고생하시는 것을 많이 봤다. 통계, CS 둘중에 어느쪽이 배우기 쉽냐고 물어보신다면, 답변드리기 어렵지만, 빅 데이터 분석에서의 활용도는 CS 기술 쪽이 지식이 좀 더 많은것을 요구한다는 것은 사실이다. 왜냐하면 데이터 마이닝의 70% 이상을 차지한다는 데이터 전처리에서 이 70%의 소요 시간을 획기적으로 줄일 수 있는 가장 빠른 기술은 바로 CS이기 때문이다.
물론 마지막 고지에 깃발을 꽂는 기술은 통계, 마이닝 기술이지만..
전반적으로 고달프고 힘든 작업이다… 이 빅 데이터 분석..
컴퓨터 공학 그리고 통계 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.