빅 데이터가 정말 도움이 되는가?

2012 빅 데이터 전문가로 가는 길 이라는 세미나를 두 달 전에 받아서 잊고 있다가 그제(7월 18일) 발표를 하게 되었다.

비가 왔음에도 처음 발표장에 들어가면서 많은 사람들에 놀랐고, 내 세션이 마지막이었는데, 사람들이 빠지지 않았음에 두 번 놀랐다.

얼마나 R에 대해서 오해를 하고 있을지 가희 짐작이 갈만했다. ㅋㅋ

사실 이날 발표의 주제는 이미 R이라는게 빅 데이터의 중심에 있다는 가정하에 R 전문가가 어떻게 될 수 있을까 하는 그런 주제를 가진 세미나였다. 사실 그런데 나의 관점은 조금 달랐다. R이 왜 빅 데이터 시대에 각광을 받고 있는지 그 의미가 Hadoop하고 바로 연결되거나 인터페이싱이 쉬워서 등등의 알려진 이유가 사실이 아닌 R 언어 자체가 다양한 소스의 데이터를 다양한 관점으로 빠르게 분석할 수 있는 인터렉티브한 환경을 제공해 주며 그 장점이 데이터과학자의 목마름과 맞아 떨어져서라는걸 말이다.

그래서 이를 설명하기 위해 왜 데이터과학자가 인터렉티브한 분석을 할 수 밖에 없는지 그 이유를 설명해야 했고, 그러면서 “빅 데이터가 정말 도움이 되느냐?”하는 질문을 스스로 던졌던 것이다.

 

“빅 데이터가 정말 도움이 되는가?”

이 질문은 올해 Strata 컨퍼런스의 가장 뜨거운 주제중에 하나였다. Netflix의 데이터과학자가 이 주제를 들고 나왔고 이에 대한 상당한 논의가 있었으며 어느정도 의견이 일치되는 결과가 도출 되었다.  그래서 금번 발표 시 이 내용에 대해서 설명하며 빅 데이터에서 올바르게 사용할 수 있는 데이터과학자가 없다면 빅 데이터는 쓰레기에 불과하다는 언급을 했다.

이를 설명하기 위해서는 많은 좋은 빅 데이터 예제의 원산지인 텍스트 마이닝이 빅 데이터에 강한 이유와 이 때문에 데이터 마이닝에서 에러를 구성하는 Bias, Variance에 대한 설명을 해야 한다. 물론 발표시에는 이런 이야기 하지 않았고, 빅 데이터의 대다수의 아름다운 예들이 텍스트마이닝의 Language Model에서 나오게 되 이야기들과 Language Model은 엄청난 양의 예측변수를 사용하고 그에 따른 많은 수의 학습데이터가 필요로 했음을 설명했다(물론 많은 예측변수와 학습셋으로 만든 모델은 High Variance모델이 될 수 있으며 Overfitting이 되기 쉽다는 단점이 있다).  따라서 빅 데이터의 좋은 예들은 빅 데이터를 사용해야 잘 나오는 것들에 적용을 해서 잘 나온 것이며, 반면에 Netflix의 프로덕션 모델은 그렇게 움직이지 않았던 것 예를 보여줬다. 

 

따라서 이렇다…

 R전문가로가는길1  

왼쪽은 Brill의 텍스트 마이닝 모델이며, 오른쪽은 Netflix의 모델이다. 빅 데이터의 환상에 젖어 있다면 왼쪽으로 쏠릴텐데, 사실 두 모델 모두 현실에서 존재할 수 있는 것들이며 모두 맞는 모델이라는 것이다.

사실 오른쪽 모델을 왼쪽 모델처럼 만들 수 있다. 그러나 이미 데이터를 무지막지하게 넣어서 할 수 있는 부분들이 이미 되어 있기 때문에, 새로운 정보(예측변수)를 넣어줘야 되는 문제가 있는 것이다.

그러나 이 정보를 누가 찾는건가?

정확한 것은 …. 빅 데이터 플랫폼은 절대 찾아주질 못한다는 것이다. 정말 저런걸 자동으로 찾아주는 플랫폼이 있다면 내가 발벗고 나서서 팔러 다니고 싶을 것이다. 물론 나도 쓰고…

 

따라서 아래의 접근 방법이 반드시 필요하다. 

 

 

R전문가로가는길

 

위 슬라이드처럼 단순히 레코드 개수를 엄청나게 처리할 수 있는 빅 데이터 플랫폼만을 채용해서는 빅 데이터를 절대 활용 불가능하며 양질의 정보를 추가해 목적의 문제를 해결 할 수 있게끔 할 수 있는 데이터 과학자의 역할이 필요하다. 왜냐면 양질의 예측변수나 정보가 함께 추가되지 않은 상태에서 데이터의 볼륨만 늘린다면 모델의 성능향상 없이 쓸데없이 빅 데이터 플랫폼 리소스를 낭비하게 될 수 밖에 없기 때문이다.

 

한마디로 많은 벤더들이 간과하는 사람의 역할이 빅 데이터를 활용하는데 가장 중요한 요소라는 것을 강조했다.

 

R에 대한 세션이였는데, 사실 난 위에서 설명한 빅 데이터에 대한 올바른 접근 방법에 대한 설명에 가장 강점을 두었다. 위 논의는 이미 데이터 마이닝이나 기계학습 분야의 이론적인 탄탄한 배경을 가지고 있는 결론이라는 것을 마지막으로 밝히고 마쳤다.   

 

빅 데이터의 효과에 대한 논의는 이미 미국에서 나오고 있는 상황이다. 효과가 있고 없고를 단정해서 이야기하기는 굉장히 힘들고, 빅 데이터는 그에 맞는 올바른 접근 방법이 필요하다는 의견들이 나오고 있으며 근거도 탄탄하다. 개인적으로 국내에서도 어서 이런 성숙한 논의가 활성화 되길 바랄 뿐이다.

 

 

 

사실 상당히 만족했던 발표였는데, 질문은 내가 만든 KoNLP 질문이 반 이상이었다는 것이다. ㅠㅠ

게다가 KoNLP를 사용해서 논문을 쓰셨다는 분이 오셔서 사인도 받아가시는 익숙하지 않은 일들도 일어났었다.

위에서 나올 법한 High Variance 모델, High Bias모델, 둘간의 trade-off 같은 고수준의 질문이 나왔으면 정말 재밋었을텐데….

 

여튼 마지막으로 발표자료 공유한다.

R 전문가로 가는 길

CC BY-NC 4.0 빅 데이터가 정말 도움이 되는가? by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.