대용량 데이터 마이닝 메모

인터넷에서 이런 저런 자료들을 찾아보면서 메모를 해본다.

메모리보다 큰 데이터를 다루기 위해서 가장 편리한 툴은 역시 SAS라고 한다. 어떤 사용자는 20GB의 데이터를 가지고 분석하는데 흡사 20MB의 데이터를 가지고 처리하는것과 별반 다를게 없는 퍼포먼스를 보여준다고 한다.  그런데 20GB보다 큰 데이터는 SAS로도 힘들다고 한다.

 

만일 그것보다 큰 데이터라면 R과 Hadoop이 결합된 Rhipe라는 프로젝트가 도움이 될거 같다는 생각을 해본다.  

기회봐서 Hadoop 머신을 셋업해보고 한번 돌려볼 기회를 봐야 겠다.

 

RPy2를 사용한 데이터 분석도 해볼만 한데, 이를 이용하면 Python이 제공하는 데이터 처리의 간편함과 더불에 R이 제공하는 여러 분석함수들을 사용할 수 있는 장점이 있다. scipy라는 훌륭한 프로젝트도 있지만 아직 R만큼 성숙되지 않은 관계로 이런 방식으로 R을 결합해서 쓰는거 같다.

그렇지만 이 경우에도 대용량 파일 처리가 문제인데…. 해결 방법이 있다. 바로 ipython 을 사용하는건데, 이 라이브러리를 사용하면 여러대의 서버에 담긴 데이터를 분산처리할 수 있다. 몇몇 페이스북의 데이터 엔지니어들도 이런 방법으로 데이터 분석을 한다는데 간단히 메뉴얼만 봐도 얼마나 편할지 감이 오긴 한다.

 

역시 가장 땡기는 방법은 python + ipython + RPy2 조합이네..

CC BY-NC 4.0 대용량 데이터 마이닝 메모 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.