(월간 마소) Rhipe 예제 코드

이번달(2011.09) 월간 마이크로소프트에 기고했던 R로 하는 Big Data분석의 Rhipe 예제 코드에 퍼포먼스 문제가 있어서 개선된 코드를 올려본다. Rhipe의 아키텍처를 살펴볼 시간이 없었는데, 같은 회사분께서 고맙게도 구동 방식을 자세히 설명해줘서 코드 튜닝을 할 수 있었던거 같다. 원본 예제코드가 세 노드에서 6시간에 걸쳐 map/reduce를 한다는 것을 확인 했던 게 원고 데드라인이 지난 후였었는데,   Rhipe의 구동 방식을 모르고서는 […]

계속 읽기

대용량 데이터 마이닝 메모

인터넷에서 이런 저런 자료들을 찾아보면서 메모를 해본다. 메모리보다 큰 데이터를 다루기 위해서 가장 편리한 툴은 역시 SAS라고 한다. 어떤 사용자는 20GB의 데이터를 가지고 분석하는데 흡사 20MB의 데이터를 가지고 처리하는것과 별반 다를게 없는 퍼포먼스를 보여준다고 한다.  그런데 20GB보다 큰 데이터는 SAS로도 힘들다고 한다.   만일 그것보다 큰 데이터라면 R과 Hadoop이 결합된 Rhipe라는 프로젝트가 도움이 될거 같다는 […]

계속 읽기