프로젝트 하면서 가장 빈번하게 쓰는 패키지들

R을 가지고 실무 프로젝트를 몇번 하게 되면서 실제 이게 없으면 굉장히 불편할거 같은 여러 패키지들이 있다. 그런 패키지들을 한번 나열해 보고자 한다.

 

가장 먼저 ggplot2이다. 워낙에 유명한 패키지라서 두말하면 잔소리일 패키지이며, 분석 보고서에서의 시각화에 가장 큰 몫을 차치하는 패키지이며, 데이터를 이해하기 위해 반드시 있어야 되는 패키지이다.

 

그 다음에는 plyr 패키지인데, 굉장히 복잡한 group by연산을 아주 간단한 인터페이스로 수행이 가능하게 하는 패키지이며, 특히나 연산시 멀티코어 프로세싱을 아주 손쉽게 이용할 수 있게 하는 장점을 가진 패키지이다. 역시 이 녀석이 없으면 굉장히 불편해지며, 분석 이외에 신경써야 될 것들이 많아진다. 

 

reshape2는 테이블의 여러 필드들을 병합하고 쪼개주는 중요한 역할을 하는 패키지로서 ggplot2를 쓰다보면 반드시 사용하게 될 수 밖에 없는 패키지이다.

 

lubridate는 예전에 UerR! 행사에 가서 소개를 받았는데, 역시 이 패키지가 없으면 시간에 대한 연산이 굉장히 불편해진다. 한글 윈도우에서는 날짜나 시간이 한글로 나오게 되기 때문에 lubridate에서 파싱 오류를 내는데, 가급적 한글 윈도우에서 보다는 리눅스나 맥의 유니코드 환경에서 사용하길 추천한다.  R 한글화와 이 패키지 둘중에 선택하라면 난 이 패키지를 선택할 정도로 상당히 편리한 패키지이다.

 

knirtr, markdown….  주로 분석하면서 동시에 문서를 작성하는걸 추천하곤 한다. 상대방을 설득하고 이해시키기 위한 노력의 일환으로 분석 리포트를 정리하는데, 분석코드와 문서를 함께 정리하다 보면 새로운 아이디어도 나오고 스스로 이해할 수 있는 상식적인 분석과정을 진행할 수 있게 하는 장점을 가지고 있다. 스스로 이해하고 감동하지 못하는 스토리를 가진 분석 문서를 가지고는 다른 사람을 이해시키지도 못한다는 것을 명심해야 한다. 이런 문학적 프로그래밍에 상당한 도움을 주는게 knitr와 makrdown 패키지이다. Latex까지는 아니더라도 markdown으로 간단한 문학적 프로그래밍을 시도해 보는건 가치 있는 일이며, 실제 업무에서도 상당한 도움이 된다. 

 

data.table의 경우 data.frame의 동생뻘 되는 데이터 형으로서 가장 강력한 기능은 특정 컬럼을 색인할 수 있다는 것이다. 테이블이 굉장히 크고, 특정 키를 서치해야 되는 일이 많을 경우 이 패키지가 처리시간을 획기적으로 줄여줄 수 있다. 물론 이 이외에도 여러 테이블 연산을 지원하지만 그 부분은 plyr이 훨씬 편하다.

 

마지막으로 ProjectTemplate패키지를 소개하면, 이 패키지는 중구난방으로 관리될 가능성이 많은 R의 여러 리소스들을 프로젝트 구조로 관리하게 해주는 장점을 가지고 있으며, 단 두줄의 명령어로 분석을 하기전의 모든 약정된 전처리와 패키지 로딩, 여타 다양한 데이터를 로딩하는 잡스런 일들을 처리해 준다. 물론 테스트 케이스들도 관리할 수 있으며 이 밖에도 상당히 많은 부분을 케어할 수 있는 패키지다.

CC BY-NC 4.0 프로젝트 하면서 가장 빈번하게 쓰는 패키지들 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.