ggmap과 네이버 맵 연동

어제 저녁부터 ggmap에 네이버 맵 연동을 해볼 생각으로 코딩을 좀 했는데, 쓸만한 수준의 구현체가 나와 공유하고자 글을 쓴다. ggmap이 위치 정보 시각화에 상당히 편리한 패키지임에도 국내 전용 지도가 아니어서 다양한 정보를 접할 수 없는 불편한 점이 있었는데, 네이버 staticmap API를 이용해 이 부분을 해결했다. 이걸 구현하는데, 지도의 X,Y 좌표와 그래프의 X,Y 좌표 연동을 하는게 가장 […]

계속 읽기

윈도우 R 수학연산 성능 향상 시키기

  금번 포스트에서는 윈도우 버전의 R의 계산 성능을 향상시키는 팁을 올려본다. 이는 물론 이 문서 에서 힌트를 얻었다는 것을 미리 알려두며, 윈도 버전의 BLAS 라이브러리의 컴파일된 바이너리가 인터넷에 존재해서 가능했다는 점을 미리 밝혀둔다.   만일 그렇다면 직접 윈도우에서 빌드를 하는 수고를 했어야 했다. 리눅스 버전의 경우 심지어 직접 소스를 빌드해야 되며 환경마다 다른 설정이 필요한 부분이 […]

계속 읽기

예측 모델링에 대한 실용서

  R 커뮤니티에서 예측 모델링 실무 패키지로 내가 가장 감명깊게 사용한 패키지가 있는데, caret이라는 패키지이다. 2012년도 UseR! 행사 시 Max Kuhn 박사를 처음 뵈었고 이미 알고 있는 내용이었지만 튜토리얼 세션을 반나절동안 참여했을 정도로 이 박사님의 경험과 철학을 높게 사고 있었다. 특히 모델 평가를 위해 10-fold-crossvalidation 을 멀티코어로 돌려서 가장 최적의 파라메터를 찾는 방법에서 이전 야후!에서의 […]

계속 읽기

R을 이용한 검색 랭킹과 검색 클러스터링 초간단 구현

KoNLP와 같이 쓰면 정말 좋은 R 패키지중에 tm이라는 아주 좋은 패키지가 있다. R에서 텍스트 분석을 한다면 이 패키지를 반드시 쓰게 되어 있다. 이 패키지의 가장 큰 장점은 텍스트를 숫자로 표현하는 대표적인 방법인 Term Document Matrix를 만들어 준다는 것이다. 이것으로 뭘 할지는 이후의 분석에 달려 있겠지만 일단 숫자로 변환된 텍스트는 다른 어떤 R패키지들을 활용하든지 적절한 통계적 […]

계속 읽기

R 기반의 데이터 시각화(5장, 6장 추가)

R 기반의 데이터 시각화(가제) 저자 전희원(madjakarta at gmail.com) 책 소개 필자가 블로그를 운영하거나 기고를 하면서 썼던 글들을 한곳에 정리해 한권의 책으로만들기 위한 목적을 가지고 작업을 했으며, R로 복잡한 통계분석을 하기 보다는 시각화를 중심으로 데이터를 스스로 가지고 놀 수 있는 여러 기법을 소개하고자 한다. ggplot2를 기준으로 하는 시각화가 첫번째 주제로 정리가 될 것이며, 두번째 주제로는 다양한 […]

계속 읽기

R 배치 프로그램 작성시 문제들과 나의 해결책

R로 분석을 하고 나서 주기적으로 돌아가는 배치 프로그램을 작성할 경우가 많다. 이 배치 프로그램을 제작하는 것은 사실 분석 프로그램을 작성하는 것과는 사뭇 다른점이 있으며, 이 부분을 제외하고 나서도 다른 언어하고 상당히 다른 동작을 하는 부분을 쉽게 찾을 수 있다. 가장 먼저 난감했던 점은 대다수의 프로그래밍 언어들이 다른 소스 스크립트나 리소스들을 참조할 때 메인 스크립트 소스파일의 […]

계속 읽기

라즈베리 파이로 R cran 로컬 미러 만들어서 사용하기

라즈베리 파이로 R cran 로컬 미러 만들어서 사용하기 전에 국가기관에 다니는 분이 이와 비슷한 질문을 하신 분이 있었고, 나도 역시 외부 프로젝트 나갈때를 대비해 이런 준비를 할 필요성을 느꼈는데, 이제야 좀 감이 잡혀서 글을 써본다. 문제는 이거다. 외부 네트웍이 전혀 안되는 곳에서 R 패키지 설치하기가 매우 번거롭다. 내 경우엔 필요한 모든 패키지를 USB로 다운 받아가서 […]

계속 읽기

R 3.0.0 릴리즈

진정으로 빅 데이터 시대에 맞는 R 릴리즈가 된거 같다. 3.0.0으로 버전업을 하면서 20억 레코드 정도의 데이터 프레임을 커버할 수 있는 능력이 생겼는데, 이는 하나의 분석 단위로 어마어마한 크기이며  20억 레코드의 데이터를 발견하기도 쉽지 않을 정도의 크기이다. 이전 버전까지는 64비트 OS지원이 다소 미흡했다. 한마디로 int64를 사용하지 않는 체계를 사용했는데, 그 한계가 금번 버전업에서 풀렸으며 좀더 대용량 […]

계속 읽기

ggthemes 예제들

ggthemes 참고용 이미지들… 패키지에서 제공한 예제 코드들에 대해서 실행한 결과물을 함께 올렸다. 필요할때 찾아서 쓰자! 개인적으론 theme_economist가 제일 맘에 드네.. library(ggthemes) dsamp <- diamonds[sample(nrow(diamonds), 1000), ] (qplot(carat, price, data = dsamp, colour = clarity) + theme_solarized() + scale_colour_solarized("blue")) ## Dark version (qplot(carat, price, data = dsamp, colour = clarity) + theme_solarized(light = FALSE) + scale_colour_solarized("blue")) […]

계속 읽기

Sampling-Importance-Resampling algorithm

Sampling-Importance-Resampling algorithm 어제에 이어 Sampling-Importance-Resampling algorithm 코드를 올려본다. 물론 책의 코드를 참고했는데, R코드를 구현하다 보니 거의 pseudo코드에 근접하는 것을 알 수 있었다. 이는 시뮬레이션과 데이터에 최적화된 R의 특징 때문이라 생각된다. 특히나 가중치 값에 따라 resampling하는 부분이 함수 하나로 치환되었고 컴퓨팅 속도도 무척 빨라졌다. weight값에 따라 재 샘플링하는 부분이 어떻게 동작하는지 comment된 부분을 참고하는 것도 좋을거 […]

계속 읽기