R에서 쉬운 폰트 사용

최근에 dbguide.net에 ggplot2에 대한 마지막 원고를 넘겼는데, 그곳에 윈도우 폰트를 사용해서 pdf 출력하는 예제를 기반으로 강좌를 시작했었다. 리눅스, 맥 등의 머신에 따른 설정 방법이 상이해서 윈도우로만 정해서 강좌를 진행했었는데, 얼마전 폰트 설정을 쉽게 할 수 있는 패키지를 사용해보고 이를 소개해 보고자 한다.   library(extrafont) font_import() fonts() loadfonts(device="win") ggplot(iris, aes(Sepal.Length, Sepal.Width)) + geom_point() + ggtitle("참숫체로 제목을 […]

계속 읽기

party를 활용한 모델 기반의 재귀 분할 방법

예를 들어 특정 데이터에 회귀모델을 적합한다고 하자…. 직관적으로 scatter plot을 그리면서 회귀모델 피팅을 하게 된다. 아래 처럼..     그러나 알다시피 오차의 분산이 일정하지 않은 잘못된 모델이 도출된다. (이 경우 가중 회귀를 쓰거나 변수 변환을 통해 모델을 튜닝해 나가는 과정이 필요하다고 학교에서 배우긴 했다.) 눈으로 보면 나쁘지 않아 보이나, 어떤 그룹 변수의 영향으로 인해 위 […]

계속 읽기

8th ACC R 데이터 마이닝 발표 예제코드

40분 동안에 데이터 마이닝을 가르치는 게 불가능하지만 단 하나의 목적만을 가지고 했다. 앞에 있는 분들이 R 데이터 마이닝을 시작하는데, 좋은 시작점을 제공해 주자! 어느정도 만족할만한 시간이었고, 따라서 교육에 쓰였던 예제 데이터를 공개한다. 오늘 내가 준비했던 것들 중에서 가장 만족한 것은 예제 코드를 R MarkDown으로 작성해서 이를 직접 발표 자료로 활용했다는 것이다. 상당히 만족 스럽고… 아래 […]

계속 읽기

The Art of R Programming 번역서 출간

  빅 데이터 분석 도구 R 프로그래밍   같은 팀분이 번역을 해서 증정본을 하나 선물 받았다.  사실 이 책은 출판사에서 번역서를 출간해도 좋을지 원서 리뷰를 해달라고 해서 원서를 미리 봤고 너무 좋은 책이라서 이미 원서의 특정 챕터에 대한 포스팅까지 썼었다.  사실 r-bloggers를 꾸준히 봐온 사람이라면 이 책이 심심치 않게 포스팅에 올라온다는 사실을 잘 아실거라 생각한다. […]

계속 읽기

R Cookbook 번역서 리뷰

전에 R cookbook 원서에 대한 리뷰를 한 기억이 있다. 그러다 이 책을 번역한다는 소식을 언젠가 들었던거 같은데 덜컥 갑자기 번역서 증정본을 받아보게 되었다. 사실 이 책은 원서가 너무 좋은 책이라서 다시 내용을 리뷰하는건 너무 소모적이란 생각이 들지만 국내의 한정된 R책의 실정을 반영해 몇 자 적어보겠다.   사실 원서는 많이 나와 있지만 국내서(번역서 포함)가 부족한 실정에 […]

계속 읽기

Churn Analysis

신포도…. 저건 신포도야…. 그렇게 생각하기 위해서 포스팅을 쓴다.   근 몇일동안 crowdanalytix.com의 Churn 분석을 수행해 봤다. 일반적인 데이터마이닝 과정의 정석을 따라가다보니 0.03374의 에러율을 가지는 모델을 만들었고, 대략 10위 정도에 머물러 있는 것을 확인했다.     간단하게 분석 과정을 요약하면, 다중공선성을 띌 수 있는 변수들을 제거하고, decision tree류의 알고리즘으로 모델링을 해보고 올린 모델이 0.05정도의 에러율을 보였으며, […]

계속 읽기

마트에서 살까 시장에서 살까?

최근에 http://data.seoul.go.kr이 열렸다는 이야기를 듣고 서둘러서 가입 후 데이터를 둘러봤다. 사실 처음 시작하는거라 미흡하지만 시민에게 데이터를 제공하는 국가 기관 중에서 가장 접근성이 좋고 직관적이며 편하다는 느낌이 확 들었다.   데이터를 둘러보다가 생필품 시장가격 조사를 한 데이터를 구했는데, 이 데이터는 농수산물 가격 중심으로 전통시장과 대형마트간의 물품 가격을 조사한 데이터이다. 게다가 구별로 나뉘어져 있고, 심지어 마트이름도 나와 […]

계속 읽기

한국 지진 데이터 시각화 (1978~2012)

ggmap으로 spatial 데이터 분석을 해보기 위해서 데이터를 찾던 중 기상청에서 제공하는 지진 통계 데이터를 가지고 하면 어떨까 하는 생각에 1978년도부터 지진 데이터를 가지고 플로팅을 해보기로 했다.  ggmap은 google map 뿐만 아니라 openstreet map, stamen design, cloud made map 을 소스로 사용해 spatial 데이터 분석을 할 수 있는 패키지로 최근 ggplot2를 기반으로 layering 시스템을 채용해 ggplot2를 […]

계속 읽기

Reproducible Research with R Markdown

요즘 재현성 있는 리서치를 하기 위한 R에서의 툴들이 많이 나오고 있다. 금번 UseR! 2012에서도 이 주제가 가장 큰 주제중에 하나였다. 우리가 실험, 데이터 분석, 논문작성과 같은 리서치 업무를 수행하면서 코드와 데이터, 그리고 문서화를 분리함으로써 나오는 오류를 줄이고, 이를 하나로 통합하여 관리하고자 하는게 핵심이다. 이는 단순한 리서치에서만 통용되는 문제가 아니라, 데이터 분석 업무 전반에 걸친 문제와도 […]

계속 읽기

UseR! 2012 미국 출장 – 1 –

블로그에 예고했던 것처럼 2012.06.10 부터 17일까지 UseR! 2012 행사 참석차 미국에 출장을 왔다. 지금 이 글을 쓰는 시점은 현지시간 6월 14일 새벽 2시 즈음이다. 13일에 함께 가는 분이 UseR! 2012 오럴 세션에 발표를 하시기 때문에 그리고 나 자신도 포스터 발표를 진행해야 했기에 어제 까지는 정말 정신없이 보냈고 그 때문에 지금 블로그 글을 올린다. 내쉬빌이라는 곳이 […]

계속 읽기