R에서 Pipe 연산으로 분석하기

magrittr 패키지가 최근에 많은 화제를 불러 일으키고 있다. 사실 이 패키지는 패키지 자체로 유명세를 탔다고 하기 보다는 다른 유명 패키지가 이 패키지를 사용하게 됨으로써 유명세를 탓고 필자도 현재 이 패키지 때문에 dplyr과 같은 패키지를 자연스럽게 사용하게 되었다. 이 패키지는 유닉스에 있는 파이프(|, >) 연산자와 같은 기능을 아래와 같이 R에서 쓸 수 있게 해주는 연산자이다. library(magrittr) […]

계속 읽기

내가 쓰는 맥용 .Rprofile

금일 서울대학교 강좌를 진행하면서 필자 맥북의 .Rprofile공유를 요청하셔서 이렇게 올려본다. 아래 스크립트의 앞부분은 링크에서 설명을 하지만 맥에서 기본 그래픽 디바이스인 quartz디바이스의 한글 설정을 해주는 스크립트 이다. 그리고 마지막 라인은 자바 설정으로 KoNLP를 맥에서 사용할때 권장하는 설정 내용이다. 물론 다른 OS에서도 설정해주면 좋다. -Xmx8g부분은 본인의 시스템 메모리를 고려해서 적당하게 설정하면 된다. stringsAsFactors 부분은 데이터를 읽어들일때 R이 […]

계속 읽기

Resampling으로 회귀계수 검정

re-sampling 방법으로 회귀모형 파라메터를 검정해보기로 한다. 개인적으로는 리샘플링 방법이 직관적이고 설명이 편한 장점이 있어서 자주 쓰고자 하는 소망을 가지고 있고 금번 포스팅도 그 일환이다. 무엇보다 우리 주변의 컴퓨팅 파워는 놀고 있으니 요즘들어 안쓸 이유가 없는 방법이라 생각한다. … suppressPackageStartupMessages(library(UsingR)) suppressPackageStartupMessages(library(data.table)) suppressPackageStartupMessages(library(extrafont)) data(father.son) coeffs <- data.table() #2만번 re-sampling for(i in 1:20000){ rfheigh <- sample(father.son$fheight) rsheigh <- […]

계속 읽기

베이지언 책에 대한 이야기

뭔가 새로운걸 배울땐 여러 책을 구입해 겹쳐읽기를 하는 패턴으로 학습을 하곤한다. 이 방법의 장점은 같은 주제의 설명을 다른 저자로부터 들을 수 있다는 것이고 이 덕분에 빨리 제대로된 이해를 할 수 있게 된다.  이번 전반기에 구입한 베이지언 책들은 크게 국내서와 해외서로 나눌 수 있는데 개인적으로 가장 만족감을 느꼈던 국내서 한권과 해외서 한권을 소개한다. 물론 개인의 여건에 […]

계속 읽기

몇가지 베이지언 계산 방법 정리

지금까지 알고 있는 몇가지 방식의 베이지언 계산법 정리를 해볼 필요가 있어서 같은 문제를 여러 방법으로 살펴봤다. 상세한 모델 설계를 할 수 있는 jags 또는 좀더 빠르다고 하는 stan을 좀더 익숙하게 쓸 수 있도록 좀 살펴볼 필요가 있을거 같다. 그리고 여러 실 활용 예들을 찾아서 책을 좀 뒤적이도록 하자! Grid Approximation library(rjags) library(MCMCpack) library(extrafont) library(ggthemes) library(ggmcmc) […]

계속 읽기

RStudio New Version 리뷰 (V. 0.98.932)

RStudio는 R을 사용하는데 필수 불가결한 에디터 중에 하나이다. 특히나 뛰어난 분석 통합 환경과 더불어 RR(Reproducible Research)관련 기능은 정말 타의 추종을 불허한다. 필자가 이렇게 RStudio 새로운 버전을 리뷰하는 이유는 금번 버전업에 RR관련 많은 내용들이 추가되었기 때문이다.   관련 업데이트 내용은 아래와 같으며 Markdown v2에 대한 설명은 이 링크에서 볼 수 있다.    R Markdown Next generation of […]

계속 읽기

여론조사 결과를 기반으로한 베이지안 선거 예측

최근 베이지언을 이론적으로 심도있게 공부하며 활용에 대한 고민을 하다 재미있게도 6.4지방선거를 앞두로 여론조사들이 나오고 있어 이 데이터를 기반으로 간단한 작업을 해보았다. 여기저기 흩어져 있는 여론조사 결과를 정리해둔 웹 페이지를 근거로 사후분포를 계속 업데이트 하는 방법으로 예측값을 도출했으며 코드를 보면 알겠지만 이항분포의 conjugate prior인 베타분포를 기반으로 계산을 하였다. 예측은 모수의 최빈값으로 도출하였으며 분산도 함께 도출해 모수의 […]

계속 읽기

꽤 오랜 시간이 걸릴 R 코드를 돌린다면…

어느정도 R을 사용해본 사람은 알텐데, R언어는 스레드를 제공하지 않는다. 이 때문에 쉘에서의 작업은 대부분 동기적(sync) 방식으로 동작한다. 이 때문에 발생하는 문제는 바로 시간이 오래 걸리는 작업이 실행될 경우인데, 필자의 경우 R쉘에서 Hadoop관련 잡을 돌리기도 하고 데이터베이스와 연동해 쿼리를 실행하기도 해 이런 작업이 실행될 때 기다리거나 다른 주제의 일을 하곤한다. 하나의 분석 작업을 하기 위해 다양한 […]

계속 읽기

Markdown으로 작성한 문서를 PDF로 변환하기

Markdown문법은 꽤나 편리한 인터페이스를 제공하고 있다고 생각한다. 무엇보다 간단한 문법으로 미려한 문서를 만들 수 있을 뿐 아니라 필요에 따라 여러 기법을 사용할 수 있는 장점을 제공하기 때문이다. 하지만 몇가지 단점중에 하나는 이런 문서를 PDF로 만들기가 꽤나 번거롭다는 것이다. 물론 웹 브라우저를 이용해 PDF로 출력하는게 가능하지만 레이아웃을 HTML을 기반으로부터 변환이 되기 때문에 그다지 좋지 않은 결과물이 […]

계속 읽기

[R meetup] R 패키지 개발하기

지난 12월 13일 도곡동 KAIST에서 열린 R meetup에서 발표한 발표자료를 첨부한다.   KoNLP, Sejong, Ruchardet 패키지를 개발하면서 했던 시행착오들을 다른 분들은 하지 않길 바라는 마음에서 올해 꼭 하고 싶었던 meetup이었고, 발표자료보다 말로 그리고 쉘을 통해서 했던 설명들이 대부분이었던 발표였다.   발표자료 다운로드

계속 읽기