Rejection Sampling 시뮬레이션

rejection sampling 겨울학교에서 Gibbs Sampling 방법론에 대한 내용이 나와서 이게 바이오정보학과목에서 본거 같은데 확실한 의미를 몰라서 찾아보다가 여러 샘플링 기법에 대해서 살펴보고 있다. 대부분 복잡한 확률 모델들은 확률값을 추론하기가 힘들다. 이 때문에 여러 샘플링 방법을 사용해서 확률값을 근사하는게 되는데, 책을 보다가 책에 있는 코드를 기반 R로 시뮬레이션을 해봤다. 함수가 있는데 이런식으로 시뮬레이션 샘플링을 하는 이유는 […]

계속 읽기

iris 데이터에 대한 베이지언 분류기 토이 예제

패턴인식 겨울 학교 첫날에 정규분포를 가정한 데이터에 대한 베이지언 분류기를 만들어 보는 토이 예제가 나와서 간단하게 R로 구현해 봤다. 몇몇 함수를 먼저 정의할 필요가 있다. 특히나 공분산 행렬을 만드는… 물론 R은 cov()라는 공분산 행렬을 만드는 함수가 있으나 목적상 직접 만들어 보자. # 학습셋과 테스트셋을 구분 set.seed(1234) idx <- sample(1:50, size = 45) sub_set_train <- subset(iris, […]

계속 읽기

패턴인식 겨울학교 2013

오늘 관련 발표자료를 받아 봤는데, 발표자도 작년과 크게 다르지 않고 발표 자료도 업데이트 되는 수준인거 같다. 그래도 새로운 발표자분들이 오셔서 약간 기대는 하고 있다. 예상과 다르게 패턴인식 겨울학교가 빨리 마감되었는데, 너무 많이 등록해서 오프라인 등록도 받지 않는다 한다. 그럼 거의 참석자들은 정해졌다고 볼 수 있는데, 참석자분들의 소속이 어디인지 궁금해서 살짝 시각화를 해봤다. 관련 기술에 대한 […]

계속 읽기

RStudio 한글 스펠러 설치하기

RStudio 한글 스펠러 설치하기 RStudio를 기반으로 책도 쓰고 블로그 포스팅도 하고 그리고 분석 보고서도 쓰고 개발도 하고 뭐 거의 이거 없으면 일도 못하고 취미 생활도 못하는 상황까지 왔다. 그러다가 Latex으로 글을 쓰거나 Markdown으로 글을 쓸 때 한글 스펠체커가 RStudio에 탑재되어 있으면 좋을거 같다는 생각을 해보다가 해당 옵션이 존재하고 있어 과연 한글 스펠체커가 동작할지 매우 궁금한 […]

계속 읽기

knitr를 이용한 워드프래스 포스팅하기

이제 블로깅도 R + knitr + Markdown으로… 개요 지난 금요일 오후 늦게부터 토요일까지 이 블로그를 서비스하는 호스팅 서버에 문제가 생겼다. 다른때였으면 큰 문제가 되지 않았을텐데, 반드시 블로그를 통해서 디버깅을 해야될 상황이 겹친것이었다. knitr 개발자가 새로 인코딩 옵션이 들어간 함수의 버그 패치를 빨리 해달라는 메일을 받고 그나마 정신이 없는 상황에 호스팅 서비스에 대한 증오는 정말 시간이 […]

계속 읽기

제10회 빅데이터 분석전문가 오픈세미나 발표 자료

최근 프로젝트가 바빠서 외부 발표를 하고 싶어도 못할 지경이었는데, 기회가 되어 어제 분석 노하우 공유 시간을 좀 오래 가질 수 있었다. 발표자료 준비는 거의 못했지만 소스코드를 펼쳐놓고 콘솔에서 실행해 보면서 하는 방향으로 잡았고, 그 방향이 오히려 청중에게 도움이 된 거 같다. 사실 발표자료 준비하기 이전에 R이라는 언어를 어떤 방식으로 사용자들이 가지고 놀 수 있는지 알려주고 […]

계속 읽기

lubridate 패키지를 한글 윈도우에서 쓰기

정말 이런 팁 같은 거 잘 올리지 않는데, 유용한 거라 공유해 본다. lubridate 패키지는 R에서 다루기 힘든 date객체나 datetime객체를 다루기 위해 필요한 패키지이며, 실무 일을 하면 거의 필수로 사용된다. 요게 한글 윈도우에서 동작하지 않아서 리눅스에서 주로 작업을 하곤 했는데, 한글 윈도우에서 작업할 때가 있어 유심히 함수를 살펴보다 해결책을 발견했다. 해결책이라고 이야기 하긴 뭐하고 그냥 팁 […]

계속 읽기

R 데이터 마이닝 강의 자료 공개

몸담고 있는 KT 클라우드웨어에서 주최한 네 시간짜리 R 데이터 마이닝 강의자료를 공개한다.   https://github.com/haven-jeon/rdatamining   강의중에 R Markdown 문서까지 공유해 드린다고 약속을 드렸고, 블로그에 링크를 공개하겠다고 했으니 약속을 지키려 글을 올린다. R이 얼마나 재미있는 언어인지 이야기해주기 위해서 힘썼던 시간인거 같고, R 코드 한줄 한줄에 의미를 두는 것도 중요하지만 R로 할 수 있는 다양한 재미거리들에 대해서 […]

계속 읽기

프로젝트 하면서 가장 빈번하게 쓰는 패키지들

R을 가지고 실무 프로젝트를 몇번 하게 되면서 실제 이게 없으면 굉장히 불편할거 같은 여러 패키지들이 있다. 그런 패키지들을 한번 나열해 보고자 한다.   가장 먼저 ggplot2이다. 워낙에 유명한 패키지라서 두말하면 잔소리일 패키지이며, 분석 보고서에서의 시각화에 가장 큰 몫을 차치하는 패키지이며, 데이터를 이해하기 위해 반드시 있어야 되는 패키지이다.   그 다음에는 plyr 패키지인데, 굉장히 복잡한 group […]

계속 읽기