고감자 – 페이지 12 – from __future_

윈도우 R 수학연산 성능 향상 시키기

작성일자 2013년 07월 21일 고감자님이 작성

금번 포스트에서는 윈도우 버전의 R의 계산 성능을 향상시키는 팁을 올려본다. 이는 물론 이 문서 에서 힌트를 얻었다는 것을 미리 알려두며, 윈도 버전의 BLAS 라이브러리의 컴파일된 바이너리가 인터넷에 존재해서 가능했다는 점을 미리 밝혀둔다. 만일 그렇다면 직접 윈도우에서 빌드를 하는 수고를 했어야 했다. 리눅스 버전의 경우 심지어 직접 소스를 빌드해야 되며 환경마다 다른 설정이 필요한 부분이 […]

계속 읽기

고려대학교 빅 데이터 단기강좌 발표자료 업데이트

작성일자 2013년 07월 13일 고감자님이 작성

어제(2013.07.12) 발표한 단기강좌 마지막 세션인 ‘Enjoying Data with R’의 발표자료 올려드립니다. Enjoying Data with R 다른 리소스들

계속 읽기

예측 모델링에 대한 실용서

작성일자 2013년 07월 07일 고감자님이 작성

R 커뮤니티에서 예측 모델링 실무 패키지로 내가 가장 감명깊게 사용한 패키지가 있는데, caret이라는 패키지이다. 2012년도 UseR! 행사 시 Max Kuhn 박사를 처음 뵈었고 이미 알고 있는 내용이었지만 튜토리얼 세션을 반나절동안 참여했을 정도로 이 박사님의 경험과 철학을 높게 사고 있었다. 특히 모델 평가를 위해 10-fold-crossvalidation 을 멀티코어로 돌려서 가장 최적의 파라메터를 찾는 방법에서 이전 야후!에서의 […]

계속 읽기

분석하기 좋은 데이터(Tidy Data)

작성일자 2013년 06월 29일 고감자님이 작성

우리는 데이터 분석을 수행하면서 다양한 데이터 변환 작업을 수행하게 된다. 이는 데이터가 원래 특정 분석을 염두에 두고 만들어지는 경우가 거의 없기 때문이며, 사실 애초 데이터 설계를 할 때 분석 목적을 알기도 불가능하다는 게 가장 큰 원인이 아닐까 한다. 이런 연유로 전체 데이터 분석 작업에서 70% 혹은 80% 이상이 이런 데이터 변환 및 전처리 작업에서 소모된다. […]

계속 읽기

라즈베리 파이를 이용한 라이프 로깅 시작

작성일자 2013년 06월 18일 고감자님이 작성

큐비보드, 비글보드 블랙을 거쳐 오랜 시행착오 끝네 라즈베리파이에 안착했다. 역시나 라즈베리파이를 만나고 나서 이쪽으로 강렬한 이끌림을 받았으며 이런 저런 창조력을 발휘발 생각에 매일 오감이 자극될 지경이다. 내가 관심 있어하는 것은 내가 흘리고 다니는 나의 데이터이다. 내가 흘리고 다니는 것이라 모두 안다고 치부하기에는 이 데이터는 너무 객관적인 데이터이라는 특징 있다. 여름이 왔으니 일단 실내 온도에 관심이 […]

계속 읽기

R 미러링 서버 로그 분석(2)

작성일자 2013년 06월 16일 고감자님이 작성

한국 사용자들의 R 패키지 이용 현황을 보여주려 한다. RStudio 미러 서버가 전체 한국 사용자를 대변하기는 힘들테지만 RStudio 에디터의 기본 미러링 설정이 RStudio 서버로 되어 있으니 기본 설정 그대로 쓰는 사용자 습성을 볼때 어느정도 의미는 있을 거라 생각한다. library(ggplot2) library(lubridate) library(plyr) if (!require("devtools")) install.packages("devtools") require("devtools") # make sure you have Rtools installed first! if not, then […]

계속 읽기

R 미러링 서버 로그 분석

작성일자 2013년 06월 16일 고감자님이 작성

예전에 한국 cran 미러링 서버를 구축하면서 미러링 서버의 웹 서버 로그를 기반으로 몇 가지 시각화를 해서 공개 세미나에서 분석 결과를 공유했던 적이 있었다. 사실 이런 로그 공개 작업에 대해서 개인적으로 고민한 적이 있었는데, 얼마전에 RStudio에서 관련 작업을 했던 결과를 공개하고 말았다. 그러면서 나도 로컬 cran 미러링에서 RStudio로 넘어오게 되었는데, 이 이유는 RStudio의 미러렁 서버가 AWS […]

계속 읽기

R을 이용한 검색 랭킹과 검색 클러스터링 초간단 구현

작성일자 2013년 05월 12일 고감자님이 작성

KoNLP와 같이 쓰면 정말 좋은 R 패키지중에 tm이라는 아주 좋은 패키지가 있다. R에서 텍스트 분석을 한다면 이 패키지를 반드시 쓰게 되어 있다. 이 패키지의 가장 큰 장점은 텍스트를 숫자로 표현하는 대표적인 방법인 Term Document Matrix를 만들어 준다는 것이다. 이것으로 뭘 할지는 이후의 분석에 달려 있겠지만 일단 숫자로 변환된 텍스트는 다른 어떤 R패키지들을 활용하든지 적절한 통계적 […]

계속 읽기

R 기반의 데이터 시각화(5장, 6장 추가)

작성일자 2013년 05월 03일 고감자님이 작성

R 기반의 데이터 시각화(가제) 저자 전희원(madjakarta at gmail.com) 책 소개 필자가 블로그를 운영하거나 기고를 하면서 썼던 글들을 한곳에 정리해 한권의 책으로만들기 위한 목적을 가지고 작업을 했으며, R로 복잡한 통계분석을 하기 보다는 시각화를 중심으로 데이터를 스스로 가지고 놀 수 있는 여러 기법을 소개하고자 한다. ggplot2를 기준으로 하는 시각화가 첫번째 주제로 정리가 될 것이며, 두번째 주제로는 다양한 […]

계속 읽기

R 배치 프로그램 작성시 문제들과 나의 해결책

작성일자 2013년 04월 22일 고감자님이 작성

R로 분석을 하고 나서 주기적으로 돌아가는 배치 프로그램을 작성할 경우가 많다. 이 배치 프로그램을 제작하는 것은 사실 분석 프로그램을 작성하는 것과는 사뭇 다른점이 있으며, 이 부분을 제외하고 나서도 다른 언어하고 상당히 다른 동작을 하는 부분을 쉽게 찾을 수 있다. 가장 먼저 난감했던 점은 대다수의 프로그래밍 언어들이 다른 소스 스크립트나 리소스들을 참조할 때 메인 스크립트 소스파일의 […]

계속 읽기