from __future__ import dream

R로 구현한 맥주 추천 엔진

작성일자 2013년 11월 11일 고감자님이 작성

데이터가 공개되면 이를 이용한 여러 재미있는 분석작업을 할 수 있다. 얼마전에 R기반 맥주 추천 구현 포스팅을 보고 몇일전에 관련 데이터 소스를 구해서 이에 대한 추천엔진 구현 포스팅을 올려본다. 이 데이터의 출처는 Beer Advocate이며 데이터 소스는 web data library이다. 사실 금번 분석의 동기는 데이터마이닝 수업 텀 프로젝트임을 미리 밝혀둔다. 일단 추천엔진은 구현 방법에 따라 너무 많은 […]

계속 읽기

우연히 제안받은 글쓰기가 책이 되기까지…

작성일자 2013년 10월 31일 고감자님이 작성

책이 나왔다. 제목은 R로 하는 데이터 시각화 … 약 200페이지정도 되는 이 책이 나오기까지 정말 많은 과정을 거쳤는데… 책을 거의 쓸 생각을 하지 못했던 작년 6월쯤 한 프리렌서 편집자분께서 가볍게 연재로 시작하자는 말씀을 듣고 시작한 시각화책이 이렇게 출간까지 될 줄이야 정말 예상치 못한 일이다. 연재로 끝날 집필이 너무 아까워 그 콘텐츠를 Latex으로 다시 구성해서 책과 […]

계속 읽기

data.table 소개

작성일자 2013년 10월 27일 고감자님이 작성

분석해야될 데이터가 많아지면 프로세싱에 많은 시간이 걸리게 되고 분석 소요 시간에 대해서 예측할 수 없는 상황에 처하게 된다. 따라서 자신의 데이터 특징에 맞는 데이터 처리 라이브러리를 사용하는게 중요해진다. 많은 패키지가 있기 때문에 이런 선택의 고민에 빠지게 되는데, 이럴때 data.table은 하나의 황금룰로 가져가는것도 나쁘지 않을듯 하다. 예전 외부 세미나에서 data.table은 컬럼에 인덱스를 걸 수 있는거 빼놓고는 […]

계속 읽기

R 실무 데이터 분석 세미나 참고자료

작성일자 2013년 09월 15일 고감자님이 작성

R 실무 데이터 분석 세미나에 참여해 주셔서 감사드립니다. 저도 이번 시간을 통해 R 사용자들이 어떤 부분에 관심이 있고 궁금해 하는지 잘 이해할 수 있었습니다. 이날 정말 많은 내용들을 전달해 드리려 쉬는시간도 거의 없이 7시간을 계속 이야기 했는데도 시간 관계상 간단하게 언급한 내용들과 사전에 공유를 드리지 못한 자료들을 이곳에 올려 놓으니 많은 참고 바라겠습니다. extrafont를 사용한 […]

계속 읽기

서울시 공공 wifi 시각화

작성일자 2013년 09월 05일 고감자님이 작성

서울 공공 wifi 현황 데이터를 가져와 좌표 체계 WGS84로 전환한 이후에 이를 기반으로 몇 가지 시각화를 해봤다. library(ggplot2) wifi_new <- read.csv("http://dl.dropboxusercontent.com/u/8686172/wifi_wgs_euc_kr.csv", encoding = "EUC-KR") ggplot(wifi_new, aes(x = factor(1))) + geom_bar(aes(fill = INSTL_DIV), width = 1) + coord_polar(theta = "y") + xlab("") + ylab("") 위 그래프를 보면 꼭히 시장 점유율대로 공공에 지원하는게 아님을 알 수 있다. […]

계속 읽기

ggmap과 네이버 맵 연동

작성일자 2013년 08월 09일 고감자님이 작성

어제 저녁부터 ggmap에 네이버 맵 연동을 해볼 생각으로 코딩을 좀 했는데, 쓸만한 수준의 구현체가 나와 공유하고자 글을 쓴다. ggmap이 위치 정보 시각화에 상당히 편리한 패키지임에도 국내 전용 지도가 아니어서 다양한 정보를 접할 수 없는 불편한 점이 있었는데, 네이버 staticmap API를 이용해 이 부분을 해결했다. 이걸 구현하는데, 지도의 X,Y 좌표와 그래프의 X,Y 좌표 연동을 하는게 가장 […]

계속 읽기

윈도우 R 수학연산 성능 향상 시키기

작성일자 2013년 07월 21일 고감자님이 작성

금번 포스트에서는 윈도우 버전의 R의 계산 성능을 향상시키는 팁을 올려본다. 이는 물론 이 문서 에서 힌트를 얻었다는 것을 미리 알려두며, 윈도 버전의 BLAS 라이브러리의 컴파일된 바이너리가 인터넷에 존재해서 가능했다는 점을 미리 밝혀둔다. 만일 그렇다면 직접 윈도우에서 빌드를 하는 수고를 했어야 했다. 리눅스 버전의 경우 심지어 직접 소스를 빌드해야 되며 환경마다 다른 설정이 필요한 부분이 […]

계속 읽기

고려대학교 빅 데이터 단기강좌 발표자료 업데이트

작성일자 2013년 07월 13일 고감자님이 작성

어제(2013.07.12) 발표한 단기강좌 마지막 세션인 ‘Enjoying Data with R’의 발표자료 올려드립니다. Enjoying Data with R 다른 리소스들

계속 읽기

예측 모델링에 대한 실용서

작성일자 2013년 07월 07일 고감자님이 작성

R 커뮤니티에서 예측 모델링 실무 패키지로 내가 가장 감명깊게 사용한 패키지가 있는데, caret이라는 패키지이다. 2012년도 UseR! 행사 시 Max Kuhn 박사를 처음 뵈었고 이미 알고 있는 내용이었지만 튜토리얼 세션을 반나절동안 참여했을 정도로 이 박사님의 경험과 철학을 높게 사고 있었다. 특히 모델 평가를 위해 10-fold-crossvalidation 을 멀티코어로 돌려서 가장 최적의 파라메터를 찾는 방법에서 이전 야후!에서의 […]

계속 읽기

분석하기 좋은 데이터(Tidy Data)

작성일자 2013년 06월 29일 고감자님이 작성

우리는 데이터 분석을 수행하면서 다양한 데이터 변환 작업을 수행하게 된다. 이는 데이터가 원래 특정 분석을 염두에 두고 만들어지는 경우가 거의 없기 때문이며, 사실 애초 데이터 설계를 할 때 분석 목적을 알기도 불가능하다는 게 가장 큰 원인이 아닐까 한다. 이런 연유로 전체 데이터 분석 작업에서 70% 혹은 80% 이상이 이런 데이터 변환 및 전처리 작업에서 소모된다. […]

계속 읽기