• 집필 »
  • R 기반의 데이터 시각화(5장, 6장 추가)

R 기반의 데이터 시각화(5장, 6장 추가)

R 기반의 데이터 시각화(가제)

저자

전희원(madjakarta at gmail.com)

책 소개

필자가 블로그를 운영하거나 기고를 하면서 썼던 글들을 한곳에 정리해 한권의 책으로만들기 위한 목적을 가지고 작업을 했으며, R로 복잡한 통계분석을 하기 보다는 시각화를 중심으로 데이터를 스스로 가지고 놀 수 있는 여러 기법을 소개하고자 한다.

ggplot2를 기준으로 하는 시각화가 첫번째 주제로 정리가 될 것이며, 두번째 주제로는 다양한 데이터를 기반으로 재밋는 데이터 마이닝이나 텍스트 마이닝을 수행하는 주제로 정리될 것으로 계획하고 있다.

저작권

저작권은 전적으로 저자에게 있으며 원본 그대로의 책은 누구든지 배포의 자유를 가지나 무단으로 개작/수정을 하여  2차적 저작물을 배포하는 것은 금지한다.

작업환경

‘R + knitr + Latex + RStudio + bitbucket’을 기반으로 윈도우 7 머신 상에서 작업하고 있으며, 이런 오픈소스 기술이 집필에도 아주 유용하게 사용될 수 있다는 것을 피부로 실감하고 있으며 도구들을 만든 개발자들에게 깊은 감사의 마음을 전한다.

목차

  1. R로 하는 데이터 시각화의 시작
    1. 시각화의 중요성
    2. 몇가지 시각화의 예
    3. 앞으로 방향
  2. R 프로그래밍
    1. 인터렉티브 분석 (interactive analysis) 과 R
    2. R을 설치하자
    3. R GUI와 IDE환경 소개
    4. RStudio를 이용하자
    5. R 프로그래밍
  3. Data munging with R
    1. 들어가며
    2. R BASE 집계 함수 소개
    3. tapply, aggregate, by 함수
    4. plyr 패키지
    5. data.table 패키지
    6. 왜 멍잉 (munging) 을 하느냐?
  4. ggplot2를 이용한 R 시각화
    1. 왜 ggplot2이 필요하나?
    2. 문법 (GRAMMAR OF GRAPHICS)
    3. 레이어를 이용한 ggplot2 시각화
    4. GEOM
    5. STAT
    6. 위치 조정
    7. GEOM과 STAT의 결합
    8. 마지막 예제
    9. 장을 마치며
  5. 잉크스케이프를 활용한 그래프 후처리
    1. 환경 설정하기
    2. 예제 그래프 만들기
    3. 잉크스케이프로 그래프 후처리하기
    4. 그래프 후처리와 나머지 작업
  6. R로 그래프 플로팅을 하기 위한 몇 가지 팁
    1. 웹으로 게시할 그래프에 J(E)PG 를 사용하지 말자
    2. anti-aliasing 을 활성화 하라
    3. 정확한 디바이스 드라이버를 사용해 그래프를 저장하라
    4. 필요시, 고해상도 이미지로 출력하라
    5. 출력을 위해서라면 PDF를 활용하라

다운로드

Rvis_20130503.pdf : 최종 갱신일 (2013-05-03)

 

책은 지속적으로 업데이트 될 예정이다. 

책은 현재 이런 과정을 거쳐 이북으로 출판이 되어 더이상 오픈된 책에 대해서는 업데이트를 할 수 없음을 알려드립니다.

CC BY-NC 4.0 R 기반의 데이터 시각화(5장, 6장 추가) by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.

This entry was posted in 집필

  • Richpapa

    잘 볼께요. 감사합니다.

  • 멋지십니다~잘 보겠습니다^^

  • 이부일

    감사합니다. 잘 볼께요

  • 김현수

    감사합니다

  • silverrain

    감사합니다!!^^

  • 잘 볼께요 ~~ 감사합니다~~~~~
    제 전자책에 넣어 보면 좋을것 같네요.
    요기, 전자도서관 검색 사이트도 알려드리죠~~
    전자책을 아시니 도움되실듯~ http://www.crazybook.co.kr

  • gogamza

    감사합니다.

  • gogamza

    감사합니다. 혹 오타나 오류가 있다면 알려주시면 감사하겠습니다.

  • 비가비

    엑기스만 꼭꼬 집어 주신 자료 너무 잘 보았습니다

    story line을 잘 살려주셔서 너무 쉽게 읽어볼 수 있어 좋았습니다

    내친김에 추천하신 Hadley Wickham의 “ggplot” 책을 보다가 position중 “jitter”와 “identity”의 의미가 와닿지 않아 테스트해보려고 몇가지 돌려보는데 이해가지 않는 부분이 있습니다

    p<-ggplot(diamonds,aes(x=clarity,group=cut))
    #1
    p+stat_bin(aes(y=..count..,colour=cut),geom="line")
    #2
    p+stat_bin(aes(y=..count..,colour=cut),geom="line",position="identity")
    #3
    p+stat_bin(aes(y=..count..,colour=cut),geom="line",position="jitter")

    위 세개의 코드를 돌려보았는데 첫번째와 두세번째는 카운트 수가 서로 다르게 나오던데 첫번째코드는 누적으로 카운트가 되는 것인가요?

    세번째 jitter의 경우 cut이 이산형임에도 불구하고 x값 위에 count가 되지 않고 각 x값 사이에 count가 집계되는데 이건 왜 그럴까요?

  • gogamza

    jitter 옵션은 위 그래프에서 적절치 않습니다. jitter의 경우 값이 겹치는 산점도 같은 경우데 사용하면 좋습니다.

    그리고 첫번째 그래프는 stack으로 누적값이 출력되고 나머지는 모두 원래 값이 들어갑니다.

    한마디로 첫번째 그래프는 position=”stack”이죠..

  • 좋은 자료 감사합니다. !!

  • Miae Kim

    데이터 분석에 관심이 있는데, 마침 이 자료를 찾아서 너무 좋습니다 감사합니다다

  • gogamza

    네 도움이 된다니 다행입니다.

  • gogamza

    네 , 혹시 오타나 오류가 있는 내용이 있으면 알려주세요.

  • 정말 좋은 자료 감사합니다. 유용히 사용하겠습니다.

  • 학생

    감사합니다. 잘보겠습니다. 멋지세요!!!!!

  • lognormal

    누군가 해야할 일인데 시작하셨군요.. 통계학자로서 반성하게 됩니다.
    사소한 것인데 c() 는 combine이 아니라 concatenate 입니다..

  • gogamza

    이런 오류에 대한 덧글 너무 소중합니다.
    그리고 감사합니다.

  • 수호아빠

    음, 저도 정확히 통계학에서 c()라는 의미를 concatenate라고 하는지는 모르겠지만, R help에서는 c() 함수를 설명할때 combine이라는 용어를 사용하는데 이를 오류라고 할 수 있는지 모르겠네요…
    ?c 를 해보시면 concatenate란 용어는 하나도 안 나오고, 전부 combine 이란 단어로 함수를 설명하고 있어서 저도 c()가 combine의 약자로 알고 있었거든요…

  • gogamza

    저도 그렇게 알고 있었는데, 메뉴얼과 여러 문서에 concatenate라는 표현도 있긴합니다 찾아봐도 함수명의 기원이 어디에서도 나오지 않네요.. ㅜㅜ

  • Jonghun Jin

    안녕하세요. 좋은 글 공유해주셔서 감사합니다. combine 함수라고 불러도 크게 어색한것 같지 않지만 이왕이면 concatenate 함수로 부르는게 좋을것 같습니다. 의미 차이도 살짝 있는것 같고요.
    http://cran.r-project.org/doc/manuals/R-intro.html#The-concatenation-function-c_0028_0029-with-arrays

    최초의 기원은 잘 모르겠지만 S-plus에서도 그렇게 불렀던 것으로 기억합니다.

  • Taehun Kim

    자료 감사합니다~^^

  • Pingback: 책이 나오게 되기까지…. | from __future__ import dream()

  • 전연구원님^^; 정말 멋진 R 책 나온 것 축하하고 잘 참조할께요.

  • Pingback: 아파트 매매 추이 분석/예측 해보기 | from __future__ import dream()

  • Pingback: 학습가이드(2) 데이터과학 도구 사용법: R과 엑셀 | 헬로 데이터 과학()