한국 지진 데이터 시각화 (1978~2012)

ggmap으로 spatial 데이터 분석을 해보기 위해서 데이터를 찾던 중 기상청에서 제공하는 지진 통계 데이터를 가지고 하면 어떨까 하는 생각에 1978년도부터 지진 데이터를 가지고 플로팅을 해보기로 했다.  ggmap은 google map 뿐만 아니라 openstreet map, stamen design, cloud made map 을 소스로 사용해 spatial 데이터 분석을 할 수 있는 패키지로 최근 ggplot2를 기반으로 layering 시스템을 채용해 ggplot2를 […]

계속 읽기

Reproducible Research with R Markdown

요즘 재현성 있는 리서치를 하기 위한 R에서의 툴들이 많이 나오고 있다. 금번 UseR! 2012에서도 이 주제가 가장 큰 주제중에 하나였다. 우리가 실험, 데이터 분석, 논문작성과 같은 리서치 업무를 수행하면서 코드와 데이터, 그리고 문서화를 분리함으로써 나오는 오류를 줄이고, 이를 하나로 통합하여 관리하고자 하는게 핵심이다. 이는 단순한 리서치에서만 통용되는 문제가 아니라, 데이터 분석 업무 전반에 걸친 문제와도 […]

계속 읽기

DBguide 인터뷰 – “플랫폼보다 데이터 분석부터 시작해보세요” –

“플랫폼보다 데이터 분석부터 시작해보세요”   데이터 사이언티스트 전희원 전희원 데이터 사이언티스트와 최근에 이슈가 되고 있는 빅데이터와 데이터 분석에 대한 이야기를 나눴다. 자발적인 공부가 오늘날 자신을 만들었다는 전희원 씨는 현재 방송통신대 통계학과 4학년에 재학 중이다. 전희원 씨는 인하대 공대를 나와 고려대에서 머신러닝과 데이터 마이닝으로 석사학위를 받았다. 다음소프트와 야후!코리아에서 근무하면서 기계학습 검색 랭킹, Spelling Suggestion같은 대용량 로그 […]

계속 읽기

UseR! 2012 미국 출장 – 1 –

블로그에 예고했던 것처럼 2012.06.10 부터 17일까지 UseR! 2012 행사 참석차 미국에 출장을 왔다. 지금 이 글을 쓰는 시점은 현지시간 6월 14일 새벽 2시 즈음이다. 13일에 함께 가는 분이 UseR! 2012 오럴 세션에 발표를 하시기 때문에 그리고 나 자신도 포스터 발표를 진행해야 했기에 어제 까지는 정말 정신없이 보냈고 그 때문에 지금 블로그 글을 올린다. 내쉬빌이라는 곳이 […]

계속 읽기

타이타닉 남,녀 주인공은 원래 그렇게 될 운명이었다.

인터넷에서 구한 타이타닉 승객 데이터를 이용해 몇 가지 분석을 해봤다. 사용데이터는 여기에서 받을 수 있다. 알고싶은 부분은 승객등급, 나이, 성별에 따른 생존률의 차이가 어떻게 나는지 인데… 타이타닉 남녀 주인공이 모두 승객 등급이 1,3 등급으로 등급의 격차가 컸다는 것을 염두에 두자. library(data.table) library(ggplot2) titanic <- read.csv(“http://dl.dropboxusercontent.com/u/8686172/titanic.csv”) #분석 편의상 data.table로 변환한다. titanic.dt <- as.data.table(titanic) names(titanic.dt) head(titanic.dt) titanic.dt$survived […]

계속 읽기

4회 R meetup 코드

4회 R meetup은 동국대 통계학과 전산실에서 진행되었다. 약속대로 코드를 공유한다. 바로 공유를 했어야 되는데 개인적인 사정으로 인해 늦게 공유하게 되었는데 이점에 대해서 양해 부탁드린다.   먼저 ROAuth를 이용한 트위터 API 사용 권한 가져오는 예제이다. 키는 https://dev.twitter.com/apps/new 에서 등록하면 된다. library(ROAuth) library(twitteR) cainfo <- system.file("CurlSSL", "cacert.pem", package = "RCurl") cred <- OAuthFactory$new(consumerKey="XXXXXXXXXXXXXX", consumerSecret="YYYYYYYYYYYYYYYYY", requestURL="https://api.twitter.com/oauth/request_token", accessURL="http://api.twitter.com/oauth/access_token", authURL="http://api.twitter.com/oauth/authorize") […]

계속 읽기

Tree 계열 알고리즘

요즘에 Tree 계열 알고리즘 많이 사용한다. randomForest로 부터 데이터 확인 용으로 자주 사용하는 CART 알고리즘 그리고 오늘 처음 본 Conditional Inference Tree까지.. ML알고리즘의 경우 은총알은 없다. 사용 목적에 맞으면 그게 장땡인거다. 게다가 사실 빅 데이터를 가지고 분석을 한다면 내부가 블랙박스로 되어 있어서 어떻게 돌아가는지 안보이는 알고리즘 보다는 투명한 Tree 계열 알고리즘이 더 낫다고 생각한다. 만일 […]

계속 읽기

빅 데이터… 웹 2.0…. 그리고 검색

요즘 여러 기고 요청을 받고 인터뷰를 받아서 개인적으로 고민하고 경험했던 부분들에 대해서 정리할 기회가 있었다. 물론 가장 큰 화두인 빅 데이터에 대한 것이다. 일단 빅 데이터 화두의 중심에서 실무를 하고 있는지라, Bias되어 있는 의견을 보일 수 있겠으나 블로그에서는 항상 내 생각만을 공유해 왔으니 한줄 써보련다. 사실 빅 데이터를 가지고 가치를 내는 분들은 오래전부터 우리 주변에 […]

계속 읽기

내 트위터 팔로워분들 분석해보기..

내 트위터에는 394명의 팔로워가 존재한다. R meetup 발표준비를 핑계로 팔로워와 팔로잉간의 플로팅 몇 개를 그려 봤다. 아래 작업을 위해서 twitteR, ROAuth ggplot2 패키지를 사용했고, 관련 코드는 meetup 이후에 공개하겠다. 이미지를 클릭하면 좀더 자세히 볼 수 있다.       참고로 점의 크기는 트윗수를 의미한다. 소셜캐스터, 오마이뉴스, 임성길 분의 트위터와 같은 엄청난 팔로워들과 팔로잉을 가지고 계신 […]

계속 읽기

고품질의 플로팅 이미지 얻기

최근에 ggplot2로 플로팅을 많이 하면서 어떻게 하면 선명한 이미지를 얻어볼까 고민을 조금 했다. 그러다 DPI라든지 픽셀, 도트 같은 웹디자이너 분들이나 다룰 만한 지식을 섭렵하기에 이르렀는데, 결국 컴퓨터 화면에서는 고 해상도가 아닌 이상 플로팅 결과의 차이는 거의 찾아볼 수 없다는 게 결론이다. 그러나 그래프 이미지는 발표자료 같은 곳에서 사용될 수 있고, 이때 이들에서 최적의 해상도로 보여진다면 […]

계속 읽기