타이타닉 남,녀 주인공은 원래 그렇게 될 운명이었다.

인터넷에서 구한 타이타닉 승객 데이터를 이용해 몇 가지 분석을 해봤다. 사용데이터는 여기에서 받을 수 있다. 알고싶은 부분은 승객등급, 나이, 성별에 따른 생존률의 차이가 어떻게 나는지 인데… 타이타닉 남녀 주인공이 모두 승객 등급이 1,3 등급으로 등급의 격차가 컸다는 것을 염두에 두자. library(data.table) library(ggplot2) titanic <- read.csv(“http://dl.dropboxusercontent.com/u/8686172/titanic.csv”) #분석 편의상 data.table로 변환한다. titanic.dt <- as.data.table(titanic) names(titanic.dt) head(titanic.dt) titanic.dt$survived […]

계속 읽기

4회 R meetup 코드

4회 R meetup은 동국대 통계학과 전산실에서 진행되었다. 약속대로 코드를 공유한다. 바로 공유를 했어야 되는데 개인적인 사정으로 인해 늦게 공유하게 되었는데 이점에 대해서 양해 부탁드린다.   먼저 ROAuth를 이용한 트위터 API 사용 권한 가져오는 예제이다. 키는 https://dev.twitter.com/apps/new 에서 등록하면 된다. library(ROAuth) library(twitteR) cainfo <- system.file("CurlSSL", "cacert.pem", package = "RCurl") cred <- OAuthFactory$new(consumerKey="XXXXXXXXXXXXXX", consumerSecret="YYYYYYYYYYYYYYYYY", requestURL="https://api.twitter.com/oauth/request_token", accessURL="http://api.twitter.com/oauth/access_token", authURL="http://api.twitter.com/oauth/authorize") […]

계속 읽기

Tree 계열 알고리즘

요즘에 Tree 계열 알고리즘 많이 사용한다. randomForest로 부터 데이터 확인 용으로 자주 사용하는 CART 알고리즘 그리고 오늘 처음 본 Conditional Inference Tree까지.. ML알고리즘의 경우 은총알은 없다. 사용 목적에 맞으면 그게 장땡인거다. 게다가 사실 빅 데이터를 가지고 분석을 한다면 내부가 블랙박스로 되어 있어서 어떻게 돌아가는지 안보이는 알고리즘 보다는 투명한 Tree 계열 알고리즘이 더 낫다고 생각한다. 만일 […]

계속 읽기

내 트위터 팔로워분들 분석해보기..

내 트위터에는 394명의 팔로워가 존재한다. R meetup 발표준비를 핑계로 팔로워와 팔로잉간의 플로팅 몇 개를 그려 봤다. 아래 작업을 위해서 twitteR, ROAuth ggplot2 패키지를 사용했고, 관련 코드는 meetup 이후에 공개하겠다. 이미지를 클릭하면 좀더 자세히 볼 수 있다.       참고로 점의 크기는 트윗수를 의미한다. 소셜캐스터, 오마이뉴스, 임성길 분의 트위터와 같은 엄청난 팔로워들과 팔로잉을 가지고 계신 […]

계속 읽기

고품질의 플로팅 이미지 얻기

최근에 ggplot2로 플로팅을 많이 하면서 어떻게 하면 선명한 이미지를 얻어볼까 고민을 조금 했다. 그러다 DPI라든지 픽셀, 도트 같은 웹디자이너 분들이나 다룰 만한 지식을 섭렵하기에 이르렀는데, 결국 컴퓨터 화면에서는 고 해상도가 아닌 이상 플로팅 결과의 차이는 거의 찾아볼 수 없다는 게 결론이다. 그러나 그래프 이미지는 발표자료 같은 곳에서 사용될 수 있고, 이때 이들에서 최적의 해상도로 보여진다면 […]

계속 읽기

블로그 구독자 증가 추이

구글 피드 버너에서 이 블로그에 대한 통계 데이터 csv 파일을 다운받아서 ggplot2로 플로팅 해봤다.   아래 보면 2010년 중반의 갑작스런 구독자 감소는 데이터 누락인지, 아니면 많은 RSS 리더기 업체가 서비스를 중단해서 그런건지 모르지만 결국 구글 리더가 흡수했는지 전체적인 증가 추세에는 큰 영향이 없는걸로 보인다. (아주 짧은 주기의 상승 하강이 있는데, 이런 것을 보니 평활화를 해야 […]

계속 읽기

컴퓨터 공학 그리고 통계

빅 데이터 시대에 데이터 사이언티스트의 요구 능력이 뭔지 정말 알고 싶다면 빅 데이터 분석 프로젝트를 직접 해보면 된다. 경험해보면 Linux 기반의 데이터 핸들링이 왜 중요하고. Hive, Hadoop이 왜 중요하며, R이 왜 중요한지 알게된다. 통계 전공이나 산업공학 전공하신 분들은 CS쪽 경험이 부족해 어려움을 겪는 걸 많이 봤고, CS 전공 분들은 통계학적인 지식이 부족해서 고생하시는 것을 많이 […]

계속 읽기

UseR! 2012에 발표자로 참석 예정

UseR! 2012에 abstract를 제출했다는 이야기를 했었는데, 그 결과를 금주 초에 받게 되었다. 결과는 예상했던 대로 accept… Text Mining을 이용한 SNA인데.. 이 발표의 abstract를 제출한 이유는 일단 회사에서 해외 발표를 할 경우에는 출장 형식으로 지원을 해준다는 것이 컸고 이번 기회를 빌어서 메일로만 이야기 했던 분들하고 안면을 좀 트고.. 첫날에 있을 Tutorial 세션에서 좀 배워보고자 하는 욕구가 […]

계속 읽기

트위터 팔로워들의 자기소개 분석을 이용한 나

최근 rjson이 업데이트 되었는데, 정말 기다리고 기다리던 CJK 인코딩 문제가 해결되었다. 그래서 이것을 활용하는 twitteR 패키지에서 이젠 정상적으로 한글이 나오게 되었다.  이 패키지를 활용하면 트위터 팔로워들 그리고 내가 팔로잉 하는 사람들의 정보를 가져와서 분석할 수 있고, 이 밖에도 그들 각자의 트위터 문장을 분석할 수 있다. 비로소 KoNLP가 가장 많이 활용될 수 있는 패키지가 이제 정상화 […]

계속 읽기

Hello ggplot2

외근, 몸살에 시달리면서 준비한 발표자료로 3회 R meetup 발표를 했다. 금번 모임 주제는 시각화(visualization)였으며, ggplot2를 살펴보는 와중에 전에 링크드인 분석가가 했던 이야기 “"Visualization is more important than you think."가 계속 머리속에 맴돌았다. 데이터 분석에서 생각보다 중요한 것…. 시각화…   국내 R 사용자를 위해 R meetup을 하자고 처음 제안한 이후에, 생각해보니 2회만 제외하고 모두 발표를 했다. […]

계속 읽기