국토교통부 실거래가 데이터 크롤링 코드

국토교통부 실거래가 데이터 스크래핑 코드를 공유한다. 블로그에 썼던 데이터 분석에 사용한 데이터는 친분이 있는 분으로 부터 받은 데이터인데, 새로운 매매 데이터가 올라가면서 매번 요청하기 힘들것 같아서 코드를 작성해 봤고, 아래와 같이 간단하게 스크래핑 코드를 만들 수 있었다. 데이터 스크래핑 코드는 항상 그렇듯이 임시방편적이고, 코드가 깨끗하지 않다. 그래서 좀 색다르게 magrittr 방식으로 코딩해 봤으나 그다지 나아 […]

계속 읽기

내가 사는 아파트 매매 가격 분석

아직 무주택자인 관계로 국내 부동산 매매 시장에 매우 관심이 많다. 그러다 몇번의 국토교통부 실거래가를 수집하려 틈틈히 노력을 기울였으나 대부분 전수 데이터를 얻는덴 실패하고 그러다 잊고 지내기를 몇번을 거쳐왔는데 최근 실거래가 조회 페이지에 자료제공항목이 생기면서 이런 저런 과정을 통해 원천 전수 데이터를 얻을 수 있게 되었다. 데이터를 얻어서 할 수 있는 일은 역시 분석을 통한 정보의 […]

계속 읽기

이젠 ggmap으로 네이버지도 기반 시각화를 즐기자!

새해 첫 포스팅을 네이버 지도 API 연동 코드가 ggmap 패키지(개발버전)에 통합된 것을 알리는 것으로 시작한다. 제작년(2013) 11월에 ggmap의 구글 API의 오류를 살펴보다가 한국의 PoI(point of interest)가 포함된 네이버 맵 API를 통합하면 어떨까 해서 약 6시간동안 뚝딱 만들어서 pull request를 보냈던 기억이 난다. 그러나 pull request에 대한 어떠한 피드백도 받지 못하고 있다가 22일전 쯤에 ggmap의 제작자로부터 […]

계속 읽기

블로그 방문자수 예측치 평가 비교

블로그 방문자 예측 모형 생성 후 약 2주가 지났으며 슬슬 실제 값과 예측값을 비교 분석해볼 필요가 있을것 같아서 아래와 같이 추가 분석을 해봤다. suppressPackageStartupMessages({ library(rga) library(xts) library(forecast) }) rga.open(instance="ga", where="./ga.rga") daily_visits_src <- ga$getData( key, start.date = "2011-01-01", end.date = "2014-12-29", metrics = "ga:users", dimensions = "ga:date", sort = "ga:date", batch = TRUE ) daily_visits <- […]

계속 읽기

데이터 분석가의 KPI 그리고 소프트웨어 개발자의 KPI

약 9년의 소프트웨어 엔지니어 생활에서 데이터 분석분야로 업무 분야를 바꾼 뒤 약 3년 정도의 시행착오 끝에 현재 데이터 분석가로 탈바꿈을 했고, 어느정도 안정궤도에 올랐다는 생각이 들어 관련 내용을 정리하고자 이렇게 글을 써본다. “데이터를 분석한다” 많은 사람들이 위 문장을 사용하고 인식하는데 매우 큰 차이를 보이고 있다. 단순히 데이터 전처리 및 단어 카운팅을 하는것을 분석행위라 하는 것 […]

계속 읽기

어제의 엄청난 방문자수는 블랙스완? – 블로그 방문자수 예측 모형 –

이 블로그는 호스팅을 받기 때문에 트래픽에 대한 어느정도의 예상치는 알고 있어야 나중에 곤욕을 당하지 않는다. 바로 어제(2014.12.12) 이문열 삼국지 텍스트 분석 포스팅의 엄청난 인기 때문에 약 세번의 트래픽 리셋이 있었고, 거기다 추가적으로 매일 4G의 웹 트래픽을 더 구입해서 임시적으로나마 내년 2월 중순까지 버텨 보기로 했다(트래픽 최소 구입 단위가 4G였으며, 기간은 무조건 호스팅 계약 종료시까지였다). 아래와 […]

계속 읽기

카카오톡 보이스톡 데이터 시각화

R에는 다양한 웹의 데이터를 끌어와 분석을 할 수 있는 장점이 있다. 흥미롭게도 카카오톡의 홈페이지는 군더더기 없이 깔끔하게 웹 테이블을 구성해 놓고 있어 생각보다 빨리 시각화를 할 수 있었다. 군산에서 서울로 가는 무궁화호 기차 안에서 카카오톡 보이스톡 품질 관련 글을 읽고 생각이 나서 시각화 및 관련 글을 써봤다(애들이 좀 크니 예전처럼 기차에서 글을 보거나 블로깅을 하는것도 […]

계속 읽기

Google Analytics 데이터로 블로그 방문자 분석하기

블로그 방문자 추이데이터를 2011년 가량부터 수집해오고 있어 이를 rga패키지를 이용해서 분석해 보았다. 자세한 사용법은 R에서 Google Analytics 데이터 사용하기와 Analysing your e-commerce funnel with R을 참고하길 바란다. suppressPackageStartupMessages({ library(rga) library(lubridate) library(xts) library(magrittr) library(dplyr) library(ggplot2) library(forecast) }) rga.open(instance="ga", where="ga.rga") daily_visits_src <- ga$getData( key, start.date = "2011-01-01", end.date = "2014-08-27", metrics = "ga:users", dimensions = "ga:date", sort […]

계속 읽기

R에서 Pipe 연산으로 분석하기

magrittr 패키지가 최근에 많은 화제를 불러 일으키고 있다. 사실 이 패키지는 패키지 자체로 유명세를 탔다고 하기 보다는 다른 유명 패키지가 이 패키지를 사용하게 됨으로써 유명세를 탓고 필자도 현재 이 패키지 때문에 dplyr과 같은 패키지를 자연스럽게 사용하게 되었다. 이 패키지는 유닉스에 있는 파이프(|, >) 연산자와 같은 기능을 아래와 같이 R에서 쓸 수 있게 해주는 연산자이다. library(magrittr) […]

계속 읽기