정확한 처리 효과 분석을 위한 성향점수분석(PSA)

비교는 비교할 대상과 비교해야 된다. 흔히들 적절한 비교 대상을 정해주지 않고 자신이 보고 싶은 효과만 비교하는 경우를 많이 본다. 이미 다른 성격을 가진 과일 두가지를 비교해 뭔가 유의미한 특징을 발견했다고 해서 대단한 발견이라고 하기 어려운 것과 마찬가지이다. 사과, 오렌지라는 사실 자체에 효과가 포함되어 있을 가능성이 굉장히 높으며 이는 특정 실험효과로 인한 결과라 보기 어렵다. 예를 […]

계속 읽기

전세가율 시각화 분석

전세가율이 높아지고 있다고 많은 미디어에서 이야기 하고 있다. 따라서 실제 전세가율이 시간이 지나면서 어떻게 변해가는지 데이터를 통해서 확인해 보고자 한다. 이를 위해서는 국토교통부 실거래가사이트에서 전세/매매 관련 데이터를 가져와야 되는데 크롤링 하는 방법은 필자가 정리해둔 국토교통부 실거래가 데이터 크롤링 코드를 참고해서 수집하면 된다. suppressPackageStartupMessages({ library(data.table) library(dplyr) library(ggplot2) library(lubridate) library(extrafont) library(stringr) }) theme_set(theme_gray(base_family = "UnBatang")) #전세/매매 데이터 […]

계속 읽기

회사 사보 인터뷰

오랜만에 블로그 워드프레스 웹 에디터로 글을 써본다. 얼마전에 회사 사보에서 인터뷰를 했는데(처음엔 그룹 사보인줄 알았다), 관련 글을 올려도 큰 문제 없다는 이야기를 듣고 이렇게 인터뷰 글을 올려본다(백업용이다 ^^). STK 마켓탑 회사 내에서는 마켓탑이라는 호칭으로 한 석달전에 전사 세미나를 하고 그걸 녹화한 방송이 몇일 후 전사 방송으로 송출되는 사건이 있었는데, 아마도 이 인터뷰 글이 그 여파의 […]

계속 읽기

비선형 모형과 추세 분석(아파트 매매 데이터 기반)

지난번 포스팅을 통해서 얻은 데이터와 그 이전 포스팅의 아파트 매매가에 미치는 층수, 크기, 년도 효과에 대한 분석의 후속 분석으로 같은 데이터를 기반을 하는 분석이지만 2015년 Q1의 데이터가 어느정도 모였으니 이의 가격동향과 더불어 다중 회귀모형의 비선형적인 효과를 좀더 다른 방식의 알고리즘으로 모델링 해보고 시각화 해보는 과정을 거쳐보도록 하겠다. 참고로, 분석을 위해 2015년 2월까지의 아파트 매매 데이터를 […]

계속 읽기

국토교통부 실거래가 데이터 크롤링 코드

국토교통부 실거래가 데이터 스크래핑 코드를 공유한다. 블로그에 썼던 데이터 분석에 사용한 데이터는 친분이 있는 분으로 부터 받은 데이터인데, 새로운 매매 데이터가 올라가면서 매번 요청하기 힘들것 같아서 코드를 작성해 봤고, 아래와 같이 간단하게 스크래핑 코드를 만들 수 있었다. 데이터 스크래핑 코드는 항상 그렇듯이 임시방편적이고, 코드가 깨끗하지 않다. 그래서 좀 색다르게 magrittr 방식으로 코딩해 봤으나 그다지 나아 […]

계속 읽기

내가 사는 아파트 매매 가격 분석

아직 무주택자인 관계로 국내 부동산 매매 시장에 매우 관심이 많다. 그러다 몇번의 국토교통부 실거래가를 수집하려 틈틈히 노력을 기울였으나 대부분 전수 데이터를 얻는덴 실패하고 그러다 잊고 지내기를 몇번을 거쳐왔는데 최근 실거래가 조회 페이지에 자료제공항목이 생기면서 이런 저런 과정을 통해 원천 전수 데이터를 얻을 수 있게 되었다. 데이터를 얻어서 할 수 있는 일은 역시 분석을 통한 정보의 […]

계속 읽기

이젠 ggmap으로 네이버지도 기반 시각화를 즐기자!

새해 첫 포스팅을 네이버 지도 API 연동 코드가 ggmap 패키지(개발버전)에 통합된 것을 알리는 것으로 시작한다. 제작년(2013) 11월에 ggmap의 구글 API의 오류를 살펴보다가 한국의 PoI(point of interest)가 포함된 네이버 맵 API를 통합하면 어떨까 해서 약 6시간동안 뚝딱 만들어서 pull request를 보냈던 기억이 난다. 그러나 pull request에 대한 어떠한 피드백도 받지 못하고 있다가 22일전 쯤에 ggmap의 제작자로부터 […]

계속 읽기

블로그 방문자수 예측치 평가 비교

블로그 방문자 예측 모형 생성 후 약 2주가 지났으며 슬슬 실제 값과 예측값을 비교 분석해볼 필요가 있을것 같아서 아래와 같이 추가 분석을 해봤다. suppressPackageStartupMessages({ library(rga) library(xts) library(forecast) }) rga.open(instance="ga", where="./ga.rga") daily_visits_src <- ga$getData( key, start.date = "2011-01-01", end.date = "2014-12-29", metrics = "ga:users", dimensions = "ga:date", sort = "ga:date", batch = TRUE ) daily_visits <- […]

계속 읽기