블로그 방문자 추이데이터를 2011년 가량부터 수집해오고 있어 이를 rga패키지를 이용해서 분석해 보았다. 자세한 사용법은 R에서 Google Analytics 데이터 사용하기와 Analysing your e-commerce funnel with R을 참고하길 바란다.
suppressPackageStartupMessages({
library(rga)
library(lubridate)
library(xts)
library(magrittr)
library(dplyr)
library(ggplot2)
library(forecast)
})
rga.open(instance="ga", where="ga.rga")
daily_visits_src <- ga$getData(
key,
start.date = "2011-01-01",
end.date = "2014-08-27",
metrics = "ga:users",
dimensions = "ga:date",
sort = "ga:date",
batch = TRUE
)
daily_visits <- daily_visits_src
daily_visits <- daily_visits %>% mutate(weekdays=factor(weekdays(date),
levels = c("Sunday", "Monday", "Tuesday", "Wednesday", "Thursday","Friday", "Saturday")))
daily_visits %>% data.frame %>% group_by(weekdays) %>% summarise(wdsums=sum(users)) %>%
ggplot(aes(weekdays, wdsums)) + geom_bar(aes(fill=weekdays),stat="identity")
주간 방문자 방문 빈도수의 분포인데, 예상대로 주중에 방문자가 많다.
daily_xts <- xts(daily_visits$users, order.by = daily_visits$date,frequency = 7)
daily_ts <- ts(daily_visits$users, start = c(2012, yday("2012-01-01")),frequency = 365)
plot(decompose(daily_ts))
방문자 추이를 장기 추세와 계절패턴으로 나눠서 보았다. 장기 추세는 흡사 빅데이터 거품이 생기고 사그라 드는 그런 모습과도 같다.ㅋ
2013후반부터 2014초중반까지는 개인적으로나 업무적으로 매우 바빳던 기간으로 그 영향이 블로그 포스팅 빈도로 나타나고 그리고 방문자수의 감소로 나타난것이라 본다. 그리고 이번 여름방학때 여유를 틈타 블로그 포스팅을 빈번하게 한게 최근 상승추세로 나타나지 않았나 싶다.
방문자 예측은 별 의미 없어 하지 않았다.
src_from <- ga$getData(
key,
start.date = "2011-01-01",
end.date = "2014-08-27",
metrics = "ga:users",
dimensions = "ga:source,ga:date",
sort = "ga:date",
batch = TRUE
)
referers <- src_from
referers %>% group_by(source) %>% summarise(usercnt=sum(users)) %>% mutate(ratio=usercnt/sum(usercnt) * 100) %>% arrange(-ratio)
## Source: local data frame [488 x 3] ## ## source usercnt ratio ## 1 google 56087 49.7534 ## 2 naver 29792 26.4277 ## 3 (direct) 9712 8.6153 ## 4 feedburner 5230 4.6394 ## 5 daum 2004 1.7777 ## 6 facebook.com 1457 1.2925 ## 7 google.co.kr 714 0.6334 ## 8 yahoo 610 0.5411 ## 9 m.facebook.com 564 0.5003 ## 10 blog.naver.com 489 0.4338 ## .. ... ... ...
Referer를 분석한 결과 URL 정규화는 하지 않았지만 구글에서 50%정도의 트래픽이 발생하고 다음으로 네이버에서 26% 발생한다.
개인적으로 더 해보고 싶은 분석은 내가 그동안 주로 언제 포스팅을 했는지와 이 시계열을 기반으로 방문자 증감 효과를 검증해 보는 것이다. 포스팅 날짜는 워드프레스DB에 접근해야 되는 일이라서 미루고 있는 일이긴 한데, 역시 분석에서 데이터 획득이 가장 귀찮으나 중요한 일이란 생각을 해본다.
Google Analytics 데이터로 블로그 방문자 분석하기 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.