Google Analytics 데이터로 블로그 방문자 분석하기

블로그 방문자 추이데이터를 2011년 가량부터 수집해오고 있어 이를 rga패키지를 이용해서 분석해 보았다. 자세한 사용법은 R에서 Google Analytics 데이터 사용하기Analysing your e-commerce funnel with R을 참고하길 바란다.

suppressPackageStartupMessages({
library(rga)
library(lubridate)
library(xts)
library(magrittr)
library(dplyr)
library(ggplot2)
library(forecast)
})
rga.open(instance="ga", where="ga.rga")


daily_visits_src <- ga$getData(
  key,
  start.date = "2011-01-01",
  end.date = "2014-08-27",
  metrics = "ga:users",
  dimensions = "ga:date",
  sort = "ga:date",
  batch = TRUE
)

daily_visits <- daily_visits_src 

daily_visits <- daily_visits %>% mutate(weekdays=factor(weekdays(date), 
                               levels = c("Sunday", "Monday", "Tuesday", "Wednesday", "Thursday","Friday", "Saturday")))


daily_visits %>% data.frame %>% group_by(weekdays) %>% summarise(wdsums=sum(users)) %>% 
  ggplot(aes(weekdays, wdsums)) + geom_bar(aes(fill=weekdays),stat="identity")

plot of chunk unnamed-chunk-1

주간 방문자 방문 빈도수의 분포인데, 예상대로 주중에 방문자가 많다.

daily_xts <- xts(daily_visits$users, order.by = daily_visits$date,frequency = 7)

daily_ts <- ts(daily_visits$users, start = c(2012, yday("2012-01-01")),frequency = 365)

plot(decompose(daily_ts))

plot of chunk times

방문자 추이를 장기 추세와 계절패턴으로 나눠서 보았다. 장기 추세는 흡사 빅데이터 거품이 생기고 사그라 드는 그런 모습과도 같다.ㅋ

2013후반부터 2014초중반까지는 개인적으로나 업무적으로 매우 바빳던 기간으로 그 영향이 블로그 포스팅 빈도로 나타나고 그리고 방문자수의 감소로 나타난것이라 본다. 그리고 이번 여름방학때 여유를 틈타 블로그 포스팅을 빈번하게 한게 최근 상승추세로 나타나지 않았나 싶다.

방문자 예측은 별 의미 없어 하지 않았다.

src_from <- ga$getData(
  key,
  start.date = "2011-01-01",
  end.date = "2014-08-27",
  metrics = "ga:users",
  dimensions = "ga:source,ga:date",
  sort = "ga:date",
  batch = TRUE
)

referers <- src_from 

referers %>% group_by(source) %>% summarise(usercnt=sum(users))  %>% mutate(ratio=usercnt/sum(usercnt) * 100) %>% arrange(-ratio)
## Source: local data frame [488 x 3]
## 
##            source usercnt   ratio
## 1          google   56087 49.7534
## 2           naver   29792 26.4277
## 3        (direct)    9712  8.6153
## 4      feedburner    5230  4.6394
## 5            daum    2004  1.7777
## 6    facebook.com    1457  1.2925
## 7    google.co.kr     714  0.6334
## 8           yahoo     610  0.5411
## 9  m.facebook.com     564  0.5003
## 10 blog.naver.com     489  0.4338
## ..            ...     ...     ...

Referer를 분석한 결과 URL 정규화는 하지 않았지만 구글에서 50%정도의 트래픽이 발생하고 다음으로 네이버에서 26% 발생한다.

개인적으로 더 해보고 싶은 분석은 내가 그동안 주로 언제 포스팅을 했는지와 이 시계열을 기반으로 방문자 증감 효과를 검증해 보는 것이다. 포스팅 날짜는 워드프레스DB에 접근해야 되는 일이라서 미루고 있는 일이긴 한데, 역시 분석에서 데이터 획득이 가장 귀찮으나 중요한 일이란 생각을 해본다.

CC BY-NC 4.0 Google Analytics 데이터로 블로그 방문자 분석하기 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.