한글 11,172 글자

한글날 하루 지나는 시점에 글을 올린다.

 

세종계획 코퍼스로 간단한 분석을 해봤는데, 현대 문어를 기준으로 전체 문자에서 고작 2,236자 정도를 일반적으로 사용하고 있다. 전체 가용 글자수의 20%정도 되는 크기이다.

 

아래는 한글 글자를 코퍼스 기준으로 카운팅 한 것을 플롯팅한 것과 그 일부분을 떼온 것이다.

벡터 파일인 pdf로 받은 분은 클릭!  <- 받아서 확대해 조신하게 살펴보면 재미있다.

image

 

image

 

 

가장 많이 사용되는 글자 Top 30은 아래와 같다.

 

image

 

아래는 정리 안된 코드…^^;

library(ggplot2)

start <- 44032

end <- 55203


v <- c()

for (x in start:end) {
  v <- append(v,intToUtf8(x))
}

syllable.cnt <- data.frame(syllable=v, count=1)



syllable.cnt$x <-seq(1, 11172)%%106 + 1
syllable.cnt$y <-as.vector(sapply(seq(106,1), function(x){ rep(x,106)}, simplify=T))[1:11172]


tbl <- read.table(file="http://dl.dropbox.com/u/8686172/hangul_cnt.txt", sep="\t", fileEncoding="UTF-8")

tbl <- tbl[order(tbl$V1, decreasing=F), ]

tbl2 <- tbl[order(tbl$V2, decreasing=T), ]

tbl2$V1 <- as.character(tbl2$V1)

ggplot(tbl2[1:30,], aes(x=V1, y=V2)) +
  geom_bar(aes(fill=V2)) + scale_fill_continuous("카운트",guide=guide_legend(reverse=T)) +scale_x_discrete(limits=tbl2$V1[1:30])  + coord_flip() + xlab("한글") + ylab("카운트") + ggtitle("세종계획 코퍼스 기반 Top 30 문자")


syllable.cnt[which(syllable.cnt$syllable %in% tbl$V1),c("count")] <- tbl$V2

library(extrafont)

loadfonts(device="win")
loadfonts()

cairo_pdf(width=10, height=10)
ggplot(syllable.cnt, aes(x, y)) + geom_text(aes(label=syllable, size=count, colour=count), family="Malgun Gothic") + scale_color_continuous(low = "#56B1F7",high = "#132B43") + xlab("") + ylab("") +
  theme(axis.text=element_blank(), axis.ticks=element_blank())
dev.off()