한글날 하루 지나는 시점에 글을 올린다.
세종계획 코퍼스로 간단한 분석을 해봤는데, 현대 문어를 기준으로 전체 문자에서 고작 2,236자 정도를 일반적으로 사용하고 있다. 전체 가용 글자수의 20%정도 되는 크기이다.
아래는 한글 글자를 코퍼스 기준으로 카운팅 한 것을 플롯팅한 것과 그 일부분을 떼온 것이다.
벡터 파일인 pdf로 받은 분은 클릭! <- 받아서 확대해 조신하게 살펴보면 재미있다.
가장 많이 사용되는 글자 Top 30은 아래와 같다.
아래는 정리 안된 코드…^^;
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 | library(ggplot2) start <- 44032 end <- 55203 v <- c() for (x in start:end) { v <- append(v,intToUtf8(x)) } syllable.cnt <- data.frame(syllable=v, count=1) syllable.cnt$x <-seq(1, 11172)%%106 + 1 syllable.cnt$y <-as.vector(sapply(seq(106,1), function(x){ rep(x,106)}, simplify=T))[1:11172] tbl <- read.table(file="http://dl.dropbox.com/u/8686172/hangul_cnt.txt", sep="\t", fileEncoding="UTF-8") tbl <- tbl[order(tbl$V1, decreasing=F), ] tbl2 <- tbl[order(tbl$V2, decreasing=T), ] tbl2$V1 <- as.character(tbl2$V1) ggplot(tbl2[1:30,], aes(x=V1, y=V2)) + geom_bar(aes(fill=V2)) + scale_fill_continuous("카운트",guide=guide_legend(reverse=T)) +scale_x_discrete(limits=tbl2$V1[1:30]) + coord_flip() + xlab("한글") + ylab("카운트") + ggtitle("세종계획 코퍼스 기반 Top 30 문자") syllable.cnt[which(syllable.cnt$syllable %in% tbl$V1),c("count")] <- tbl$V2 library(extrafont) loadfonts(device="win") loadfonts() cairo_pdf(width=10, height=10) ggplot(syllable.cnt, aes(x, y)) + geom_text(aes(label=syllable, size=count, colour=count), family="Malgun Gothic") + scale_color_continuous(low = "#56B1F7",high = "#132B43") + xlab("") + ylab("") + theme(axis.text=element_blank(), axis.ticks=element_blank()) dev.off() |
한글 11,172 글자 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.