R로 만들어본 자동 띄어쓰기 알고리즘

최근 포스트들을 보자면 R 응용 책 하나에 한 챕터로 들어갈 만한 것들이 많았던거 같다.

역시 오늘 포스팅도 마찬가지 코드이다.

사실 개인적으로 띄어쓰기를 잘 못한다. 그냥 워드프로세서에 하자는 대로 그대로 따르는 편이다. 게다가 블로그도 Live Writer를 사용해서 역시 띄어쓰기 검증을 받아왔다.

오늘 만들어본 코드 조각은 최인훈의 광장과 회색인 소설을 코퍼스로 활용 띄어쓰기 알고리즘을 학습해봤다.

자동 띄어쓰기 방법은 HMM 모델을 사용했고, 아주 직관적인 인터페이스를 자랑하는 HMM 패키지를 사용했다.

일단 학습된 띄어쓰기 모델 결과는 아래와 같다.

1
2
3
4
5
6
7
8
9
10
> spacing(hmm, str)
[1] "네애비가 그렇게 열렬한 빨갱이 니깐 어렸을 때부터공산주의 의 영향을 받았을 게아냐?"
> spacing(hmm, "아이들은화롯대에장작을피우고,고구마를구워먹는다.")
[1] "아이 들은 화롯대에 장작을 피우고, 고구마를 구워먹는 다. "
> spacing(hmm, "아버지가방에들어가신다.")
[1] "아버지가 방에 들어가 신다. "
> spacing(hmm, "국회의원직을사퇴한뒤그는미국에서체류하다가대한민국에서금융사업을시작하였다.")
[1] "국회의 원직을 사퇴한 뒤그는 미국에서 체류하다가 대한 민국에서 금융사업을 시작하였다. "
> spacing(hmm, "일정한조건에따르면,자유롭게이것을재배포할수가있습니다.")
[1] "일정한 조건에 따르면, 자유롭게 이것을 재배포할 수가 있습니다. "

부분적으로 띄어쓰기가 잘 되는 것들이 있는 반면에 이상하게 판단하는 부분도 있는걸 알 수 있으나 첫 시도 치고는 기대 이상의 결과라 할 수 있다.

이 부분은 좀더 양질의 코퍼스를 넣어서 학습시키면 좋아지지 않을까 한다.

코드에 대한 개략적인 설명은 넣어 두었고 HMM 알고리즘의 경우 인터넷에 자료가 많으니 참고하면 쉽게 이해할 수 있을 거라 생각한다.

책을 쓴다면 자세한 설명이 필요하겠지만 일단 코드만 공유한다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
#sentence spacing algorithm with HMM  
#setwd("C:/work/RWork/spacing")
library(HMM)
 
#문자열 코딩, 00101 
makeCorpus <- function(str){
  strv <- strsplit(str,split="")[[1]]
  lenstrv <- length(strv)
  spacev <- vector(mode="character",length=lenstrv)
  charv  <- vector(mode="character",length=lenstrv)
  vidx <- 1
  for(i in 1:lenstrv){
    if(strv[i] == " ") {
      next
    }
    if(i + 1 <= lenstrv && strv[i + 1] == " "){
      #spacev <- append(spacev, "1")
      spacev[vidx] <- "1"
    }else{
      if(i == lenstrv){
        spacev[vidx] <- "1"
      }else{
        spacev[vidx] <- "0"
      }
    }
    charv[vidx] <- strv[i]
    vidx <- vidx + 1
  }
  return(data.frame(status=spacev,char=charv))
}
 
 
#전이확률 계산 
getTransprob <- function(str){
  charv <- strsplit(str,split="")[[1]]
  status <- unique(charv)
  transMat <- matrix(0,nrow=length(status),ncol=length(status), 
                     dimnames=list(status, status))
  for(i in 1:(length(charv) -1)){
    rowidx <- which(rownames(transMat) == charv[i])
    colidx <- which(colnames(transMat) == charv[i + 1])
    transMat[rowidx, colidx] <- transMat[rowidx, colidx] + 1
  }
  prop.table(transMat,margin=1)
}
 
#관측확률 계산
observProb <- function(rawcorpus){
  statecntdf <- aggregate(rawcorpus[[1]], by=list(rawcorpus[[2]]), table)  
  statecnts <- as.data.frame(statecntdf$x)
  prob0 <- statecnts$`0`/rowSums(statecnts)
  prob1 <- statecnts$`1`/rowSums(statecnts)
  cbind(char=statecntdf[,1], statecnts, prob0, prob1)
}
 
 
# 모델을 가지고 하는 띄어쓰기
spacing <- function(hmm, str){
  strsp <- strsplit(str, split="")[[1]]
  emissions <- viterbi(hmm, strsp)
  if(length(strsp) != length(emissions)){
    stop("lengths are not match!")
  }
  strspacing <- vector(mode="character",length=length(strsp) * 2)
  spacingidx <- 1
  for(i in 1:length(emissions)){
    strspacing[spacingidx] <- strsp[i]
    if(emissions[i] == "1"){
      spacingidx <- spacingidx + 1
      strspacing[spacingidx] <- " "
    }
    spacingidx <- spacingidx + 1
  }
  return(paste(strspacing[1:spacingidx-1], collapse=""))
}
 
 
 
################ 실행 ########################################################
 
 
#코퍼스 파일 읽음 
fp <- file("choi.txt", encoding="UTF-8")
lines <- readLines(fp)
close(fp)
fullstr <- paste(lines, collapse="")
#띄어쓰기 코딩 
fullrawcorpus <- makeCorpus(fullstr)
#관측확률 계산 
oprob <- observProb(fullrawcorpus)
#전이확률 계산 
trprob <- getTransprob(paste(fullrawcorpus$status,collapse=""))
 
#HMM 모델 빌드
hmm <- initHMM(c("0", "1"), oprob$char, 
        startProbs=c(.9,.1), transProbs=trprob, emissionProbs=t(as.matrix(oprob[,c(5,6)])))
 
# 비터비 알고리즘으로 띄어 쓰기  
spacing(hmm, "일정한조건에따르면,자유롭게이것을재배포할수가있습니다.")

전이 확률은 0,1(붙여쓰기, 띄어쓰기) 기호간의 확률값을 의미하며, 관측확률은 특정 상태에서 특정 문자가 나올 확률값을 가지게 된다. 이 정도로 정리가 되었으면 모델 빌드는 다된 것이다.

이 후 HMM 모델을 이용해서 띄어쓰기 확률이 최대가 되는 최적 상태(띄어쓰기)를 찾게 된다. 잘 아시다시피 비터비 알고리즘의 경우 Dynamic Programming방식으로 빠르게 최적 패스를 찾게 된다(비터비 알고리즘의 경우 학교 다닐 때 시험문제나 알고리즘 코딩 문제로 많이 풀어본바 R의 장점인 패키지 시스템에서 찾아 썼다).

 

역시나 이런 학습 모델의 경우 코퍼스가 중요한데, 여기서 사용된 코퍼스는 저작권 문제로 공유하기는 힘드니, 테스트시 개개인이 가지고 있는 소설 파일이나 신문기사들을 사용할 수 있을 것이다.

그리고 어떤걸 사용하느냐에 따라서 퍼포먼스는 달라질 것이다.  데이터에 따라서 결과가 달라지는 것을 경험해 보길 바란다.

CC BY-NC 4.0 R로 만들어본 자동 띄어쓰기 알고리즘 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.

This entry was posted in 데이터분석

  • 안녕하세요.
    덕분에 최근에 하려고 했던 일 중 하나에 힌트를 얻었습니다.
    좋은 글 써주셔서 고맙습니다.^^

  • 저 코퍼스 문서형식과 trprob 배열이 어떤 형태인지 좀 알 수 있을까요? R 초보라 file import가 안되어 그냥 변수에 lines 넣고 해보았는데 trprob 배열 생성에서 에러가 나서요 ^^ 번거롭게 질문드려 죄송합니다^^

  • 익명

    도움 되셨다니 다행입니다.  ^^

  • 익명

    아.. 책은 아직 계획없습니다. ㅋ 아직 공부할것들이 많아서요.

  • Pingback: 패턴인식 및 기계학습 겨울학교 참가 후기()

  • Youngsamy

    좋은 포스팅 감사합니다. 그런데 한 번 직접 결과를 보고 싶어서 그냥 긁어붙여 돌려봤는데 에러가 발생하네요. lines <- readLines(fp) 여기서부터 fb가 가리키는 파일을 찾을 수 없다고 나오는데 readLines라는 함수는 여기서 처음봐서 왜 이런 오류가 나는지를 알 수가 없군요. 

  • gogamza

    fp <- file("choi.txt", encoding="UTF-8")
    위 부분이 제대로 동작하는지 먼저 확인하시기 바랍니다. "choi.txt"는 UTF-8인코딩으로 이루어진 파일입니다.

  • Youngsamy

    아 인코딩 변경을 하니까 작동합니다. 인코딩 문제를 예상 못했네요. 감사합니다^^ 큰 도움이 되었습니다.

  • 안녕하세요 고감자님 해당 포스팅을 트랙백하고 싶은데 전송할 수 없다는 경고가 뜹니다. 좋은 블로그 잘 보고 갑니다!

  • gogamza

    이 블로그에는 트랙백 기능이 없습니다. 플러그인을 찾아본 경험이 있었는데, 발견하질 못했네요..

  • vbang

    고감자님 게시물을 보고 열심히 공부하고 있습니다.
    뭔가 고감자님의 노력의 결과물을 카피해서(?) 아무 어려움 없이 공부하는 것 같아 뜨끔하지만..
    이렇게 감사의 말씀 드리고 싶습니다.!
    아! 얼마전, 저는 참가하지 못했던 R 컨퍼런스에서 멋진 강연! 수고하셨습니다. (학과 교수님의 SNS를 통해 보았습니다 ㅎㅎ)

  • Pingback: RNN을 이용한 한글 자동 띄어쓰기 | from __future__ import dream()

  • Pingback: RNN을 이용한 한글 자동 띄어쓰기 KoNLP in R – WordPress()