KoNLP 0.76.5 업데이트

금번 업데이트에서 크게 변경된 부분은 사용자 사전 데이터 추가의 용이성이다.

예를 들어 아래와 같다.

1
2
3
4
5
6
7
8
9
10
11
useSystemDic()
# Backup was just finished!
# 13 words were added to dic_user.txt.
mergeUserDic(data.frame("삼성전자", "ncn"))
# 1 words were added to dic_user.txt.
extractNoun("삼성전자에서는 아이폰에 대항할 무기를 준비하고 있다.")
# [1] "삼성전자" "아이폰에" "대항"     "무기"     "준비"    
mergeUserDic(data.frame("아이폰", "ncn"))
# 1 words were added to dic_user.txt.
extractNoun("삼성전자에서는 아이폰에 대항할 무기를 준비하고 있다.")
# [1] "삼성전자" "아이폰"   "대항"     "무기"     "준비"

 

분석 데이터에  따라서 사용자 사전을 편집하기 편하게 하기 위한 함수들에 대한 개선이다.  위에서 처럼 “삼성전자”, “아이폰”이 사전에 없어서 분석이 안되는 부분을 사전을 직접 추가할 수 있게끔 함으로써 유연한 분석을 할 수 있게 하였다.

이밖에 다른 변경 부분도 있는데, 아마도 사용자 분들은 인지하기 힘들듯 하니 소개는 하지 않겠다.

 

그리고 한가지 이슈가 있는데, 현재 맥 바이너리 버전이 R cran 시스템에서 계속 에러 쏟아내는 바람에 빌드가 계속 안되고 있다. 맥 라이언 OS에서 직접 테스트 해봤는데 전혀 문제가 없었다. 하지만 cran 테스트를 넘겨야 repository에 올려 사용자가 자유롭게 사용가능하기 때문에 맥 사용자는 이 문제가 해결될 때 까지 새 버전을 사용하기가 쉽지 않을 것 같다. 물론 이 이슈는 R core팀에 문의를 해두었다.

 

그럼에도 불구하고 정말 위 기능을 포함한 새로운 기능들을 사용하고 싶다면 아래 명령어로 github에서 빌드되는 바이너리를 설치하면 된다.  ㅋ

1
2
3
install.packages("devtools")
library(devtools)
install_github("KoNLP", "haven-jeon",ref="KoNLP_0.76.5")


사족이지만 패키지 빌드 통계를 보니 솔라리스를 비롯한 맥 등의 유닉스 기반의 OS에서 패키지 빌드 에러가 많이 나고 있다는 것을 알 수 있다. 역시나 R은 리눅스와 친숙한 시스템인거 같다는 생각을 다시 해본다. 

CC BY-NC 4.0 KoNLP 0.76.5 업데이트 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.