금번 업데이트에서 크게 변경된 부분은 사용자 사전 데이터 추가의 용이성이다.
예를 들어 아래와 같다.
1 2 3 4 5 6 7 8 9 10 11 | useSystemDic() # Backup was just finished! # 13 words were added to dic_user.txt. mergeUserDic(data.frame("삼성전자", "ncn")) # 1 words were added to dic_user.txt. extractNoun("삼성전자에서는 아이폰에 대항할 무기를 준비하고 있다.") # [1] "삼성전자" "아이폰에" "대항" "무기" "준비" mergeUserDic(data.frame("아이폰", "ncn")) # 1 words were added to dic_user.txt. extractNoun("삼성전자에서는 아이폰에 대항할 무기를 준비하고 있다.") # [1] "삼성전자" "아이폰" "대항" "무기" "준비" |
분석 데이터에 따라서 사용자 사전을 편집하기 편하게 하기 위한 함수들에 대한 개선이다. 위에서 처럼 “삼성전자”, “아이폰”이 사전에 없어서 분석이 안되는 부분을 사전을 직접 추가할 수 있게끔 함으로써 유연한 분석을 할 수 있게 하였다.
이밖에 다른 변경 부분도 있는데, 아마도 사용자 분들은 인지하기 힘들듯 하니 소개는 하지 않겠다.
그리고 한가지 이슈가 있는데, 현재 맥 바이너리 버전이 R cran 시스템에서 계속 에러 쏟아내는 바람에 빌드가 계속 안되고 있다. 맥 라이언 OS에서 직접 테스트 해봤는데 전혀 문제가 없었다. 하지만 cran 테스트를 넘겨야 repository에 올려 사용자가 자유롭게 사용가능하기 때문에 맥 사용자는 이 문제가 해결될 때 까지 새 버전을 사용하기가 쉽지 않을 것 같다. 물론 이 이슈는 R core팀에 문의를 해두었다.
그럼에도 불구하고 정말 위 기능을 포함한 새로운 기능들을 사용하고 싶다면 아래 명령어로 github에서 빌드되는 바이너리를 설치하면 된다. ㅋ
1 2 3 | install.packages("devtools") library(devtools) install_github("KoNLP", "haven-jeon",ref="KoNLP_0.76.5") |
사족이지만 패키지 빌드 통계를 보니 솔라리스를 비롯한 맥 등의 유닉스 기반의 OS에서 패키지 빌드 에러가 많이 나고 있다는 것을 알 수 있다. 역시나 R은 리눅스와 친숙한 시스템인거 같다는 생각을 다시 해본다.
KoNLP 0.76.5 업데이트 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.