KoNLP 0.75 업데이트

R core팀에서 지리하게 요청하던 사전과 로직 분리 작업을 마쳤다. 따라서 KoNLP패키지의 용량이 크게 줄었고, 코퍼스나 사전은 모조리 Sejong에 몰아 넣었다. Sejong의 배포 크기를 얼마로 제한을 할지 모르겠지만, 앞으로 세종계획에서 나온 리소스들이 그쪽으로 들어가지 않을까 한다.

KoNLP의 dependency가 Sejong에 걸려있기 때문에 KoNLP의 새로운 버전을 업데이트 하게되면 아래와 같은 화면이 출력된다.

 

> install.packages("KoNLP")
Installing package(s) into ‘/home/gogamza/R/x86_64-pc-linux-gnu-library/2.15’
(as ‘lib’ is unspecified)
— Please select a CRAN mirror for use in this session —
CRAN mirror

 
43: Japan (Tokyo)            44: Korea                 

Selection: 44
also installing the dependency ‘Sejong’

trying URL ‘http://cran.nexr.com/src/contrib/Sejong_0.01.tar.gz’
Content type ‘application/x-gzip’ length 1611375 bytes (1.5 Mb)
opened URL
==================================================
downloaded 1.5 Mb

trying URL ‘http://cran.nexr.com/src/contrib/KoNLP_0.75.tar.gz’
Content type ‘application/x-gzip’ length 1760300 bytes (1.7 Mb)
opened URL
==================================================
downloaded 1.7 Mb

* installing *source* package ‘Sejong’ …
** package ‘Sejong’ successfully unpacked and MD5 sums checked
** R
** inst
** preparing package for lazy loading
** help
No man pages found in package  ‘Sejong’
*** installing help indices
** building package indices
** testing if installed package can be loaded

* DONE (Sejong)
* installing *source* package ‘KoNLP’ …
** package ‘KoNLP’ successfully unpacked and MD5 sums checked
** R
** data
** inst
** preparing package for lazy loading
** help
*** installing help indices
** building package indices
** testing if installed package can be loaded

* DONE (KoNLP)

The downloaded source packages are in
    ‘/tmp/Rtmp0dXzeJ/downloaded_packages’
>

데이터 패키지의 분리 말고, 자바 소스코드 레벨에서 네임스페이스 변경이 좀 있었고, 개발만 되고 외부에 노출되지 않았던 자음, 모음, 아스키 문자 등등을 판별하는 함수를 추가 했다.

CC BY-NC 4.0 KoNLP 0.75 업데이트 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.