간단하게 wrapper 클래스 만들어서 일단 루씬 한글 분석기 패키지를 기반으로 R패키징을 해봤다. 여기에 내가 직접 만들어둔 자소, 음절 관련 함수들(Java)을 넣고, 한글 오토마타(C++)까지 넣으면 공식 배포해도 될 듯 하다. 구현해둔 오토마타 C++ 클래스를 자바로 포팅하고 싶지만 요즘 유행하는 Rcpp한번 공부해보는 셈 치고 C++ Extend 해볼란다.
이런 기반 클래스들이 모두 모아지면 이를 기반으로 한글 Spelling Correction 엔진을 넣어도 좋을 듯 하다.
내가 가지고 있는 것들과 흩어진 것들을 잘만 묶으면 좋은 한글 텍스트 마이닝 패키지 하나 만들어 지지 않을까 한다.
R에서 한글 텍스트 마이닝을 편하게 할 수 있으면 정말 좋지 않을까?
ps. 잠이나 자자..이거 덕분에 오늘 통계 공부는 하나도 못했구나. 쩝…
KoNLP 패키징 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.