공개 스테밍 라이브러리 – snowball –

SnowBall 라이브러리는 conv2님의 블로그에서 처음 본것이다.

16가지 언어의 용언 원형을 복원하는 라이브러리인데, 미루고 미루다. 저번주 금요일날 예제파일을 컴파일 해봤다.

역시나 완벽하지는 않군…

일단 동사는 잘 되더라.
장난으로 한글이나 여타 문장을 넣어봤는데 전혀안되는군, 그러나 영어 원형 추출하는 부분에 쓰면 살짝 쓸만하지 않을까 한다. (테스트 해보고 만들어놓은 한글 형태소 분석기에 살짝 넣어주면 좋지 않을까 한다.)

이거 컴파일 한다고 윈도우에서 make 파일을 처음으로 써봤다. (ㅡㅡ;)

약간 좀 귀찮기는 했는데, 다른분들 테스트하기 편하라고 컴파일된 실행파일을 올려본다.

[#FILE|stemwords.exe|200602/12/54/|mid|0|0|pds1#]

디폴트로 영어스테밍을 하고, 옵션을 줘서 파일로 입력및 출력을 받을수도 있다.

관심이 많으신 분들은 SnowBall 사이트 들어가서 보시면, 다른언어로 구현된 여러 스테밍 프로그램을 볼수 있을것이다.

CC BY-NC 4.0 공개 스테밍 라이브러리 – snowball – by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.