어제 cran에 새 KoNLP 바이너리들이 올라갔다. 저사양 윈도우 머신에서 VM이 생성되지 않아 패키지 사용을 못한 분들은 업데이트 하시면 잘 동작하리라 믿는다.
금번 버전에서 달라진 점은 쓸모없는 함수 정리와 모듈 정리로 패키지 용량이 상당히 줄었다는 것과, 심심치 않게 받아왔던 저사양(?) 윈도우 유저들의 자바 VM 생성 오류를 해결했다는 것이다. 무엇보다 이 오류를 위해 기꺼이 리포팅 해주시고, 많은 테스트를 직접 해주시며 피드백을 주신 flavorpark AT naver.com님께 감사를 드린다. 덕분에 10년 묵은 체증이 확 내려간거 같다.
이 버그를 고치면서 Java와 R을 인터페이싱 하는 rJava의 구동 원리를 좀 이해했다는 수확이 있었는데, 그 시발점이 된 코드는 아래와 같다.
이래저래 여러 옵션으로 돌려보면 rJava의 VM 초기화를 언제하는지 잘 알 수 있을 것이다.
고감자님 안녕하세요?
KoNLP 패키지를 정말 쓰고싶은데
어떠한 함수에라도 인수에 한글자라도 넣으면
자바 힙공간이 부족하다는 에러때문에 아무것도 못하고 있는 독자입니다 ㅜㅜ
다음에 오류.jcall(get(“HannanumObj”, envir = KoNLP:::.KoNLPEnv), “[S”, “extractNoun”, :
java.lang.OutOfMemoryError: Java heap space이러한 오류가 나타나는데요,힙공간을 어떻게 늘리는지 방법을 잘 모르겠습니다.
현재 자바 힙 메모리는 구동하는 사용자의 환경에 최적화 시키게끔 되어 있습니다. 이런 부분을 명시적으로 구동하게 하는 방법은 현재로선 제공되지 않습니다.
이는 rJava가 로딩되는 시점에 정해져 버리기 때문이기도 합니다.
일단 아래의 지침에 따라서 정보를 보내주시면 방법을 한번 찾아보도록 하겠습니다.
http://freesearch.pe.kr/archives/3081
안녕하세요? 고감자님 혹시 KoNLP에서 자동 띄어쓰기는 지원안하나요?
현재 코드만 구현이 되어 있는데, 추후 통합을 할지는 나중에 결정해야 될 듯 합니다. 정확도가 78% 정도밖에 나오지 않고 있어서요…
안녕하세요. 공개하신 KoNLP를 이용하여 R을 처음 익히고 있습니다.
텍스트 분석을 몇 가지 하다보니 아래와 같은 문제가 있어 글을 남깁니다. 한나눔 행태소 분석기가 문제인 것 같은데 혹시 비슷한 경우를 겪으셨다면 어떻게 대처하셨는지 궁금합니다.
예를 들어 “문형표 보건복지부 장관(오른쪽)이 31일 정부서울청사에서 중동호흡기증후군(MERS·메르스) 확산 방지 대책을 발표했다” 라는 문장에서 명사를 추출하면
“문형” “표”로 추출이 됩니다. 사용자 사전에 “문형표 t nqpc” (고유명사, 성+이름)을 추가하더라도 마찬가지입니다. 대신 “문형표 t ncn” (비서술성 명사)로 추가하면
“문형표”로 추출됩니다.
추출하고 싶은 명사가 있다면 실제 품사와 상관 없이 “ncn”으로 해야 추출이 되네요.
사전을 어떻게 관리해야 할지 난감한 부분입니다.
한나눔 프로젝트가 더 이상 업데이트 되지 않는 것 같아 고감자님께 여쭤봅니다.
감사합니다.
안녕하세요?
저 질문드릴게 있어서요~!
단어를 분리하는데 dic_user.txt 파일의 단어들을 기반으로 분리된다고 들었습니다.
사전상 정의된 단어들 말고 제가 정의한 단어들에 대해서만 빈도 측정을 하고 싶은데
dic_user.txt
파일을 찾아서 데이터 내용을 제가 원하는 단어만으로 바꿔봤는데도 처리가 안되더라구요
방법이 잘못되었나요? 아니면 가능한 방법이 있다면 알려주세요~ㅜ
이럴 경우 정의 단어들에 대해서 search하고 빈도수만 세면 되는거 아닌가요?
굳이 KoNLP를 쓸 필요가 없어보입니다. ^^;