KoNLP 0.76.8 업데이트

어제 cran에 새 KoNLP 바이너리들이 올라갔다. 저사양 윈도우 머신에서 VM이 생성되지 않아 패키지 사용을 못한 분들은 업데이트 하시면 잘 동작하리라 믿는다. 금번 버전에서 달라진 점은 쓸모없는 함수 정리와 모듈 정리로 패키지 용량이 상당히 줄었다는 것과, 심심치 않게 받아왔던 저사양(?) 윈도우 유저들의 자바 VM 생성 오류를 해결했다는 것이다. 무엇보다 이 오류를 위해 기꺼이 리포팅 해주시고, 많은 […]

계속 읽기

KoNLP에서 아래와 같은 에러가 나올 경우 대처 방법

library(KoNLP) 패키지 rJava를 로드중입니다 패키지 bitops를 로드중입니다 패키지 Sejong를 로드중입니다 Successfully Loaded Sejong Package.Java initialized. Error : .onLoad failed in loadNamespace() for ‘KoNLP’, details:call: .jinit(parameters = c("-Dfile.encoding=UTF-8", "-Xmx512m"))error: Cannot create Java virtual machine (-1)에러:’‘KoNLP’’ 에 대한 패키지/네임스페이스 로드가 실패했습니다 사실 위의 에러가 KoNLP와 독립적인 문제라는 것은 아래 명령어로 확인해 보면 된다.   library(rJava) .jinit() 대부분의 […]

계속 읽기

안철수 교수 대선 출마 선언문 텍스트 요약–2

워드 클라우드를 만들어 본 이전 예제에 이어, 문장을 끊어 단어간의 관계를 몇가지로 플로팅 해봤다. 여기서 눈여겨 볼 내용은 연관룰에서 subset을 제거하는 과정인데, 왜 이 부분을 제거하는지는 각자 고민에 맡기겠다. 오래전 포스팅에 igraph를 활용한 코드를 공유 했었는데, 그것보다 훨씬 간단하고 미려한 코드로 분석 결과를 뽑아준다.   ahn <- "안녕하십니까 안철수입니다. 저는 지난 7월말에 말씀 드린 대로 […]

계속 읽기

KoNLP를 저작물에 사용하신다면…..

가끔 KoNLP를 사용하셔서 논문을 쓰시는 분들을 볼 수 있는데, 이 패키지의 제작자로서 한가지 제안을 드리고 싶다. 사실 왜 출처 명시를 하지 않느냐의 문제가 아니다… 무엇보다 그 정도로 쪼잔한 마음으로 패키지를 만들고 공개하지는 않는다. ㅋㅋ    논문, 그리고 저작물 그리고 이를 활용한 출력물들은 다른 누가 같은 과정으로 돌리더라도 같은 내용의 출력이 가능해야 된다. 참 아름답게도 R […]

계속 읽기

KoNLP 0.76.5 업데이트

금번 업데이트에서 크게 변경된 부분은 사용자 사전 데이터 추가의 용이성이다. 예를 들어 아래와 같다. useSystemDic() # Backup was just finished! # 13 words were added to dic_user.txt. mergeUserDic(data.frame("삼성전자", "ncn")) # 1 words were added to dic_user.txt. extractNoun("삼성전자에서는 아이폰에 대항할 무기를 준비하고 있다.") # [1] "삼성전자" "아이폰에" "대항" "무기" "준비" mergeUserDic(data.frame("아이폰", "ncn")) # 1 words were […]

계속 읽기

KoNLP 0.76 업데이트

약 일주일 정도의 작업과 우역곡절 끝에 KoNLP 0.76 업데이트에 성공했다. 현재 윈도우 바이너리 버전 배포가 확정되었고, 맥 버전이야 거의 리눅스에서 돌아가면 빌드에 별로 문제가 없다.   내부적으로 많은 코드 변화가 있었으나, 사용자들은 잘 인지하기 힘들듯 하다. 일단 바뀐 부분은 사전 데이터를에 대해서 zip파일에 압축해서 배포하고(Sejong 패키지), 이에 대해 압축을 풀지 않고 바로 메모리로 읽어들이는 방식으로 […]

계속 읽기

KoNLP 0.75 업데이트

R core팀에서 지리하게 요청하던 사전과 로직 분리 작업을 마쳤다. 따라서 KoNLP패키지의 용량이 크게 줄었고, 코퍼스나 사전은 모조리 Sejong에 몰아 넣었다. Sejong의 배포 크기를 얼마로 제한을 할지 모르겠지만, 앞으로 세종계획에서 나온 리소스들이 그쪽으로 들어가지 않을까 한다. KoNLP의 dependency가 Sejong에 걸려있기 때문에 KoNLP의 새로운 버전을 업데이트 하게되면 아래와 같은 화면이 출력된다.   > install.packages("KoNLP") Installing package(s) into […]

계속 읽기

KoNLP 0.73 버전 업데이트

금 버전에서 나아진 사항은 아래와 같다.   Version 0.73——————————————————————————  * add messages on is.hangul and is.jamo if input is not UTF-8.  * set -Xmx512m when the time user system is poor on memory.   * fix issue "Continuous "[:space:]" in sentence can make infinite wait."   기능상 그다지 별로 달라진것은 없고, 거의 버그 수정이나 편의성 향상 […]

계속 읽기

4회 R meetup 코드

4회 R meetup은 동국대 통계학과 전산실에서 진행되었다. 약속대로 코드를 공유한다. 바로 공유를 했어야 되는데 개인적인 사정으로 인해 늦게 공유하게 되었는데 이점에 대해서 양해 부탁드린다.   먼저 ROAuth를 이용한 트위터 API 사용 권한 가져오는 예제이다. 키는 https://dev.twitter.com/apps/new 에서 등록하면 된다. library(ROAuth) library(twitteR) cainfo <- system.file("CurlSSL", "cacert.pem", package = "RCurl") cred <- OAuthFactory$new(consumerKey="XXXXXXXXXXXXXX", consumerSecret="YYYYYYYYYYYYYYYYY", requestURL="https://api.twitter.com/oauth/request_token", accessURL="http://api.twitter.com/oauth/access_token", authURL="http://api.twitter.com/oauth/authorize") […]

계속 읽기

텍스트 마이닝을 통한 SNA

최근 텍스트 마이닝을 통한 SNA 분석이 유행인듯 해서 예제 하나를 공유하고자 한다. 이 예제는 모 대학교 교수님이 코드 얼개를 부탁해서 만들어본 코드 조각이다(도와 드릴 때 공개 가능에 대해서 이미 말씀을 드렸으니 문제 없으리라 본다). 여타 다른 텍스트 마이닝 툴에서 SNA를 하는것의 원리에 대해서는 잘 모르지만 대략 예상을 해보자면 한 문장에서 나오는 단어들의 관계를 연상하면 될거 […]

계속 읽기