[…] 예상치는 알고 있어야 나중에 곤욕을 당하지 않는다. 바로 어제(2014.12.12) 이문열 삼국지 텍스트 분석 포스팅의 엄청난 인기 때문에 약 세번의 트래픽 리셋이 있었고, 거기다 […]
박대훈
10 years ago
언제나 좋은 정보 감사드립니다. 비정형 데이터분석을 연구하고 있는 직장인입니다.
선생님의 분석 사례들을 보며 명령어를 입력하고 있는데(인문학사입니다) 생각보다 어려운 점이 많네요.
위에 명령어들을 보면 이전에 알려주셨던 SejongDic은 사용하지 않으신듯 한데…한글인식이 가능한건가요?
현재 SejongDic을 불러오면
Backup was just finished!
다음에 오류가 있습니다scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings, :
라인 87022는 2개의 구성요소들을 가지고 있지 않습니다
라고 뜨고, 단어를 추가해도
> mergeUserDic(data.frame(“대한민국”,”ncn”))
다음에 오류가 있습니다scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings, :
라인 87022는 2개의 구성요소들을 가지고 있지 않습니다
라고 나오며 추가가 안되는 것 같습니다. 이전에는 추가가 되었다고 나왔었는데, 언제부턴가 이렇게 나오네요. 혹시 짐작가시는 원인이나 해결방법을 알 수 있을까요?
아래와 같은 증상이네요.. 다시 확인해보니 stri_split_boundaries API가 새 버전에서는 바뀌었군요.
stri_split_boundaries(book_full, type=”sentence”) 로 바꿔서 실행해 보세요.
양종빈
10 years ago
>#좋은 정보 감사합니다. 현재 데이터 분석을 배우고 있는 학생입니다. 저는 해리포터 텍스트 파일을 이용해서 위에 하신 것과 같은 문장분리를 이용하여 텍스트마이닝을 해보려 하고있습니다.
># 그런데 계속 아래와 같은 오류가 뜨네요. 구문 외에 혹여 다른 자바등의 이유로 오류가 뜨는 것인지 아래 영어는 해석은 되는데 아이러니하게도 알아듣지를 못해겠네요 ㅠㅠ 혹시 조언 부탁드려도 될까요??
[…] 예상치는 알고 있어야 나중에 곤욕을 당하지 않는다. 바로 어제(2014.12.12) 이문열 삼국지 텍스트 분석 포스팅의 엄청난 인기 때문에 약 세번의 트래픽 리셋이 있었고, 거기다 […]
언제나 좋은 정보 감사드립니다. 비정형 데이터분석을 연구하고 있는 직장인입니다.
선생님의 분석 사례들을 보며 명령어를 입력하고 있는데(인문학사입니다) 생각보다 어려운 점이 많네요.
위에 명령어들을 보면 이전에 알려주셨던 SejongDic은 사용하지 않으신듯 한데…한글인식이 가능한건가요?
현재 SejongDic을 불러오면
Backup was just finished!
다음에 오류가 있습니다scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings, :
라인 87022는 2개의 구성요소들을 가지고 있지 않습니다
라고 뜨고, 단어를 추가해도
> mergeUserDic(data.frame(“대한민국”,”ncn”))
다음에 오류가 있습니다scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings, :
라인 87022는 2개의 구성요소들을 가지고 있지 않습니다
라고 나오며 추가가 안되는 것 같습니다. 이전에는 추가가 되었다고 나왔었는데, 언제부턴가 이렇게 나오네요. 혹시 짐작가시는 원인이나 해결방법을 알 수 있을까요?
감사합니다.
KoNLP라는 도구를 사용하지 않고도 다양한 텍스트 분석을 할 수 있다는 것을 보여주기 위해서 위와 같은 분석을 시행했습니다.
말씀하신 에러는 시스템 권한 등 환경을 확인하지 않고서는 정확히 어떤것이 원인인지 알기가 힘들다는 점 이해해 주시면 감사하겠습니다. 다시 말씀드리자면 제가 사용하는 환경에서 재현 가능하지 않은 에러일 경우 원인 및 조치가 힘듦니다.
답변 감사드립니다.
그럼 위에 알려주신 방법을 한번 따라해봐야겠네요^^
독학으로 하려니 쉽제않네요. 항상 좋은 정보 감사드립니다.
단어추가오류는 시스템상 문제일 가능성도 있는 것이군요. 참고하겠습니다.
와.. 정말 좋은자료입니다 비슷한 프로젝트를 하고 있는 입장에서 유익한 자료가 될 것 같습니다!!! 감사해요!
도움이 되셨다니 다행입니다. ^^
위 코드들과 이문열의 삼국지 텍스트 파일을 가지고 따라해보는 중인데 처음부터 막히네요..
삼국지 모든 권을 하나의 리스트로 통합한 후
아래와 같은 문장 분리 코드를 사용했습니다.
sam_all_sentences <- lapply(sam_all, function(book){
book_full <- paste0(book,collapse = "")
stri_split_boundaries(book_full, stri_opts_brkiter(type="sentence"))[[1]]
})
하지만 아래와 같은 에러가 발생하네요 ㅠㅠ
Error in stri_split_boundaries(book_full, stri_opts_brkiter(type = "sentence")) :
argument `n` should be an integer vector (or an object coercible to
이문열 텍스트 파일 형식에 문제가 있는 것인지 아니면 제 작업환경에 문제가 있는 것일까요?
아래와 같은 증상이네요.. 다시 확인해보니 stri_split_boundaries API가 새 버전에서는 바뀌었군요.
stri_split_boundaries(book_full, type=”sentence”) 로 바꿔서 실행해 보세요.
>#좋은 정보 감사합니다. 현재 데이터 분석을 배우고 있는 학생입니다. 저는 해리포터 텍스트 파일을 이용해서 위에 하신 것과 같은 문장분리를 이용하여 텍스트마이닝을 해보려 하고있습니다.
># 그런데 계속 아래와 같은 오류가 뜨네요. 구문 외에 혹여 다른 자바등의 이유로 오류가 뜨는 것인지 아래 영어는 해석은 되는데 아이러니하게도 알아듣지를 못해겠네요 ㅠㅠ 혹시 조언 부탁드려도 될까요??
> harry_all_sentences <- lapply(harry_all, function(book){
+ book_full
답변이 매우 늦었네요. ^^;;
이럴 경우 실제 데이터와 환경이 아니고서는 에러만 보고 문제점을 파악하기 굉장히 어렵습니다. 흡사 손목에 실만 엮어서 멀리서 맥박을 재는것과 같습니다.
일단 위 답변을 실행해 보시기 바랍니다.