안철수 교수 대선 출마 선언문 텍스트 요약–2

워드 클라우드를 만들어 본 이전 예제에 이어, 문장을 끊어 단어간의 관계를 몇가지로 플로팅 해봤다. 여기서 눈여겨 볼 내용은 연관룰에서 subset을 제거하는 과정인데, 왜 이 부분을 제거하는지는 각자 고민에 맡기겠다. 오래전 포스팅에 igraph를 활용한 코드를 공유 했었는데, 그것보다 훨씬 간단하고 미려한 코드로 분석 결과를 뽑아준다.   ahn <- "안녕하십니까 안철수입니다. 저는 지난 7월말에 말씀 드린 대로 […]

계속 읽기

party를 활용한 모델 기반의 재귀 분할 방법

예를 들어 특정 데이터에 회귀모델을 적합한다고 하자…. 직관적으로 scatter plot을 그리면서 회귀모델 피팅을 하게 된다. 아래 처럼..     그러나 알다시피 오차의 분산이 일정하지 않은 잘못된 모델이 도출된다. (이 경우 가중 회귀를 쓰거나 변수 변환을 통해 모델을 튜닝해 나가는 과정이 필요하다고 학교에서 배우긴 했다.) 눈으로 보면 나쁘지 않아 보이나, 어떤 그룹 변수의 영향으로 인해 위 […]

계속 읽기

KoNLP를 저작물에 사용하신다면…..

가끔 KoNLP를 사용하셔서 논문을 쓰시는 분들을 볼 수 있는데, 이 패키지의 제작자로서 한가지 제안을 드리고 싶다. 사실 왜 출처 명시를 하지 않느냐의 문제가 아니다… 무엇보다 그 정도로 쪼잔한 마음으로 패키지를 만들고 공개하지는 않는다. ㅋㅋ    논문, 그리고 저작물 그리고 이를 활용한 출력물들은 다른 누가 같은 과정으로 돌리더라도 같은 내용의 출력이 가능해야 된다. 참 아름답게도 R […]

계속 읽기

안철수 교수 대선 출마 선언문 텍스트 요약

부제는 윈도우에서의 R 플로팅 폰트 설정이다.     ahn <- "안녕하십니까 안철수입니다. 저는 지난 7월말에 말씀 드린 대로 국민들의 의견을 듣고자 많은 분들을 만났습니다. 그 동안 저는 재미있는 별명도 얻었고. 또 최근에는 저를 소재로 한 유머도 유행하더군요. 그동안 제 답을 기다려오신 여러 분들의 애정이라고 생각하고 그 또한 무겁게 받아들이겠습니다. 기업인과 교수의 삶을 살아온 저로서는, 국가경영의 […]

계속 읽기

KoNLP 0.76.5 업데이트

금번 업데이트에서 크게 변경된 부분은 사용자 사전 데이터 추가의 용이성이다. 예를 들어 아래와 같다. useSystemDic() # Backup was just finished! # 13 words were added to dic_user.txt. mergeUserDic(data.frame("삼성전자", "ncn")) # 1 words were added to dic_user.txt. extractNoun("삼성전자에서는 아이폰에 대항할 무기를 준비하고 있다.") # [1] "삼성전자" "아이폰에" "대항" "무기" "준비" mergeUserDic(data.frame("아이폰", "ncn")) # 1 words were […]

계속 읽기

8th ACC R 데이터 마이닝 발표 예제코드

40분 동안에 데이터 마이닝을 가르치는 게 불가능하지만 단 하나의 목적만을 가지고 했다. 앞에 있는 분들이 R 데이터 마이닝을 시작하는데, 좋은 시작점을 제공해 주자! 어느정도 만족할만한 시간이었고, 따라서 교육에 쓰였던 예제 데이터를 공개한다. 오늘 내가 준비했던 것들 중에서 가장 만족한 것은 예제 코드를 R MarkDown으로 작성해서 이를 직접 발표 자료로 활용했다는 것이다. 상당히 만족 스럽고… 아래 […]

계속 읽기

KoNLP 0.75 업데이트

R core팀에서 지리하게 요청하던 사전과 로직 분리 작업을 마쳤다. 따라서 KoNLP패키지의 용량이 크게 줄었고, 코퍼스나 사전은 모조리 Sejong에 몰아 넣었다. Sejong의 배포 크기를 얼마로 제한을 할지 모르겠지만, 앞으로 세종계획에서 나온 리소스들이 그쪽으로 들어가지 않을까 한다. KoNLP의 dependency가 Sejong에 걸려있기 때문에 KoNLP의 새로운 버전을 업데이트 하게되면 아래와 같은 화면이 출력된다.   > install.packages("KoNLP") Installing package(s) into […]

계속 읽기

[DBGUIDE 연재] R 프로그래밍 맛보기

<연재주제> R 기반의 데이터 시각화 <이번 연재 제목>R 프로그래밍 맛보기 <필자> 전희원 | 넥스알에서 데이터 사이언티스트로 일하고 있다.   <연재순서> 1회: R로 하는 데이터 시각화의 시작 2회: R 프로그래밍 맛보기 3회: R로 데이터 다루기(data munging with R) (data.table, plyr, sqldf 패키지 비교·이용) 4회: ggplot2를 이용한 R 시각화 5회: Inkscape를 활용한 그래프 후처리   R은 데이터를 […]

계속 읽기

[DBGUIDE 연재] R로 하는 데이터 시각화 1부

최근 dbguide.net에 관련 연재를 하고 있어서 늦게나마 블로그에 올려본다. 여태 3회가 올라갔는데, R을 왠만큼 하시는 분들은 3회부터 보시는게 도움이 될거란 생각을 해본다. 3회는 내일까지 이곳에 게시를 할 예정이다.     R로 하는 데이터 시각화의 시작 최근 빅 데이터 붐이 일어나면서 데이터 처리 플랫폼인 Hadoop과 함께 R이라는 언어도 뜨고 있으며 빅 데이터의 분석 방법으로 다시 각광을 […]

계속 읽기

The Art of R Programming 번역서 출간

  빅 데이터 분석 도구 R 프로그래밍   같은 팀분이 번역을 해서 증정본을 하나 선물 받았다.  사실 이 책은 출판사에서 번역서를 출간해도 좋을지 원서 리뷰를 해달라고 해서 원서를 미리 봤고 너무 좋은 책이라서 이미 원서의 특정 챕터에 대한 포스팅까지 썼었다.  사실 r-bloggers를 꾸준히 봐온 사람이라면 이 책이 심심치 않게 포스팅에 올라온다는 사실을 잘 아실거라 생각한다. […]

계속 읽기