프로젝트 하면서 가장 빈번하게 쓰는 패키지들

R을 가지고 실무 프로젝트를 몇번 하게 되면서 실제 이게 없으면 굉장히 불편할거 같은 여러 패키지들이 있다. 그런 패키지들을 한번 나열해 보고자 한다.   가장 먼저 ggplot2이다. 워낙에 유명한 패키지라서 두말하면 잔소리일 패키지이며, 분석 보고서에서의 시각화에 가장 큰 몫을 차치하는 패키지이며, 데이터를 이해하기 위해 반드시 있어야 되는 패키지이다.   그 다음에는 plyr 패키지인데, 굉장히 복잡한 group […]

계속 읽기

KoNLP 0.76.8 업데이트

어제 cran에 새 KoNLP 바이너리들이 올라갔다. 저사양 윈도우 머신에서 VM이 생성되지 않아 패키지 사용을 못한 분들은 업데이트 하시면 잘 동작하리라 믿는다. 금번 버전에서 달라진 점은 쓸모없는 함수 정리와 모듈 정리로 패키지 용량이 상당히 줄었다는 것과, 심심치 않게 받아왔던 저사양(?) 윈도우 유저들의 자바 VM 생성 오류를 해결했다는 것이다. 무엇보다 이 오류를 위해 기꺼이 리포팅 해주시고, 많은 […]

계속 읽기

방송대 정보통계학과 20주년 기념 컨퍼런스 홍보

통계학을 공부하고 싶은 직장인들에게 우리나라에서는 거의 단 하나밖에 없는 선택처가 되는 방송대 정보통계학과에 대해서 알고 싶은 분들에게 좋은 기회가 될 듯 해서 올려본다.  데이터로 밥을 먹고 사는 분들은 통계라는 데이터의 언어를 배울 필요가 있다는 생각이 아직까지 확고한바, 방송대도 좋은 선택중에 하나라고 자신있게 말씀드릴 수 있다.       ps. 교수님 부탁 반 자의 반임…

계속 읽기

shiny를 통한 R 웹 프로그래밍

R을 가지고 웹 프로그래밍은 하는 방법은 이전부터 많이 시도되어 왔다. shiny 이전까지는 Rook이라는 프레임웍이 있었고, 나름 웹 프로그래밍 다운 코딩을 할 수 있는 환경을 가져다 주었지만 사실 R을 전적으로 웹 프로그래밍을 하는데 쓰기 보다는 플로팅한 결과를 효과적으로 보여주기 위한 목적이 많았는데, 그 목적에는 잘 부합하지 않았다. 한마디로 R로 모든 웹 프로그래밍을 하길 원하기 보다는 시각화나 […]

계속 읽기

2012년 통계학회 추계 학술대회 발표자료

금일 빅 데이터 특별 세션에서 발표한 자료를 공유한다. 개인적으로 발표자료를 복잡하지 않게 하고 말로 많은 이야기를 하는데, 역시 발표자료에는 별 내용이 없다. 통계학도 분들에게 컴퓨터 공학 공부의 필요성을 따갑게 말씀해 달라는 좌장 교수님의 요청에 100% 부응할 수 있었음에 만족하는 바이다.   통계학, 컴퓨터 공학 그리고 빅 데이터에서의 융합

계속 읽기

한글 11,172 글자

한글날 하루 지나는 시점에 글을 올린다.   세종계획 코퍼스로 간단한 분석을 해봤는데, 현대 문어를 기준으로 전체 문자에서 고작 2,236자 정도를 일반적으로 사용하고 있다. 전체 가용 글자수의 20%정도 되는 크기이다.   아래는 한글 글자를 코퍼스 기준으로 카운팅 한 것을 플롯팅한 것과 그 일부분을 떼온 것이다. 벡터 파일인 pdf로 받은 분은 클릭!  <- 받아서 확대해 조신하게 살펴보면 […]

계속 읽기

R에서 쉬운 폰트 사용

최근에 dbguide.net에 ggplot2에 대한 마지막 원고를 넘겼는데, 그곳에 윈도우 폰트를 사용해서 pdf 출력하는 예제를 기반으로 강좌를 시작했었다. 리눅스, 맥 등의 머신에 따른 설정 방법이 상이해서 윈도우로만 정해서 강좌를 진행했었는데, 얼마전 폰트 설정을 쉽게 할 수 있는 패키지를 사용해보고 이를 소개해 보고자 한다.   library(extrafont) font_import() fonts() loadfonts(device="win") ggplot(iris, aes(Sepal.Length, Sepal.Width)) + geom_point() + ggtitle("참숫체로 제목을 […]

계속 읽기

KoNLP에서 아래와 같은 에러가 나올 경우 대처 방법

library(KoNLP) 패키지 rJava를 로드중입니다 패키지 bitops를 로드중입니다 패키지 Sejong를 로드중입니다 Successfully Loaded Sejong Package.Java initialized. Error : .onLoad failed in loadNamespace() for ‘KoNLP’, details:call: .jinit(parameters = c("-Dfile.encoding=UTF-8", "-Xmx512m"))error: Cannot create Java virtual machine (-1)에러:’‘KoNLP’’ 에 대한 패키지/네임스페이스 로드가 실패했습니다 사실 위의 에러가 KoNLP와 독립적인 문제라는 것은 아래 명령어로 확인해 보면 된다.   library(rJava) .jinit() 대부분의 […]

계속 읽기

R 전문가가 되기 위한 1만 시간

사실 R학습이 어렵다고들 하는 분들이 많아서 얼마 전에 RA에서 제공한 슬라이드에서 한 장 발췌해서 올려본다. 말콤 글레드웰의 책인 ‘아웃라이어’에서 어떤 것을 성취하기 위한 조건은 환경과 더불어 절대적인 시간 투자가 있어야 된다고 언급하고 있다. 성취를 위한 적절한 환경, 그리고 1만 시간…. 아마도 우리가 뭔가를 성취하기 힘들다고 습관처럼 이야기 하는 건 성취를 위한 필요조건에 대해서 너무 과소평가하기 […]

계속 읽기

안철수 교수 대선 출마 선언문 텍스트 요약–2

워드 클라우드를 만들어 본 이전 예제에 이어, 문장을 끊어 단어간의 관계를 몇가지로 플로팅 해봤다. 여기서 눈여겨 볼 내용은 연관룰에서 subset을 제거하는 과정인데, 왜 이 부분을 제거하는지는 각자 고민에 맡기겠다. 오래전 포스팅에 igraph를 활용한 코드를 공유 했었는데, 그것보다 훨씬 간단하고 미려한 코드로 분석 결과를 뽑아준다.   ahn <- "안녕하십니까 안철수입니다. 저는 지난 7월말에 말씀 드린 대로 […]

계속 읽기