2012년 통계학회 추계 학술대회 발표자료
금일 빅 데이터 특별 세션에서 발표한 자료를 공유한다. 개인적으로 발표자료를 복잡하지 않게 하고 말로 많은 이야기를 하는데, 역시 발표자료에는 별 내용이 없다. 통계학도 분들에게 컴퓨터 공학 공부의 필요성을 따갑게 말씀해 달라는 좌장 교수님의 요청에 100% 부응할 수 있었음에 만족하는 바이다. 통계학, 컴퓨터 공학 그리고 빅 데이터에서의 융합
계속 읽기당신의 나의 뜨거운 감자!
금일 빅 데이터 특별 세션에서 발표한 자료를 공유한다. 개인적으로 발표자료를 복잡하지 않게 하고 말로 많은 이야기를 하는데, 역시 발표자료에는 별 내용이 없다. 통계학도 분들에게 컴퓨터 공학 공부의 필요성을 따갑게 말씀해 달라는 좌장 교수님의 요청에 100% 부응할 수 있었음에 만족하는 바이다. 통계학, 컴퓨터 공학 그리고 빅 데이터에서의 융합
계속 읽기한글날 하루 지나는 시점에 글을 올린다. 세종계획 코퍼스로 간단한 분석을 해봤는데, 현대 문어를 기준으로 전체 문자에서 고작 2,236자 정도를 일반적으로 사용하고 있다. 전체 가용 글자수의 20%정도 되는 크기이다. 아래는 한글 글자를 코퍼스 기준으로 카운팅 한 것을 플롯팅한 것과 그 일부분을 떼온 것이다. 벡터 파일인 pdf로 받은 분은 클릭! <- 받아서 확대해 조신하게 살펴보면 […]
계속 읽기최근에 dbguide.net에 ggplot2에 대한 마지막 원고를 넘겼는데, 그곳에 윈도우 폰트를 사용해서 pdf 출력하는 예제를 기반으로 강좌를 시작했었다. 리눅스, 맥 등의 머신에 따른 설정 방법이 상이해서 윈도우로만 정해서 강좌를 진행했었는데, 얼마전 폰트 설정을 쉽게 할 수 있는 패키지를 사용해보고 이를 소개해 보고자 한다. library(extrafont) font_import() fonts() loadfonts(device="win") ggplot(iris, aes(Sepal.Length, Sepal.Width)) + geom_point() + ggtitle("참숫체로 제목을 […]
계속 읽기library(KoNLP) 패키지 rJava를 로드중입니다 패키지 bitops를 로드중입니다 패키지 Sejong를 로드중입니다 Successfully Loaded Sejong Package.Java initialized. Error : .onLoad failed in loadNamespace() for ‘KoNLP’, details:call: .jinit(parameters = c("-Dfile.encoding=UTF-8", "-Xmx512m"))error: Cannot create Java virtual machine (-1)에러:’‘KoNLP’’ 에 대한 패키지/네임스페이스 로드가 실패했습니다 사실 위의 에러가 KoNLP와 독립적인 문제라는 것은 아래 명령어로 확인해 보면 된다. library(rJava) .jinit() 대부분의 […]
계속 읽기사실 R학습이 어렵다고들 하는 분들이 많아서 얼마 전에 RA에서 제공한 슬라이드에서 한 장 발췌해서 올려본다. 말콤 글레드웰의 책인 ‘아웃라이어’에서 어떤 것을 성취하기 위한 조건은 환경과 더불어 절대적인 시간 투자가 있어야 된다고 언급하고 있다. 성취를 위한 적절한 환경, 그리고 1만 시간…. 아마도 우리가 뭔가를 성취하기 힘들다고 습관처럼 이야기 하는 건 성취를 위한 필요조건에 대해서 너무 과소평가하기 […]
계속 읽기워드 클라우드를 만들어 본 이전 예제에 이어, 문장을 끊어 단어간의 관계를 몇가지로 플로팅 해봤다. 여기서 눈여겨 볼 내용은 연관룰에서 subset을 제거하는 과정인데, 왜 이 부분을 제거하는지는 각자 고민에 맡기겠다. 오래전 포스팅에 igraph를 활용한 코드를 공유 했었는데, 그것보다 훨씬 간단하고 미려한 코드로 분석 결과를 뽑아준다. ahn <- "안녕하십니까 안철수입니다. 저는 지난 7월말에 말씀 드린 대로 […]
계속 읽기예를 들어 특정 데이터에 회귀모델을 적합한다고 하자…. 직관적으로 scatter plot을 그리면서 회귀모델 피팅을 하게 된다. 아래 처럼.. 그러나 알다시피 오차의 분산이 일정하지 않은 잘못된 모델이 도출된다. (이 경우 가중 회귀를 쓰거나 변수 변환을 통해 모델을 튜닝해 나가는 과정이 필요하다고 학교에서 배우긴 했다.) 눈으로 보면 나쁘지 않아 보이나, 어떤 그룹 변수의 영향으로 인해 위 […]
계속 읽기가끔 KoNLP를 사용하셔서 논문을 쓰시는 분들을 볼 수 있는데, 이 패키지의 제작자로서 한가지 제안을 드리고 싶다. 사실 왜 출처 명시를 하지 않느냐의 문제가 아니다… 무엇보다 그 정도로 쪼잔한 마음으로 패키지를 만들고 공개하지는 않는다. ㅋㅋ 논문, 그리고 저작물 그리고 이를 활용한 출력물들은 다른 누가 같은 과정으로 돌리더라도 같은 내용의 출력이 가능해야 된다. 참 아름답게도 R […]
계속 읽기부제는 윈도우에서의 R 플로팅 폰트 설정이다. ahn <- "안녕하십니까 안철수입니다. 저는 지난 7월말에 말씀 드린 대로 국민들의 의견을 듣고자 많은 분들을 만났습니다. 그 동안 저는 재미있는 별명도 얻었고. 또 최근에는 저를 소재로 한 유머도 유행하더군요. 그동안 제 답을 기다려오신 여러 분들의 애정이라고 생각하고 그 또한 무겁게 받아들이겠습니다. 기업인과 교수의 삶을 살아온 저로서는, 국가경영의 […]
계속 읽기금번 업데이트에서 크게 변경된 부분은 사용자 사전 데이터 추가의 용이성이다. 예를 들어 아래와 같다. useSystemDic() # Backup was just finished! # 13 words were added to dic_user.txt. mergeUserDic(data.frame("삼성전자", "ncn")) # 1 words were added to dic_user.txt. extractNoun("삼성전자에서는 아이폰에 대항할 무기를 준비하고 있다.") # [1] "삼성전자" "아이폰에" "대항" "무기" "준비" mergeUserDic(data.frame("아이폰", "ncn")) # 1 words were […]
계속 읽기