제10회 빅데이터 분석전문가 오픈세미나 발표 자료

최근 프로젝트가 바빠서 외부 발표를 하고 싶어도 못할 지경이었는데, 기회가 되어 어제 분석 노하우 공유 시간을 좀 오래 가질 수 있었다. 발표자료 준비는 거의 못했지만 소스코드를 펼쳐놓고 콘솔에서 실행해 보면서 하는 방향으로 잡았고, 그 방향이 오히려 청중에게 도움이 된 거 같다. 사실 발표자료 준비하기 이전에 R이라는 언어를 어떤 방식으로 사용자들이 가지고 놀 수 있는지 알려주고 […]

계속 읽기

차원의 저주 시각화

데이터의 양과 차원은 아주 밀접한 관련이 있다. 이럴때 빼놓지 않고 나오는 이야기가 차원의 저주(Curse of Dimensionality)다. 차원을 더 늘릴 경우 필요한 데이터 양은 기하급수적으로 늘어나며 이를 차원의 저주라고 이야기 하며 여러가지 저주에 대한 이야기들 중에 한가지를 R코드로 시각화 해보려 한다.   결론적으론 각각의 특징 변수를 추가할 수록 그에 적합한 정보를 제공해야 함을 의미하며, 큰 차원엔 그에 […]

계속 읽기

윈도우 R에서의 Java 설정

R을 사용하면서 Java를 기반으로 하는 프로그램을 호출할 경우가 생각보다 많다. 이들 패키지 목록을 살펴보고자 한다면 이 링크에서 아래 부분 Dependencies를 살펴보면 된다. 이 설정이 특별히 문제가 되는 경우는 사용자의 윈도우 PC에 명시적으로 여러 자바 설정이 이미 되어 있는 경우에 주로 생긴다. 주로 자바 개발을 윈도우 PC에서 해왔을 경우 많이 도출되며 적절한 R버전을 실행하지 않았을 때 […]

계속 읽기

lubridate 패키지를 한글 윈도우에서 쓰기

정말 이런 팁 같은 거 잘 올리지 않는데, 유용한 거라 공유해 본다. lubridate 패키지는 R에서 다루기 힘든 date객체나 datetime객체를 다루기 위해 필요한 패키지이며, 실무 일을 하면 거의 필수로 사용된다. 요게 한글 윈도우에서 동작하지 않아서 리눅스에서 주로 작업을 하곤 했는데, 한글 윈도우에서 작업할 때가 있어 유심히 함수를 살펴보다 해결책을 발견했다. 해결책이라고 이야기 하긴 뭐하고 그냥 팁 […]

계속 읽기

R 데이터 마이닝 강의 자료 공개

몸담고 있는 KT 클라우드웨어에서 주최한 네 시간짜리 R 데이터 마이닝 강의자료를 공개한다.   https://github.com/haven-jeon/rdatamining   강의중에 R Markdown 문서까지 공유해 드린다고 약속을 드렸고, 블로그에 링크를 공개하겠다고 했으니 약속을 지키려 글을 올린다. R이 얼마나 재미있는 언어인지 이야기해주기 위해서 힘썼던 시간인거 같고, R 코드 한줄 한줄에 의미를 두는 것도 중요하지만 R로 할 수 있는 다양한 재미거리들에 대해서 […]

계속 읽기

프로젝트 하면서 가장 빈번하게 쓰는 패키지들

R을 가지고 실무 프로젝트를 몇번 하게 되면서 실제 이게 없으면 굉장히 불편할거 같은 여러 패키지들이 있다. 그런 패키지들을 한번 나열해 보고자 한다.   가장 먼저 ggplot2이다. 워낙에 유명한 패키지라서 두말하면 잔소리일 패키지이며, 분석 보고서에서의 시각화에 가장 큰 몫을 차치하는 패키지이며, 데이터를 이해하기 위해 반드시 있어야 되는 패키지이다.   그 다음에는 plyr 패키지인데, 굉장히 복잡한 group […]

계속 읽기

2012년 통계학회 추계 학술대회 발표자료

금일 빅 데이터 특별 세션에서 발표한 자료를 공유한다. 개인적으로 발표자료를 복잡하지 않게 하고 말로 많은 이야기를 하는데, 역시 발표자료에는 별 내용이 없다. 통계학도 분들에게 컴퓨터 공학 공부의 필요성을 따갑게 말씀해 달라는 좌장 교수님의 요청에 100% 부응할 수 있었음에 만족하는 바이다.   통계학, 컴퓨터 공학 그리고 빅 데이터에서의 융합

계속 읽기

한글 11,172 글자

한글날 하루 지나는 시점에 글을 올린다.   세종계획 코퍼스로 간단한 분석을 해봤는데, 현대 문어를 기준으로 전체 문자에서 고작 2,236자 정도를 일반적으로 사용하고 있다. 전체 가용 글자수의 20%정도 되는 크기이다.   아래는 한글 글자를 코퍼스 기준으로 카운팅 한 것을 플롯팅한 것과 그 일부분을 떼온 것이다. 벡터 파일인 pdf로 받은 분은 클릭!  <- 받아서 확대해 조신하게 살펴보면 […]

계속 읽기

R에서 쉬운 폰트 사용

최근에 dbguide.net에 ggplot2에 대한 마지막 원고를 넘겼는데, 그곳에 윈도우 폰트를 사용해서 pdf 출력하는 예제를 기반으로 강좌를 시작했었다. 리눅스, 맥 등의 머신에 따른 설정 방법이 상이해서 윈도우로만 정해서 강좌를 진행했었는데, 얼마전 폰트 설정을 쉽게 할 수 있는 패키지를 사용해보고 이를 소개해 보고자 한다.   library(extrafont) font_import() fonts() loadfonts(device="win") ggplot(iris, aes(Sepal.Length, Sepal.Width)) + geom_point() + ggtitle("참숫체로 제목을 […]

계속 읽기

KoNLP에서 아래와 같은 에러가 나올 경우 대처 방법

library(KoNLP) 패키지 rJava를 로드중입니다 패키지 bitops를 로드중입니다 패키지 Sejong를 로드중입니다 Successfully Loaded Sejong Package.Java initialized. Error : .onLoad failed in loadNamespace() for ‘KoNLP’, details:call: .jinit(parameters = c("-Dfile.encoding=UTF-8", "-Xmx512m"))error: Cannot create Java virtual machine (-1)에러:’‘KoNLP’’ 에 대한 패키지/네임스페이스 로드가 실패했습니다 사실 위의 에러가 KoNLP와 독립적인 문제라는 것은 아래 명령어로 확인해 보면 된다.   library(rJava) .jinit() 대부분의 […]

계속 읽기