제10회 빅데이터 분석전문가 오픈세미나 발표 자료

최근 프로젝트가 바빠서 외부 발표를 하고 싶어도 못할 지경이었는데, 기회가 되어 어제 분석 노하우 공유 시간을 좀 오래 가질 수 있었다. 발표자료 준비는 거의 못했지만 소스코드를 펼쳐놓고 콘솔에서 실행해 보면서 하는 방향으로 잡았고, 그 방향이 오히려 청중에게 도움이 된 거 같다. 사실 발표자료 준비하기 이전에 R이라는 언어를 어떤 방식으로 사용자들이 가지고 놀 수 있는지 알려주고 […]

계속 읽기

차원의 저주 시각화

데이터의 양과 차원은 아주 밀접한 관련이 있다. 이럴때 빼놓지 않고 나오는 이야기가 차원의 저주(Curse of Dimensionality)다. 차원을 더 늘릴 경우 필요한 데이터 양은 기하급수적으로 늘어나며 이를 차원의 저주라고 이야기 하며 여러가지 저주에 대한 이야기들 중에 한가지를 R코드로 시각화 해보려 한다.   결론적으론 각각의 특징 변수를 추가할 수록 그에 적합한 정보를 제공해야 함을 의미하며, 큰 차원엔 그에 […]

계속 읽기

윈도우 R에서의 Java 설정

R을 사용하면서 Java를 기반으로 하는 프로그램을 호출할 경우가 생각보다 많다. 이들 패키지 목록을 살펴보고자 한다면 이 링크에서 아래 부분 Dependencies를 살펴보면 된다. 이 설정이 특별히 문제가 되는 경우는 사용자의 윈도우 PC에 명시적으로 여러 자바 설정이 이미 되어 있는 경우에 주로 생긴다. 주로 자바 개발을 윈도우 PC에서 해왔을 경우 많이 도출되며 적절한 R버전을 실행하지 않았을 때 […]

계속 읽기

lubridate 패키지를 한글 윈도우에서 쓰기

정말 이런 팁 같은 거 잘 올리지 않는데, 유용한 거라 공유해 본다. lubridate 패키지는 R에서 다루기 힘든 date객체나 datetime객체를 다루기 위해 필요한 패키지이며, 실무 일을 하면 거의 필수로 사용된다. 요게 한글 윈도우에서 동작하지 않아서 리눅스에서 주로 작업을 하곤 했는데, 한글 윈도우에서 작업할 때가 있어 유심히 함수를 살펴보다 해결책을 발견했다. 해결책이라고 이야기 하긴 뭐하고 그냥 팁 […]

계속 읽기

2013년을 맞이하며

최근 들어 이런 종류의 글을 써본적이 없는데, 결국 2012년 마지막 날을 맞이하며 이렇게 글을 써본다. 2012년은 개인적으로 사회생활 그리고 나와 다른 사람들에 대한 고민을 참 많이 했던 날들의 연속이었다.  군대생활 30명이 넘는 부하를 두고 사람에 대해서 고민했을 때와는 사뭇 다른 고민들이었고 이 고민 덕분에 변하지 않는 진리에 대한 탐구와 갈망이 더 커졌다는 것을 무시할 수 […]

계속 읽기

R 데이터 마이닝 강의 자료 공개

몸담고 있는 KT 클라우드웨어에서 주최한 네 시간짜리 R 데이터 마이닝 강의자료를 공개한다.   https://github.com/haven-jeon/rdatamining   강의중에 R Markdown 문서까지 공유해 드린다고 약속을 드렸고, 블로그에 링크를 공개하겠다고 했으니 약속을 지키려 글을 올린다. R이 얼마나 재미있는 언어인지 이야기해주기 위해서 힘썼던 시간인거 같고, R 코드 한줄 한줄에 의미를 두는 것도 중요하지만 R로 할 수 있는 다양한 재미거리들에 대해서 […]

계속 읽기

프로젝트 하면서 가장 빈번하게 쓰는 패키지들

R을 가지고 실무 프로젝트를 몇번 하게 되면서 실제 이게 없으면 굉장히 불편할거 같은 여러 패키지들이 있다. 그런 패키지들을 한번 나열해 보고자 한다.   가장 먼저 ggplot2이다. 워낙에 유명한 패키지라서 두말하면 잔소리일 패키지이며, 분석 보고서에서의 시각화에 가장 큰 몫을 차치하는 패키지이며, 데이터를 이해하기 위해 반드시 있어야 되는 패키지이다.   그 다음에는 plyr 패키지인데, 굉장히 복잡한 group […]

계속 읽기

KoNLP 0.76.8 업데이트

어제 cran에 새 KoNLP 바이너리들이 올라갔다. 저사양 윈도우 머신에서 VM이 생성되지 않아 패키지 사용을 못한 분들은 업데이트 하시면 잘 동작하리라 믿는다. 금번 버전에서 달라진 점은 쓸모없는 함수 정리와 모듈 정리로 패키지 용량이 상당히 줄었다는 것과, 심심치 않게 받아왔던 저사양(?) 윈도우 유저들의 자바 VM 생성 오류를 해결했다는 것이다. 무엇보다 이 오류를 위해 기꺼이 리포팅 해주시고, 많은 […]

계속 읽기

방송대 정보통계학과 20주년 기념 컨퍼런스 홍보

통계학을 공부하고 싶은 직장인들에게 우리나라에서는 거의 단 하나밖에 없는 선택처가 되는 방송대 정보통계학과에 대해서 알고 싶은 분들에게 좋은 기회가 될 듯 해서 올려본다.  데이터로 밥을 먹고 사는 분들은 통계라는 데이터의 언어를 배울 필요가 있다는 생각이 아직까지 확고한바, 방송대도 좋은 선택중에 하나라고 자신있게 말씀드릴 수 있다.       ps. 교수님 부탁 반 자의 반임…

계속 읽기

shiny를 통한 R 웹 프로그래밍

R을 가지고 웹 프로그래밍은 하는 방법은 이전부터 많이 시도되어 왔다. shiny 이전까지는 Rook이라는 프레임웍이 있었고, 나름 웹 프로그래밍 다운 코딩을 할 수 있는 환경을 가져다 주었지만 사실 R을 전적으로 웹 프로그래밍을 하는데 쓰기 보다는 플로팅한 결과를 효과적으로 보여주기 위한 목적이 많았는데, 그 목적에는 잘 부합하지 않았다. 한마디로 R로 모든 웹 프로그래밍을 하길 원하기 보다는 시각화나 […]

계속 읽기