8th ACC R 데이터 마이닝 발표 예제코드

40분 동안에 데이터 마이닝을 가르치는 게 불가능하지만 단 하나의 목적만을 가지고 했다. 앞에 있는 분들이 R 데이터 마이닝을 시작하는데, 좋은 시작점을 제공해 주자! 어느정도 만족할만한 시간이었고, 따라서 교육에 쓰였던 예제 데이터를 공개한다. 오늘 내가 준비했던 것들 중에서 가장 만족한 것은 예제 코드를 R MarkDown으로 작성해서 이를 직접 발표 자료로 활용했다는 것이다. 상당히 만족 스럽고… 아래 […]

계속 읽기

KoNLP 0.76 업데이트

약 일주일 정도의 작업과 우역곡절 끝에 KoNLP 0.76 업데이트에 성공했다. 현재 윈도우 바이너리 버전 배포가 확정되었고, 맥 버전이야 거의 리눅스에서 돌아가면 빌드에 별로 문제가 없다.   내부적으로 많은 코드 변화가 있었으나, 사용자들은 잘 인지하기 힘들듯 하다. 일단 바뀐 부분은 사전 데이터를에 대해서 zip파일에 압축해서 배포하고(Sejong 패키지), 이에 대해 압축을 풀지 않고 바로 메모리로 읽어들이는 방식으로 […]

계속 읽기

KoNLP 0.75 업데이트

R core팀에서 지리하게 요청하던 사전과 로직 분리 작업을 마쳤다. 따라서 KoNLP패키지의 용량이 크게 줄었고, 코퍼스나 사전은 모조리 Sejong에 몰아 넣었다. Sejong의 배포 크기를 얼마로 제한을 할지 모르겠지만, 앞으로 세종계획에서 나온 리소스들이 그쪽으로 들어가지 않을까 한다. KoNLP의 dependency가 Sejong에 걸려있기 때문에 KoNLP의 새로운 버전을 업데이트 하게되면 아래와 같은 화면이 출력된다.   > install.packages("KoNLP") Installing package(s) into […]

계속 읽기

[DBGUIDE 연재] R 프로그래밍 맛보기

<연재주제> R 기반의 데이터 시각화 <이번 연재 제목>R 프로그래밍 맛보기 <필자> 전희원 | 넥스알에서 데이터 사이언티스트로 일하고 있다.   <연재순서> 1회: R로 하는 데이터 시각화의 시작 2회: R 프로그래밍 맛보기 3회: R로 데이터 다루기(data munging with R) (data.table, plyr, sqldf 패키지 비교·이용) 4회: ggplot2를 이용한 R 시각화 5회: Inkscape를 활용한 그래프 후처리   R은 데이터를 […]

계속 읽기

[DBGUIDE 연재] R로 하는 데이터 시각화 1부

최근 dbguide.net에 관련 연재를 하고 있어서 늦게나마 블로그에 올려본다. 여태 3회가 올라갔는데, R을 왠만큼 하시는 분들은 3회부터 보시는게 도움이 될거란 생각을 해본다. 3회는 내일까지 이곳에 게시를 할 예정이다.     R로 하는 데이터 시각화의 시작 최근 빅 데이터 붐이 일어나면서 데이터 처리 플랫폼인 Hadoop과 함께 R이라는 언어도 뜨고 있으며 빅 데이터의 분석 방법으로 다시 각광을 […]

계속 읽기

The Art of R Programming 번역서 출간

  빅 데이터 분석 도구 R 프로그래밍   같은 팀분이 번역을 해서 증정본을 하나 선물 받았다.  사실 이 책은 출판사에서 번역서를 출간해도 좋을지 원서 리뷰를 해달라고 해서 원서를 미리 봤고 너무 좋은 책이라서 이미 원서의 특정 챕터에 대한 포스팅까지 썼었다.  사실 r-bloggers를 꾸준히 봐온 사람이라면 이 책이 심심치 않게 포스팅에 올라온다는 사실을 잘 아실거라 생각한다. […]

계속 읽기

R Cookbook 번역서 리뷰

전에 R cookbook 원서에 대한 리뷰를 한 기억이 있다. 그러다 이 책을 번역한다는 소식을 언젠가 들었던거 같은데 덜컥 갑자기 번역서 증정본을 받아보게 되었다. 사실 이 책은 원서가 너무 좋은 책이라서 다시 내용을 리뷰하는건 너무 소모적이란 생각이 들지만 국내의 한정된 R책의 실정을 반영해 몇 자 적어보겠다.   사실 원서는 많이 나와 있지만 국내서(번역서 포함)가 부족한 실정에 […]

계속 읽기

Churn Analysis

신포도…. 저건 신포도야…. 그렇게 생각하기 위해서 포스팅을 쓴다.   근 몇일동안 crowdanalytix.com의 Churn 분석을 수행해 봤다. 일반적인 데이터마이닝 과정의 정석을 따라가다보니 0.03374의 에러율을 가지는 모델을 만들었고, 대략 10위 정도에 머물러 있는 것을 확인했다.     간단하게 분석 과정을 요약하면, 다중공선성을 띌 수 있는 변수들을 제거하고, decision tree류의 알고리즘으로 모델링을 해보고 올린 모델이 0.05정도의 에러율을 보였으며, […]

계속 읽기

빅 데이터가 정말 도움이 되는가?

2012 빅 데이터 전문가로 가는 길 이라는 세미나를 두 달 전에 받아서 잊고 있다가 그제(7월 18일) 발표를 하게 되었다. 비가 왔음에도 처음 발표장에 들어가면서 많은 사람들에 놀랐고, 내 세션이 마지막이었는데, 사람들이 빠지지 않았음에 두 번 놀랐다. 얼마나 R에 대해서 오해를 하고 있을지 가희 짐작이 갈만했다. ㅋㅋ 사실 이날 발표의 주제는 이미 R이라는게 빅 데이터의 중심에 […]

계속 읽기

마트에서 살까 시장에서 살까?

최근에 http://data.seoul.go.kr이 열렸다는 이야기를 듣고 서둘러서 가입 후 데이터를 둘러봤다. 사실 처음 시작하는거라 미흡하지만 시민에게 데이터를 제공하는 국가 기관 중에서 가장 접근성이 좋고 직관적이며 편하다는 느낌이 확 들었다.   데이터를 둘러보다가 생필품 시장가격 조사를 한 데이터를 구했는데, 이 데이터는 농수산물 가격 중심으로 전통시장과 대형마트간의 물품 가격을 조사한 데이터이다. 게다가 구별로 나뉘어져 있고, 심지어 마트이름도 나와 […]

계속 읽기