고감자 – 페이지 17 – from __future_

Churn Analysis

작성일자 2012년 07월 24일 고감자님이 작성

신포도…. 저건 신포도야…. 그렇게 생각하기 위해서 포스팅을 쓴다. 근 몇일동안 crowdanalytix.com의 Churn 분석을 수행해 봤다. 일반적인 데이터마이닝 과정의 정석을 따라가다보니 0.03374의 에러율을 가지는 모델을 만들었고, 대략 10위 정도에 머물러 있는 것을 확인했다. 간단하게 분석 과정을 요약하면, 다중공선성을 띌 수 있는 변수들을 제거하고, decision tree류의 알고리즘으로 모델링을 해보고 올린 모델이 0.05정도의 에러율을 보였으며, […]

계속 읽기

빅 데이터가 정말 도움이 되는가?

작성일자 2012년 07월 20일 고감자님이 작성

2012 빅 데이터 전문가로 가는 길 이라는 세미나를 두 달 전에 받아서 잊고 있다가 그제(7월 18일) 발표를 하게 되었다. 비가 왔음에도 처음 발표장에 들어가면서 많은 사람들에 놀랐고, 내 세션이 마지막이었는데, 사람들이 빠지지 않았음에 두 번 놀랐다. 얼마나 R에 대해서 오해를 하고 있을지 가희 짐작이 갈만했다. ㅋㅋ 사실 이날 발표의 주제는 이미 R이라는게 빅 데이터의 중심에 […]

계속 읽기

마트에서 살까 시장에서 살까?

작성일자 2012년 07월 12일 고감자님이 작성

최근에 http://data.seoul.go.kr이 열렸다는 이야기를 듣고 서둘러서 가입 후 데이터를 둘러봤다. 사실 처음 시작하는거라 미흡하지만 시민에게 데이터를 제공하는 국가 기관 중에서 가장 접근성이 좋고 직관적이며 편하다는 느낌이 확 들었다. 데이터를 둘러보다가 생필품 시장가격 조사를 한 데이터를 구했는데, 이 데이터는 농수산물 가격 중심으로 전통시장과 대형마트간의 물품 가격을 조사한 데이터이다. 게다가 구별로 나뉘어져 있고, 심지어 마트이름도 나와 […]

계속 읽기

데이터사이언티스트를 말하다

작성일자 2012년 07월 11일 고감자님이 작성

원문링크 : http://www.sciencetimes.co.kr/article.do?todo=view&atidx=0000064069 빅데이터 처리 플랫폼과 분석을 하는 ‘NexR’에서 데이터사이언티스로 일하고 있는 전희원 씨. 예전부터 포털과 솔루션 회사에서 컴퓨터 공학적 측면의 데이터를 다뤄왔다. 빅데이터 처리를 위해 이것저것 배우다 보니 언젠가부터 주변에서 빅데이터 분석가인 데이터사이언티스트라고 부르기 시작했다. 그를 만나 데이터사이언티스트에 대한 궁금증을 풀어봤다. 컴퓨터 공학적 능력은 기본 “사회생활을 시작하면서 데이터 관련 […]

계속 읽기

Reproducible Analysys with R

작성일자 2012년 07월 06일 고감자님이 작성

언젠가 기회가 되면 이 토픽에 대해서 발표를 하게 될지 모르겠다. 하지만 그때가 되기전에 한번 정리하고자 블로그에 올려본다. 재현성 있는 분석 혹은 리서치는 그 토픽에 대한 지속적인 연구를 가능하게 만드는 장점이 있다. 나도 역시 몇몇의 논문을 썼지만 코드나 데이터는 남아 있지 않다. 논문만 남았는데, 누군가 나의 논문 주제를 가지고 추가 연구를 하기가 정말 힘들어지는 단점이 남아있다. […]

계속 읽기

KoNLP 0.73 버전 업데이트

작성일자 2012년 07월 05일 고감자님이 작성

금 버전에서 나아진 사항은 아래와 같다. Version 0.73—————————————————————————— * add messages on is.hangul and is.jamo if input is not UTF-8. * set -Xmx512m when the time user system is poor on memory. * fix issue "Continuous "[:space:]" in sentence can make infinite wait." 기능상 그다지 별로 달라진것은 없고, 거의 버그 수정이나 편의성 향상 […]

계속 읽기

한국 지진 데이터 시각화 (1978~2012)

작성일자 2012년 07월 03일 고감자님이 작성

ggmap으로 spatial 데이터 분석을 해보기 위해서 데이터를 찾던 중 기상청에서 제공하는 지진 통계 데이터를 가지고 하면 어떨까 하는 생각에 1978년도부터 지진 데이터를 가지고 플로팅을 해보기로 했다. ggmap은 google map 뿐만 아니라 openstreet map, stamen design, cloud made map 을 소스로 사용해 spatial 데이터 분석을 할 수 있는 패키지로 최근 ggplot2를 기반으로 layering 시스템을 채용해 ggplot2를 […]

계속 읽기

Reproducible Research with R Markdown

작성일자 2012년 06월 19일 고감자님이 작성

요즘 재현성 있는 리서치를 하기 위한 R에서의 툴들이 많이 나오고 있다. 금번 UseR! 2012에서도 이 주제가 가장 큰 주제중에 하나였다. 우리가 실험, 데이터 분석, 논문작성과 같은 리서치 업무를 수행하면서 코드와 데이터, 그리고 문서화를 분리함으로써 나오는 오류를 줄이고, 이를 하나로 통합하여 관리하고자 하는게 핵심이다. 이는 단순한 리서치에서만 통용되는 문제가 아니라, 데이터 분석 업무 전반에 걸친 문제와도 […]

계속 읽기

DBguide 인터뷰 – “플랫폼보다 데이터 분석부터 시작해보세요” –

작성일자 2012년 06월 14일 고감자님이 작성

“플랫폼보다 데이터 분석부터 시작해보세요” 데이터 사이언티스트 전희원 전희원 데이터 사이언티스트와 최근에 이슈가 되고 있는 빅데이터와 데이터 분석에 대한 이야기를 나눴다. 자발적인 공부가 오늘날 자신을 만들었다는 전희원 씨는 현재 방송통신대 통계학과 4학년에 재학 중이다. 전희원 씨는 인하대 공대를 나와 고려대에서 머신러닝과 데이터 마이닝으로 석사학위를 받았다. 다음소프트와 야후!코리아에서 근무하면서 기계학습 검색 랭킹, Spelling Suggestion같은 대용량 로그 […]

계속 읽기

UseR! 2012 미국 출장 – 1 –

작성일자 2012년 06월 14일 고감자님이 작성

블로그에 예고했던 것처럼 2012.06.10 부터 17일까지 UseR! 2012 행사 참석차 미국에 출장을 왔다. 지금 이 글을 쓰는 시점은 현지시간 6월 14일 새벽 2시 즈음이다. 13일에 함께 가는 분이 UseR! 2012 오럴 세션에 발표를 하시기 때문에 그리고 나 자신도 포스터 발표를 진행해야 했기에 어제 까지는 정말 정신없이 보냈고 그 때문에 지금 블로그 글을 올린다. 내쉬빌이라는 곳이 […]

계속 읽기