엔터프라이즈 환경에서 R Local Repository 구축하기

엔터프라이즈 환경에서 R을 기반으로 분석 환경을 구축할때 가장 문제가 되는 점이 CRAN을 폐쇄된 내부 환경에서 어떻게 접근하느냐 이다. 물론 CRAN접속 없이 소스파일만으로도 설치가 가능하지만 대부분의 유명 패키지의 경우 다른 패키지와 의존관계를 보이고 있고 그러한 의존관계를 가지고 있는 패키지들이 타 패키지들과 의존관계를 가지고 있는 경우가 많아 CRAN없이 하나의 패키지를 설치하기 위해서 많은 불편함이 존재하고 있다. 필자의 […]

계속 읽기

Boosting Tree를 이용한 특징 추출

Tree기반의 Boosting 알고리즘을 일반적으로 GBDT라고 이야기한다. 사실 필자가 Boosting기법을 실무에 직접 활용한건 약 9년전 Yahoo!에서 였는데, 당시 지금 모델링하는 방식과는 다른 무식한 방법으로 모델링하고 적용하기를 반복하면서 깊이있는 활용과 이해는 하지 못했던 아쉬움이 있었다. 하지만 다시 그 진가를 확인하고 있는 순간이 왔고 모델링 뿐만 아니라 속성 추출에도 활용 가능한 팔방미인이라는 것을 최근에 알게 되면서 다소 방법론 […]

계속 읽기

인정받는 데이터 분석가 되기 – 외부 세미나 요약 –

얼마 전에 발표했던 외부 세미나 자료 요약을 공유한다. 발표자료에 워낙 내용이 없어서 핵심 내용 중심으로 간단한 코멘트를 해본다. 이날 발표제목은 “인정받는 데이터 분석가 되기”였다. 다소 자극적인 제목이나 실제 실무를 해보면서 느꼈던 부분에 기반해서 정리한 내용이라 이런 부분에 대해서 평소 고민했었던 분들에게는 정말 필요하고 힐링되는 내용이였으리라 생각한다. 필자에 대해 다른 분들은데이터 사이언티스트라 부르곤 하며,  자칭 데이터 분석가로 […]

계속 읽기

국토교통부 실거래가 데이터 크롤링 코드

국토교통부 실거래가 데이터 스크래핑 코드를 공유한다. 블로그에 썼던 데이터 분석에 사용한 데이터는 친분이 있는 분으로 부터 받은 데이터인데, 새로운 매매 데이터가 올라가면서 매번 요청하기 힘들것 같아서 코드를 작성해 봤고, 아래와 같이 간단하게 스크래핑 코드를 만들 수 있었다. 데이터 스크래핑 코드는 항상 그렇듯이 임시방편적이고, 코드가 깨끗하지 않다. 그래서 좀 색다르게 magrittr 방식으로 코딩해 봤으나 그다지 나아 […]

계속 읽기

R을 프로덕션 레벨에서 사용하자!

대부분 많은 사람들이 알겠지만 R은 분석언어이고, 프로덕션에션 레벨에서 사용하기 힘든 언어이다.프로덕션에서 사용하기 힘들다는건 서비스로 적용하기 힘든 프로토타이핑용 언어라는 것이다. 이런 중요한 이유중에 하나가 퍼포먼스 이슈가 있다. R언어는 상당히 많은 부분의 리소스를 데이터의 무결성 체크(NA와 같은 값들을 결정하기 위한 로직)나 분석 오류를 잡아내기 위해 할애한다. 따라서 많은 종류의 하이레벨 함수들을 사용하게 되는데, 이는 데이터 분석시 분석 […]

계속 읽기

R로 구현한 맥주 추천 엔진

데이터가 공개되면 이를 이용한 여러 재미있는 분석작업을 할 수 있다. 얼마전에 R기반 맥주 추천 구현 포스팅을 보고 몇일전에 관련 데이터 소스를 구해서 이에 대한 추천엔진 구현 포스팅을 올려본다. 이 데이터의 출처는 Beer Advocate이며 데이터 소스는 web data library이다. 사실 금번 분석의 동기는 데이터마이닝 수업 텀 프로젝트임을 미리 밝혀둔다. 일단 추천엔진은 구현 방법에 따라 너무 많은 […]

계속 읽기

라즈베리 파이를 이용한 라이프 로깅 시작

큐비보드, 비글보드 블랙을 거쳐 오랜 시행착오 끝네 라즈베리파이에 안착했다. 역시나 라즈베리파이를 만나고 나서 이쪽으로 강렬한 이끌림을 받았으며 이런 저런 창조력을 발휘발 생각에 매일 오감이 자극될 지경이다. 내가 관심 있어하는 것은 내가 흘리고 다니는 나의 데이터이다. 내가 흘리고 다니는 것이라 모두 안다고 치부하기에는 이 데이터는 너무 객관적인 데이터이라는 특징 있다. 여름이 왔으니 일단 실내 온도에 관심이 […]

계속 읽기

Pagerank on R cran packages

I’d been testing with R and Python what the page rank score on each R packages. Firstly, I need to scrape all package description pages and then parsing section “Depends”, “Imports”, “Reverse Depends” to know relation between packages. I was using Python with scrapemark for convenient.   This is “scrape.py”(no code optimization for easy understanding). […]

계속 읽기

페이스북 Data Scientist들이 어떻게 일하는가?

데이터 과학이란? – 미래는 데이터를 제품화하는 회사와 개인에게 달려있다. 전부터 번역하고 싶었던 글인데, 누군가 번역을 잘 해줘서 링크 걸었다. 특히 아래 대목은 페이스북의 데이터 과학자들이 어떤 방식으로 일하는지 아주 간단하고 명료하게 보여준 글이 아닐까 한다.   …언제든, 팀원은 파이썬으로 다단계 처리 파이프라인을 작성하고, 가설 시험을 설계하며, R을 가지고 데이터 샘플의 회귀분석을 수행하고 데이터 위주의 제품이나 […]

계속 읽기

대용량 데이터 마이닝 메모

인터넷에서 이런 저런 자료들을 찾아보면서 메모를 해본다. 메모리보다 큰 데이터를 다루기 위해서 가장 편리한 툴은 역시 SAS라고 한다. 어떤 사용자는 20GB의 데이터를 가지고 분석하는데 흡사 20MB의 데이터를 가지고 처리하는것과 별반 다를게 없는 퍼포먼스를 보여준다고 한다.  그런데 20GB보다 큰 데이터는 SAS로도 힘들다고 한다.   만일 그것보다 큰 데이터라면 R과 Hadoop이 결합된 Rhipe라는 프로젝트가 도움이 될거 같다는 […]

계속 읽기