위대한 탄생 생방송 멘토 점수 데이터

지난주 위대한 탄생을 재밋게 봐서 그 멘토 점수와 시청자 투표 결과를 찾아보고 싶었는데, 투표 결과는 비밀이라고 한다. 이유는 다음 투표에 영향을 미치지 않을까 하는 제작진의 판단 때문이였다. 여튼 찾을 수 있는 멘토 점수를 가지고 이런 저런 생각을 해봤다. > witan <- read.csv(“d:/witan/witan.csv”) > witan 이름 최종결과 순위 방시혁 이은미 신승훈 김태원 김윤아 멘토 1 데이비드오 […]

계속 읽기

어떻게 하면 Data Scientist가 될 수 있나요?

요즘 새로운 회사 명함에 들어갈 직함 비슷한 것들을 고민해 볼 기회가 있어서 검색을 해봤는데, 아주 좋은 글이 있어서 정리해 본다. 글의 제목은 How do I become a data scientist? 이라는 질문에 답글인데, Kamil의 답변이 아주 구체적이다. 요약해보면 통계적인 데이터 분석 능력, 기계학습 및 데이터 마이닝에 익숙해야 하며 분산 컴퓨팅과 정보검색에 정통해야 하고 동시에 컴퓨터 쪽 […]

계속 읽기

“희망고문”

데이터 분석/데이터 마이닝 작업 자체가 일단 “희망고문”의 연속이라고 생각한다. 대부분의 가설은 실패한다. 그러기에 많은 시간을 들여 분석한 결과들이 허사가 되는 경우가 많은데, 이 스트레스를 어떻게 승화시키느냐가 이 업무의 중요 성공 요인이 될듯하다. 무엇보다 모델 수천개 만들어서 1개만 성공해도 그 효과는 크다. 무엇보다 그렇기에 매력있는 직무인듯 하다. 이 단 한번의 성공이 큰 마약인 셈이다(흡사 금맥을 발견하는 […]

계속 읽기

대용량 데이터 마이닝 메모

인터넷에서 이런 저런 자료들을 찾아보면서 메모를 해본다. 메모리보다 큰 데이터를 다루기 위해서 가장 편리한 툴은 역시 SAS라고 한다. 어떤 사용자는 20GB의 데이터를 가지고 분석하는데 흡사 20MB의 데이터를 가지고 처리하는것과 별반 다를게 없는 퍼포먼스를 보여준다고 한다.  그런데 20GB보다 큰 데이터는 SAS로도 힘들다고 한다.   만일 그것보다 큰 데이터라면 R과 Hadoop이 결합된 Rhipe라는 프로젝트가 도움이 될거 같다는 […]

계속 읽기

두 변수의 관계 분석

요런 본격적인 데이터 분석 방법소개는 처음인데…종종 “데이터분석”카테고리에 글을 정리하고자 한다. 개인적으로는 R언어를 데이터분석에 활용하는것에 대한 정리 차원의 의미가 크다고 말하고 싶다.   EDA에서는 크게 네가지 주제를 다루게 된다. 1. resistance의 강조 2. residuals의 계산 3. 자료변수의 re-expression 4. 그래프를 이용한 revelation 아래 예제는 이 네가지를 이용한 간단한 분석을 소개한다. 먼저 데이터가 resistance를 가지게 하기 위해서 […]

계속 읽기

10T의 로그 데이터에서 새로운 비즈니스 니즈를 발굴해 봐라.

아마도 페이스북에 올린 사진을 통해 눈치 채신 분들이 있을지 모르겠지만 올해부터 방송대 정보 통계학과에 3학년 편입을 결정하게 되었다. 사실 지난 2010년 3월에 통계학 공부를 해보고자 이래저래 알아보던중 유일하게 회사를 다니면서 다닐 수 있는 통계학과에 방송대가 있다는 사실을 처음 알게 되었으나 2월에 이미 모집이 끝난 상황이어서 땅을 치고 후회를 했고 다시 1년을 기다려 편입을 하게 되었다. […]

계속 읽기