정보 통계학과 오프라인 강의 후기

황사가 날리던 오늘 이태림 교수님의 강의 정말 대단했다. 통계학 개론 설명… 익숙한 내용임에도 이론적인 뼈대에 흥미로운 살을 붙여서 열강을 하시는 모습에 너무 감동했다. 같이 강의를 들었던 예전 직장 동료분도 팬이 되버릴거 같다는 말씀을 하시더라. 게다가 온라인 수업에서 말할 수 없었던 이런 저런 학과 이야기와 본인이 통계학을 공부하며 70년대에 코볼로 코딩하던 이야기 등등 2시간 쉬는 시간 […]

계속 읽기

필요에 의해서 구현한 R 결측치 채우는 함수

어떤 데이터든 실무에서는 결측치에 대한 전략이 있어야 한다. 그리고 이에대한 적절한 처리 후 데이터 분석에 들어 가야 한다. 물론 다양한 결측치 채우기 전략이 있을 수 있는데, 여기서는 간단하게 중앙값, 평균, 그리고 모드(mode)를 이용하고, 적절하게 숫자형, 범주형데이터를 모두 처리한다. 해당 리스트에서 결측치가 존재할 경우 정규성 테스트를 한 이후 0.05유의 수준에 따라 정규분포를 하고 있다면 평균값을 구해 […]

계속 읽기

위대한 탄생 생방송 멘토 점수 데이터

지난주 위대한 탄생을 재밋게 봐서 그 멘토 점수와 시청자 투표 결과를 찾아보고 싶었는데, 투표 결과는 비밀이라고 한다. 이유는 다음 투표에 영향을 미치지 않을까 하는 제작진의 판단 때문이였다. 여튼 찾을 수 있는 멘토 점수를 가지고 이런 저런 생각을 해봤다. > witan <- read.csv(“d:/witan/witan.csv”) > witan 이름 최종결과 순위 방시혁 이은미 신승훈 김태원 김윤아 멘토 1 데이비드오 […]

계속 읽기

어떻게 하면 Data Scientist가 될 수 있나요?

요즘 새로운 회사 명함에 들어갈 직함 비슷한 것들을 고민해 볼 기회가 있어서 검색을 해봤는데, 아주 좋은 글이 있어서 정리해 본다. 글의 제목은 How do I become a data scientist? 이라는 질문에 답글인데, Kamil의 답변이 아주 구체적이다. 요약해보면 통계적인 데이터 분석 능력, 기계학습 및 데이터 마이닝에 익숙해야 하며 분산 컴퓨팅과 정보검색에 정통해야 하고 동시에 컴퓨터 쪽 […]

계속 읽기

고감자 이직(전직)합니다.

야후!에서 정확히 4년의 기간을 보내고 4월 1일부터 넥스알로 출근합니다. 야후!에서 참 많은 경험을 했고 특히나 그곳에서의 웹 마이닝 분야의 경험들이 넥스알에서 새로운 일을 하는데 큰 기반으로 작용했다는 것은 누구보다 잘 알고 있습니다. ststistical modeling 분야에서 어떻게 하면 전략적으로 모델 퍼포먼스를 올릴것인지 야후!에서 많은 부분을 배웠고 아마도 이 부분은 책을 아무리 많이 읽는다고 해소되지 않았을 부분이라고 […]

계속 읽기

“희망고문”

데이터 분석/데이터 마이닝 작업 자체가 일단 “희망고문”의 연속이라고 생각한다. 대부분의 가설은 실패한다. 그러기에 많은 시간을 들여 분석한 결과들이 허사가 되는 경우가 많은데, 이 스트레스를 어떻게 승화시키느냐가 이 업무의 중요 성공 요인이 될듯하다. 무엇보다 모델 수천개 만들어서 1개만 성공해도 그 효과는 크다. 무엇보다 그렇기에 매력있는 직무인듯 하다. 이 단 한번의 성공이 큰 마약인 셈이다(흡사 금맥을 발견하는 […]

계속 읽기

대용량 데이터 마이닝 메모

인터넷에서 이런 저런 자료들을 찾아보면서 메모를 해본다. 메모리보다 큰 데이터를 다루기 위해서 가장 편리한 툴은 역시 SAS라고 한다. 어떤 사용자는 20GB의 데이터를 가지고 분석하는데 흡사 20MB의 데이터를 가지고 처리하는것과 별반 다를게 없는 퍼포먼스를 보여준다고 한다.  그런데 20GB보다 큰 데이터는 SAS로도 힘들다고 한다.   만일 그것보다 큰 데이터라면 R과 Hadoop이 결합된 Rhipe라는 프로젝트가 도움이 될거 같다는 […]

계속 읽기

뭔가 배운다는건 기분 좋은 일이다.

2주전에 TED 동영상을 보다가 우쿨렐레에 빠지게 되었는데, 악기 구입후 2주 동안 연습한 결과를 올려본다. 사실 이틀전에 이 동영상을 페이스북에 올렸는데, 뭐 완벽하지는 않지만 꽤 반응이 좋았다. ㅋ 기술이든 뭐든지간에 배움의 즐거움은 무엇봐도 바꿀 수 없는 재미인거 같고 게다가 현악기 연주가 처음인데 줄곧 흥미있었던 관악기와는 다른 또 다른 매력인듯 하다.   곡명은 자전거탄 풍경의 “너에게 난, […]

계속 읽기

두 변수의 관계 분석

요런 본격적인 데이터 분석 방법소개는 처음인데…종종 “데이터분석”카테고리에 글을 정리하고자 한다. 개인적으로는 R언어를 데이터분석에 활용하는것에 대한 정리 차원의 의미가 크다고 말하고 싶다.   EDA에서는 크게 네가지 주제를 다루게 된다. 1. resistance의 강조 2. residuals의 계산 3. 자료변수의 re-expression 4. 그래프를 이용한 revelation 아래 예제는 이 네가지를 이용한 간단한 분석을 소개한다. 먼저 데이터가 resistance를 가지게 하기 위해서 […]

계속 읽기

10T의 로그 데이터에서 새로운 비즈니스 니즈를 발굴해 봐라.

아마도 페이스북에 올린 사진을 통해 눈치 채신 분들이 있을지 모르겠지만 올해부터 방송대 정보 통계학과에 3학년 편입을 결정하게 되었다. 사실 지난 2010년 3월에 통계학 공부를 해보고자 이래저래 알아보던중 유일하게 회사를 다니면서 다닐 수 있는 통계학과에 방송대가 있다는 사실을 처음 알게 되었으나 2월에 이미 모집이 끝난 상황이어서 땅을 치고 후회를 했고 다시 1년을 기다려 편입을 하게 되었다. […]

계속 읽기