고감자 이직(전직)합니다.

야후!에서 정확히 4년의 기간을 보내고 4월 1일부터 넥스알로 출근합니다. 야후!에서 참 많은 경험을 했고 특히나 그곳에서의 웹 마이닝 분야의 경험들이 넥스알에서 새로운 일을 하는데 큰 기반으로 작용했다는 것은 누구보다 잘 알고 있습니다. ststistical modeling 분야에서 어떻게 하면 전략적으로 모델 퍼포먼스를 올릴것인지 야후!에서 많은 부분을 배웠고 아마도 이 부분은 책을 아무리 많이 읽는다고 해소되지 않았을 부분이라고 […]

계속 읽기

“희망고문”

데이터 분석/데이터 마이닝 작업 자체가 일단 “희망고문”의 연속이라고 생각한다. 대부분의 가설은 실패한다. 그러기에 많은 시간을 들여 분석한 결과들이 허사가 되는 경우가 많은데, 이 스트레스를 어떻게 승화시키느냐가 이 업무의 중요 성공 요인이 될듯하다. 무엇보다 모델 수천개 만들어서 1개만 성공해도 그 효과는 크다. 무엇보다 그렇기에 매력있는 직무인듯 하다. 이 단 한번의 성공이 큰 마약인 셈이다(흡사 금맥을 발견하는 […]

계속 읽기

대용량 데이터 마이닝 메모

인터넷에서 이런 저런 자료들을 찾아보면서 메모를 해본다. 메모리보다 큰 데이터를 다루기 위해서 가장 편리한 툴은 역시 SAS라고 한다. 어떤 사용자는 20GB의 데이터를 가지고 분석하는데 흡사 20MB의 데이터를 가지고 처리하는것과 별반 다를게 없는 퍼포먼스를 보여준다고 한다.  그런데 20GB보다 큰 데이터는 SAS로도 힘들다고 한다.   만일 그것보다 큰 데이터라면 R과 Hadoop이 결합된 Rhipe라는 프로젝트가 도움이 될거 같다는 […]

계속 읽기

뭔가 배운다는건 기분 좋은 일이다.

2주전에 TED 동영상을 보다가 우쿨렐레에 빠지게 되었는데, 악기 구입후 2주 동안 연습한 결과를 올려본다. 사실 이틀전에 이 동영상을 페이스북에 올렸는데, 뭐 완벽하지는 않지만 꽤 반응이 좋았다. ㅋ 기술이든 뭐든지간에 배움의 즐거움은 무엇봐도 바꿀 수 없는 재미인거 같고 게다가 현악기 연주가 처음인데 줄곧 흥미있었던 관악기와는 다른 또 다른 매력인듯 하다.   곡명은 자전거탄 풍경의 “너에게 난, […]

계속 읽기

두 변수의 관계 분석

요런 본격적인 데이터 분석 방법소개는 처음인데…종종 “데이터분석”카테고리에 글을 정리하고자 한다. 개인적으로는 R언어를 데이터분석에 활용하는것에 대한 정리 차원의 의미가 크다고 말하고 싶다.   EDA에서는 크게 네가지 주제를 다루게 된다. 1. resistance의 강조 2. residuals의 계산 3. 자료변수의 re-expression 4. 그래프를 이용한 revelation 아래 예제는 이 네가지를 이용한 간단한 분석을 소개한다. 먼저 데이터가 resistance를 가지게 하기 위해서 […]

계속 읽기

10T의 로그 데이터에서 새로운 비즈니스 니즈를 발굴해 봐라.

아마도 페이스북에 올린 사진을 통해 눈치 채신 분들이 있을지 모르겠지만 올해부터 방송대 정보 통계학과에 3학년 편입을 결정하게 되었다. 사실 지난 2010년 3월에 통계학 공부를 해보고자 이래저래 알아보던중 유일하게 회사를 다니면서 다닐 수 있는 통계학과에 방송대가 있다는 사실을 처음 알게 되었으나 2월에 이미 모집이 끝난 상황이어서 땅을 치고 후회를 했고 다시 1년을 기다려 편입을 하게 되었다. […]

계속 읽기

RWeka

오늘 R 스크립트를 가지고 좀 놀다가 어떻게 하면 arff파일 포멧을 가지고 import를 시켜볼까 하다가RWeka라는 패키지 테스트까지 해보게 되었다. 어쩌다 최근에는 타의에 의해서 SAS에서 SPSS, Minitab까지 다뤄야 될 기회가 있어서 해보고 있는데, 역시나 R만한게 없는거 같다는 생각이 사용해보면 볼 수록 느껴진다. 게다가 오늘은 손에 익은 Weka 명령어와 모델 그리고 그것에서 나온 output까지 R에서 볼 수 있어서 […]

계속 읽기

최근 근황

어디를 가든 최근 근황에 대해서 궁금해 하시는 분들이 있어서 이렇게 포스팅을 써보고 있다. 대부분의 “요즘 어떻게 지내고 있어?” 하는 물음에 “관망하고 있다”는 답으로 일관하고 있는데, 아무래도 블로그에 상황에 대해서 업데이트 하는게 좋을거 같아서 올려본다.   이런 저런 이유 때문에 현재 다른 회사를 알아보고 있는 중이고 여러 좋은 분들이 관심을 주셔서 이런 저런 상황이 맞으면 아마도 […]

계속 읽기

이름만으로 성별 구분

아래 글은 책(“Natural Language Processing with Python” )의 예제에 알파벳 bigram feature를 추가해서 실험 한 결과이다. (이 부분에 대한 명시 없이 글을 써놓고 있다가 댓글에서 지적을 받아 수정했다. 코드예제 책을 보며 작성하고 시간이 많이 흐른 뒤에 해당 코드를 사용해서 포스팅을 하다보니 본의아니게 큰 실수를 하고 말았다. 나중에라도 이런 명시가 없어서 벌어질 사태를 생각하면 지적해준 분에게 […]

계속 읽기

‘개발 거의 다 했다’는 말은…

개발자들이 ‘개발 거의 다 끝났다’라고 하는 말은 이제 테스트 해 볼 만한 모듈이 만들어 졌다는 뜻으로 받아들여야 한다. 개발자도 사람인지라 ‘인지편향’의 경향을 지닐 수 밖에 없다. 자신이 만든 기능만을 테스트하고 테스트 케이스도 앞으로 들어올 데이터를 모두 대변할 만한 그런 샘플링 데이터가 아니라, 지극히 편향된 데이터로만 테스트를 하게 된다. 따라서 이전 기능이 모두 잘 돌아가는지 테스트를 […]

계속 읽기