rOpenSci Text Workshop 참석차 런던에…

rOpenSci Text Workshop에 참석하기 위해 가족과 영국에 왔다.     이 워크샵은 올 연초에 초대를 받아 Europian Rearch Conceil의 펀딩으로 숙박과 항공료를 제공받아 오게 되었다. 무엇보다 변방의 언어인 한글에 대해서 관심을 가지고 초청해준 관계자 분들에게 감사의 마음을 전하고 싶다. 이 워크샵의 목적은 R을 기반으로 하는 텍스트 분석 패키지들의 개발자들이 모여 서로의 경험을 공유하고 추후 협력의 […]

계속 읽기

2016년 결산

2016년은 연말 회식도 그다지 많지 않아 2015년만큼이나 정신없이 지내지 않은 것 같다. 아마도 최근 최순실 사태 및 여러 마무리 되지 않은 사회적 이슈와 더불어 개인적으로도 마무리해야 되는 것들에 대한 정리로 바쁘게 연말이 지난 것 같다. 그래도 한해 소회 정도는 블로그에 올리는게 연례 행사인지라 간단하게 정리하고자 한다.   가족 두 아이의 아버지로서 그리고 한 여자의 남편으로서 […]

계속 읽기

Overfitting을 피해보자!

Overfitting은 노이즈와 시그널을 구분하지 못하고 노이즈를 과도하게 학습에 사용하게 됨으로써 미래의 데이터에 대한 예측 퍼포먼스를 갉아 먹는 모형 상태를 의미한다.  이런 부분이 최근 빅 데이터 시대에 문제가 되는건 바로 다양한 데이터 때문이다.  필자는 지난번 포스팅에서 데이터가 부족해서 일어났던 과거의 오버피팅이 속성이 다양해지면서 발생하는 오버피팅문제로 전환 시켰다고 언급했는데, Lasso와 같은 Regularization 이외의 방식으로 오버피팅을 피하는 방안들을 […]

계속 읽기

소중한것들에 회귀하는 한해가 되길…

2016년 새해가 밝았다. 참으로 상투적인 표현이다. 새해가 밝았는데, 별로 새로운 느낌은 없기 때문이다. 그렇지만 이런저런 다짐 그리고 과거를 뒤돌아 보는 행위를 하면서 그 느낌을 느껴보려 한다. 작년 한해는 비즈니스 데이터 분석 부분에서 가장 많은 고민을 해왔던 한해였다. 팀에서의 선배로서의 역할 그리고 내가 해야 될 영역의 분석, 다른 조직들간의 커뮤니케이션과 이런 저런 이해되지 않았고 지금도 이해하기 […]

계속 읽기

3D 프린터와 이변량 정규분포

3D 프린터 라즈베리파이 기반 회로질의 가장 어려운점은 케이싱을 하는게 매우 어렵다는 것이다. 그래서 다이소 같은 곳에 가서 여성분들 잡동사니 넣어두는 아크릴 상자를 만든 회로의 케이스로 쓰던지 혹은 초등학생 필통에 구멍을 뚫어서 만들곤 했다. 아크릴 상자의 경우 적당한 구멍을 뚫기 위해 시도를 하다가 상자가 깨지는 경우가 99%였고, 초딩 필통도 종이 필통이 아니면 엄두도 나지 않는 작업이었다. […]

계속 읽기

회사 사보 인터뷰

오랜만에 블로그 워드프레스 웹 에디터로 글을 써본다. 얼마전에 회사 사보에서 인터뷰를 했는데(처음엔 그룹 사보인줄 알았다), 관련 글을 올려도 큰 문제 없다는 이야기를 듣고 이렇게 인터뷰 글을 올려본다(백업용이다 ^^). STK 마켓탑 회사 내에서는 마켓탑이라는 호칭으로 한 석달전에 전사 세미나를 하고 그걸 녹화한 방송이 몇일 후 전사 방송으로 송출되는 사건이 있었는데, 아마도 이 인터뷰 글이 그 여파의 […]

계속 읽기

베이지언 책에 대한 이야기

뭔가 새로운걸 배울땐 여러 책을 구입해 겹쳐읽기를 하는 패턴으로 학습을 하곤한다. 이 방법의 장점은 같은 주제의 설명을 다른 저자로부터 들을 수 있다는 것이고 이 덕분에 빨리 제대로된 이해를 할 수 있게 된다.  이번 전반기에 구입한 베이지언 책들은 크게 국내서와 해외서로 나눌 수 있는데 개인적으로 가장 만족감을 느꼈던 국내서 한권과 해외서 한권을 소개한다. 물론 개인의 여건에 […]

계속 읽기

베이지언과 여론조사 데이터를 이용한 선거 결과 예측 – 6.4 서울 시장 선거 –

Background 대학원 수업으로 베이즈 통계학 과목을 수강하면서 개인적으로 관심을 가지고 있었던 선거 예측을 해보기로 했다. 물론 여론조사 자료는 선거 관리 위원회 사이트에서 직접 수집했다(손으로). 결과적으로 이야기 하자면 예측치와 6.4 선거의 실제 지지율 차이가 불과 0.6%로 계산되었다. 이 수치는 엉망인 여론조사 결과까지 알면서 포함시킨 결과이고 아래 이야기 하겠지만 잘못된 여론조사를 제외했을 경우 실제 지지율 격차 13%를 […]

계속 읽기

RStudio New Version 리뷰 (V. 0.98.932)

RStudio는 R을 사용하는데 필수 불가결한 에디터 중에 하나이다. 특히나 뛰어난 분석 통합 환경과 더불어 RR(Reproducible Research)관련 기능은 정말 타의 추종을 불허한다. 필자가 이렇게 RStudio 새로운 버전을 리뷰하는 이유는 금번 버전업에 RR관련 많은 내용들이 추가되었기 때문이다.   관련 업데이트 내용은 아래와 같으며 Markdown v2에 대한 설명은 이 링크에서 볼 수 있다.    R Markdown Next generation of […]

계속 읽기

진정한 R 사용자의 축제…

10년 넘게 이런저런 커뮤니티를 활동하면서 느낀 부분은 10년 전 만큼의 커뮤니티의 순수성이 많이 없어지고 있다는 것이었다. 이런 문제에 많은 실망을 하는 바람에 오래 알던 지인들과 다투기도 하는 상황이 벌어지기도 일쑤여서 제작년 이후로는 커뮤니티 활동을 하지 않고 있었다. 특히 R커뮤니티의 경우 다양한 분야와 엮일 수 있는 아주 큰 접점이 되는 기술이여서 그 혼탁함은 이루 말할 수 […]

계속 읽기