베이지언과 여론조사 데이터를 이용한 선거 결과 예측 – 6.4 서울 시장 선거 –

Background 대학원 수업으로 베이즈 통계학 과목을 수강하면서 개인적으로 관심을 가지고 있었던 선거 예측을 해보기로 했다. 물론 여론조사 자료는 선거 관리 위원회 사이트에서 직접 수집했다(손으로). 결과적으로 이야기 하자면 예측치와 6.4 선거의 실제 지지율 차이가 불과 0.6%로 계산되었다. 이 수치는 엉망인 여론조사 결과까지 알면서 포함시킨 결과이고 아래 이야기 하겠지만 잘못된 여론조사를 제외했을 경우 실제 지지율 격차 13%를 […]

계속 읽기

RStudio New Version 리뷰 (V. 0.98.932)

RStudio는 R을 사용하는데 필수 불가결한 에디터 중에 하나이다. 특히나 뛰어난 분석 통합 환경과 더불어 RR(Reproducible Research)관련 기능은 정말 타의 추종을 불허한다. 필자가 이렇게 RStudio 새로운 버전을 리뷰하는 이유는 금번 버전업에 RR관련 많은 내용들이 추가되었기 때문이다.   관련 업데이트 내용은 아래와 같으며 Markdown v2에 대한 설명은 이 링크에서 볼 수 있다.    R Markdown Next generation of […]

계속 읽기

진정한 R 사용자의 축제…

10년 넘게 이런저런 커뮤니티를 활동하면서 느낀 부분은 10년 전 만큼의 커뮤니티의 순수성이 많이 없어지고 있다는 것이었다. 이런 문제에 많은 실망을 하는 바람에 오래 알던 지인들과 다투기도 하는 상황이 벌어지기도 일쑤여서 제작년 이후로는 커뮤니티 활동을 하지 않고 있었다. 특히 R커뮤니티의 경우 다양한 분야와 엮일 수 있는 아주 큰 접점이 되는 기술이여서 그 혼탁함은 이루 말할 수 […]

계속 읽기

여론조사 결과를 기반으로한 베이지안 선거 예측

최근 베이지언을 이론적으로 심도있게 공부하며 활용에 대한 고민을 하다 재미있게도 6.4지방선거를 앞두로 여론조사들이 나오고 있어 이 데이터를 기반으로 간단한 작업을 해보았다. 여기저기 흩어져 있는 여론조사 결과를 정리해둔 웹 페이지를 근거로 사후분포를 계속 업데이트 하는 방법으로 예측값을 도출했으며 코드를 보면 알겠지만 이항분포의 conjugate prior인 베타분포를 기반으로 계산을 하였다. 예측은 모수의 최빈값으로 도출하였으며 분산도 함께 도출해 모수의 […]

계속 읽기

꽤 오랜 시간이 걸릴 R 코드를 돌린다면…

어느정도 R을 사용해본 사람은 알텐데, R언어는 스레드를 제공하지 않는다. 이 때문에 쉘에서의 작업은 대부분 동기적(sync) 방식으로 동작한다. 이 때문에 발생하는 문제는 바로 시간이 오래 걸리는 작업이 실행될 경우인데, 필자의 경우 R쉘에서 Hadoop관련 잡을 돌리기도 하고 데이터베이스와 연동해 쿼리를 실행하기도 해 이런 작업이 실행될 때 기다리거나 다른 주제의 일을 하곤한다. 하나의 분석 작업을 하기 위해 다양한 […]

계속 읽기

Heartbeat

마지막 블로그 포스팅을 쓴지 한달 반이 지나 뭔가 블로그에 써야될듯 한 그런 사명감때문에 무작정 이렇게 텍스트 에디터를 열었다. 간단하게 최근 현황을 말해본다면 회사 내에서는 맨하튼 프로젝트의 핵폭탄처럼 뭔가 엄청난 왕건이들을 분석하고 만들고 있다는 것과 그 왕건이 중에 큰 애정을 가지고 있는 것이 매우 잘 동작해 흡사 살아있는 생물처럼 느껴진다는 사실 정도라 이야기 해본다. 그 일에 […]

계속 읽기

Markdown으로 작성한 문서를 PDF로 변환하기

Markdown문법은 꽤나 편리한 인터페이스를 제공하고 있다고 생각한다. 무엇보다 간단한 문법으로 미려한 문서를 만들 수 있을 뿐 아니라 필요에 따라 여러 기법을 사용할 수 있는 장점을 제공하기 때문이다. 하지만 몇가지 단점중에 하나는 이런 문서를 PDF로 만들기가 꽤나 번거롭다는 것이다. 물론 웹 브라우저를 이용해 PDF로 출력하는게 가능하지만 레이아웃을 HTML을 기반으로부터 변환이 되기 때문에 그다지 좋지 않은 결과물이 […]

계속 읽기

글쓰기 혹은 책쓰기의 함정…. citation…

오늘 참으로 이상한 전화를 받았다. 내 코드가 책에 쓰였는데, 양해를 구하고 싶다는 전화였다. 그래서 나는 citation(“KoNLP”)의 출력 텍스트가 참고문헌이나 footnote로 들어가면 아무문제 없다고 했고 텍스트에 내 이름을 직접 언급하거나 이렇게 전화로 연락할 필요 없다고 하고 전화를 끊었다. 이 전화를 받고 몇년전에 내가 작성한 블로그 글의 citation을 명확하게 하지 않아 벌어졌던 연말 해프닝이 기억이 났다.  사실 […]

계속 읽기

R을 프로덕션 레벨에서 사용하자!

대부분 많은 사람들이 알겠지만 R은 분석언어이고, 프로덕션에션 레벨에서 사용하기 힘든 언어이다.프로덕션에서 사용하기 힘들다는건 서비스로 적용하기 힘든 프로토타이핑용 언어라는 것이다. 이런 중요한 이유중에 하나가 퍼포먼스 이슈가 있다. R언어는 상당히 많은 부분의 리소스를 데이터의 무결성 체크(NA와 같은 값들을 결정하기 위한 로직)나 분석 오류를 잡아내기 위해 할애한다. 따라서 많은 종류의 하이레벨 함수들을 사용하게 되는데, 이는 데이터 분석시 분석 […]

계속 읽기

[R meetup] R 패키지 개발하기

지난 12월 13일 도곡동 KAIST에서 열린 R meetup에서 발표한 발표자료를 첨부한다.   KoNLP, Sejong, Ruchardet 패키지를 개발하면서 했던 시행착오들을 다른 분들은 하지 않길 바라는 마음에서 올해 꼭 하고 싶었던 meetup이었고, 발표자료보다 말로 그리고 쉘을 통해서 했던 설명들이 대부분이었던 발표였다.   발표자료 다운로드

계속 읽기