Markdown으로 작성한 문서를 PDF로 변환하기

Markdown문법은 꽤나 편리한 인터페이스를 제공하고 있다고 생각한다. 무엇보다 간단한 문법으로 미려한 문서를 만들 수 있을 뿐 아니라 필요에 따라 여러 기법을 사용할 수 있는 장점을 제공하기 때문이다. 하지만 몇가지 단점중에 하나는 이런 문서를 PDF로 만들기가 꽤나 번거롭다는 것이다. 물론 웹 브라우저를 이용해 PDF로 출력하는게 가능하지만 레이아웃을 HTML을 기반으로부터 변환이 되기 때문에 그다지 좋지 않은 결과물이 […]

계속 읽기

글쓰기 혹은 책쓰기의 함정…. citation…

오늘 참으로 이상한 전화를 받았다. 내 코드가 책에 쓰였는데, 양해를 구하고 싶다는 전화였다. 그래서 나는 citation(“KoNLP”)의 출력 텍스트가 참고문헌이나 footnote로 들어가면 아무문제 없다고 했고 텍스트에 내 이름을 직접 언급하거나 이렇게 전화로 연락할 필요 없다고 하고 전화를 끊었다. 이 전화를 받고 몇년전에 내가 작성한 블로그 글의 citation을 명확하게 하지 않아 벌어졌던 연말 해프닝이 기억이 났다.  사실 […]

계속 읽기

R을 프로덕션 레벨에서 사용하자!

대부분 많은 사람들이 알겠지만 R은 분석언어이고, 프로덕션에션 레벨에서 사용하기 힘든 언어이다.프로덕션에서 사용하기 힘들다는건 서비스로 적용하기 힘든 프로토타이핑용 언어라는 것이다. 이런 중요한 이유중에 하나가 퍼포먼스 이슈가 있다. R언어는 상당히 많은 부분의 리소스를 데이터의 무결성 체크(NA와 같은 값들을 결정하기 위한 로직)나 분석 오류를 잡아내기 위해 할애한다. 따라서 많은 종류의 하이레벨 함수들을 사용하게 되는데, 이는 데이터 분석시 분석 […]

계속 읽기

[R meetup] R 패키지 개발하기

지난 12월 13일 도곡동 KAIST에서 열린 R meetup에서 발표한 발표자료를 첨부한다.   KoNLP, Sejong, Ruchardet 패키지를 개발하면서 했던 시행착오들을 다른 분들은 하지 않길 바라는 마음에서 올해 꼭 하고 싶었던 meetup이었고, 발표자료보다 말로 그리고 쉘을 통해서 했던 설명들이 대부분이었던 발표였다.   발표자료 다운로드

계속 읽기

Ruchardet 패키지 submit 완료

R에서 입력되는 문서나 데이터셋의 인코딩을 알아내는 작업은 상당히 귀찮은 작업이다. 이 작업 R 쉘에서 간단하게 수행하기 위해 Ruchardet란 패키지를 개발해 CRAN에 submit하였다. 원 알고리즘 및 코드는 Mozilla 계열의 브라우저의 html파일 인코딩 예측을 하는 모듈기반에서 개발을 했으며, 패키지 라이센스도 MPL을 동일하게 따랐다. 아래와 같이 문자열에 대해서 바이트 시퀀스의 패턴을 보고 인코딩 검출을 한다. ## install.packages("Ruchardet") library(Ruchardet) […]

계속 읽기

R로 구현한 맥주 추천 엔진

데이터가 공개되면 이를 이용한 여러 재미있는 분석작업을 할 수 있다. 얼마전에 R기반 맥주 추천 구현 포스팅을 보고 몇일전에 관련 데이터 소스를 구해서 이에 대한 추천엔진 구현 포스팅을 올려본다. 이 데이터의 출처는 Beer Advocate이며 데이터 소스는 web data library이다. 사실 금번 분석의 동기는 데이터마이닝 수업 텀 프로젝트임을 미리 밝혀둔다. 일단 추천엔진은 구현 방법에 따라 너무 많은 […]

계속 읽기

우연히 제안받은 글쓰기가 책이 되기까지…

책이 나왔다. 제목은 R로 하는 데이터 시각화 … 약 200페이지정도 되는 이 책이 나오기까지 정말 많은 과정을 거쳤는데… 책을 거의 쓸 생각을 하지 못했던 작년 6월쯤 한 프리렌서 편집자분께서 가볍게 연재로 시작하자는 말씀을 듣고 시작한 시각화책이 이렇게 출간까지 될 줄이야 정말 예상치 못한 일이다. 연재로 끝날 집필이 너무 아까워 그 콘텐츠를 Latex으로 다시 구성해서 책과 […]

계속 읽기

data.table 소개

분석해야될 데이터가 많아지면 프로세싱에 많은 시간이 걸리게 되고 분석 소요 시간에 대해서 예측할 수 없는 상황에 처하게 된다. 따라서 자신의 데이터 특징에 맞는 데이터 처리 라이브러리를 사용하는게 중요해진다. 많은 패키지가 있기 때문에 이런 선택의 고민에 빠지게 되는데, 이럴때 data.table은 하나의 황금룰로 가져가는것도 나쁘지 않을듯 하다. 예전 외부 세미나에서 data.table은 컬럼에 인덱스를 걸 수 있는거 빼놓고는 […]

계속 읽기

R 실무 데이터 분석 세미나 참고자료

R 실무 데이터 분석 세미나에 참여해 주셔서 감사드립니다. 저도 이번 시간을 통해 R 사용자들이 어떤 부분에 관심이 있고 궁금해 하는지 잘 이해할 수 있었습니다. 이날 정말 많은 내용들을 전달해 드리려 쉬는시간도 거의 없이 7시간을 계속 이야기 했는데도 시간 관계상 간단하게 언급한 내용들과 사전에 공유를 드리지 못한 자료들을 이곳에 올려 놓으니 많은 참고 바라겠습니다. extrafont를 사용한 […]

계속 읽기

서울시 공공 wifi 시각화

서울 공공 wifi 현황 데이터를 가져와 좌표 체계 WGS84로 전환한 이후에 이를 기반으로 몇 가지 시각화를 해봤다. library(ggplot2) wifi_new <- read.csv("http://dl.dropboxusercontent.com/u/8686172/wifi_wgs_euc_kr.csv", encoding = "EUC-KR") ggplot(wifi_new, aes(x = factor(1))) + geom_bar(aes(fill = INSTL_DIV), width = 1) + coord_polar(theta = "y") + xlab("") + ylab("") 위 그래프를 보면 꼭히 시장 점유율대로 공공에 지원하는게 아님을 알 수 있다. […]

계속 읽기