블로그 구독자 증가 추이
구글 피드 버너에서 이 블로그에 대한 통계 데이터 csv 파일을 다운받아서 ggplot2로 플로팅 해봤다. 아래 보면 2010년 중반의 갑작스런 구독자 감소는 데이터 누락인지, 아니면 많은 RSS 리더기 업체가 서비스를 중단해서 그런건지 모르지만 결국 구글 리더가 흡수했는지 전체적인 증가 추세에는 큰 영향이 없는걸로 보인다. (아주 짧은 주기의 상승 하강이 있는데, 이런 것을 보니 평활화를 해야 […]
계속 읽기당신의 나의 뜨거운 감자!
구글 피드 버너에서 이 블로그에 대한 통계 데이터 csv 파일을 다운받아서 ggplot2로 플로팅 해봤다. 아래 보면 2010년 중반의 갑작스런 구독자 감소는 데이터 누락인지, 아니면 많은 RSS 리더기 업체가 서비스를 중단해서 그런건지 모르지만 결국 구글 리더가 흡수했는지 전체적인 증가 추세에는 큰 영향이 없는걸로 보인다. (아주 짧은 주기의 상승 하강이 있는데, 이런 것을 보니 평활화를 해야 […]
계속 읽기빅 데이터 시대에 데이터 사이언티스트의 요구 능력이 뭔지 정말 알고 싶다면 빅 데이터 분석 프로젝트를 직접 해보면 된다. 경험해보면 Linux 기반의 데이터 핸들링이 왜 중요하고. Hive, Hadoop이 왜 중요하며, R이 왜 중요한지 알게된다. 통계 전공이나 산업공학 전공하신 분들은 CS쪽 경험이 부족해 어려움을 겪는 걸 많이 봤고, CS 전공 분들은 통계학적인 지식이 부족해서 고생하시는 것을 많이 […]
계속 읽기UseR! 2012에 abstract를 제출했다는 이야기를 했었는데, 그 결과를 금주 초에 받게 되었다. 결과는 예상했던 대로 accept… Text Mining을 이용한 SNA인데.. 이 발표의 abstract를 제출한 이유는 일단 회사에서 해외 발표를 할 경우에는 출장 형식으로 지원을 해준다는 것이 컸고 이번 기회를 빌어서 메일로만 이야기 했던 분들하고 안면을 좀 트고.. 첫날에 있을 Tutorial 세션에서 좀 배워보고자 하는 욕구가 […]
계속 읽기최근 rjson이 업데이트 되었는데, 정말 기다리고 기다리던 CJK 인코딩 문제가 해결되었다. 그래서 이것을 활용하는 twitteR 패키지에서 이젠 정상적으로 한글이 나오게 되었다. 이 패키지를 활용하면 트위터 팔로워들 그리고 내가 팔로잉 하는 사람들의 정보를 가져와서 분석할 수 있고, 이 밖에도 그들 각자의 트위터 문장을 분석할 수 있다. 비로소 KoNLP가 가장 많이 활용될 수 있는 패키지가 이제 정상화 […]
계속 읽기외근, 몸살에 시달리면서 준비한 발표자료로 3회 R meetup 발표를 했다. 금번 모임 주제는 시각화(visualization)였으며, ggplot2를 살펴보는 와중에 전에 링크드인 분석가가 했던 이야기 “"Visualization is more important than you think."가 계속 머리속에 맴돌았다. 데이터 분석에서 생각보다 중요한 것…. 시각화… 국내 R 사용자를 위해 R meetup을 하자고 처음 제안한 이후에, 생각해보니 2회만 제외하고 모두 발표를 했다. […]
계속 읽기최근에 KoNLP가 업데이트 되었으며, 업데이트 내용은 아래와 같다. Version 0.7 —————————————————————————— * new dictionary added which from Sejong projects * added example * Set "dontrun" on example code because Windows encoding problems. * Warning message may appear if system doesn’t have Hangul encoding ability(no warning on UTF-8). Version 0.0-9.3 —————————————————————————— * added user dictionary manage […]
계속 읽기요즘 아버지께서 족보 관련 문제로 골머리를 썩고 계셨는데, 바로 이것 때문이었다. 다른 종친회는 관련 문서의 전자 포맷도 배포하는 것으로 오늘 파악할 수 있었는데, 전자 족보 간행 경험이 없어서인지 어떤 곳에서도 담양 전씨 수단 양식을 찾을 수 없었다. 결국 아버지와 차를 몰고 종친회 사무소에 방문해 포맷을 복사해 올 수 있었다. 힘들게 얻었지만, 아마도 다른 분들이 족보 […]
계속 읽기UseR! 2012의 abstract submition deadline에 맞춰서 한글 Text Mining에 대한 내용 발표를 하기 위해 abstract를 넣었다. 사실 회사 차원에서는 RHive를 발표하기 위해 팀원분과 함께 작업을 했고, 만일 가게 된다면 내 나름대로 관심이 있는 분야도 겸사겸사 발표해 보려고 올렸다. 재수가 좋다면 떨리는 가슴을 안고 미국 테네시주로 향하게 될 것이고 아니면 마는 거고… RHive는 반드시 오럴로 채택이 […]
계속 읽기제 3회 Meetup을 아래와 같이 공지합니다. 일시 : 2012. 03. 22. 목요일 19:00~20:30 장소 : NexR 회의실 (강남역 2호선 부근: 서초구 서초동 1321-6 동아타워 4층 KT Cloudware) (http://me2.do/5RCp3h) 주제 : R의 한글화 및 R 그래픽스 발표자 : 신종화님 : ”Contributed Packages의 번역: Rcmdr을 중 심으로” 유충현님 : “사용자 정의 그래프 함수 만들기” 전희원님 : […]
계속 읽기최근 7th ACC의 설문조사에서 발표자들 중에서 1등을 했다는 연락을 ZDnet에서 받아 기자분들이 보고서와 함께 방문을 했었다. 발표를 하면서 느낄 수 있었던 열의가 그대로 설문조사로 표출되는 개인적으로 참 하기 힘든 경험을 했었다. 데이터 분석, 데이터 과학자의 중요 덕목으로 Presentation Skill일 손꼽고, 작년부터 데이터 과학자로 일하면서 이 부분에 대해서 많은 고민을 해왔는데, 중요한 방점하나를 찍은게 아닌가 하는 […]
계속 읽기