데이터분석

최근 rjson이 업데이트 되었는데, 정말 기다리고 기다리던 CJK 인코딩 문제가 해결되었다. 그래서 이것을 활용하는 twitteR 패키지에서 이젠 정상적으로 한글이 나오게 되었다.  이 패키지를 활용하면 트위터 팔로워들 그리고 내가 팔로잉 하는 사람들의 정보를 가져와서 분석할 수 있고, 이 밖에도 그들 각자의 트위터 문장을 분석할 수 있다. 비로소 KoNLP가 가장 많이 활용될 수 있는 패키지가 이제 정상화 [...]

Continue reading about 트위터 팔로워들의 자기소개 분석을 이용한 나

고감자 on 3월 25th, 2012

외근, 몸살에 시달리면서 준비한 발표자료로 3회 R meetup 발표를 했다. 금번 모임 주제는 시각화(visualization)였으며, ggplot2를 살펴보는 와중에 전에 링크드인 분석가가 했던 이야기 “"Visualization is more important than you think."가 계속 머리속에 맴돌았다. 데이터 분석에서 생각보다 중요한 것…. 시각화…   국내 R 사용자를 위해 R meetup을 하자고 처음 제안한 이후에, 생각해보니 2회만 제외하고 모두 발표를 했다. [...]

Continue reading about Hello ggplot2

고감자 on 3월 6th, 2012

Strata 컨퍼런스에서 있었던 논쟁중에 하나로 위 제목과 같은 내용의 대화가 우리가 익히 알고 있는 사람들에 의해서 논의 되었는데, 그 결론이 참으로 기억해 둘만해서 올려본다.   the data science debate: domain expertise or machine learning?   debator들은 아래와 같다.   Drew Conway, Ph.D. Candidate at NYU, Data Scientist at IA Ventures  DJ Patil, Data Scientist in [...]

Continue reading about 도메인 전문가 혹은 머신러닝 전문가?

고감자 on 2월 17th, 2012

최근 포스트들을 보자면 R 응용 책 하나에 한 챕터로 들어갈 만한 것들이 많았던거 같다. 역시 오늘 포스팅도 마찬가지 코드이다. 사실 개인적으로 띄어쓰기를 잘 못한다. 그냥 워드프로세서에 하자는 대로 그대로 따르는 편이다. 게다가 블로그도 Live Writer를 사용해서 역시 띄어쓰기 검증을 받아왔다. 오늘 만들어본 코드 조각은 최인훈의 광장과 회색인 소설을 코퍼스로 활용 띄어쓰기 알고리즘을 학습해봤다. 자동 띄어쓰기 [...]

Continue reading about R로 만들어본 자동 띄어쓰기 알고리즘

고감자 on 2월 15th, 2012

금일 zdnet에서 개최하는 ACC 컨퍼런스에서 발표를 했으며 약속대로 발표자료를 공유하고자 한다. 처음으로 발표에 대한 호응을 발표하면서 피부로 느낄 수 있었다(발표중에 ppt를 사진찍으시는 분들까지 있었으니…). 오늘 얻은 교훈은 다른  어떤 곳에서도 얻을 수 없는 경험들을 공유하는 게 가장 좋은 발표 주제 접근 방법이라는 생각을 해본다. 물론 내가 공유 가능한 범위에서 이지만… 처음 어떤 것을 핵심 주제로 [...]

Continue reading about 7th ACC 발표자료 공유