내 트위터에는 394명의 팔로워가 존재한다. R meetup 발표준비를 핑계로 팔로워와 팔로잉간의 플로팅 몇 개를 그려 봤다.
아래 작업을 위해서 twitteR, ROAuth ggplot2 패키지를 사용했고, 관련 코드는 meetup 이후에 공개하겠다.
이미지를 클릭하면 좀더 자세히 볼 수 있다.
참고로 점의 크기는 트윗수를 의미한다.
소셜캐스터, 오마이뉴스, 임성길 분의 트위터와 같은 엄청난 팔로워들과 팔로잉을 가지고 계신 분들 때문에 많은 분들이 그래프에서 보이질 않는다.
재밋는 사실은 임성길님의 트윗의 경우 본인이 팔로잉 하는 사람들이 팔로워들의 숫자만큼 많은걸 볼 수 있는데, 오마이 뉴스나 SKT 트위터는 그런 경향이 없다. 게다가 권정혁/구루 님의 트위터도 역시 그렇다. 아마도 이런분들의 트위터는 사람들이 정보를 얻기 위해서 팔로잉 하는 경우가 많아서 그런게 아닐까 예상해 본다.
자세히 보기 위해 20000팔로워 아래의 분들만 따로 보자!
좀 더 자세히 보기 위해 6만 팔로워 아래 분들만 보자!
적합된 라인을 해석해 보자면 1000팔로워 아래 분들은 주로 본인이 팔로잉 하는 숫자가 대체적으로 본인을 팔로우하는 숫자들보다 많은 경향을 보인다.
과도한 억측일지 모르지만, 이런 경향을 보이는 분들은 정보 생산의 트위터러라기 보다는 정보 소비의 트위터러일 가능성이 많아 보인다.
게다가 꼭히 트윗을 많이 날린다고 팔로워들이 꼬이는 것도 아니라는 걸 알 수 있다.
이걸 보니 팔로잉 하는 사람이 적으면서 팔로워들이 많고, 게다가 트윗 량도 고만고만한 트위터러가 정보성 있는 트윗을 날리는게 아닐까 생각해본다. 예를 들어 “추천 책 정보”
내가 속해 있는 1000 팔로워 아래는 거의 춘추전국 시대구나…
참고로 내 팔로워들만 볼 때 팔로워들의 숫자와 팔로잉의 숫자의 상관관계는 0.80에 육박했으며 이를 볼 때 뭐가 먼저인지 모르겠지만 할 수 있는 한 열심히 팔로잉 하는게 그나마 팔로워들을 많이 모을 수 있는 방법이 아닐까 생각해본다. 그리고 트윗량과 팔로워 숫자의 상관관계는 0.40정도로 양의 상관관계지만 꼭히 트윗이 적다고 팔로워들이 적게 오는 것은 아니다. 적은 트윗으로도 사람을 모으는 트위터러를 찾아보는 알고리즘을 만들어 보는 것도 재미있을거 같다는 생각을 해본다.
R로 트위터 분석 하는 과정 소개를 하는 세션을 준비하다가 그려 봤는데 보다가 시간 가는줄 모르겠다. ㅎㅎ
재미있는 분석을 준비하시고 계시군요~ ^^. 저도 ROAuth 인증받아서 윈도우머신하에서 트위터 데이터를 분석할까 했는데 -.-;; ROauth 0.9.2버전인스톨하고 registerTwitterOAuth(cred)[1] TRUE
요단계까지는 진행했는데,그 뒤
publicTweets <- publicTimeline()를 누르는 순간 오류가 납니다. -.-;;
오류function (type, msg, asError = TRUE) : SSL certificate problem, verify that the CA cert is OK. Details:error:14090086:SSL routines:SSL3_GET_SERVER_CERTIFICATE:certificate verify failed
혹시 무슨 마법의 방법이 숨어 있을까요~ 고감자님
ㅋㅋㅋㅋ 댓글을 보면서 미소가나네요…
지금 아이패드로 적는거라 자세하게 적지는 못하겠구요.
꼼수가 있는데..perm파일을 매 api 사용시마다 인자로 건내면 되실겁니다…
건투를 빕니다..
헉 그런 방법이 help 매뉴얼 어디를 봐야 하는지도 알려주세요 ㅎㅎㅎㅎ
아닙니다. 미트업후 공개하실때까지 일단 삽질해보겠습니다. ^^:
아직 ROAuth에 버그가 있는듯 합니다.
help파일에는 없구요. 제가 소스코드 훓어보고 찾아낸 꼼수인데… 그쪽에서도 적용이 될지는 모르겠습니다.
건승을 빕니다.
참.. 그리고 성공적으로 사용이 되긴 하는데, 다수의 Warnings이 나더군요. 그래도 데이터 누락은 없는듯 하니 일단 사용하시면 될듯 합니다.
2012/5/10 Disqus
찾아보니 RCurl에 옵션으로 있기는 하네요.
하긴 twitteR이 RCurl을 사용하니..그렇죠..
2012년 5월 10일 오후 4:52, 전희원 님의 말:
와우 감사합니다.
그런데
Warning message:
In RCurlIconv(str, from = “C99”, to = encoding) :
UTF-8 not supported iconv entries이런 Warning은 걍 무시해도 되는거겠죠 ^^:
저도 데이터 누락이 있나 찾아봤는데, 데이터 누락은 없는거 같았습니다.
하지만 확인해 보세요.
작동 한다니 다행이네요… ^^
2012/5/10 Disqus
감사합니다. 잘 작동합니다. ^^
stackoverflow에도 없던 해결책을
고감자님이 제시해주시네요~ ^^
덕분에 일반적인 해결책이라는게 어느정도 증명된거 같네요.
오늘 집에 가서 관련 포스팅이나 써야겠습니다. ㅎㅎ
감사합니다.
2012/5/10 Disqus
생각난김에 하나만 더 여쭈어 보고 싶습니다. 고감자님 예전 강연자료를 보면 R에서 만든 데이터 마이닝 모델을 대용량 데이터에 피팅하려면 PMML? 요런 부분이 있는데요
저는 환경상 하둡쪽하고는 거리가 먼 상황이라 R에서 생성한 PMML을 PMML로 스코어값을 생성할 수 있는 시스템으로 옮길때 문제가 있다는 의미를 쓰신건지 아니면 그런 작업이 번거롭다라는 의미로 쓰신건지가 궁금해서 생각난김에 여쭈어봅니다. 강의를 듣지 못해서그런지 갑갑해서요 ^^:
그때 뭐라고 말씀 드렸는지 생각은 나지 않지만 지금 생각은 이렇습니다.
학습이 아닌 만들어진 모델을 가지고 대용량 데이터에 피팅하는건 단순한 분산 처리만으로도 충분히 커버 가능합니다.
이게 PMML이 적용 가능하다면 Hadoop map/reduce 코드로 PMML을 로딩하게끔 해서 분산 처리 가능하구요. 그게 아니더라도 트리계열의 알고리즘의 경우 분산 DB에서 간단히 적용 가능하죠.
물론 복잡한 블랙박스 계열의 알고리즘의 경우 포팅이 힘들어질 수 있으니 염두에 둘 필요 있습니다.
RHive의 장점은 R에서 만들어진 모델은 어떤 것이든 대용량 데이터에 피팅 가능하다는 장점이 있습니다.
‘RHive의 장점은 R에서 만들어진 모델은 어떤 것이든 대용량 데이터에 피팅 가능하다는 장점이 있습니다’. 이 마지막 문장에서 질문했던 사항을 조금은 이해한것 같습니다. pmml은 생성하는 쪽이나 받아들이는 쪽에 제약이 있는 것으로 알고 있어서요 ^^: RHIVE 말씀대로면 무지 좋은 환경인데요 ^^: 윈도우즈에서 사용할수 있다면 얼마나 좋을까요 ^^:(cygwin으로 하둡설치하고 RHIVE가 되는지 알아봐야 겠습니다. ^^:)
‘RHive의 장점은 R에서 만들어진 모델은 어떤 것이든 대용량 데이터에 피팅 가능하다는 장점이 있습니다’. 이 마지막 문장에서 질문했던 사항을 조금은 이해한것 같습니다. pmml은 생성하는 쪽이나 받아들이는 쪽에 제약이 있는 것으로 알고 있어서요 ^^: RHIVE 말씀대로면 무지 좋은 환경인데요 ^^: 윈도우즈에서 사용할수 있다면 얼마나 좋을까요 ^^:(cygwin으로 하둡설치하고 RHIVE가 되는지 알아봐야 겠습니다. ^^:)
안녕하세요. 좋은 글들 감사드립니다. R을 사용한 데이터분석을 이제 공부하면서 KoNLP를 알게되어 윈도우에 설치를 했는데 아래와 같은 오류가 발생했습니다.
사용환경 윈도우Xp, Java 1.7, R 2.14, rjava, bitops, testthat 설치했습니다.
———————-
> library(KoNLP)Loading required package: rJavaLoading required package: bitopsError : .onLoad failed in loadNamespace() for ‘KoNLP’, details: call: .jinit(parameters = c(“-Dfile.encoding=UTF-8”, “-Xmx1024m”)) error: Cannot create Java virtual machine (-4)Error: package/namespace load failed for ‘KoNLP’
> extractNoun(“롯데마트가 판매하고 있는 흑마늘 양념 치킨이”)Error: could not find function “extractNoun”
——————–
혹시 무슨 문제인지? 질문드려도 될런지요..
좋은 글들 감사드립니다. R을 사용한 데이터분석을 공부하면 KoNLP를 알게되어 KoNLP를 설치하고 제공하신 예제들을 돌려 보고 싶은데 오류가 발생해 도움을 요청드립니다.
윈도우Xp, Java 1.7, R 2.14를 설치했고 rJava, bitops, testthat 설치했습니다.
——- 오류 ————
> library(KoNLP)
Loading required package: rJava
Loading required package: bitops
Error : .onLoad failed in loadNamespace() for ‘KoNLP’, details:
call: .jinit(parameters = c(“-Dfile.encoding=UTF-8”, “-Xmx1024m”))
error: Cannot create Java virtual machine (-4)
Error: package/namespace load failed for ‘KoNLP’
> extractNoun(“롯데마트가 판매하고 있는 흑마늘 양념 치킨이 논란이 되고 있다.”)
Error: could not find function “extractNoun”
혹시 무슨 이유때문인지 알 수 있을지요 ..
줄바꿈이 적용되지않아 아래글을 삭제하고픈데 지우지 못해 이렇게 다시 올렸습니다.
이 문제는 제가 알고있는 문제입니다.혹시 컴퓨터 메모리가 2G 미만이신지요.?
아마도 그럴거 같구요. 사전용량 때문에 자바 vm 메모리를 많이 확보하게 되는데 확보를 하지못해서 나는 에러입니다.
일단 해결 방법은 제가 알고 있으나 적용해야되나 마나 고민입니다. 왜냐면 사전 용량을 줄여야하기 때문입니다.
일단 바로 해결을 하시려면 메모리를 늘리는 방법이 가장 빠르구요. 저는 어떻게 해야될지 고민을 해봐야겠습니다.
나의 iPad에서 보냄
2012. 5. 15. 오후 6:11 “Disqus” 작성:
이전 문제가 발생된 컴퓨터는 메모리 1.8G였고, 메모리3G 설치된 다른 컴퓨터에서는 오류없이 예제 잘 작동하고 있습니다.
그리고 굳이 저용량 메모리에서도 가동되도록 하는데 시간을 투자하시기 보다는 NLP의 한글처리 부분에 시간 투자를 더 하시는게 좋으실 듯 하네요. 잘 사용하도록 하겠습니다. ^^
혹시 meet up 끝났는데 자료
공유좀 부탁 드릴 수 있을가요?
네 제가 meetup 이후 몸이 좋지 않아서 정리하지 못했습니다.
가급적 오늘중으로 공유드리겠습니다.
제 트위터 계정은 @free9814 입니다. 제가 늘린 팔로워 늘린 비법에 대해 궁금하신 분들은 요기를 보세용!! 맞팔하지 않아도 자발적으로 팔로워가 늘어납니다 http://twitup.kr