텍스트 마이닝을 통한 SNA

최근 텍스트 마이닝을 통한 SNA 분석이 유행인듯 해서 예제 하나를 공유하고자 한다. 이 예제는 모 대학교 교수님이 코드 얼개를 부탁해서 만들어본 코드 조각이다(도와 드릴 때 공개 가능에 대해서 이미 말씀을 드렸으니 문제 없으리라 본다). 여타 다른 텍스트 마이닝 툴에서 SNA를 하는것의 원리에 대해서는 잘 모르지만 대략 예상을 해보자면 한 문장에서 나오는 단어들의 관계를 연상하면 될거 […]

계속 읽기

R Hangul toy speller

이래저래 1시간 정도 걸려서 toy 한글 스펠러를 만들어 봤다. 약 50줄정도 되는 아주 간단한 코드로 만들어 본건데, KoNLP의 두가지 핵심 함수를 사용하고 KoNLP 패키지에 포함된 한나눔 분석기 시스템 사전을 활용했다. 다른 핵심 함수로 Edit Distance 계산을 위한 함수가 있는데, 이것은 직접 구현을 하려다가 R cba 패키지에 너무 구현이 잘 된 함수가 있어서 그것을 사용했다. 이 […]

계속 읽기

Pagerank on R cran packages

I’d been testing with R and Python what the page rank score on each R packages. Firstly, I need to scrape all package description pages and then parsing section “Depends”, “Imports”, “Reverse Depends” to know relation between packages. I was using Python with scrapemark for convenient.   This is “scrape.py”(no code optimization for easy understanding). […]

계속 읽기

새해 첫 포스팅

작년 한해는 둘째가 태어났으며, 달라진 생활 패턴과 새로운 직장 그리고 공부간의 균형을 어떻게든 이뤄 보려고 발버둥 쳤던 한해 였던거 같다. 그래서 나온 결론은 “가능하다!” 이다. 그러기 위해서는 선결 조건이 있는데, 바로 건강과 체력이다. 이 두 가지 혹은 ‘건강’ 하나가 완비 되지 못하면 위와 같은 생활 패턴은 유지할 수 조차 없다. 작년 한해 학문적으로는 그동안의 데이터 […]

계속 읽기

KoNLP 한글 오토마타 모듈

  아직 github에 정박중인 코드이지만 오늘 빡시게 작업해서 한글 오토마타 모듈 넣었다.  자바 코드를 객체지향적으로 만들었는데 덕분에 의외로 R에서 코드가 간단해 졌다. 좀더 테스트 해보고 새해 기념으로 cran에 submit 해야겠다. 이젠 아래와 같은 짓들도 가능해졌다.   > str <- convertHangulStringToJamos("배포 조건의 상세한것에 대해서는 ‘license()’ 또는 ‘licence()’ 라고 입력해주십시오") > str2 <-paste(str, collapse="") > str2 [1] […]

계속 읽기

[집단지성 프로그래밍] 82page 표 3.6 계산 방법

올해 마지막 번역서 질문이 와서 아예 블로그에 정리하고자 한다. 물론 내일 또 올수도 있겠지만 빈도를 볼때 마지막 일듯 하다. ^^;   일단 글과 태그간의 행렬(표3.2)이 계산되어 있고, 사람과 태그간의 행렬이 (표 3.5)에 계산되어 있다. 이들을 가지고 사람과 글간의 유사도 행렬을 계산한게 표3.6이다. 간단히 유사도는 벡터 유사도 방법으로 책에서 진행을 했고, 유사도 행렬을 계산을 간단히 하기 […]

계속 읽기

2011년도 2학기 정보 통계학과 성적 결과

2학기 시작하면서 2학기 공부 방법 및 계획에 대해서 많은 고민을 했었는데, 2학기 결과가 예상한 점수보다 0.33점 더 나왔다.       2학기 시작하면서 3.5 정도만 받자고 했고, 그에 따른 계획이 매일 한 과목 1시간씩 투자하는 것이였는데, 역시나 시간 투자한 과목 순으로 성적이 나왔다. 물론 데이터 마이닝은 이미 다 아는 내용이여서 advantage가 있어서 운이 좋았지만 이번에 […]

계속 읽기

첫번째 R meetup 스크린캐스트

2011.12.19일 R meetup 행사를 회사 카페에서 진행을 했었다. 약 20명 정도의 분들이 오셔서 아기자기 하게 모임을 가졌고, 첫번째 세션으로 cran.nexr.com 을 운영하면서 나온 아파치 로그를 분석하는 방법과 그 결과물을 공유 했었고, 나머지 15분 동안 KoNLP 패키지 소개를 했었다. LA R User group에서 했던 meetup 행사 동영상을 보면서 상당히 스크린캐스트가 재미 있다는 생각을 해보게 되서 직접 […]

계속 읽기

KoNLP 0.0-8.0

KoNLP 패키지 업데이트를 했다. 업데이트 내용은 아래와 같음.   Version 0.0-8.0 (2011-12-09)——————————————————————————  * improved performance more than 100 times on functions which related with Hannanum Analyzer.  * set -Xmx512m for Java VM.  * Java sources are added.   자바 코드 최적화로 성능향상이 있었는데, Thread 기반에서는 정확한 기능 보장을 못하니 R에서 병렬 프로세싱으로 KoNLP 패키지 사용을 […]

계속 읽기

빅 데이터 쌓기 경쟁

최근 작금의 상황을 보자면 빅 데이터를 모아서 쌓아두는데 목적을 두는 기업들이 상당히 많다는 것을 자주 느끼곤 한다. 빅 데이터를 쌓아두면 뭔가 가치 있는 정보들이 나올거라는 미신같은것 때문에 너도 나도 빅 데이터 클러스터를 구성하는데 관심을 가지고 있는 듯 하다. 물론 빅 데이터에 가는 가장 명시적인 마일스톤이 빅 데이터 처리 플랫폼을 구축하는 것이고 어쩌면 이는 돈을 투자하면 […]

계속 읽기