R로 만들어본 자동 띄어쓰기 알고리즘

최근 포스트들을 보자면 R 응용 책 하나에 한 챕터로 들어갈 만한 것들이 많았던거 같다. 역시 오늘 포스팅도 마찬가지 코드이다. 사실 개인적으로 띄어쓰기를 잘 못한다. 그냥 워드프로세서에 하자는 대로 그대로 따르는 편이다. 게다가 블로그도 Live Writer를 사용해서 역시 띄어쓰기 검증을 받아왔다. 오늘 만들어본 코드 조각은 최인훈의 광장과 회색인 소설을 코퍼스로 활용 띄어쓰기 알고리즘을 학습해봤다. 자동 띄어쓰기 […]

계속 읽기

패턴인식 및 기계학습 겨울학교

http://bi.snu.ac.kr/PRMLWS2012/ 올해는 꼭 가보려고 정보과학회 홈페이지를 들락거렸는데, 다행히 찾아서 참석할 수 있을듯 하다. 전체 알고리즘들을 리뷰한다는 마음으로 임해야 겠다.   혹여라도 블로그에 오시는 분들 중에서 관심이 있으신분이 있을듯 해서 올려본다.

계속 읽기

7th ACC 발표자료 공유

금일 zdnet에서 개최하는 ACC 컨퍼런스에서 발표를 했으며 약속대로 발표자료를 공유하고자 한다. 처음으로 발표에 대한 호응을 발표하면서 피부로 느낄 수 있었다(발표중에 ppt를 사진찍으시는 분들까지 있었으니…). 오늘 얻은 교훈은 다른  어떤 곳에서도 얻을 수 없는 경험들을 공유하는 게 가장 좋은 발표 주제 접근 방법이라는 생각을 해본다. 물론 내가 공유 가능한 범위에서 이지만… 처음 어떤 것을 핵심 주제로 […]

계속 읽기

텍스트 마이닝을 통한 SNA

최근 텍스트 마이닝을 통한 SNA 분석이 유행인듯 해서 예제 하나를 공유하고자 한다. 이 예제는 모 대학교 교수님이 코드 얼개를 부탁해서 만들어본 코드 조각이다(도와 드릴 때 공개 가능에 대해서 이미 말씀을 드렸으니 문제 없으리라 본다). 여타 다른 텍스트 마이닝 툴에서 SNA를 하는것의 원리에 대해서는 잘 모르지만 대략 예상을 해보자면 한 문장에서 나오는 단어들의 관계를 연상하면 될거 […]

계속 읽기

R Hangul toy speller

이래저래 1시간 정도 걸려서 toy 한글 스펠러를 만들어 봤다. 약 50줄정도 되는 아주 간단한 코드로 만들어 본건데, KoNLP의 두가지 핵심 함수를 사용하고 KoNLP 패키지에 포함된 한나눔 분석기 시스템 사전을 활용했다. 다른 핵심 함수로 Edit Distance 계산을 위한 함수가 있는데, 이것은 직접 구현을 하려다가 R cba 패키지에 너무 구현이 잘 된 함수가 있어서 그것을 사용했다. 이 […]

계속 읽기

Pagerank on R cran packages

I’d been testing with R and Python what the page rank score on each R packages. Firstly, I need to scrape all package description pages and then parsing section “Depends”, “Imports”, “Reverse Depends” to know relation between packages. I was using Python with scrapemark for convenient.   This is “scrape.py”(no code optimization for easy understanding). […]

계속 읽기

새해 첫 포스팅

작년 한해는 둘째가 태어났으며, 달라진 생활 패턴과 새로운 직장 그리고 공부간의 균형을 어떻게든 이뤄 보려고 발버둥 쳤던 한해 였던거 같다. 그래서 나온 결론은 “가능하다!” 이다. 그러기 위해서는 선결 조건이 있는데, 바로 건강과 체력이다. 이 두 가지 혹은 ‘건강’ 하나가 완비 되지 못하면 위와 같은 생활 패턴은 유지할 수 조차 없다. 작년 한해 학문적으로는 그동안의 데이터 […]

계속 읽기

KoNLP 한글 오토마타 모듈

  아직 github에 정박중인 코드이지만 오늘 빡시게 작업해서 한글 오토마타 모듈 넣었다.  자바 코드를 객체지향적으로 만들었는데 덕분에 의외로 R에서 코드가 간단해 졌다. 좀더 테스트 해보고 새해 기념으로 cran에 submit 해야겠다. 이젠 아래와 같은 짓들도 가능해졌다.   > str <- convertHangulStringToJamos("배포 조건의 상세한것에 대해서는 ‘license()’ 또는 ‘licence()’ 라고 입력해주십시오") > str2 <-paste(str, collapse="") > str2 [1] […]

계속 읽기

[집단지성 프로그래밍] 82page 표 3.6 계산 방법

올해 마지막 번역서 질문이 와서 아예 블로그에 정리하고자 한다. 물론 내일 또 올수도 있겠지만 빈도를 볼때 마지막 일듯 하다. ^^;   일단 글과 태그간의 행렬(표3.2)이 계산되어 있고, 사람과 태그간의 행렬이 (표 3.5)에 계산되어 있다. 이들을 가지고 사람과 글간의 유사도 행렬을 계산한게 표3.6이다. 간단히 유사도는 벡터 유사도 방법으로 책에서 진행을 했고, 유사도 행렬을 계산을 간단히 하기 […]

계속 읽기