UseR! 2012 Abstract

UseR! 2012의 abstract submition deadline에 맞춰서 한글 Text Mining에 대한 내용 발표를 하기 위해 abstract를 넣었다. 사실 회사 차원에서는 RHive를 발표하기 위해 팀원분과 함께 작업을 했고, 만일 가게 된다면 내 나름대로 관심이 있는 분야도 겸사겸사 발표해 보려고 올렸다. 재수가 좋다면 떨리는 가슴을 안고 미국 테네시주로 향하게 될 것이고 아니면 마는 거고… RHive는 반드시 오럴로 채택이 […]

계속 읽기

세 번째 R meetup

  제 3회 Meetup을 아래와 같이 공지합니다. 일시 : 2012. 03. 22. 목요일 19:00~20:30 장소 : NexR 회의실 (강남역 2호선 부근: 서초구 서초동 1321-6 동아타워 4층 KT Cloudware) (http://me2.do/5RCp3h) 주제 : R의 한글화 및 R 그래픽스 발표자 : 신종화님 : ”Contributed Packages의 번역: Rcmdr을 중 심으로” 유충현님 : “사용자 정의 그래프 함수 만들기” 전희원님 : […]

계속 읽기

Machine Learning for Hacker

  Machine Learning for Hacker 컴퓨터 서적 전문 출판사에서 통계학을 넘어서 기계학습까지 넘보고 있구나. 물론 오라일리에서 나온 programming collective intelligence 가 선구자 적인 역할을 하긴 했지만 이제는 R언어로 케이스 스터디 책이 나왔다. 어제 출간이 되었던데 사파리에서 올라와 있어서 몇몇 챕터를 보고 바로 결재 처리를 해버렸다(pdf로 보기도 힘들어서…). 이런 데이터 분석 류의 책은 툴을 설명하기 보다는 […]

계속 읽기

R로 만들어본 자동 띄어쓰기 알고리즘

최근 포스트들을 보자면 R 응용 책 하나에 한 챕터로 들어갈 만한 것들이 많았던거 같다. 역시 오늘 포스팅도 마찬가지 코드이다. 사실 개인적으로 띄어쓰기를 잘 못한다. 그냥 워드프로세서에 하자는 대로 그대로 따르는 편이다. 게다가 블로그도 Live Writer를 사용해서 역시 띄어쓰기 검증을 받아왔다. 오늘 만들어본 코드 조각은 최인훈의 광장과 회색인 소설을 코퍼스로 활용 띄어쓰기 알고리즘을 학습해봤다. 자동 띄어쓰기 […]

계속 읽기

텍스트 마이닝을 통한 SNA

최근 텍스트 마이닝을 통한 SNA 분석이 유행인듯 해서 예제 하나를 공유하고자 한다. 이 예제는 모 대학교 교수님이 코드 얼개를 부탁해서 만들어본 코드 조각이다(도와 드릴 때 공개 가능에 대해서 이미 말씀을 드렸으니 문제 없으리라 본다). 여타 다른 텍스트 마이닝 툴에서 SNA를 하는것의 원리에 대해서는 잘 모르지만 대략 예상을 해보자면 한 문장에서 나오는 단어들의 관계를 연상하면 될거 […]

계속 읽기

R Hangul toy speller

이래저래 1시간 정도 걸려서 toy 한글 스펠러를 만들어 봤다. 약 50줄정도 되는 아주 간단한 코드로 만들어 본건데, KoNLP의 두가지 핵심 함수를 사용하고 KoNLP 패키지에 포함된 한나눔 분석기 시스템 사전을 활용했다. 다른 핵심 함수로 Edit Distance 계산을 위한 함수가 있는데, 이것은 직접 구현을 하려다가 R cba 패키지에 너무 구현이 잘 된 함수가 있어서 그것을 사용했다. 이 […]

계속 읽기

KoNLP 한글 오토마타 모듈

  아직 github에 정박중인 코드이지만 오늘 빡시게 작업해서 한글 오토마타 모듈 넣었다.  자바 코드를 객체지향적으로 만들었는데 덕분에 의외로 R에서 코드가 간단해 졌다. 좀더 테스트 해보고 새해 기념으로 cran에 submit 해야겠다. 이젠 아래와 같은 짓들도 가능해졌다.   > str <- convertHangulStringToJamos("배포 조건의 상세한것에 대해서는 ‘license()’ 또는 ‘licence()’ 라고 입력해주십시오") > str2 <-paste(str, collapse="") > str2 [1] […]

계속 읽기

KoNLP 0.0-8.0

KoNLP 패키지 업데이트를 했다. 업데이트 내용은 아래와 같음.   Version 0.0-8.0 (2011-12-09)——————————————————————————  * improved performance more than 100 times on functions which related with Hannanum Analyzer.  * set -Xmx512m for Java VM.  * Java sources are added.   자바 코드 최적화로 성능향상이 있었는데, Thread 기반에서는 정확한 기능 보장을 못하니 R에서 병렬 프로세싱으로 KoNLP 패키지 사용을 […]

계속 읽기

대한민국 커뮤니티 데이 발표자료

오늘 하루를 마무리 하면서 이런 글을 쓰다니 참 감개무량할 뿐이다. 아직 할 일이 좀 남아 있어서 잠은 늦게 들거 같긴한데, 일단 약속했던 발표 자료를 공유하고자 한다. 대한민국 커뮤니티 데이 발표자로 참여를 했고, 제목을 그럴싸하게 지어놓아서 아마도 실실적인 첫번째 세션으로 선정된 듯 하다. 그 덕분에 오늘 스케줄을 참 나이스하게 마무리 하긴 했다. 발표가 끝나고 오후 1시부터 […]

계속 읽기

데이터 마이닝 강의 중에…

강의 중에 생각했던 비선형 함수 모델 피팅의 어려움, 혹은 한계? 선형 함수, 비선형 함수 등등 예측의 문제에서 가장 큰 두 카테고리가 아닐 수 없는데, 왜 선형 함수 적합이 더 선호되고 가장 일반화시킬 수 있는 접근 방법인지… 한번 보자. 강의안에 있던 sin 함수 예측 예제가 있는데, 그 예제를 좀더 변형해 봤다. install.packages("nnet") inp1 <- seq(0,12,0.01) out1 […]

계속 읽기