from __future__ import dream 데이터분석

대한민국 커뮤니티 데이 발표자료

작성일자 2011년 12월 04일 고감자님이 작성

오늘 하루를 마무리 하면서 이런 글을 쓰다니 참 감개무량할 뿐이다. 아직 할 일이 좀 남아 있어서 잠은 늦게 들거 같긴한데, 일단 약속했던 발표 자료를 공유하고자 한다. 대한민국 커뮤니티 데이 발표자로 참여를 했고, 제목을 그럴싸하게 지어놓아서 아마도 실실적인 첫번째 세션으로 선정된 듯 하다. 그 덕분에 오늘 스케줄을 참 나이스하게 마무리 하긴 했다. 발표가 끝나고 오후 1시부터 […]

계속 읽기

데이터 마이닝 강의 중에…

작성일자 2011년 11월 28일 고감자님이 작성

강의 중에 생각했던 비선형 함수 모델 피팅의 어려움, 혹은 한계? 선형 함수, 비선형 함수 등등 예측의 문제에서 가장 큰 두 카테고리가 아닐 수 없는데, 왜 선형 함수 적합이 더 선호되고 가장 일반화시킬 수 있는 접근 방법인지… 한번 보자. 강의안에 있던 sin 함수 예측 예제가 있는데, 그 예제를 좀더 변형해 봤다. install.packages("nnet") inp1 <- seq(0,12,0.01) out1 […]

계속 읽기

Korea R CRAN 미러링

작성일자 2011년 11월 25일 고감자님이 작성

최근 새로운 Korea R CRAN 미러링 서버가 올라왔다. 이 준비는, 넥스알 데이터 분석팀에서 했고, 웹 서버 세팅부터 운영까지 분석팀에서 하고 있다(뭐 정확하게는 내가 하고 있지만. ㅋ ). 서버 업데이트 주기는 하루 2번이며 미러링 status를 보면 대강 어느 시간이 업데이트 시간인지 알 수 있다. 하루 두번이면 상당한 주기여서 가장 최신의 패키지라도 빨리 받아볼 수 있다. […]

계속 읽기

R 한글 인코딩 문제 (KoNLP 작업 과정에서…)

작성일자 2011년 11월 11일 고감자님이 작성

처음 R CRAN에 등록하고 참 많은 것들을 해본거 같다. 가장 큰 문제였던 것들은 윈도우 머신에서 오동작 하는 문제와 json 포맷 파일을 윈도우에서 읽어 오지 못하는 문제였다. 일단 맥과 리눅스에서는 잘 돌아가는 것을 확인 했지만 결국 위 두 가지 문제를 해결하면서 맥과 윈도우도 UTF-8에서만 잘 도는 것이였음이 밝혀졌다. 일단 한글 처리 패키지이기 때문에 CJK관련 문자 인코딩에 […]

계속 읽기

KoNLP cran 등록 완료

작성일자 2011년 11월 09일 고감자님이 작성

일단 R cran에 등록 되었다는 메일을 받았다. 그리고 확인 해보니 정말 등록 되어 있었다. http://cran.r-project.org/web/packages/KoNLP/ 패키지 소개에서도 언급 했지만 오픈소스 형태소 분석기들이 없었다면 이런 작업이 쉽지는 않았을 것이다. R 패키지 처음 만들어 보고 게다가 Java언어와 인터페이싱에 신경 쓰느라 정작 직접 구현한 함수들의 내구도가 떨어지는데, 이는 추후 보완해야 될 작업이라고 생각한다.

계속 읽기

KoNLP submit 완료 그리고 기다림….

작성일자 2011년 11월 08일 고감자님이 작성

gogamza@ubuntu:~/prj$ R CMD roxygen -d KoNLP 요구된 패키지 digest를 로드중입니다 Writing doKoMorph to KoNLP/man/doKoMorph.Rd Writing extractNoun to KoNLP/man/extractNoun.Rd Writing MorphAnalyzer to KoNLP/man/MorphAnalyzer.Rd Writing SimplePos22 to KoNLP/man/SimplePos22.Rd Writing SimplePos09 to KoNLP/man/SimplePos09.Rd Writing is.hangul to KoNLP/man/is.hangul.Rd Writing convertHangulStringToJamos to KoNLP/man/convertHangulStringToJamos.Rd Writing convertHangulStringToKeyStrokes to KoNLP/man/convertHangulStringToKeyStrokes.Rd Writing makeTagList to KoNLP/man/makeTagList.Rd Writing KoNLP to KoNLP/man/KoNLP.Rd Writing DicConfPath to KoNLP/man/DicConfPath.Rd Writing […]

계속 읽기

빅 데이터 분석에 대한 소고(小考)

작성일자 2011년 11월 03일 고감자님이 작성

데이터 크기 자체가 문제가 될 상황에 그 데이터를 빅 데이터라고 한다는 정의를 좋아하는데, 빅 데이터 분석도 마찬가지 개념을 적용할 수 있음을 최근에 느낄 수 있었다. 아주 간단한 분석 방법 조차도 데이터 크기가 커져버리면 분석하기 힘들어져 버리는데 그 때의 분석을 빅 데이터 분석이라고 해야 하지 않을까 생각해 본다. 분석 자체도 문제이고 이를 효과적으로 표현하는 Visuallization도 빅 […]

계속 읽기

KoNLP 패키징

작성일자 2011년 10월 12일 고감자님이 작성

간단하게 wrapper 클래스 만들어서 일단 루씬 한글 분석기 패키지를 기반으로 R패키징을 해봤다. 여기에 내가 직접 만들어둔 자소, 음절 관련 함수들(Java)을 넣고, 한글 오토마타(C++)까지 넣으면 공식 배포해도 될 듯 하다. 구현해둔 오토마타 C++ 클래스를 자바로 포팅하고 싶지만 요즘 유행하는 Rcpp한번 공부해보는 셈 치고 C++ Extend 해볼란다. 이런 기반 클래스들이 모두 모아지면 이를 기반으로 한글 Spelling […]

계속 읽기

R vectorization을 해야 하는 이유.

작성일자 2011년 10월 07일 고감자님이 작성

어제 The Art of R Programming 책을 보다가 2.13에서 포함된 바이트 컴파일러 패키지 예제를 보고 몇 가지 코드를 올려본다. 크게 3가지 코드가 있는데, 테스트는 10000000의 데이터를 가진 벡터끼리의 곱 연산 속도 비교를 for문 기반, 바이트 컴파일 된 함수 기반,vectorization 기반 이렇게 세가지 방법으로 돌려봤다. 결과는 바이트 컴파일 된 함수가 for으로 돌린 컴파일되지 않은 코드보다 3배 […]

계속 읽기

Revolution R community version

작성일자 2011년 10월 03일 고감자님이 작성

Revolution R Enterprise버전에 대해서 학생 신분이라면 자유롭게 사용할 수 있으나, 일반인의 경우 죄책감을 느끼며 사용해볼 필요가 있나 싶다. 게다가 엔터프라이즈 버전에 달려있는 최악의 IDE환경은 정말 눈뜨고 못써줄 지경이다. 차선책으로 Revloution R 커뮤니티 버전을 자유롭게 배포하고 있다. 꼭히 대용량 처리의 RevoScaleR 패키지를 사용할 필요가 없으나 math 라이브러리를 최적화해서 컴파일한 윈도우 버전을 쓰고 싶다면 정말 추천하는 R버전이라고 […]

계속 읽기