KoNLP cran 등록 완료

일단 R cran에 등록 되었다는 메일을 받았다. 그리고 확인 해보니 정말 등록 되어 있었다. http://cran.r-project.org/web/packages/KoNLP/     패키지 소개에서도 언급 했지만 오픈소스 형태소 분석기들이 없었다면 이런 작업이 쉽지는 않았을 것이다. R 패키지 처음 만들어 보고 게다가 Java언어와 인터페이싱에 신경 쓰느라 정작 직접 구현한 함수들의 내구도가 떨어지는데, 이는 추후 보완해야 될 작업이라고 생각한다.

계속 읽기

KoNLP submit 완료 그리고 기다림….

gogamza@ubuntu:~/prj$ R CMD roxygen -d  KoNLP 요구된 패키지 digest를 로드중입니다 Writing doKoMorph to KoNLP/man/doKoMorph.Rd Writing extractNoun to KoNLP/man/extractNoun.Rd Writing MorphAnalyzer to KoNLP/man/MorphAnalyzer.Rd Writing SimplePos22 to KoNLP/man/SimplePos22.Rd Writing SimplePos09 to KoNLP/man/SimplePos09.Rd Writing is.hangul to KoNLP/man/is.hangul.Rd Writing convertHangulStringToJamos to KoNLP/man/convertHangulStringToJamos.Rd Writing convertHangulStringToKeyStrokes to KoNLP/man/convertHangulStringToKeyStrokes.Rd Writing makeTagList to KoNLP/man/makeTagList.Rd Writing KoNLP to KoNLP/man/KoNLP.Rd Writing DicConfPath to KoNLP/man/DicConfPath.Rd Writing […]

계속 읽기

빅 데이터 분석에 대한 소고(小考)

데이터 크기 자체가 문제가 될 상황에 그 데이터를 빅 데이터라고 한다는 정의를 좋아하는데, 빅 데이터 분석도 마찬가지 개념을 적용할 수 있음을 최근에 느낄 수 있었다. 아주 간단한 분석 방법 조차도 데이터 크기가 커져버리면 분석하기 힘들어져 버리는데 그 때의 분석을 빅 데이터 분석이라고 해야 하지 않을까 생각해 본다.  분석 자체도 문제이고 이를 효과적으로 표현하는 Visuallization도 빅 […]

계속 읽기

KoNLP 패키징

  간단하게 wrapper 클래스 만들어서 일단 루씬 한글 분석기 패키지를 기반으로 R패키징을 해봤다. 여기에 내가 직접 만들어둔 자소, 음절 관련 함수들(Java)을 넣고, 한글 오토마타(C++)까지 넣으면 공식 배포해도 될 듯 하다. 구현해둔 오토마타 C++ 클래스를 자바로 포팅하고 싶지만 요즘 유행하는 Rcpp한번 공부해보는 셈 치고 C++ Extend 해볼란다. 이런 기반 클래스들이 모두 모아지면 이를 기반으로 한글 Spelling […]

계속 읽기

R vectorization을 해야 하는 이유.

어제 The Art of R Programming 책을 보다가 2.13에서 포함된 바이트 컴파일러 패키지 예제를 보고 몇 가지 코드를 올려본다. 크게 3가지 코드가 있는데, 테스트는 10000000의 데이터를 가진 벡터끼리의 곱 연산 속도 비교를 for문 기반, 바이트 컴파일 된 함수 기반,vectorization 기반 이렇게 세가지 방법으로 돌려봤다. 결과는 바이트 컴파일 된 함수가 for으로 돌린 컴파일되지 않은 코드보다 3배 […]

계속 읽기

Revolution R community version

Revolution R Enterprise버전에 대해서 학생 신분이라면 자유롭게 사용할 수 있으나, 일반인의 경우 죄책감을 느끼며 사용해볼 필요가 있나 싶다. 게다가 엔터프라이즈 버전에 달려있는 최악의 IDE환경은 정말 눈뜨고 못써줄 지경이다. 차선책으로 Revloution R 커뮤니티 버전을 자유롭게 배포하고 있다. 꼭히 대용량 처리의 RevoScaleR 패키지를 사용할 필요가 없으나 math 라이브러리를 최적화해서 컴파일한 윈도우 버전을 쓰고 싶다면 정말 추천하는 R버전이라고 […]

계속 읽기

페이스북 Data Scientist들이 어떻게 일하는가?

데이터 과학이란? – 미래는 데이터를 제품화하는 회사와 개인에게 달려있다. 전부터 번역하고 싶었던 글인데, 누군가 번역을 잘 해줘서 링크 걸었다. 특히 아래 대목은 페이스북의 데이터 과학자들이 어떤 방식으로 일하는지 아주 간단하고 명료하게 보여준 글이 아닐까 한다.   …언제든, 팀원은 파이썬으로 다단계 처리 파이프라인을 작성하고, 가설 시험을 설계하며, R을 가지고 데이터 샘플의 회귀분석을 수행하고 데이터 위주의 제품이나 […]

계속 읽기

(월간 마소) Rhipe 예제 코드

이번달(2011.09) 월간 마이크로소프트에 기고했던 R로 하는 Big Data분석의 Rhipe 예제 코드에 퍼포먼스 문제가 있어서 개선된 코드를 올려본다. Rhipe의 아키텍처를 살펴볼 시간이 없었는데, 같은 회사분께서 고맙게도 구동 방식을 자세히 설명해줘서 코드 튜닝을 할 수 있었던거 같다. 원본 예제코드가 세 노드에서 6시간에 걸쳐 map/reduce를 한다는 것을 확인 했던 게 원고 데드라인이 지난 후였었는데,   Rhipe의 구동 방식을 모르고서는 […]

계속 읽기

국내에도 R 통계분석 시장이…

오늘 아침에 facebook 메시지를 통해서 알았는데, 월간 마소 빅 데이터 연재에서 잠시 소개했던 Revolution Analytics의 R 상용버전의 한국 진출 소식을 접할 수 있었다. 생각보다 상당히 빠른 행보인데, 아무래도 국내 메이저 제조업체가 R을 염두에 두고 있는 관계로 진행이 빨리 된 거 같다는 생각을 해본다. R은 분석 툴로서 가치를 가지고 있고 이를 기반을 어떤 가치를 고객에게 제공할지는 […]

계속 읽기

(월간 마소 연재) R로 하는 Big Data 분석

1회에서는  R 기본 문법, 2회에서는  R로 하는 멀티코어 병렬 프로그래밍에 대해서 간단하게 살펴 보았다. 이번 회에서는  R로 빅 데이터를 분석하는 방법을 설명할 예정이다. 일단 왜  R에서 빅 데 이터 분석이 힘든지에 대해서 간략하게 설명을 하겠고, 이를 극복해 분석하기 위해서 몇 가지 패키 지를 활용하는 방법을 소개하겠다.   마지막 연재를 마치고 원고를 공개한다. 아마 어제 오늘 […]

계속 읽기