RWeka

오늘 R 스크립트를 가지고 좀 놀다가 어떻게 하면 arff파일 포멧을 가지고 import를 시켜볼까 하다가RWeka라는 패키지 테스트까지 해보게 되었다. 어쩌다 최근에는 타의에 의해서 SAS에서 SPSS, Minitab까지 다뤄야 될 기회가 있어서 해보고 있는데, 역시나 R만한게 없는거 같다는 생각이 사용해보면 볼 수록 느껴진다. 게다가 오늘은 손에 익은 Weka 명령어와 모델 그리고 그것에서 나온 output까지 R에서 볼 수 있어서 […]

계속 읽기

최근 근황

어디를 가든 최근 근황에 대해서 궁금해 하시는 분들이 있어서 이렇게 포스팅을 써보고 있다. 대부분의 “요즘 어떻게 지내고 있어?” 하는 물음에 “관망하고 있다”는 답으로 일관하고 있는데, 아무래도 블로그에 상황에 대해서 업데이트 하는게 좋을거 같아서 올려본다.   이런 저런 이유 때문에 현재 다른 회사를 알아보고 있는 중이고 여러 좋은 분들이 관심을 주셔서 이런 저런 상황이 맞으면 아마도 […]

계속 읽기

이름만으로 성별 구분

아래 글은 책(“Natural Language Processing with Python” )의 예제에 알파벳 bigram feature를 추가해서 실험 한 결과이다. (이 부분에 대한 명시 없이 글을 써놓고 있다가 댓글에서 지적을 받아 수정했다. 코드예제 책을 보며 작성하고 시간이 많이 흐른 뒤에 해당 코드를 사용해서 포스팅을 하다보니 본의아니게 큰 실수를 하고 말았다. 나중에라도 이런 명시가 없어서 벌어질 사태를 생각하면 지적해준 분에게 […]

계속 읽기

‘개발 거의 다 했다’는 말은…

개발자들이 ‘개발 거의 다 끝났다’라고 하는 말은 이제 테스트 해 볼 만한 모듈이 만들어 졌다는 뜻으로 받아들여야 한다. 개발자도 사람인지라 ‘인지편향’의 경향을 지닐 수 밖에 없다. 자신이 만든 기능만을 테스트하고 테스트 케이스도 앞으로 들어올 데이터를 모두 대변할 만한 그런 샘플링 데이터가 아니라, 지극히 편향된 데이터로만 테스트를 하게 된다. 따라서 이전 기능이 모두 잘 돌아가는지 테스트를 […]

계속 읽기

새해 첫 모임…

새해 첫 술자리는 맘 맞는 분들과 함께 하는 행운을 가졌다. 오늘 이야기한 문장들에서 생각나는 것들만 적어 봤다.    “데이터 기반 지능형 소프트웨어 개발에서 ‘코드’ ‘모델’ ‘데이터’ 이것들을 동시에 개선하게 되는데 어느 두 부분을 고정시키지 않고서는 어느 부분이 문제의 원인인지 알기가 힘들다.”   “기계학습 모델링을 한다는 것은 인간의 인지 과정을 이해하기 위한 과정이다”   “랭킹을 하던 […]

계속 읽기

2010년 후기

어떻게 하다보니 올해의 마지막 날에 이르른거 같다. 블로그를 찾아보니 2010년에 대한 계획은 세워놓지 않은거 같다. 그 이유에 대해서는 어느정도 기억이 나고 있으나 결국 그 이유가 되는 것들도 올해 다 마무리가 된 듯 하다. 개인적으로 가장 굵직했던 일은 회사 프로젝트의 마무리였고, 번역 마무리가 있었다. 회사 프로젝트를 마무리 하면서 예상치 못하게 논문도 2편이나 썼으며 우수논문 선정까지 되었으니 […]

계속 읽기

<출간> 실전 예제로 살펴보는 집단지성 프로그래밍

Yes24 링크 알라딘 링크 인터파크 링크 교보문고 링크 반디앤루니스 링크 번역의 동기는 이런 데이터마이닝이나 기계학습 관련 응용 기술이 국내에 많이 퍼지길 바라는 의도와 함께,  웹2.0이라는 개념이 나온 후 많은 시간이 흘렀음에도 불구하고 국내에서는 아마존과 같은 좀더 지능화된 웹 사이트가 국내에 등장하지 않음에 대한 원망(?)도 그 동기가 되었던 거 같다. 하지만 그 강한 동기만큼 번역 기간 […]

계속 읽기

Lucene spellcheck package

요즘 루씬 코드 리딩을 하고 있다. 루씬 core 패키지는 예전에 한번 분석 해본 경험이 있어서 이번엔 contrib 패키지를 중점적으로 살펴보고 있다. 그중에서도 spellcheck 모듈은 가장 최근에 성능좋은 라이브러리로 구현한 경험이 있어서 관심이 갔다.  이 패키지 내에서는 Jaro Winkler Distance 라는 짧은 이름에서 사용 가능한 string 비교 클래스가 구현이 되어 있었으며 n-gram 기반의 string 비교 클래스도 […]

계속 읽기

Buffalo NAS WSL/R1 이런 저런 메모들

최근에 Buffalo NAS 장비 하나를 구매했다. 사실 사진 및 동영상 저장 용도로 쓸라고 했는데, 아직 그 용도로 활용 보다는 파일 공유 및 웹서버 설정해서 Django 코드 테스트 해보는데 사용 하고 있는 중이다. 이래저래 많은 시행 착오 끝에, 머신 ssh 로그인을 외부에서도 가능하게 만들어 두었고, 기본적으로 사용할 수 있는 BitTorrent 웹 클라이언트까지 외부 접속이 가능하게 오픈해 […]

계속 읽기

찰스 펫졸드의 코드:CODE

이번달 인사이트 출판사 리뷰용 도서로 받은 “CODE:코드“에 대한 서평을 올려본다. 처음 이 책을 받아보고 바로 느낀건, 내가 학교에서 가장 흥미를 느끼지 못했던 “컴퓨터 구조”에 대한 책이구나, 하는 생각을 했다. 그러나 이 생각은 초반 몇 장을 읽으면서 사라졌고, 컴퓨터 구조에 대한 책이라기 보다는 컴퓨터에서 사용하는 언어 즉 코드들이 하드웨어로 어떻게 구현이 되는지 여러 코드 체계에 대한 […]

계속 읽기