Weka관련 연재 예정 – 월간 마소 7,8,9월

월간 마이크로소프트웨어의 7,8,9월 연재로 Weka에 대해서 하기로 계획을 올해 초 잡았던 적이 있었는데, 실제 그렇게 집필을 하게 될 듯 하다.

사실 요 집필 계획은 번역하고 있는 collective intelligence in action의 add-on 성격으로 집필 계획을 잡았으나 아직 이책이 현재 퇴고 과정인 관계로, 연재가 더 빠르게 세상이 나오게 될 듯 하다.

3회 연재는 처음인데, 이런 집필 계획을 잡아봤다.

1회 : Weka의 배경. api 및 명령행 명령어 소개,
2회 : Weka GUI 환경 설명, GUI환경을 통한 클러스터링 및 분류 그리고 속성선택 알고리즘 구동. 그리고 그와 관련된 Java 예제 구현(Weka에 포함된 데이터나 외부 데이터를 사용한)
3회 : Weka를 이용한 Machine Learning 실무 프로그램 개발 – 예제는 오류 쿼리 분류기 또는  여타 다른 재미난 예제들…

마지막 회에서 예제를 어떤걸 고를까 굉장히 고민이 된다. 되도록 신기해 보이고, 재미난 실무 예제가 되었으면 좋겠는데.. 아직은 오류 쿼리 분류기가 막 생각난다. 쉽기도 하고 재밋기도 한…
3회에서 욕심은 이 오류 쿼리 분류기를 Lucene 쿼리 프로세스 로직에 붙이는 것으로 마무리 되면 좋겠지만 지면이 날지 모르겠다. 그리고 따로 Lucene을 설명해야 하는 부담감도 있고…쩝..

0 0 votes
Article Rating
Subscribe
Notify of
guest

2 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
BOSS

안녕하세요 WEKA 관련글을 읽어보고
글 적어요~

제가 WEKA TRAINING SET (WEATHER 정규분포)를 사용해서

ID3랑 J48(C4.5) 를 돌려봤는데요
둘이 기법이 비슷하고 가중치만 주는데
결과가 약간 다르게 나오는 이유가 뭔지 알려주실수 있나요?

=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure Class 이것들이 뭘 의미하는지좀 알려주세요 ㅠ

고감자

아..네.. 안녕하세요.
좋은 질문 감사합니다.

결정 트리에는 크게 3가지 방식(CART, ID3, C4.5)의 시스템이 있습니다. 다른 알고리즘이라고 하기엔 좀 그렇구요. 동일한 알고리즘을 약간 다르게 변형시킨 시스템이라고 보시면 됩니다.

이들 시스템은 트리 형태로 분기를 만들어 가는 방식은 동일하나 속성의 노드를 선정할때 계산하는 불순도 계산 방식, 가지치기(pruning), 실수 데이터를 다루는 방식들이 서로 다릅니다.

결정 트리 계통도에서 ID3와 C.4.5는 같은 계통을 가집니다. 그러니까 같은 사람에 의해서 개발된 것이라는 거죠. 따라서 초기 버전인 ID3에서 기능확장이 일어나 C4.5가 되었고, 이 C4.5를 상용화 한게 C5.0과 See5가 됩니다.

대표적인 ID3와 C4.5의 차이점으로는 ID3는 사전 가지치기를 수행하는 반면, C4.5는 사후 가지치기를 합니다. 제 개인적인 의견으로는 사후 가지치기가 더 효과적으로 생각하고 있습니다.

외카에서는 ID3를 이용한 알고리즘에서는 연속형 데이터를 분류하지 못했지만 C4.5의 경우 부등호 형식을 이용해 연속형 속성을 잘 분류해 줍니다.

아 그리고 FP,TP 관련 답변은 아래에서 확인 가능합니다.
http://www.freesearch.pe.kr/754

FP는 false positive, TP true positive 의 약자 입니다.