올해 7,8,9월에 마소에 기고한 Weka 기고문(잡지 원문)과 관련 소스코드를 모두 공개한다.
전에도 언급했지만 엄청난 오타가 존재하고 있는데, WECA가 모두 WEKA로 교정되지 않았음을 양해해 주기 바란다.
1,2,3회가 쭉 이런 오타를 가지고 나올 수 밖에 없었는데, 이 사실이 참 안타깝긴 하다.
당신의 나의 뜨거운 감자!
올해 7,8,9월에 마소에 기고한 Weka 기고문(잡지 원문)과 관련 소스코드를 모두 공개한다.
전에도 언급했지만 엄청난 오타가 존재하고 있는데, WECA가 모두 WEKA로 교정되지 않았음을 양해해 주기 바란다.
1,2,3회가 쭉 이런 오타를 가지고 나올 수 밖에 없었는데, 이 사실이 참 안타깝긴 하다.
[…] 이 책의 외카 챕터 번외로 진행했던 월간 마이크로소프트웨어 Weka 연재(http://freesearch.pe.kr/archives/1661)도 프린트해서 책과 같이 참고하면 많은 도움이 될거라 […]
안녕하세요 연재해주신 웨카에 관련된 내용을 보고 질문 드리고자 합니다. 현재 웨카를 통해 분류 알고리즘을 적용하여 논문을 작성에 대한 실험을 하고 있는데요. 웨카에서 나오는 결과가 가령 1000 / 900 / 90% 이렇게 나올 경우 900개의 예측이 성공이다라고 하셨는데요. 그럼 해당 900개의 데이터에 대해선 이 데이터로 하여금 향후 예측할 무언가에 대해서 신뢰도를 갖을 수 있다고 이해해도 되는건지 궁금합니다. 또한 제가 실험했을때 70%정도 밖에 안나왔다면 속성의 feature selection 과정에서 제가 잘 못해서 그런것인지 아니면 70%도 100개 중 70개는 예측할 수 있다고 해도 되는지 궁금해서 질문 드려봅니다^^
사실 오래전 문서라 잘 기억이 나질 않습니다만, 일단 덧글만 보고 말씀드리겠습니다.
정확도가 “정확하게 예측한 테스트 데이터 개수”/”전체 테스트셋”이죠.
그렇다면 100개중에 70개를 예측 성공 하셨다면 70%의 정확도를 가지고 있는겁니다.
하지만 말씀하신 70%의 의미를 좀더 신뢰하고 싶으시다면 feature selection을 보시는 것보다는 학습셋이나 테스트셋이 모집단에 대해서 모집단을 대변할 정도로 잘 샘플링 되었는지를 확인해 보시는게 좋습니다. 하지만 이게 쉽지 않죠..대부분의 문제의 경우에서는 모집단을 알기 힘드니까요.
게다가 많은 경우 학습셋을 많이 만들기도 쉽지 않습니다.
그래서 이럴때 10 fold cross validation을 사용합니다.
아마 제 컬럼에서도 설명이 나오지 않았나 싶은데요, 10개의 데이터셋으로 나누고 9개를 학습 나머지 1개를 테스트에 쓰시면서 10개의 모델과 테스트 결과를 보시고 이들 결과들이 어느정도 비슷한 성능을 보이신다면 70%의 성능을 어느정도 인정해도 될 것입니다.
말씀하신 feature selection의 경우에는 어느정도 안정된 모델에서 모델 퍼포먼스를 향상 시키고 싶을때 접근하는 방법중에 하나입니다. 좋은 feature 하나가 논문 한건이 되기도 할 정도로 중요한 작업이죠.
답변이 되었을지 모르겠네요.
다시 궁금한 부분 있으면 덧글 남겨 주세요. ^^
답변 감사합니다. 사실 웨카에 대한 결과만 보고서는 어떻게 굴러가는지..^^; 모르겠더라구요. 중점적으로 봐야할 부분이 Correctly Classified Instances 이부분이라고 하셨는데 결과 부분 보면 training set 부분에 클래스 별로 나오는 값들이 무엇을 의미하는지 자세히 모르겠습니다.;;혹시나 폐가 안끼친다면 제가 돌린 결과값을 보여드리고 싶군요. http://211.42.104.246/ 여기 들어가시면 result파일과 속성에 대한 수치화 엑셀파일이 있습니다. attack_type 속성이 관측값이구요. 나머지는 관측값에 따라 나타난 속성정보들입니다. 혹시나 잘못된 점있다면 지적좀 부탁드릴께요~^^;
아래 보시면 2번 8번 클래스의 에러율이 100%네요.
===”Confusion”Matrix”===
“””a”””b”””c”””d”””e”””f”””g”””h”””i””” table(vuln2009$Attack_type)
1 2 3 4 5 6 7 8 9
80 9 77 752 516 118 341 30 68
일단 학습셋을 보강하시는것을 추천합니다.
아 그렇군요. 답변감사합니다. 다른 클래스로 편입해야겠군요.^^