Wine 등급 예측 경진대회 세번째 이야기

첫번째, 두번째에 이어 세번째 이야기를 하려 한다.

5/28/2011       0.793290832
6/1/2011         0.651258728
6/6/2011         0.653900762
6/14/2011       0.66176357
6/16/2011       0.800861605
6/17/2011       0.647275457
….
6/23/2011       0.637884434

어제 submission을 통해 다시 한번 에러를 줄이는 쾌거를 올렸다. 이전보다 약 0.01정도 오른 상황이고, 신기하게도 엇그제인가 0.60대가 깨진 score가 하나 올라왔다.

0.03을 줄인다면 1등도 할 수 있을거 같은데, 말이 쉽지 정말 어려운 문제다.

결과를 보면서 예네들이 실제 scoring하는 방법이 RMSE라는 방법이라는 것을 알았다. 이건 정답을 평균이라고 가정했을때 표준편차 계산 방법과 동일한 방법이다. 그리고 대부분의 경우 numeric값을 예측하는 모델의 성능평가에 쓰이는데, 이 문제 자체가 classification을 가정한 모델보다 regression을 가정해서 접근하는게 맞을지 모른다는 힌트를 얻을 수 있었다. (하지만 아직 난 classification으로 접근중이다. 그리고 이 전략은 바꾸지 않을 예정이다.)

이번 도전에는 지난번 semi-supervised learning 성과에 기계학습 모델 파라메터 튜닝까지 한 결과이다.

모델 파라메터 튜닝을 하다보면 evaluation 값들이 어느 특정 범위에서 들쭉날쭉 하는 현상이 있어서 결정하기가 약간 힘든점이 있는데, 20번 정도 시도한 결과를 다른 파라메터들과 t-test를 통해서 정말 값에 따른 퍼포먼스 차이가 있는지 평가했고, 그 결과에 따라서 최적값을 선정했고 실제 위와 같은 모델 퍼포먼스 향상이 있었다.

지금까지의 결과를 종합해 보자면,

이 와인 등급 예측 문제는

1. 선형 분류 알고리즘은 해결 방법이 아니다.

2. 앙상블 알고리즘이 좋은 결과를 가져다 준다.

3. semi-supervised learning이 모델 성능향상에 도움을 준다.

4. 기계학습 파라메터 튜닝이 많은 도움이 된다.

5. ?

대부분 기계학습쪽 영역에서 심도 있게 다뤄지는 주제들로 퍼포먼스 향상을 이끌어 냈다는 것을 알 수 있다. 교과서대로 하면 저 정도는 할 수 있다 정도의 의미가 있지 않을까 한다.

참… 그리고 feature selection은 여러 알고리즘을 사용해서 최적 feature들을 찾아 봤는데, 다 뺄수 없는 feature라는 결과가 나와서 별다른 작업은 하지 않았다.

다음주 내내 짬짬히 기말고사 준비를 해야 해서 다른 시도들은 힘들거 같다는 생각을 해보지만, 이제 R로 모델 빌드하고 테스트 하는덴 이골이 나서 스크립트 짜서 데몬으로 띄워 놓고 결과만 확인하는 과정만 계속하게 될듯 하다.

0.03을 줄이려면 아마도 최신 논문들을 좀 살펴봐야 되지 않을까 하는 생각도 든다. 교과서 외적인 방법을 찾기 위해서 말이다. ㅋ

from future import dream

당신의 나의 뜨거운 감자!

관련