안녕하세요. 좋은 글 감사합니다. 관련하여 여쭤보고 싶은게 있습니다. 저는 xgboost 패키지를 이용해 kaggle에서 작업을 하고 있는데요. 파라미터 튜닝의 개념이 잘 이해되지않습니다. xgboost에는 eta(=shrinkage) 값과 nround(반복수준), 외에도 max_depth, subsample, colsample_by tree, seed, num_class, nthread 등의 파라미터가 있는데 이 모든 파라미터를 조정해서 적정 수준을 찾는 것인가요? 비전공자라그런지 해당 파라미터들이 기능하는 바도 잘 와닿지가 않네요…
[…] Boosting기법에 대한 설명은 이전 포스팅을 참고하기 […]
안녕하세요. 좋은 글 감사합니다. 관련하여 여쭤보고 싶은게 있습니다. 저는 xgboost 패키지를 이용해 kaggle에서 작업을 하고 있는데요. 파라미터 튜닝의 개념이 잘 이해되지않습니다. xgboost에는 eta(=shrinkage) 값과 nround(반복수준), 외에도 max_depth, subsample, colsample_by tree, seed, num_class, nthread 등의 파라미터가 있는데 이 모든 파라미터를 조정해서 적정 수준을 찾는 것인가요? 비전공자라그런지 해당 파라미터들이 기능하는 바도 잘 와닿지가 않네요…
https://github.com/dmlc/xgboost/blob/master/doc/parameter.md
위 문서를 참고하세요.
max_depth, subsample, colsample_by_tree는 일반화를 위한 변수이며
nthread는 학습 속도
num_class는 예측 클래스 갯수 입니다.
변수들에 대한 정확한 용도와 의미는 기본적인 머신러닝 기법에 대한 이해와 bagging, boosting 모델링에 대한 의미를 알고 있어야 됩니다. 단순히 코멘트로 이런 부분 말씀 드리기는 어려울것 같네요…
감사합니다. 링크해주신 깃허브 문서를 봤는데, 말씀해주신 머신러닝 기법에 대한 이해가 부족해서 그런지 어렵네요.. 올해부터 방송통신대에서 공부하는데 연말쯤엔 저도 이런 패키지들을 이해하고 쓸 수 있었으면 좋겠습니다.^^;