오늘 책을 좀 보다가 정말 주옥과 같은 표현을 발견했다.
Jackson and Moulinier (2002) suggest that
“Understanding the data is one of the keys to successful categorization, yet this is an area in which most categorization tool vendors are extremely weak. Many of the `one size fits all’ tools on the market have not been tested on a wide range of content types.”
머신러닝을 이용한 분류 업무를 수행할 시 도메인에 대한 정확한 이해를 기반으로 효과적인 feature를 추출하고자 노력하는것이 다양한 Machine Learning 방법을 이것 저것 적용하는 것보다 더 큰 성능향상을 가져온다는 이야기다.
한 2년 전에 봤으면 그냥 별 생각없이 넘어갔을 구문인데 지금은 이 문장이 왜 중요한지 나 자신이 너무 잘 알고 있다.
결국 이전에 말한 80/20 법칙이 또 한번 이곳에서 나오는 것이다.
머신러닝 결과물을 좋게하기 위한 방법 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.