월간 마소에 기고글을 넘겼는데 적은 분량에 하고 싶은 이야기는 많고 수식을 최대한 줄이고 하려니 거의 주화입마에 걸릴뻔 했다.
검색 성능 개선을 위한 두 가지 방법에 대해서 설명하고 각 기술들의 차이점과 구현시 신경써야될 부분들에 대해서 썼다.
초기 의도했던 부분들의 내용도 들어 있지만 개인적인 생각과 관점을 줄이고 기술적인 내용을 첨가하려 노력했다.
두 가지 방법이란 흔히 편집기술이라고 이야기 하는 룰 기반의 성능개선 방법과 기계학습 기반의 방법에 대해서다.
이번 집필에서 얻은것이라면 조목조목 따져보니 룰 기반의 방법들이 non linear기반 분류기의 익스트림한 케이스와 맞아떨어졌다는 것이다.
이 룰 기반의 방법에 대한 몇가지 생각을 정리하자면…
정확한 룰만 셋팅할 수 있다면 정확도가 상당히 높지만 아주 적은 숫자의 에러가 되는 룰이 들어 있어도 분류기의 성능이 크게 좌지우지 될 수 있다는것…
시간이 가면 갈수록 복잡해 지는 룰을 잘 셋팅할 수 있을 자신만 있다면 그대로 진행해도 좋을 방법
반짝 해당 쿼터에 성능만 잠깐 내주고 내팽개쳐버릴 기능이라고 생각되면 사용해도 좋을 유지보수 측면에서 최악의 방법(후임자 엿먹이기 딱 좋은…)
그렇다고 룰 기반의 방법이 매번 나쁜것만은 아니다. 적당히 사용하면 기계학습 방법의 오점을 효과적으로 보완할 수 있는 그런 상비약 같은 존재가 될 수 있다.
문제는 룰 기반 방법을 상비약이 아닌, 주식으로 여기는게 가장 큰 문제다.
더 자세한 이야기는 10월 월간 마소를 참고하시길…
검색 성능 개선의 두가지 방법 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.