Machine Learning 관련 프로젝트에서

가장 중요하고 가장 많은 시간을 잡아 먹는것이…
“데이터 전처리” 라는걸 많은 사람들이 간과한다. 나도 역시 ML 코어작업에 완전 푹 빠져서 이 부분을 간과하고 있다가 크게 뒤통수를 맞았다.

사용자 삽입 이미지

에러데이터 제거, 데이터 노말라이즈, 컴퓨터가 알아보기 쉬운 Feature Vector로의 변환작업 등등
그중에 입력 데이터의 정확도를 확인하는 부분은 정말 힘든 작업이다.
어느책을 보면 이 전처리 부분이 전체 마이닝 관련 프로젝트에서 60~70%이상의 리소스를 먹는다고 했는데 맞는 이야기 인거 같다.

그런데 그럼에도 불구하고 가장 간과하기 쉽다. 데이터를 보기 전까지 정확히 일정 산정의 예상이 힘들기 때문이기도 하고 그러기 때문에 막연하게 전처리라고 이야기 하면 듣는 상대방 역시 그렇게 중요하게 듣지 않기 때문인거 같다.

데이터를 신뢰하지 못하면, ML결과를 신뢰할 수 없고 그렇게 되면 이게 잘 되는건지 안되고 있는건지 알 수가 없다.

from future import dream

당신의 나의 뜨거운 감자!

관련