데이터 마이닝은 과학과 기예의 결합작

과학(science)와 기예(art)… 뭐 일단 이렇게 영어로 표현해 볼 수 있겠다. 국어 사전을 보니 기예가 “기술에 대한 재주”라고 표현되어 있는데, 내가 의도한 의미와 일맥상통한다.

개인적으로 데이터 마이닝이라는 단어를 좋아한다. 이 처럼 이 학문 영역을 잘 성명할 수 있는 이름은 없기 때문이다. 과정 자체가 금맥을 찾는 과정과 흡사하다.

많은 데이터 마이너들이 알고리즘으로부터 시작을 한다. 하긴 거의 모든 책이 그런 내용을 다루고 있으니, 학교에서도 마찬가지고.

재밋는건 이 알고리즘들도 만만치 않다는 것이다. 우여곡절 끝에 이 알고리즘에 대한 이해를 어느정도 했다고 치더라도 그게 전부가 아니라는 것을 깨닫기 까지는 그리 오랜 시간이 걸리지 않는다. 그래서 이쯤에서 나오는 이야기가 데이터 마이닝은 과학과 기예의 결합이라는 말이다. 과학이야 수많은 식이 나오는 책을 통해서거나 학교에서 배울 수 있지만, 기예는 절대 책상에 앉아서 알고리즘과 코딩만 하다가 얻을 수 있는게 아니기 때문이다.

기예라고 표현하는 이유는 우리가 목표로 하는 문제를 해결하는 모델을 만들기 위해 수 많은 해결 방법중에서 하나를 찾아가는 과정이 많은 시행착오와 시간 그리고 반복작업을 요구하기 때문이다.  물론 이 과정을 단축하기 위한 여러 방법들이 과학을 설명하는 책에 나와있지만 과학을 익히는 시간에 이들이 얼마나 중요하고 실제 어떻게 적용을 하게 되는지 데이터를 만지는 우리의 손이 이해하기는 쉽지 않다. 이리하여 우여곡절끝에 문제를 해결한 후 자신이 했던 새로운 경험은 다음 작업을 빨리 수행하기 위한 밑거름이 되고 노하우가 된다. 이런 기술을 기예라고 나는 표현하고 싶다.  이때 해결했던 방법은 딱히 한마디로 설명이 가능한게 아니고 언제나 이 방법이 적용될 수 있는것도 아닌 해결책이다. 다만 그 문제의 순간에 데이터에 따른 논리적 판단에 의거해서 해결책을 찾아간 결과일 뿐이다.  따라서 이런 해결책들은 책에서 명확히 설명되지 않고 결국 경험에서 밖에 얻을 수 없는 그런 능력이 된다.  (요즘 많은 경험을 통해서 배우는게 많지만 블로그에 그 내용을 적기 힘든 이유가 바로 이것때문이다. 모든 과정을 다 설명하는것도 힘들 뿐더러, 누구든 이 과정을 겪게 된다는 보장도 없기 때문이다.)

무엇이든지 다 해결할 수 있을거 같던 알고리즘을 돌려본 사람들은 누구든지 이런 경험을 해봤을 것이다.

“생각만큼 똑똑하게 학습되지 않았음을….”

최고로 알려진 알고리즘인데, 이런 결과를 도출하게 되면 대다수의 사람들이 데이터 마이닝 기술에 대해서 실망을 하게 되어 있다.  나 역시 그랬으니까…(ㅎㅎ 최고의 알고리즘이라고??…. 망치질을 이제 막 배운 꼬마에게는 모든게 못으로 보일 수도 있음을 명심해야 됨…)

그러나 여기서 좀더 나아가면 결국 알고리즘은 데이터 마이닝의 극히 작은 일부분에 지나지 않음을 알 수 있다. 그러다 색다른 속성을 발견하는데 집중하게 되고, 이어서는 결국 데이터를 의심하게 된다. 데이터를 분석하는데 도리어 데이터를 의심한다는게 좀 이상하긴 하지만… 분명 의심을 해봐야 되는 부분이다.

모든 데이터 마이닝 프로세스에서 이같은 실망을 경험할 기회는 얼마든지 많다. 게다가 자신의 부족함에 대해서 깨닫는 순간들도 부지기수이다.  그러나 바로 이 순간이… 내가 성장할 수 있는 기회가 된다.

삽질도 이런 X삽질이 없다. 아마 데이터들이 내 눈앞에 프린트 되어 있다면 그걸 다 씹어 잡수고 싶다는 욕구가 들정도가 된다. 그러다 결국 문제는 아주 작은 부분에 있다는 사실을 찾아내면 점점 재미가 붙어가기는 한다.

나침반밖에 없는 세상에서 우리가 목표로 하는 산 정상에 한번에 올가기는 힘들다. 아주 운 좋다면 그럴 수도 있지만 대부분 그렇게 되지 않는다.  이런 위험에 봉착했을때, 내가 어느쪽 방향으로 발을 옮겨야 정상에 갈 수 있을까 추론하고 분석하는 능력이 필요하다. 주변에 많은 데이터들이 자신을 봐달라고 널려져 있다. 이들을 어떻게 밟고 지나갈지는 내가 어떤 노하우 및 경험이 있는지에 따라서 판가름 난다. 만일 이런 노하우가 없다면 결국 밤새도록 산길을 해맬 수 밖에 없다.

결국… 이론으로 기본을 만들고 경험으로 완성을 하는 것이라고 말하고 싶다. 이쪽 데이터 마이닝 분야에서는 끊질기게 물고 늘어지고 기민하고 논리적으로 방향을 결정해 해결해 나가는 그런 자세가 필요하다. 초반에 실망했다고 절대 좌절하거나 포기하지 말 일이다.

CC BY-NC 4.0 데이터 마이닝은 과학과 기예의 결합작 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.