데이터마이닝 수사기법을 소재로한 미드 Numbers

원래 미드를 잘 안보는데 Numbers라는 미드가 데이터마이닝 기법으로 수사를 하는 그런 드라마라는 이야기를 듣고 요즘 몸 좀 쉬고있는 동안이라 보게 되었다.

사실 이곳에 나오는 데이터를 기반으로 하는 수사기법도 수사기법이지만 찰스라는 주인공이 하는 이야기들과 또 그와 대화하는 교수의 말속에 그냥 지나치기에 힘든 그런 주옥같은 말들이 많이 포함되어 있다는 것을 알 수 있었다. 
사실 수사의 스토리 라인보다는 이들이 하는 이야기가 더 마음에 와 닿는다.

시즌1의 2편 Uncertainty Principle 에서 초반에 범인들의 행동을 예측 할 수 있다는 말에 교수가 충고 한마디 한다.

“Don’t mistake the ability to pridict with the ability to control.”
예측할 수 있다는 것과 통제할 수 있다는 것은 다르다.

예측의 정확도 만으로 모든걸 거머쥐었다고 착각을 하는 사람들에게 꼭 필요한 말인거 같다.

그리고 2편의 제목인 불확실성의 원리(Uncertainty Principle)는 하이젠버그가 말한 유명한 말인데, 관찰하는 행위가 관찰 대상에 영향을 준다는 원리이다.
이 말은 웹에서만 보더라도 페이지랭크라는 효과적인 링크를 기반으로 하는 랭킹이 나왔지만 이를 이용한 스팸이 성행하는 것을 보면 잘 알 수 있다. 어떻게 관찰하고 있는지 방법을 아는 관찰 대상은 어떻게든지 관찰 결과에 영향을 준다는것…

3편에서는 자신이 뭔가 잘 못 되었다는 알지만 수학적으로는 해를 구한 경우 뭐가 잘 못 되었는지 물어보러 교수를 찾아가는 장면이 나온다.

그런데 결론은 교수의 한마디로 끝난다.

“Go back to the data”
데이터를 다시 살펴봐라.

사실 알고리즘이 맞다고 확신이 선다면 결국엔 데이터에 문제가 있기 마련이니..
결국 모든 마이닝 프로세스는 데이터를 살펴보는것으로 시작되고 또 다시 데이터를 살펴보는 것으로 끝이나는거 같다.

사실 범죄수사에 사용되는 알고리즘의 큰 얼개는 association rule 관련 알고리즘이 대부분일 거라고 생각한다. 여기서
graph를 적용하느나, vector를 적용하느냐의 여러 변형이 있겠지만 계속 보다 보면 굉장히 재미난 알고리즘에 대한 소개가
나올 것으로 기대해 본다.
그러나 이 드라마가 흥미로운건 가장 예측하기 힘들다는 사람의 행동을 예측하는것을 소재로 한다는 건데, 이 때문에 상당히 알아두면 좋은 개념들, 특히 알고리즘을 맹신함으로 빚어지는 다양한 예외 상황이 많이 나오는거 같다.

공부하는 느낌으로 드라마를 본건 처음이고 이 드라마로 조만간 드라마 영어공부를 해볼까도 한다.

CC BY-NC 4.0 데이터마이닝 수사기법을 소재로한 미드 Numbers by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.