요즘 고민하는 화두다.
말 그대로 Data Mining의 전처리 단계라고 볼 수도 있는데, 사실 collective Intelligence라는 책을 보면서 다시 한번 놀랐던것이 현실적인 수치적 문제(돈, % 등) 뿐만아니라 다른 것들, 예를 들어서 성별, 취미 등 의 그런 데이터를 어떻게 수치화 해서 표현하고 그것들의 의미를 목적에 맞게 모델링하는 과정을 보면서 꼭 이 부분에 대해서는 다양한 방법론을 공부해야 겠다는 생각을 해봤다.
사실 회사에서 하는것도 이것과 굉장히 많은 연관성을 가지는 일들이 있다. 논문 하나 쓰는데 알고리즘에 co-occurrence정보를 식에다 녹여 넣는데 생각보다 시간이 오래 걸리는것을 경험하다 보니 이것의 중요성도 간과할 수 없는 부분이라고 느꼈다.
사실 여태 알고리즘 위주로만 공부해온 터라 실제 데이터 마이닝에서 60%이상의 리소스를 차지하는 데이터 전처리 및 수치화 방법에 대한 공부를 게을리 한것이 사실이다. 물론 이번학기 Data Mining 과목을 청강하면서 많이 배우고 있기는 하지만 역시나 관심이 관심인지라 위에서 보는 책의 중심 초점이 이런것에 집중되어 있다.
책을 보니 알고리즘에 대한 설명이 반이라면 나머지 반은 그런 수치화와 데이터 스케일링 하는 방법에 대한 설명이 대부분이였다.
또한 실제 업무를 한다고 해도 책 분량의 비율정도가 업무처리 비율에 들어갈것이다.
데이터 마이닝의 한분야로서 검색이 있더라. 하지만 나에겐 두가지 다 차이가 없다.
모두 수많은 데이터에서 정보를 찾아내는 공통점을 가지고 있으니 말이다.
마지막으로 Open API를 이용한 데이터 마이닝 기법에 대한 아주 좋은 문서를 발견해서 올려본다.
이번에 야후에서 Hack Day를 하는데 Open API와 데이터 마이닝 기법을 이용해서 뭔가 하면 재밋을거 같은데 고민중이다. (퍽~~ @.@ 학위논문이나 빨리 완성하시지?)
현실 세계의 기준들을 어떻게 하면 숫자로 표현할 것인가? by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.