도메인 전문가 혹은 머신러닝 전문가?

Strata 컨퍼런스에서 있었던 논쟁중에 하나로 위 제목과 같은 내용의 대화가 우리가 익히 알고 있는 사람들에 의해서 논의 되었는데, 그 결론이 참으로 기억해 둘만해서 올려본다.

 

the data science debate: domain expertise or machine learning?

 

debator들은 아래와 같다.

 

Drew Conway, Ph.D. Candidate at NYU, Data Scientist at IA Ventures 
DJ Patil, Data Scientist in Residence at Greylock Partners 
Amy Heineike, Director of Mathematics at Quid
Weighing in against the motion (e.g. favoring machine learning skills) were:

Pete Warden, CTO of JetPac
Pete Skomoroch, Principal Data Scientist at LinkedIn 
Toby Segaran, Author of Collective Intelligence and Google Engineer

Conway, Segaran 이 두 사람만 책으로 만나본 사람들이다. 물론 Conway가 가장 절묘한 코멘트를 날리긴 했지만…

메모해둘 부분은 아래와 같다.

 

One of the conclusions reached was that, when a problem is well-structured (or to Drew Conway’s point, when a good question is posed), it is much easier for machine learning to succeed.  Kaggle’s strength as a contest platform is that domain experts have already framed the problem:  they choose the features of the data to use (feature engineering or “feature creation”, as Monica Rogati calls it) as well as the criteria for success. This is the first, hardest step in any data science project.  After this, machine learners can step in and develop the best algorithms for classifying and predicting new data (or, less usefully, explaining old data).

Thus who you decide to hire as your first data scientist — a domain expert or a machine learner — might be as simple as this: could you currently prepare your data for a Kaggle competition?  If so, then hire a machine learner.  If not, hire a data scientist who has the domain expertise and the data hacking skills to get you there.

 

사실 Kaggle에서 우승하는 사람들은 문제의 도메인과 거의 상관이 없는 사람들이었다. 오히려 머신러닝 기술을 더 잘 다루는 사람들이라 말할 수 있는데, Kaggle 대회는 이미 도메인 전문가들이 제공한 feature들과 여러 정보를 문제와 함께 제공하고 있다고 볼 수 있다. 그 제한된 sandbox에서 정말 잘 할 수 있는 사람은 오히려 머신러닝 전문가가 아닐까? 왜냐면 feature를 설령 발굴 했다 하더라도, 제공된 데이터에 없기 때문이지…

그런데 문제는 대부분의 현실 문제가 저렇게 well-defined 된 것들이 아니라는 것이다. 스스로 feature를 발굴하고 정의하고 질문을 함으로써 문제를 정형화시키는 능력을 가진 사람은 오히려 도메인 전문가들의 영역이 아닐까 한다.

머신러너 혹은 도메인 전문가도 도메인의 문제를 풀기 위한 탐구 열정과 노력이 필요한데, 그런 curiosity를 가진 사람을 찾겠다는 Patil의 의견에도 전적으로 동의하는 바이다.

CC BY-NC 4.0 도메인 전문가 혹은 머신러닝 전문가? by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.