오늘 아주 흥미로운 글 하나를 읽었다. 우연히 Beautiful Data라는 책을 펼쳤는데, 전에 내가 읽지 않았던 부분중에서 Facebook의 데이터 플랫폼을 구축하는 과정을 그리는 Jeff Hammerbacher의 글을 보게 되었다.
읽는 내내 정신을 놓게 하지 않을 정도로 굉장히 흥미로운 글이였다.
글쓴이는 기업의 데이터가 두뇌이자 도서관이라고 비유를 하면서 시작한다. 이는 두뇌와 도서관 모두 과거의 정보를 기반으로 새로운 정보를 만드는 그런 역할을 하기 때문이라고 이야기하고 있으며, 인터넷 서비스 기업의 데이터가 바로 이런 역할을 한다는 언급하고 있는 것이다. 의문이 생기는 모든 것들은 데이터에게 물어보면 된다.
그러니까 이 글은 기업의 도서관을 어떻게 구축해 나갔는지 하는 그런 과정를 이야기한 글이다.
글의 전체적인 얼개는 MYSQL을 사용하던 로그처리에서부터 이들 데이터를 오라클 DB로 옮겨가고 대용량 이슈 때문에 다시 이들을 Casandra, Hadoop, Hive 등과 같은 정보 플랫폼을 구축하게 되는 어떤 일련의 고민들의 연속이였다. 마지막에 가서는 이들 데이터 플랫폼이 데이터베이스가 아닌 데이터스페이스라고 지칭하며 데이터 사이언티스트들의 역할이 앞으로 증대될 것이라고 언급하고 있다.
글쓴이가 페이스북에 입사할 당시(2006년) 이미 페이스북은 활발하게 페이스북 활동을 하는 집단내에 소셜네트웍에 전혀 참여하지 않는 집단들이 왜 그런 행태를 보이는지 이미 연구에 들어가고 있었다(물론 이것도 로그 기반 연구가 가능하다). 그리고 그 연구 결과들은 바로 사람들을 끌어들이는 서비스 기능에 반영이 되었다. 이처럼 페이스북은 수많은 로그 데이터를 아주 최적으로 이용하고 있었고, 이들에서 발견된 새로운 정보를 다시 서비스 구현에 부어내는 과정을 반복하고 있었다. 사람들이 더 많이 모일수록 어플리케이션은 더 지능적으로 변하게 되고, 더 재밋는 서비스들이 생겨나게 되는 것이다.
중간에 음성인식, 기계학습 전문가인 구글 엔지니어의 언급이 나오는데 이 또한 인상깊어 적어본다.
“간단한 모델에 수많은 데이터를 부어넣어 만든 기능이 복잡한 모델에 적은 데이터를 넣어 만든 기능보다 항상 성능이 좋다”
다분히 구글 엔지니어 다운 이야기지만, 내 짧은 경험으로 봐서도 이는 맞는 말이다. 여기서 데이터는 로그 데이터 자체가 될 수도 있고 이를 처리한 정보 데이터가 될 수도 있을 것이다.
페이스북에서 이렇게 정보 플랫폼이 구축이 된 이후에 한쪽에서는 매일 페이스북의 정보를 정리하고, 가설테스트를 하고 있으며 이들 새로운 정보를 기반으로 다른 한쪽에서는 서비스에 멋지게 녹여내는 작업을 아주 효율적으로 할 수 있었다고 이야기 하고 있다. 게다가 이들 발견들 몇몇은 소셜네트웍에 대한 중요한 논문으로 발표되기도했다.
이 도서관(정보 플랫폼)이 없는 회사는 기존의 정보에서 새로운 정보를 발굴해 낼 방법이 없다. 모든 서비스는 기획자의 직관에 의해 결정이 될 수 밖에 없다. 정보가 없으니 직관에 의지할 수 밖에….
게다가 도서관이 있다 치더라도 이 원하는 책을 누구든지 빨리 찾을 수 있게끔 하는 편리한 인터페이스가 없다면 이또한 문제다. 따라서 정보 플랫폼을 쉽게 누구나 접근해서 원하는 정보를 볼 수 있게 직관적이고 간단하게 만들어야 한다. 현재 페이스북은 이 정도 시스템까지 되어 있는 것 같다. 따라서 엔지니어가 직접 스크립트를 돌리지 않아도 어느정도는 기획자들도 정보를 볼 수 있다는 이야기다.
구글이나 실리콘벨리의 수많은 인터넷 기업들은 엔지니어가 혁신을 주도하는 그룹이라고 하는데, 이는 이들이 데이터에 대한 접근성이 다른 어느 직무 분야보다 높기 때문에 그렇게 될 수 밖에 없는 거라 생각한다. 모든 사람들이 혁신적이기 바란다면, 나는 여러분들의 일터에 이런 접근성 좋은 데이터 도서관을 만들라고 권하고 싶다.
데이터는 두뇌이자 도서관이다. by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.