데이터는 두뇌이자 도서관이다.

오늘 아주 흥미로운 글 하나를 읽었다. 우연히 Beautiful Data라는 책을 펼쳤는데, 전에 내가 읽지 않았던 부분중에서 Facebook의 데이터 플랫폼을 구축하는 과정을 그리는 Jeff Hammerbacher의 글을 보게 되었다.
읽는 내내 정신을 놓게 하지 않을 정도로 굉장히 흥미로운 글이였다.

글쓴이는 기업의 데이터가 두뇌이자 도서관이라고 비유를 하면서 시작한다. 이는 두뇌와 도서관 모두 과거의 정보를 기반으로 새로운 정보를 만드는 그런 역할을 하기 때문이라고 이야기하고 있으며, 인터넷 서비스 기업의 데이터가 바로 이런 역할을 한다는 언급하고 있는 것이다. 의문이 생기는 모든 것들은 데이터에게 물어보면 된다.
그러니까 이 글은 기업의 도서관을 어떻게 구축해 나갔는지 하는 그런 과정를 이야기한 글이다.

글의 전체적인 얼개는 MYSQL을 사용하던 로그처리에서부터 이들 데이터를 오라클 DB로 옮겨가고 대용량 이슈 때문에 다시 이들을 Casandra, Hadoop, Hive 등과 같은 정보 플랫폼을 구축하게 되는 어떤 일련의 고민들의 연속이였다. 마지막에 가서는 이들 데이터 플랫폼이 데이터베이스가 아닌 데이터스페이스라고 지칭하며 데이터 사이언티스트들의 역할이 앞으로 증대될 것이라고 언급하고 있다.

글쓴이가 페이스북에 입사할 당시(2006년) 이미 페이스북은 활발하게 페이스북 활동을 하는 집단내에 소셜네트웍에 전혀 참여하지 않는 집단들이 왜 그런 행태를 보이는지 이미 연구에 들어가고 있었다(물론 이것도 로그 기반 연구가 가능하다). 그리고 그 연구 결과들은 바로 사람들을 끌어들이는 서비스 기능에 반영이 되었다. 이처럼 페이스북은 수많은 로그 데이터를 아주 최적으로 이용하고 있었고, 이들에서 발견된 새로운 정보를 다시 서비스 구현에 부어내는 과정을 반복하고 있었다. 사람들이 더 많이 모일수록 어플리케이션은 더 지능적으로 변하게 되고, 더 재밋는 서비스들이 생겨나게 되는 것이다.

중간에 음성인식, 기계학습 전문가인 구글 엔지니어의 언급이 나오는데 이 또한 인상깊어 적어본다.

“간단한 모델에 수많은 데이터를 부어넣어 만든 기능이 복잡한 모델에 적은 데이터를 넣어 만든 기능보다 항상 성능이 좋다”

다분히 구글 엔지니어 다운 이야기지만, 내 짧은 경험으로 봐서도 이는 맞는 말이다. 여기서 데이터는 로그 데이터 자체가 될 수도 있고 이를 처리한 정보 데이터가 될 수도 있을 것이다.

페이스북에서 이렇게 정보 플랫폼이 구축이 된 이후에 한쪽에서는 매일 페이스북의 정보를 정리하고, 가설테스트를 하고 있으며 이들 새로운 정보를 기반으로 다른 한쪽에서는 서비스에 멋지게 녹여내는 작업을 아주 효율적으로 할 수 있었다고 이야기 하고 있다. 게다가 이들 발견들 몇몇은 소셜네트웍에 대한 중요한 논문으로 발표되기도했다.

이 도서관(정보 플랫폼)이 없는 회사는 기존의 정보에서 새로운 정보를 발굴해 낼 방법이 없다. 모든 서비스는 기획자의 직관에 의해 결정이 될 수 밖에 없다. 정보가 없으니 직관에 의지할 수 밖에….

게다가 도서관이 있다 치더라도 이 원하는 책을 누구든지 빨리 찾을 수 있게끔 하는 편리한 인터페이스가 없다면 이또한 문제다. 따라서 정보 플랫폼을 쉽게 누구나 접근해서 원하는 정보를 볼 수 있게 직관적이고 간단하게 만들어야 한다. 현재 페이스북은 이 정도 시스템까지 되어 있는 것 같다. 따라서 엔지니어가 직접 스크립트를 돌리지 않아도 어느정도는 기획자들도 정보를 볼 수 있다는 이야기다.

구글이나 실리콘벨리의 수많은 인터넷 기업들은 엔지니어가 혁신을 주도하는 그룹이라고 하는데, 이는 이들이 데이터에 대한 접근성이 다른 어느 직무 분야보다 높기 때문에 그렇게 될 수 밖에 없는 거라 생각한다. 모든 사람들이 혁신적이기 바란다면, 나는 여러분들의 일터에 이런 접근성 좋은 데이터 도서관을 만들라고 권하고 싶다.

0 0 votes
Article Rating
Subscribe
Notify of
guest

6 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments

[…] This post was mentioned on Twitter by moodern E, Jeon HeeWon . Jeon HeeWon said: New blog post: 데이터는 두뇌이자 도서관이다. http://freesearch.pe.kr/archives/1855 […]

cojette

아마존에서 data analysis 관련 책을 사다가 이 책이 추천에 나와서 무슨 책인가 했는데 이런 재미난 내용도 가지고 있군요. 한 번 읽어봐야겠네요 +_+

soyoja

좋은 글 감사드립니다.

로그를 수집하고 이를 분석하여 기능과 서비스를 개선하는 것은 정말 훌륭한 피드백 시스템이라고 생각되지만, 현실적으로는 아래와 같은 어려움을 겪곤 합니다.

1. 일반적으로 로그가 많을수록 정보가 많아지니 좋겠지만 로그를 많이 쌓을수록 시스템에 늘어나는 부하도 고려해야 한다.
2. 상기 이유로, 유용한 정보만을 추출할 수 있는 최적의 로그를 남기도록 설계해야 하는데 이 작업이 정말 어렵다..
3. 로그를 수집했다고 하더라도, 이 로그를 분석하여 유용한 정보를 추출하는 마이닝 전문가가 의외로 드물다.

이런 문제들로 현업에서는 로그를 쌓아만 놓고 효과적으로 활용하지 못하고 트러블슈팅이나 디버깅 용도등으로만 쓰는 경우가 많은 것 같습니다..

이런 문제에 대해서도 고견을 들려주시면 고맙겠습니다 ^^

trackback

toracle의 생각…

데이터는 두뇌이자 도서관이다. http://freesearch.pe.kr/archives/1855 #yam…