내가 위 분의 블로그를 자주 찾는 이유는 국내 말고 외국의 대학의 석, 박사 연구원들은 뭘 연구할까 궁금해서이다.
올라오는 글을 보면 구글이나 야후에서 이미 하고 있는 일들을 주로 연구하는거 같다. 국내에서는 포털 및 학계의 기술적인 교류가 거의 없어서 기술적 그리고 서비스적 연구가 서로 다른것에 비하면 정말 부러운 환경이지 않을 수 없다.
위 분의 말을 빌리자면 “업계나 학계나 서로 앞서거니 뒷서거니 한다”고 한다.
많은 포털에서 검색 로그를 실제 프로덕트에 많이 사용하고 있다. 사람들의 관심사는 무엇일까 정도를 넘어서 사용자들의 사이트 네비게이션 패스(path)는 어떻게 되고 이것을 효과적인 광고 매출로 연결시키기 위해 상당히 고민하고 있다.
이런것이 전부 로그가 없으면 힘든 이야기다.
구글은 검색 로그를 사용하고 있고 이를 이용해서 몇가지 검색 기능을 구현한 듯 한게 보인다.
대표적인 예로 구글에서 네이버를 검색하면 나오는 첫번째 결과에서 아래와 같은 결과를 볼 수 있을 것인데…
저걸 조사하기 이전에는 뭘 사용해서 저런걸 만들었을까 궁금했다. 단순히 에디터 입력에 의해서 만들기는 구글스럽지 않다는 생각이 들었다. 게다가 내가 조사한 바에 따르면 Machine Learning 베이스의 결과라는것이 지배적이다.
몇가지 쿼리를 집어 넣었을때 재미있는 현상이 발견되었는데..
그 상품 사이트가 굉장히 인기있는 상품 이벤트를 했었나 보더라.
원래 있었던 상품 이벤트 페이지가 이벤트가 끝나면서 페이지가 삭제되었고 따라서 그대로 바로가기 식의 링크를 제공했던 구글은 이것에 대해 “페이지를 찾을 수 없습니다.”라는 404에러로 사용자들에게 제공한적이 있었다. 만일 사람이 직접 했다면 그런 이벤트성 페이지를 바로가기로 넣지 않았을 것이다.
아마도 이는 그 도메인에서 가장 인기가 많았던(한때) 페이지였을 것이고 사용자 로그를 학습셋으로 사용해서 이런 바로가기(?)류의 데이터를 만든것으로 유추해 본다.
만일 이 기능을 단순히 페이지 랭크만 써서 만들었다면 이벤트성 페이지는 나오지 않았을것이다. 그렇다면 페이지 랭크가 주된 알고리즘이라고 하더라도 어떤 특정한 기간에만 출몰하는 페이지(별로 랭킹 점수가 높지 않을것 같은)를 적절히 고전적으로 페이지 랭크가 높은 페이지들에 적절하게 섞어줄 수 있는 방법이 있다는 이야기로 봐도 될듯 하다.
만일 수많은 로그에서 위와 같은 이벤트성 페이지를 제외하기 위해서 어떤 Machine Learning Feature를 넣었을까 생각해보면 상당히 재미있다.
처음 할 수 있는것이 주기적으로 바로가기로 나온 페이지 return code를 체킹하는게 중요할 것이고, 바로가기 링크를 만들때 url depth나 그 페이지의 영속성을 history기반으로 체크해서 그러한 feature를 사용하는것도 좋은 방법일듯 하다.
이야기가 잠시 밖으로 세버렸는데 유저 검색로그를 사용해 랭킹을 개선하는건 일단 외국 학계나 업계에서는 일반화되어 있는 것으로 보인다. 게다가 이것 말고도 다른 방법으로 좀더 진보적인 검색을 향해 가는거 같다. 조금 조금씩 그 검색의 황금룰을 찾아서 연구해 나가는 모습이 참 부럽기 그지 없다.
개인적으로 검색이면 검색결과, 스팸이면 스팸/논 스팸 … 이를 지배하는 정답 함수가 어딘가 있다고 생각한다. 하지만 누구도 그 정답을 도출하는 함수를 발견하지 못했다.
그 정답이 되는 룰을 발견하는 작업들이 나나 많은 사람들이 연구하는 이유가 아닐까 한다.
검색 로그를 검색에 다시 이용하기 – 구글 바로가기 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.