웹검색

웹 검색에서는 세가지 종류의 쿼리가 있다고 분류한다.

Informational queries – 말 그대로 특정 정보를 다루는 다양한 토픽을 요구하는 쿼리를 의미한다. “이효리” 쿼리의 경우 상당히 많은 양의 다양한 정보 문서가 나올 것이다. 게다가 경우에 따라서 결과에서 최신성을 중요시 하기도 할 것이다.

Navigational queries – “삼성전자”라는 쿼리에 삼성전자 홈페이지가 연결이 되는게 대부분 맞을 것이다. 대부분 정답이 거의 분명한 쿼리가 이들에 해당된다.

Transactional queries – 사용자 요구가 명확한 쿼리를 의미한다. “파이어폭스 다운로드” 같은 쿼리는 명확히 다운로드 링크를 의미할 것이다.

이들 말고 쿼리를 주제로 분류하기도 한다. 이 쿼리 분류의 문제는 전형적으로 웹 검색 업체의 화두이다. 왜냐면 평균 2.4텀으로 알려진 짧은 쿼리의 의미를 파악하지 못하고서는 제대로된 검색결과를 보기 힘들고 대체 어떠한 쿼리들에서 검색 결과가 잘 나오지 않는지 정의조차 하기 힘들기 때문이다.

웹 검색 쿼리는 아래와 같은 특징이 있다고 알려져 있다.

1. 쿼리의 평균 길이는 2.4 텀이다.
2. 대략 절반의 사용자들인 싱글텀 쿼리를 사용하고 1/3정도의 사용자들이 3개의 텀이나 그 이상의 텀으로 구성된 쿼리를 사용한다.
3. 거의 50%의 사용자가 검색결과의 첫번째 페이지나 두번째 페이지만을 확인한다.
4. 검색 옵션을 사용하는 사용자는 5%도 안된다.
5. 가장 많이 사용되는 top 3 쿼리는 and, of, sex이다.

2005년 발표한 야후의 로그 데이터에서는 33%의 쿼리가 같은 사용자(사용자가 중복해서 쓴)에서 나온 쿼리들이고 이들의 85%의 클릭은 동일한 검색 결과를 클릭하는 것으로 끝났다고 한다. 이 결과는 많은 사용자가 같은 쿼리를 반복해서 사용해서 정보를 다시 찾는다는 것을 의미한다.

쿼리의 분포는 파레토 법칙(Pareto principle)을 따른다. 이는 전체 트레픽의 80%를 빈도수 상위 20%의 쿼리에서 커버하고 있다는 말로 풀어쓸 수 있다. 물론 이 법칙은 다른 경우에서도 적용될 수 있다고 한다.
쿼리가 이 법칙을 따르고 있는 관계로 웹검색 데이터베이스의 티어링을 비슷한 근거로 수행하고 있고 검색 캐싱도 이를 기반으로 구현되기도 한다.

가끔 이 기본중에 기본을 잊는 바람에 한번정도 정리해 보고 싶었던 글이였다. 물론 위키피이어와 iir같은 책에 다 나와 있는 내용이긴 하지만 말이다.

CC BY-NC 4.0 웹검색 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.