검색어 오타에 대한 흥미롭고 재미있는 사실들

아래는 전에 YDN KR blog에 기고했던 나의 글이다.

사이트가 거의 관리가 안되고 있는 관계로 언제 없어질까 살짝 염려스럽기도 했서 퍼오게 되었다.

————————————————————————————————-

검색 엔지니어로서 사용자 검색어 로그를 분석하다 보면,
상당히 재미있고 흥미로운 사실들을 발견 할 수 있습니다.

이런 데이터를 기반으로 세상을 보게 되기 시작하면,
사용자들이 개개인의 고유 특징이 있을거라 생각하지만
조그만 검색박스 내부로 그 공간을 한정시켜 놓으면
사용자 개개인의 특징은 그리 크게 발현이 되지 않는 다는 것을 볼 수 있습니다.

물론 이런 개념을 기반으로 많은 효율적인 서비스가 개발이 되기도 합니다.

지금부터 이야기 하고자 하는 내용은 “검색어 오타”에 대한 내용입니다.
아래 내용은 한글 오타를 치는 사용자가 2벌식 자판을 사용한다는 것을 기반으로 하고 있습니다.
대부분의 사용자들이 3벌식보다 2벌식 자판을 사용하니
아마도 설득력 있는 데이터가 될거라 생각합니다.

5개월치 검색어를 분석해 아래와 같은 오타쌍 카운트를 해봤습니다.
물론 이 오타는 자모기반의 오타입니다.

[그래프 1] 5개월 간의 검색어 오타 분포

이 그래프로 알 수있는 것은 처음 말씀 드렸다 시피,
대부분의 사용자(약 80%)가 20%정도의 오타쌍에 집중이 되어 있다는 것을 알 수 있었습니다.
그러니 대부분 사용자들은 굉장히 극단적으로 틀리는 것을 자주 더 틀리는 것이 됩니다.

[표 1] 오타쌍

ㅔ <-> ㅐ
ㅏ <-> ㅣ
ㄴ <-> ㅇ
ㅅ <-> ㅆ
ㅜ <-> ㅡ
ㄹ <-> ㅇ
ㅏ <-> ㅓ

위의 데이터는 가장 자주 틀리는 상위 7개의 자모쌍을 보여주고 있습니다.
가장 많이 틀리는 쌍을 기반으로 우리가 유추할 수 있는 오타 특징은 바로 아래와 같습니다.

1. 키보드 키 거리가 짧은 것들이 자주 틀린다.
2.발음이나 자모 모양이 비슷한 것들이 자주 틀린다.

하지만 위 쌍 가운데, 특징에 해당이 안되는 1개의 쌍이 있는데 한번 선택해 보시기 바랍니다.

이는 바로 “ㅅ <-> ㅆ” 쌍입니다.

살펴보니 “ㅅ <->ㅆ”의 경우 shift 키를 누른 상태의 오타군요.
그래서 어떤 검색어가 이런 오타를 유발하는지 확인해 보니.
“싸이월드”를 “사이월드”로 오타표현 한것을 확인해 볼 수 있었습니다.

“싸이월드”검색어는 야후에서도 상당히 많은 빈도수를 차지하는 검색어인지라
아마도 그런 검색어 특징 때문에 상위로 올라온듯 하네요.
하지만 오타 빈도수가 많다는 사실에는 퇴색됨이 없어 보입니다.

그럼 세번째 오타 특징을 추가해 보자면…

3. 검색어 빈도수의 영향을 받는다.

여타 다른 검색어들도 이런 방법으로 분석을 해보면 재미난 결과를 알 수 있습니다.
그리고 대부분 그럴만한 가능성을 가진 오타들이라는 사실을 쉽게 알 수 있었습니다.

이런 실제 사용자 데이터는 바로 알고리즘으로 활용 가능할 수 있을 정도로
아주 정확한 데이터입니다.

물론 이것을 뽑는 프로세스 자체의 정확성이 담보되어야 하겠죠.
일반적으로 “~~하더라”와 같은 전문가들이 하는 말씀을 귀담에 들을 필요가 있겠지만,
“정말 그럴까?” 하는 의문을 가져보는게 사실 중요합니다.

전문가는 사실에 근접한 의견을 언급할 확률이 높을 뿐이지
확률이 높다는게 정확한 답이라는 보장은 없습니다.

특히나, 이런 “극단의 값”을 가질 수 있는 사용자 검색어(롱테일을 따르는)의 경우에는
3번의 오타 특징에서 보는 바와 같이, 특정 기간의 검색어 빈도수가 높은 오타들이
상위로 갑자기 치고 올라올 가능성이 많답니다
(주: “극단의 값”에 대해서는 나심 니콜라스 탈레브의 “블랙 스완”이라는 책에서 언급하고 있습니다. 사실 “싸이월드”라는 검색어 말고 특정 기간에 갑자기 빈도수가 많아지는 검색어들이 있는데 이 검색어 덕분에 전혀 예상치 못한 오타쌍이 나타날 수 있습니다. 이것을 저는 이를 검색어오타 세계의 “검은백조”라고 생각합니다^^;).

그래서 동적으로 알고리즘을 쉽게 수정 가능하게 만들어 가는게 중요합니다.

좀더 극단적으로 특징을 해석해서 오타가 적게 나오게 하기 위한 방법을 생각해보면…

키보드를 비슷한 음성과 모양이 비슷한 것들을 멀리 위치시킨 것으로 새로 디자인한다.

뭐 이정도가 되겠습니다.

3벌식이 대안이 되지 않나? 하시는 분도 있겠는데, 자 판 배열을 보니
3벌식 자판도 이 문제를 해결하기는 힘들듯 보이네요.

하지만 이 대안이라는 것이 거의 실행 불가능한 대안이니
야후에서 이런 사용자 오류를 잘 잡아 줄 수 있는 시스템을 잘 개발하는게
더 효율적일듯 합니다. :-)

Yahoo! Asia Search Engineering
전희원

CC BY-NC 4.0 검색어 오타에 대한 흥미롭고 재미있는 사실들 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.