웹 검색에서 크롤링

크롤러 제작으로 검색쪽일을 시작한거나 다름 없으나, 지금은 거의 신경을 안쓰고 있지만, 시간이 가면 갈수록 웹 검색 인프라로서 크롤링 기술의 중요성은 커지는거 같다.

검색에서 크롤링 기술을 가지고 있느냐 아니냐가 검색 랭킹에 대한 펙터 수집을 원하는 대로 할수 있냐 없냐로 판가름 되어버리기 때문이다.

웹 검색, 특히나 그 분야는 링크구조로 되어 있어서 링크 펙터를 고려하지 않고서는 좋은 검색 결과가 나올수 없다고 본다. Pagerank나 HITS 알고리즘이 각광받았던 것도 바로 기존의 링크 펙터를 사용하지 않은 검색과 차별을 두었기 때문이다.
 
사람은 주변 사람들의 영향을 반드시 받고(힌두교의 사상이 이렇다고 한다. 사람을 사회 연결망의 교점으로 보는 그런 사상), 결과적으로 사람이 쓰는 글일 경우도 누군가에게 영향을 받았을 것이다.
누군가 쓴 블로그 포스팅은 많은 경우가 어딘가에서 본 글에서 모티브를 받을 가능성이 많다는것이다.
그것은 원인과 결과 일수도 있고, 원인의 연속, 결과의 연속이 될수도 있다.
그럴 경우 링크 펙터의 중요성은 좋은 검색 결과를 보여주기 위해 더욱더 부각이 될 것이다.

왜 이런 글을 썼는지, 그럼 그 결과는 어떤것들이 있는지, 같은 연장선상의 다른 글은 어떤것이 있는지 이것에 대한 고민의 출발점은 웹 링크분석에 있다고 본다.

검색만으로 결과를 알기를 원하는 사람… 원인을 알기 원하는 사람, 결과를 보기까지 과정을 알고자 하는 사람…등등 여러 종류의 검색자의 욕구를 충족해줄 수 있겠지.

따라서 링크 정보까지 수집하는 로봇과 링크를 저장하는 효율적인 저장 자료구조는 좋은 웹 검색을 위해 반드시 필요한 것이란 생각을 해본다.

새삼 스럽게 당연한 이야기를 지껄여 봤네. ㅎㅎ

ps. 몇일전에 힌두교 사상에 대한 글을 보면서 웹의 링크 구조를 생각했더니 이런 생각이 났다. 사람들이 어떨때 링크를 거는지에 대한 분류와 고민도 해볼만 한거 같다.

CC BY-NC 4.0 웹 검색에서 크롤링 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.