“모방은 창조의 어머니”
내가 관여하는 부분은 그림의 위쪽단인데.. …
시간을 많이 잡아먹는 Sorting 문제와 중복문서 비교 문제
그리고 입출력 퍼포먼스 향상..이 가장 관건이다.
정말 골치 아프다.
The Anatomy of a Large-Scale Hypertextual Web Search Engine라는 문서에 구글 프레임웍을 어느정도 소개해줬는데. 그 문서 글을 인용해 보자면…
….Each crawler keeps roughly 300 connections open at once. This is necessary to retrieve web pages at a fast enough pace. At peak speeds, the system can crawl over 100 web pages per second using four crawlers……
웹 로봇 대당 300개의 동시 접속…
가장 속도가 빠를땐 4개의 웹 로봇이 초당 100개의 문서를 다운 받는다니.
프로그램의 퍼포먼스는 둘째치고 Archtecture가 얼마나 탄탄하길래..그 속도가 나오는지 정말 대단하다..탄탄한 distributed crawling system을 가지고 있기에 가능한 일이라 본다..
물론 네트웍 속도도 최고겠지만..
Google 프레임웍 Archtecture by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.