Google 프레임웍 Archtecture

“모방은 창조의 어머니”

내가 관여하는 부분은 그림의 위쪽단인데.. …

시간을 많이 잡아먹는 Sorting 문제와 중복문서 비교 문제

그리고 입출력 퍼포먼스 향상..이 가장 관건이다.

정말 골치 아프다.

The Anatomy of a Large-Scale Hypertextual Web Search Engine라는 문서에 구글 프레임웍을 어느정도 소개해줬는데. 그 문서 글을 인용해 보자면…

….Each crawler keeps roughly 300 connections open at once. This is necessary to retrieve web pages at a fast enough pace. At peak speeds, the system can crawl over 100 web pages per second using four crawlers……

웹 로봇 대당 300개의 동시 접속…
가장 속도가 빠를땐 4개의 웹 로봇이 초당 100개의 문서를 다운 받는다니.
프로그램의 퍼포먼스는 둘째치고 Archtecture가 얼마나 탄탄하길래..그 속도가 나오는지 정말 대단하다..탄탄한 distributed crawling system을 가지고 있기에 가능한 일이라 본다..
물론 네트웍 속도도 최고겠지만..

CC BY-NC 4.0 Google 프레임웍 Archtecture by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.