Google проиндексировал 1 триллион веб-страниц

28.07.2008, 15:45
Google проиндексировал 1 триллион веб-страниц

Всемирная сеть уже насчитывает триллион страниц и продолжает прирастать со скоростью несколько миллиардов страниц ежедневно. Об этом компания сообщила в посте на своём блоге. В принципе, Интернет состоит из более чем одного триллиона страниц, которые индексирует Google. Однако следует отметить, что Google не индексирует каждую из этого триллиона страниц. "Мы не индексируем каждую из этого триллиона страниц - многие из них повторяют друг друга или представляют автоматически генерируемый контент". Большинство страниц дублируют URLы - множество страниц в Интернете имеют одно и то же содержание.

Самый первый индекс Google в 1998 году насчитывал 26 миллионов страниц, но уже к 2000 году данный индекс перевалил за отметку в один миллиард. За это время собственные методы Гугла претерпели эволюционные изменения: "Раньше мы делали все пакетами: одна рабочая станция вычисляла граф PageRank из 26 миллионов страниц в течение пары часов и данный набор страниц использовался в индексе Google в определённый фиксированный период времени. Сегодня Google загружает данные из Сети непрерывно, собирая обновлённую информацию о страницах и перерабатывая полностью граф веб-линков несколько раз за день".

Блог запостил Майкл Аррингтон (Michael Arrington) из TechCrunch, причём с намёком на то, что на следующей неделе может произойти нечто интересное. Цитируя то, что Google гордится, что имеет самый "всеобъемлющий индекс, чем любой другой поисковик", Майкл добавляет: " Это может быть истиной сегодня, но, вероятно, так не будет на следующей неделе". Намёк потенциальному соискателю на корону поисковика, если такой соискатель вообще есть, сообщает "HiTech.Expert".

Читайте також