Общие сведения о наших поисковых роботах и инструментах для сбора данных (агентах пользователя)

Google использует поисковые роботы и загрузчики, чтобы выполнять действия со своими продуктами автоматически или по запросу пользователя. Поисковый робот (или "паук") – это программа, которая автоматически обнаруживает и сканирует сайты, переходя по ссылкам от страницы к странице. Загрузчики действуют аналогично программам, которые выполняют лишь один запрос от имени пользователя, такие как wget. Клиенты Google бывают трех категорий, которые перечислены в таблице ниже.

Основные поисковые роботы Основные поисковые роботы, предназначенные для продуктов Google (например, Googlebot). При автоматическом сканировании такие роботы всегда соблюдают правила из файлов robots.txt.
Специальные поисковые роботы Специальные поисковые роботы похожи на основные, но используются в продуктах, в которых между целевым сайтом и сервисом Google имеется соглашение о процессе сканирования. Например, AdsBot игнорирует глобальный агент пользователя из файла robots.txt (*), если это разрешено издателем объявления.
Загрузчики, запускаемые пользователем Подобные загрузчики входят в инструменты и функции в наших продуктах, позволяющие конечному пользователю запускать сбор данных о сайте. Например, Google Site Verifier действует по запросу человека.

Технические свойства поисковых роботов и загрузчиков Google

Поисковые роботы и загрузчики Google предназначены для распределенной работы на тысячах компьютеров, чтобы обеспечить эффективное функционирование и масштабирование системы. Это необходимо, поскольку количество сайтов в интернете неуклонно растет. В целях равномерного расхода пропускной способности подобные клиенты распределяются среди множества центров обработки данных по всему миру. Это позволяет в каждом случае задействовать клиента, который расположен неподалеку от нужного сайта. Поэтому может оказаться, что в ваших журналах зарегистрированы обращения с нескольких IP-адресов. Исходящий трафик, который связан с Google, поступает на ваш сайт преимущественно с IP-адресов, относящихся к США. Если на том или ином сайте установлена блокировка запросов из США, Google может попробовать просканировать этот ресурс при помощи IP-адресов, которые относятся к другим странам.

Поисковые роботы и загрузчики Google действуют по протоколу HTTP/1.1, а также HTTP/2, если он поддерживается на сайте. Сканирование по протоколу HTTP/2 зачастую позволяет снизить вычислительную нагрузку (например, использование ЦП и ОЗУ) для сайта и робота Googlebot, но не приносит никаких преимуществ тем или иным продуктам. В частности, оно не позволяет улучшить позиции ресурса в результатах поиска Google. Чтобы отказаться от сканирования по протоколу HTTP/2, настройте сервер своего сайта так, чтобы при попытке выполнения такой операции сервер возвращал код статуса HTTP 421. Если это невозможно, попробуйте обратиться к нашей команде по сканированию (это временная мера).

Поисковые роботы и загрузчики Google поддерживают кодировку (сжатие) контента в форматах gzip, deflate и Brotli (br). Кодировки, с которыми совместим тот или иной агент пользователя Google, указаны в заголовке Accept-Encoding каждого запроса, исходящего от такого агента, например Accept-Encoding: gzip, deflate, br.

Мы стараемся обработать как можно больше страниц на вашем сайте за один сеанс, не оказывая излишней нагрузки на сервер. Если запросы от Google все-таки замедляют работу сервера, попробуйте снизить частоту сканирования. Учтите, что отправка поисковым роботам Google недопустимого кода HTTP-ответа может сказаться на показе вашего сайта в продуктах Google.

Как убедиться, что ваш сайт обрабатывают поисковые роботы и загрузчики Google

Поисковые роботы Google можно распознать по трем признакам:

  1. Заголовок запроса HTTP user-agent.
  2. IP-адрес, с которого поступил запрос.
  3. Обратное имя хоста DNS исходного IP-адреса.

Подробнее о том, как убедиться, что ваш сайт сканируют именно поисковые роботы и загрузчики Google