Общие сведения о наших поисковых роботах и инструментах для сбора данных (агентах пользователя)
Google использует поисковые роботы и загрузчики, чтобы выполнять действия со своими продуктами автоматически или по запросу пользователя. Поисковый робот (или "паук") – это программа, которая автоматически обнаруживает и сканирует сайты, переходя по ссылкам от страницы к странице. Загрузчики действуют аналогично программам, которые выполняют лишь один запрос от имени пользователя, такие как wget. Клиенты Google бывают трех категорий, которые перечислены в таблице ниже.
Основные поисковые роботы | Основные поисковые роботы, предназначенные для продуктов Google (например, Googlebot). При автоматическом сканировании такие роботы всегда соблюдают правила из файлов robots.txt. |
Специальные поисковые роботы |
Специальные поисковые роботы похожи на основные, но используются в продуктах, в которых между целевым сайтом и сервисом Google имеется соглашение о процессе сканирования. Например, AdsBot игнорирует глобальный агент пользователя из файла robots.txt (* ), если это разрешено издателем объявления.
|
Загрузчики, запускаемые пользователем | Подобные загрузчики входят в инструменты и функции в наших продуктах, позволяющие конечному пользователю запускать сбор данных о сайте. Например, Google Site Verifier действует по запросу человека. |
Технические свойства поисковых роботов и загрузчиков Google
Поисковые роботы и загрузчики Google предназначены для распределенной работы на тысячах компьютеров, чтобы обеспечить эффективное функционирование и масштабирование системы. Это необходимо, поскольку количество сайтов в интернете неуклонно растет. В целях равномерного расхода пропускной способности подобные клиенты распределяются среди множества центров обработки данных по всему миру. Это позволяет в каждом случае задействовать клиента, который расположен неподалеку от нужного сайта. Поэтому может оказаться, что в ваших журналах зарегистрированы обращения с нескольких IP-адресов. Исходящий трафик, который связан с Google, поступает на ваш сайт преимущественно с IP-адресов, относящихся к США. Если на том или ином сайте установлена блокировка запросов из США, Google может попробовать просканировать этот ресурс при помощи IP-адресов, которые относятся к другим странам.
Поисковые роботы и загрузчики Google действуют по протоколу HTTP/1.1, а также HTTP/2, если он поддерживается на сайте. Сканирование по протоколу HTTP/2 зачастую позволяет снизить вычислительную нагрузку (например, использование ЦП и ОЗУ) для сайта и робота Googlebot, но не приносит никаких преимуществ тем или иным продуктам. В частности, оно не позволяет улучшить позиции ресурса в результатах поиска Google.
Чтобы отказаться от сканирования по протоколу HTTP/2, настройте сервер своего сайта так, чтобы при попытке выполнения такой операции сервер возвращал код статуса HTTP 421
. Если это невозможно, попробуйте обратиться к нашей команде по сканированию (это временная мера).
Поисковые роботы и загрузчики Google поддерживают кодировку (сжатие) контента в форматах gzip, deflate и Brotli (br). Кодировки, с которыми совместим тот или иной агент пользователя Google, указаны в заголовке Accept-Encoding
каждого запроса, исходящего от такого агента, например Accept-Encoding: gzip, deflate, br
.
Мы стараемся обработать как можно больше страниц на вашем сайте за один сеанс, не оказывая излишней нагрузки на сервер. Если запросы от Google все-таки замедляют работу сервера, попробуйте снизить частоту сканирования. Учтите, что отправка поисковым роботам Google недопустимого кода HTTP-ответа может сказаться на показе вашего сайта в продуктах Google.
Как убедиться, что ваш сайт обрабатывают поисковые роботы и загрузчики Google
Поисковые роботы Google можно распознать по трем признакам:
-
Заголовок запроса HTTP
user-agent
. - IP-адрес, с которого поступил запрос.
- Обратное имя хоста DNS исходного IP-адреса.
Подробнее о том, как убедиться, что ваш сайт сканируют именно поисковые роботы и загрузчики Google…