Робот Googlebot
Googlebot – общее название двух следующих типов поисковых роботов Google:
- Googlebot Smartphone – поисковый робот, имитирующий пользователя мобильного устройства.
- Googlebot Desktop – поисковый робот, имитирующий пользователя компьютера.
Определить, какой робот обрабатывает вашу страницу, можно по заголовку user-agent
в HTTP-запросе. Но учтите, что давать различные команды разным роботам в файле robots.txt невозможно, так как оба типа роботов соответствуют одному и тому же токену агента пользователя.
При обработке большинства сайтов Google в первую очередь индексирует мобильную версию контента. Поэтому большинство запросов на сканирование будет поступать от робота Googlebot, имитирующего пользователя мобильного устройства, и лишь небольшая их часть – от робота Googlebot Desktop.
Как Googlebot работает с вашим сайтом
Робот Googlebot не может обращаться к сайту чаще, чем раз в несколько секунд (в среднем). Это относится к большинству страниц. В случае задержек частота посещения сайта нашим роботом может немного увеличиться.
Робот Googlebot предназначен для распределенной работы на тысячах компьютеров, чтобы обеспечить эффективное функционирование и масштабирование системы. Это необходимо, поскольку количество сайтов в интернете неуклонно растет. Кроме того, мы стараемся использовать компьютеры, которые находятся недалеко от серверов хостинга сайтов, чтобы поисковые роботы меньше влияли на пропускную способность сети. Поэтому может оказаться, что в ваших журналах зарегистрированы обращения с нескольких IP-адресов, а в качестве агента пользователя неизменно указан Googlebot. Мы стараемся обработать как можно больше страниц на вашем сайте за один сеанс, не оказывая излишней нагрузки на сервер. Если запросы от Google все-таки замедляют работу сервера, попробуйте снизить частоту сканирования.
При сканировании робот Googlebot обращается к вашему сайту преимущественно с IP-адресов, относящихся к США. Если на том или ином сайте установлена блокировка запросов из США, он может попробовать просканировать этот ресурс при помощи IP-адресов, которые относятся к другим странам. Список диапазонов IP-адресов, которыми пользуется робот Googlebot, доступен в формате JSON.
Googlebot проводит сканирование по протоколу HTTP/1.1, а также HTTP/2, если он поддерживается на сайте. Протокол сканирования сайта не влияет на его рейтинг, однако HTTP/2 позволяет сэкономить вычислительные ресурсы (например, использование процессора и ОЗУ) для сайта и робота Googlebot.
Чтобы отказаться от сканирования по протоколу HTTP/2, настройте сервер своего сайта так, чтобы при попытке выполнения такой операции сервер возвращал код статуса HTTP 421
. Если это невозможно, попробуйте обратиться к нашей команде Googlebot (это временная мера).
Googlebot сканирует только первые 15 МБ содержимого HTML-файла или текстового файла поддерживаемого формата. Извлечение кода CSS и JavaScript и иных ресурсов из HTML-файла выполняется по отдельности и в соответствии с действующим ограничением на размер файла. Получив 15 МБ, Googlebot прекращает сканирование файла и на индексирование отправляет только первые 15 МБ его содержимого. Ограничение на размер файла применяется к несжатым данным. Для других поисковых роботов Google, таких как Googlebot Video и Googlebot Image, могут действовать другие ограничения.
Когда робот Googlebot выполняет сканирование с IP-адресов из США, он работает в тихоокеанском часовом поясе.
Как закрыть роботу Googlebot доступ к вашему сайту
Даже если вы сами не размещаете ссылки на свой сайт, сохранить его в секрете не удастся. Как только кто-нибудь перейдет по ссылке с вашего "секретного" сайта на другой, URL, переданный в теге источника ссылки, может быть сохранен и опубликован на целевом сайте в журнале источников ссылок.
Если вы хотите предотвратить сканирование своего сайта роботом Googlebot, ознакомьтесь с нашими инструкциями. Не забывайте, что сканирование и индексирование – разные процессы. Если запретить роботу Googlebot индексировать ту или иную страницу, она все равно может появляться в результатах поиска.
- Чтобы запретить роботу Googlebot сканировать определенную страницу, воспользуйтесь файлом robots.txt.
- Чтобы запретить роботам Google индексировать определенную страницу, используйте директиву
noindex
. - Если вам нужно, чтобы определенная страница стала недоступна как для поисковых роботов, так и для пользователей, выберите другой метод, например заблокируйте доступ к ней с помощью пароля.
Как убедиться, что ваш сайт сканирует именно робот Googlebot
Помните, что заголовок user-agent
в HTTP-запросе, используемый роботом Googlebot, часто имитируют другие поисковые роботы. Прежде чем блокировать доступ нашему роботу, убедитесь в том, что нежелательный запрос поступил именно от Google. Самый надежный способ – выполнить обратный DNS-запрос по IP-адресу источника или сравнить IP-адрес источника с диапазоном IP-адресов робота Googlebot.