Робот Googlebot

Googlebot – общее название поискового робота, используемого в Google Поиске.

Googlebot Smartphone – поисковый робот, имитирующий пользователя мобильного устройства.
Googlebot Desktop – поисковый робот, имитирующий пользователя компьютера.

Определить, какой робот обрабатывает вашу страницу, можно по заголовку user-agent в HTTP-запросе. Но учтите, что давать различные команды разным роботам в файле robots.txt невозможно, так как оба типа роботов соответствуют одному и тому же токену агента пользователя.

При обработке большинства сайтов Google в первую очередь индексирует мобильную версию контента. Поэтому большинство запросов на сканирование будет поступать от робота Googlebot, имитирующего пользователя мобильного устройства, и лишь небольшая их часть – от робота Googlebot Desktop.

Как Googlebot работает с вашим сайтом

Робот Googlebot не может обращаться к сайту чаще, чем раз в несколько секунд (в среднем). Это относится к большинству страниц. В случае задержек частота посещения сайта нашим роботом может немного увеличиться. Если запросы от Google все-таки замедляют работу сервера, попробуйте снизить частоту сканирования.

Googlebot сканирует только первые 15 МБ содержимого HTML-файла или текстового файла поддерживаемого формата. Извлечение кода CSS и JavaScript и иных ресурсов из HTML-файла выполняется по отдельности и в соответствии с действующим ограничением на размер файла. Получив 15 МБ, Googlebot прекращает сканирование файла и на индексирование отправляет только первые 15 МБ его содержимого. Ограничение на размер файла применяется к несжатым данным. Для других поисковых роботов Google, таких как Googlebot Video и Googlebot Image, могут действовать другие ограничения.

Когда робот Googlebot выполняет сканирование с IP-адресов из США, он работает в тихоокеанском часовом поясе.

Прочие технические свойства робота Googlebot описаны в обзоре поисковых роботов Google.

Как закрыть роботу Googlebot доступ к вашему сайту

Робот Googlebot обнаруживает новые URL по ссылкам, встроенным в ранее отсканированные страницы. Даже если вы сами не размещаете ссылки на свой сайт, сохранить его в секрете не удастся. Как только кто-нибудь нажмет на ссылку на вашем "секретном" сайте и перейдет на другой, URL, переданный в теге источника ссылки, может быть сохранен и опубликован на целевом сайте в журнале источников ссылок.

Если вы хотите предотвратить сканирование своего сайта роботом Googlebot, ознакомьтесь с нашими инструкциями. Не забывайте, что сканирование и индексирование – разные процессы. Если запретить роботу Googlebot сканировать ту или иную страницу, ее URL все равно может появляться в результатах поиска.

Чтобы запретить роботу Googlebot сканировать определенную страницу, воспользуйтесь файлом robots.txt.
Чтобы запретить роботам Google индексировать определенную страницу, используйте директиву noindex.
Если вам нужно, чтобы определенная страница стала недоступна как для поисковых роботов, так и для пользователей, выберите другой метод, например заблокируйте доступ к ней с помощью пароля.

Блокирование робота Googlebot влияет на Google Поиск (включая "Обзор" и все функции Google Поиска), а также другие продукты (например, Google Картинки, Google Видео, Google Новости и "Обзор").

Как убедиться, что ваш сайт сканирует именно робот Googlebot

Помните, что заголовок user-agent в HTTP-запросе, используемый роботом Googlebot, часто имитируют другие поисковые роботы. Прежде чем блокировать доступ нашему роботу, убедитесь в том, что нежелательный запрос поступил именно от Google. Самый надежный способ – выполнить обратный DNS-запрос по IP-адресу источника или сравнить IP-адрес источника с диапазоном IP-адресов робота Googlebot.