Как проверить запросы от поисковых роботов и загрузчиков Google

Вы можете проверить, сканирует ли ваш сайт именно робот Googlebot (или иной поисковый робот Google). Это поможет вам, если у вас есть подозрения, что под видом робота Googlebot к вашему сайту обращаются спамеры или другие злоумышленники.

Поисковые роботы Google бывают трех категорий, которые перечислены в таблице ниже.

Тип	Описание	Обратная маска DNS	Диапазоны IP-адресов
Основные поисковые роботы	Основные поисковые роботы, предназначенные для продуктов Google (например, Googlebot). При автоматическом сканировании такие роботы всегда соблюдают правила из файлов robots.txt.	`crawl-*---.googlebot.com` или `geo-crawl----*.geo.googlebot.com`	googlebot.json
Специальные поисковые роботы	Поисковые роботы, выполняющие специальные функции для продуктов Google (такие как AdsBot), при наличии договоренности между ними и сайтами, которые сканируются такими роботами. Они могут как соблюдать, так и не соблюдать правила из файла robots.txt.	`rate-limited-proxy-*---*.google.com`	special-crawlers.json
Инструменты для сбора данных о сайте, управляемые пользователем	Инструменты или функции в наших продуктах, позволяющие конечному пользователю запускать сбор данных о сайте. Например, Google Site Verifier действует по запросу человека. Так как сбор данных инициирует пользователь, такие инструменты игнорируют правила из файла robots.txt. Загрузчики под управлением Google относятся к IP-адресам из объекта `user-triggered-fetchers-google.json` и распознаются как имя хоста `google.com`. IP-адреса из объекта `user-triggered-fetchers.json` распознаются как имена хостов `gae.googleusercontent.com`. Такие IP-адреса используются, к примеру, если на сайте из Google Cloud (GCP) есть функция, которая предполагает извлечение внешних RSS-фидов по запросу посетителя сайта.	`*---.gae.googleusercontent.com` или `google-proxy----*.google.com`	user-triggered-fetchers.json и user-triggered-fetchers-google.json

Убедиться в том, что ваш сайт посещают именно роботы Google, можно двумя способами:

Вручную. Если нужно выполнить единичную проверку, используйте инструменты командной строки. В большинстве случаев этого достаточно для решения задачи.
Автоматически. Если нужно выполнить масштабную проверку, используйте автоматическую систему и сопоставьте IP-адрес определенного поискового робота со списком опубликованных IP-адресов робота Googlebot.

Как использовать инструменты командной строки

С помощью команды host выполните обратный DNS-запрос по IP-адресу, который найдете в журнале.
Убедитесь, что в результате получено доменное имя googlebot.com, google.com или googleusercontent.com.
С помощью команды host выполните прямой DNS-запрос на преобразование доменного имени, которое вы узнали на шаге 1.
Полученный IP-адрес должен совпадать с исходным.

Пример 1:

host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

Пример 2:

host 35.247.243.240
240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.

host geo-crawl-35-247-243-240.geo.googlebot.com
geo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240

Пример 3:

host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.

host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77

Как использовать автоматические системы

Вы можете также сопоставить IP-адрес обратившегося к сайту поискового робота со списком диапазонов IP-адресов, которые используются нашими поисковыми роботами и инструментами для сбора данных:

Для проверки других IP-адресов Google, с которых наши инструменты могут обращаться к вашему сайту (например, Apps Scripts), сопоставьте IP-адрес, с которого выполняется доступ, со списком IP-адресов Google. Учтите, что IP-адреса из файлов JSON представлены в формате CIDR.