Weryfikowanie żądań od robotów i modułów pobierania Google

Możesz sprawdzić, czy żądanie wysyłane do Twojego serwera pochodzi od Google. Weryfikacja jest możliwa w przypadku robotów takich jak Googlebot, a także innych żądań. Procedura ta jest przydatna wtedy, gdy obawiasz się, że z Twojej witryny mogą korzystać spamerzy lub inni oszuści podający się za Googlebota.

Roboty i moduły pobierania Google dzielą się na 3 kategorie:

Typ	Opis	Odwrotne maskowanie DNS	Zakresy adresów IP
Popularne roboty	Roboty typowe używane w usługach Google (np. Googlebot). Zawsze przestrzegają reguł w pliku robots.txt podczas automatycznego indeksowania.	`crawl-*---.googlebot.com` lub `geo-crawl----*.geo.googlebot.com`	common-crawlers.json
Roboty specjalne	Roboty lub programy pobierające wykonujące określone funkcje w konkretnych usługach Google (np. AdsBot), w przypadku których występuje zgodność indeksowanej witryny i usługi co do dostępu lub indeksowania bądź pobierania w celu wykrywania nadużyć. Te roboty lub moduły pobierające mogą przestrzegać reguł zawartych w pliku robots.txt (ale nie muszą).	`rate-limited-proxy-*---*.google.com`	special-crawlers.json
Moduły pobierania uruchamiane przez użytkownika	Narzędzia i funkcje usług, w przypadku których użytkownik uruchamia pobieranie. Na przykład robot Google do weryfikacji witryn działa na żądanie użytkownika. Żądanie pobierania pochodzi od użytkownika, dlatego moduły te ignorują reguły zawarte w pliku robots.txt. Moduły pobierania kontrolowane przez Google pochodzą z adresów IP w obiekcie `user-triggered-fetchers-google.json` i kierują do nazwy hosta `google.com`. Adresy IP w obiekcie `user-triggered-fetchers.json` odnoszą się do nazw hostów `gae.googleusercontent.com`. Te adresy IP są używane na przykład wtedy, gdy witryna uruchomiona w Google Cloud (GCP) ma funkcję, która wymaga pobierania zewnętrznych kanałów RSS na żądanie użytkownika tej witryny.	`*---.gae.googleusercontent.com` lub `google-proxy----*.google.com`	user-triggered-fetchers.json, user-triggered-fetchers-google.json i user-triggered-agents.json

Żądania od Google możesz weryfikować na 2 sposoby:

Ręcznie – w przypadku jednorazowych wyszukiwań użyj narzędzi wiersza poleceń. Ta metoda sprawdza się w większości sytuacji.
Automatycznie – w przypadku wyszukiwań na dużą skalę użyj automatycznego rozwiązania wyszukującego adres IP robota z listy adresów IP opublikowanych przez Google.

Używanie narzędzi wiersza poleceń

Uruchom odwrotne wyszukiwanie DNS adresu IP, który jest w Twoich dziennikach oznaczony jako nawiązujący połączenie, przy użyciu polecenia host.
Sprawdź, czy nazwa domeny to googlebot.com, google.com lub googleusercontent.com.
Przeprowadź zwykłe wyszukiwanie DNS nazwy domeny odczytanej w kroku 1 przy użyciu polecenia host.
Sprawdź, czy nazwa jest taka sama jak adres, który zgodnie z informacjami w dziennikach nawiązywał połączenie.

Przykład 1:

host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

Przykład 2:

host 35.247.243.240
240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.

host geo-crawl-35-247-243-240.geo.googlebot.com
geo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240

Przykład 3:

host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.

host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77

Korzystanie z rozwiązań automatycznych

Możesz zidentyfikować Googlebota po adresie IP, szukając go na liście zakresów adresów IP robotów i modułów pobierania Google:

W przypadku pozostałych adresów IP Google, z których można uzyskać dostęp do Twojej witryny (na przykład przez skrypty Apps Script), znajdź uzyskujący dostęp adres IP na ogólnej liście adresów IP Google. Uwaga: adresy IP w plikach JSON są przedstawione w formacie CIDR.