Googlebot und andere Google-Crawler prüfen

Du kannst prüfen, ob es sich bei dem Web-Crawler, der auf deinen Server zugreift, um einen Google-Crawler wie den Googlebot handelt. Das ist hilfreich, wenn du befürchtest, dass Spammer oder bösartige Nutzer auf deine Website zugreifen und sich dabei als Googlebot ausgeben.

Die Google-Crawler lassen sich in drei Kategorien unterteilen:

Typ	Beschreibung	Umgekehrte DNS-Maske	IP-Bereiche
Gängige Crawler	Die gewöhnlichen Crawler, die für die Produkte von Google verwendet werden (z. B. der Googlebot). Sie berücksichtigen immer die robots.txt-Regeln für automatisches Crawling.	`crawl-*---.googlebot.com` oder `geo-crawl----*.geo.googlebot.com`	googlebot.json
Sonderfall-Crawler	Crawler, die bestimmte Funktionen für Google-Produkte ausführen (z. B. AdsBot), wenn es eine Vereinbarung zwischen der gecrawlten Website und dem Produkt über den Crawling-Prozess gibt. Diese Crawler können robots.txt-Regeln berücksichtigen, tun es aber nicht unbedingt.	`rate-limited-proxy-*---*.google.com`	special-crawlers.json
Vom Nutzer ausgelöste Fetcher	Tools und Produktfunktionen, bei denen der Endnutzer einen Abruf auslöst. Google Site Verifier wirkt sich beispielsweise auf die Anfrage eines Nutzers aus. Da der Abruf von einem Nutzer angefordert wurde, ignorieren diese Fetcher robots.txt-Regeln. Von Google gesteuerte Fetcher stammen von IP-Adressen im `user-triggered-fetchers-google.json`-Objekt und werden in einen `google.com`-Hostnamen aufgelöst. IP-Adressen im Objekt `user-triggered-fetchers.json` werden in `gae.googleusercontent.com`-Hostnamen aufgelöst. Diese IP-Adressen werden beispielsweise verwendet, wenn eine auf Google Cloud (GCP) ausgeführte Website über eine Funktion verfügt, die auf Anfrage des Websitenutzers das Abrufen externer RSS-Feeds erfordert.	`*---.gae.googleusercontent.com` oder `google-proxy----*.google.com`	user-triggered-fetchers.json und user-triggered-fetchers-google.json

Es gibt zwei Methoden zur Prüfung der Google-Crawler:

Manuell: Verwende für einmalige Suchvorgänge Befehlszeilentools. Diese Methode ist für die meisten Anwendungsfälle ausreichend.
Automatisch: Verwende bei umfangreichen Suchvorgängen eine automatische Lösung, um die IP-Adresse eines Crawlers mit der Liste der veröffentlichten Googlebot-IP-Adressen abzugleichen.

Befehlszeilentools verwenden

Führe aus deinen Protokollen einen umgekehrten DNS-Lookup nach der zugreifenden IP-Adresse mithilfe des host-Befehls aus.
Überprüfe, ob der Domainname entweder googlebot.com, google.com oder googleusercontent.com lautet.
Führe einen vorwärtsgerichteten DNS-Lookup nach dem in Schritt 1 abgerufenen Domainnamen aus. Wende dazu den host-Befehl auf den abgerufenen Domainnamen an.
Bestätige, dass es sich um die ursprüngliche Zugriffs-IP-Adresse aus deinen Protokollen handelt.

Beispiel 1:

host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

Beispiel 2:

host 35.247.243.240
240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.

host geo-crawl-35-247-243-240.geo.googlebot.com
geo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240

Beispiel 3:

host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.

host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77

Automatische Lösungen verwenden

Alternativ kannst du den Googlebot anhand der IP-Adresse identifizieren, indem du die IP-Adresse des Crawlers mit den Listen der IP-Bereiche der Google-Crawler und -Fetcher abgleichst:

Gleiche bei anderen Google-IP-Adressen, von denen aus auf deine Website zugegriffen werden kann (z. B. Apps Scripts), die zugreifende IP-Adresse mit der allgemeinen Liste der Google-IP-Adressen ab. Die IP-Adressen in den JSON-Dateien werden im CIDR-Format dargestellt.