Panoramica dei crawler e dei fetcher di Google (user agent)

Google utilizza crawler e fetcher per eseguire azioni per i propri prodotti, in modo automatico o su richiesta dell'utente. "Crawler" (a volte chiamato anche "robot" o "spider") è un termine generico che indica qualsiasi programma utilizzato per l'individuazione e la scansione automatiche dei siti web, seguendo i link da una pagina web all'altra. I fetcher agiscono come un programma come wget, che in genere invia una singola richiesta per conto di un utente. I crawler di Google rientrano in tre categorie:

Crawler comuni I crawler comuni utilizzati per i prodotti Google (ad esempio Googlebot). Rispettano sempre le regole del file robots.txt per le scansioni automatiche.
Crawler per casi speciali I crawler per casi speciali sono simili ai crawler comuni, ma vengono utilizzati da prodotti specifici in cui è presente un accordo sul processo di scansione tra il sito sottoposto a scansione e il prodotto Google. Ad esempio, AdsBot ignora lo user agent globale del file robots.txt (*) con l'autorizzazione del publisher dell'annuncio.
Fetcher attivati dall'utente I fetcher attivati dall'utente fanno parte di strumenti e funzioni di prodotto in cui l'utente finale attiva un recupero. Ad esempio, Google Site Verifier agisce su richiesta di un utente.

Proprietà tecniche dei crawler e dei fetcher di Google

I crawler e i fetcher di Google sono progettati per essere eseguiti contemporaneamente da migliaia di macchine per migliorare le prestazioni e seguire il ritmo di crescita del web. Per ottimizzare l'utilizzo della larghezza di banda, questi client sono distribuiti in molti data center in tutto il mondo, in modo da trovarsi vicino ai siti a cui potrebbero accedere. Pertanto, i tuoi log potrebbero mostrare visite da diversi indirizzi IP. Google registra principalmente il traffico proveniente da indirizzi IP negli Stati Uniti. Se rileva che un sito blocca le richieste dagli Stati Uniti, potrebbe tentare di eseguire la scansione da indirizzi IP situati in altri paesi.

I crawler e i fetcher di Google utilizzano HTTP/1.1 e, se supportato dal sito, HTTP/2. La scansione su HTTP/2 potrebbe consentire di risparmiare risorse di calcolo (ad esempio CPU, RAM) per il tuo sito e Googlebot; tuttavia, non offre alcun vantaggio specifico per il sito (ad esempio, nessun miglioramento del ranking nella Ricerca Google). Per disattivare la scansione su HTTP/2, indica al server che ospita il tuo sito di rispondere con un codice di stato HTTP 421 quando Googlebot tenta di accedere al tuo sito su HTTP/2. Se ciò non è fattibile, puoi inviare un messaggio al team addetto alla scansione (soluzione temporanea).

I crawler e i fetcher di Google supportano le seguenti codifiche (compressioni) dei contenuti: gzip, deflate e Brotli (br). Le codifiche dei contenuti supportate da ogni user agent di Google vengono pubblicizzate nell'intestazione Accept-Encoding di ogni richiesta effettuata. Ad esempio, Accept-Encoding: gzip, deflate, br.

Il nostro obiettivo è eseguire a ogni visita la scansione del maggior numero possibile di pagine del tuo sito senza sovraccaricare il server. Se il tuo sito non riesce a stare al passo con le richieste di scansione di Google, puoi ridurre la frequenza di scansione. Tieni presente che l'invio di un codice di risposta HTTP inappropriato ai crawler di Google potrebbe influire sulla visualizzazione del tuo sito nei prodotti Google.

Verificare i crawler e i fetcher di Google

I crawler di Google si identificano in tre modi:

  1. L'intestazione della richiesta HTTP user-agent.
  2. L'indirizzo IP di origine della richiesta.
  3. Il nome host DNS inverso dell'IP di origine.

Scopri come utilizzare questi dettagli per verificare i crawler e i fetcher di Google.