Panoramica dei crawler e dei fetcher di Google (user agent)

Google utilizza crawler e fetcher per eseguire azioni per i propri prodotti, in modo automatico o su richiesta dell'utente.

"Crawler" (a volte chiamato anche "robot" o "spider") è un termine generico che indica qualsiasi programma utilizzato per l'individuazione e la scansione automatiche dei siti web, seguendo i link da una pagina web all'altra. Il crawler principale di Google utilizzato per la Ricerca Google è chiamato Googlebot.

I fetcher, come i browser, sono strumenti che richiedono un singolo URL quando viene richiesto da un utente.

Le seguenti tabelle mostrano i crawler e i fetcher di Google utilizzati da vari prodotti e servizi, come potresti vederli nei tuoi log referrer e come specificarli nel robots.txt. Gli elenchi non sono esaustivi, e riguardano solo i richiedenti più comuni che possono essere visualizzati nei file di log.

  • Il token dello user agent viene usato nella riga User-agent: del file robots.txt in modo che ci sia corrispondenza con un tipo di crawler durante la scrittura delle regole di scansione per il tuo sito. Come mostrato nella tabella, alcuni crawler hanno più di un token, ma per l'applicazione di una regola è necessario un solo token corrispondente. Questo elenco non è completo, ma include la maggior parte dei crawler che puoi vedere sul tuo sito web.
  • La stringa completa dello user agent è una descrizione completa del crawler che viene mostrata nella richiesta HTTP e nei log web.

Crawler comuni

I crawler comuni di Google vengono utilizzati per trovare informazioni per la creazione degli indici della Ricerca di Google, eseguire scansioni specifiche di altri prodotti e per scopi di analisi. Devono sempre rispettare le regole del file robots.txt e, in generale, eseguire la scansione dagli intervalli di IP pubblicati nell'oggetto googlebot.json.

Crawler comuni
Token dello user agent Googlebot
Stringa completa dello user agent Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Token dello user agent Googlebot
Stringhe complete dello user agent
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36
  • Raramente:
    • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
    • Googlebot/2.1 (+http://www.google.com/bot.html)

Utilizzato per la scansione di URL delle immagini per Google Immagini e per i prodotti che dipendono dalle immagini.

Token dello user agent
  • Googlebot-Image
  • Googlebot
Stringa completa dello user agent Googlebot-Image/1.0

Googlebot News utilizza Googlebot per la scansione di articoli, tuttavia rispetta il suo token dello user agent storico Googlebot-News.

Token dello user agent
  • Googlebot-News
  • Googlebot
Stringa completa dello user agent Lo user agent Googlebot-News utilizza le varie stringhe dello user agent di Googlebot.

Utilizzato per la scansione di URL dei video per Google Video e per i prodotti che dipendono dai video.

Token dello user agent
  • Googlebot-Video
  • Googlebot
Stringa completa dello user agent Googlebot-Video/1.0

Google StoreBot esegue la scansione di alcuni tipi di pagine, incluse, a titolo esemplificativo, pagine dei dettagli del prodotto, pagine del carrello e pagine di pagamento.

Token dello user agent Storebot-Google
Stringhe complete dello user agent
  • Agente desktop:
    Mozilla/5.0 (X11; Linux x86_64; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Safari/537.36
  • Agente mobile:
    Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36

Google-InspectionTool è il crawler utilizzato dagli strumenti di test della Ricerca, come il Test dei risultati avanzati e il Controllo URL in Search Console. Oltre allo user agent e al token dello user agent, imita Googlebot.

Token dello user agent
  • Google-InspectionTool
  • Googlebot
Stringa completa dello user agent
  • Mobile
    Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Google-InspectionTool/1.0;)
  • Desktop
    Mozilla/5.0 (compatible; Google-InspectionTool/1.0;)

GoogleOther è il crawler generico che potrebbe essere utilizzato da vari team di prodotto per recuperare contenuti accessibili pubblicamente dai siti. Ad esempio, potrebbe essere utilizzato per scansioni singole per scopi di ricerca interna e sviluppo.

Token dello user agent GoogleOther
Stringa completa dello user agent
  • Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; GoogleOther)
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GoogleOther) Chrome/W.X.Y.Z Safari/537.36
  • GoogleOther

GoogleOther-Image è la versione di GoogleOther ottimizzata per il recupero degli URL immagine accessibili pubblicamente.

Token dello user agent
  • GoogleOther-Image
  • GoogleOther
Stringa completa dello user agent GoogleOther-Image/1.0

GoogleOther-Video è la versione di GoogleOther ottimizzata per il recupero degli URL dei video accessibili pubblicamente.

Token dello user agent
  • GoogleOther-Video
  • GoogleOther
Stringa completa dello user agent GoogleOther-Video/1.0

Google-CloudVertexBot esegue la scansione dei siti su richiesta dei proprietari al momento della creazione di Vertex AI Agents.

Token dello user agent
  • Google-CloudVertexBot
  • Googlebot
Sottostringa dello user agent Google-CloudVertexBot

Google-Extended è un token di prodotto autonomo che i publisher web possono utilizzare per gestire se i propri siti aiutano a migliorare le API generative delle app Gemini e Vertex AI, incluse le future generazioni di modelli su cui si basano questi prodotti. Google-Extended non influisce sull'inclusione o sul ranking di un sito nella Ricerca Google.

Token dello user agent Google-Extended
Stringa completa dello user agent Google-Extended non ha una stringa a parte dello user agent per la richiesta HTTP. La scansione viene eseguita con le stringhe dello user agent Google esistenti; il token dello user agent del file robots.txt viene utilizzato per scopi di controllo.

Crawler per casi speciali

I crawler per casi speciali vengono utilizzati da prodotti specifici in cui è presente un accordo sul processo di scansione tra il sito sottoposto a scansione e il prodotto. Ad esempio, AdsBot ignora lo user agent globale del file robots.txt (*) con l'autorizzazione del publisher dell'annuncio. I crawler per casi speciali potrebbero ignorare le regole del file robots.txt e, di conseguenza, operano da un intervallo di IP diverso rispetto ai crawler comuni. Gli intervalli di IP sono pubblicati nell'oggetto special-crawlers.json.

Crawler per casi speciali

Utilizzato dalle API di Google per consegnare i messaggi delle notifiche push. Ignora lo user agent globale (*) nel file robots.txt.

Token dello user agent APIs-Google
Stringa completa dello user agent APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)

Controlla la qualità dell'annuncio nella pagina web mobile. Ignora lo user agent globale (*) nel file robots.txt.

Token dello user agent AdsBot-Google-Mobile
Stringa completa dello user agent Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

Controlla la qualità degli annunci nelle pagine web su desktop. Ignora lo user agent globale (*) nel file robots.txt.

Token dello user agent AdsBot-Google
Stringa completa dello user agent AdsBot-Google (+http://www.google.com/adsbot.html)

Il crawler AdSense visita il tuo sito per determinarne i contenuti al fine di pubblicarvi annunci pertinenti. Ignora lo user agent globale (*) nel file robots.txt.

Token dello user agent Mediapartners-Google
Stringa completa dello user agent Mediapartners-Google

Il crawler Mobile AdSense visita il tuo sito per determinarne i contenuti al fine di pubblicarvi annunci pertinenti. Ignora lo user agent globale (*) nel file robots.txt.

Token dello user agent Mediapartners-Google
Stringa completa dello user agent (Various mobile device types) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

Lo user agent Google-Safety gestisce la scansione specifica per abusi, come il rilevamento di malware per i link disponibili pubblicamente nelle proprietà di Google. Questo user-agent ignora le regole del file robots.txt.

Stringa completa dello user agent Google-Safety

Fetcher attivati dagli utenti

I fetcher attivati dagli utenti si avviano per eseguire un'azione di recupero specifica del prodotto. Ad esempio, Google Site Verifier agisce su richiesta di un utente, oppure un sito ospitato su Google Cloud (GCP) dispone di una funzionalità che consente agli utenti del sito di recuperare un feed RSS esterno. Poiché il recupero è stato richiesto da un utente, questi fetcher in genere ignorano le regole del file robots.txt. Gli intervalli di IP utilizzati dai fetcher attivati dagli utenti sono pubblicati negli oggetti user-triggered-fetchers.json e user-triggered-fetchers-google.json.

Fetcher attivati dagli utenti

Feedfetcher viene utilizzato per la scansione di feed RSS o Atom per Google Podcasts, Google News e PubSubHubbub.

Token dello user agent FeedFetcher-Google
Stringa completa dello user agent FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Recupera ed elabora i feed che gli editori hanno fornito esplicitamente tramite il Centro editori di Google per essere utilizzati nelle pagine di destinazione di Google News.

Stringa completa dello user agent GoogleProducer; (+https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers#googleproducer)

Su richiesta dell'utente, Google Read Aloud recupera e legge le pagine web utilizzando la sintesi vocale.

Stringhe complete dello user agent

Agenti attuali:

  • Agente desktop:
    Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)
  • Agente mobile:
    Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)

Agente precedente (deprecato):

google-speakr

Google Site Verifier recupera su richiesta dell'utente i token di verifica di Search Console.

Stringa completa dello user agent Mozilla/5.0 (compatible; Google-Site-Verification/1.0)

Una nota su Chrome/W.X.Y.Z negli user agent

Dove vedi la stringa Chrome/W.X.Y.Z nelle stringhe dello user agent nella tabella, W.X.Y.Z è in realtà un segnaposto che rappresenta la versione del browser Chrome usata da quello user agent: ad esempio 41.0.2272.96. Il numero di versione aumenterà nel tempo fino a corrispondere all'ultima versione di release di Chromium utilizzata da Googlebot.

Se cerchi nei log oppure applichi filtri alle richieste sul tuo server per individuare uno user agent con questo pattern, utilizza i caratteri jolly per il numero della versione, anziché indicare un numero di versione specifico.

User agent nel file robots.txt

Quando vengono riconosciuti diversi user agent nel file robots.txt, Google segue quello più specifico. Se vuoi consentire a tutti i crawler di Google di eseguire la scansione delle tue pagine, non ti occorre un file robots.txt. Se vuoi impedire o consentire a tutti i crawler di Google di accedere ad alcuni tuoi contenuti, specifica lo user agent Googlebot. Ad esempio, se vuoi che vengano visualizzate tutte le tue pagine nei risultati della Ricerca Google e che vengano mostrati annunci AdSense nelle pagine, non ti occorre un file robots.txt. Analogamente, se vuoi impedire a Google di accedere ad alcune pagine, impedisci l'accesso allo user agent Googlebot; in questo modo impedirai l'accesso anche a tutti gli altri user agent di Google.

Tuttavia, se preferisci, puoi avere un controllo più granulare. Ad esempio, per visualizzare tutte le tue pagine nella Ricerca Google, evitando però che le immagini presenti nella tua directory personale vengano sottoposte a scansione, puoi utilizzare il file robots.txt per impedire allo user agent Googlebot-Image di eseguire la scansione dei file presenti nella tua directory personale (consentendo però a Googlebot di eseguire la scansione di tutti i file), nel seguente modo:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal

Per fare un altro esempio, supponiamo che tu voglia mostrare annunci in tutte le tue pagine, ma preferisca che queste pagine non vengano visualizzate nella Ricerca Google. In questo caso, devi bloccare Googlebot, ma consentire lo user agent Mediapartners-Google, nel seguente modo:

User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

Controllare la velocità di scansione

Ciascun crawler di Google accede ai siti per uno scopo specifico e a frequenze diverse. Google utilizza algoritmi per determinare la frequenza di scansione ottimale per ogni sito. Se un crawler di Google esegue troppo spesso la scansione del tuo sito, puoi ridurre la frequenza di scansione.

Crawler di Google ritirati

I seguenti crawler di Google non sono più in uso e vengono indicati qui solo come riferimento storico.

Crawler di Google ritirati

Duplex web

Supportava il servizio Duplex web.

Token dello user agent DuplexWeb-Google
Stringa completa dello user agent Mozilla/5.0 (Linux; Android 11; Pixel 2; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Mobile Safari/537.36

Web Light

Verificava la presenza dell'intestazione no-transform ogni volta che un utente faceva clic sulla tua pagina nella ricerca in condizioni appropriate. Lo user agent Web Light veniva utilizzato solo per le richieste di navigazione esplicite di un visitatore reale, pertanto ignorava le regole del file robots.txt utilizzate per bloccare le richieste di scansione automatiche.

Token dello user agent googleweblight
Stringa completa dello user agent Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19

Controlla la qualità dell'annuncio nella pagina web su iPhone. Ignora lo user agent globale (*) nel file robots.txt.

Token dello user agent AdsBot-Google-Mobile
Stringa completa dello user agent Mozilla/5.0 (iPhone; CPU iPhone OS 14_7_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Mobile/15E148 Safari/604.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

Controlla la qualità degli annunci nelle pagine su app per Android. Rispetta le regole dei robot AdsBot-Google, ma ignora lo user agent globale (*) nel file robots.txt.

Token dello user agent AdsBot-Google-Mobile-Apps
Stringa completa dello user agent AdsBot-Google-Mobile-Apps
Token dello user agent
  • Googlebot-Image
  • Googlebot
Stringa completa dello user agent Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon