Memverifikasi permintaan dari pengambil dan crawler Google

Anda dapat memverifikasi apakah web crawler yang mengakses server Anda benar-benar crawler Google, seperti Googlebot. Tindakan ini berguna jika Anda khawatir terhadap spammer atau pembuat masalah lainnya yang mengakses situs Anda dengan mengaku sebagai Googlebot.

Crawler Google dibagi menjadi tiga kategori:

Jenis	Deskripsi	Mask DNS terbalik	Rentang IP
Crawler umum	Crawler umum yang digunakan untuk produk Google (seperti Googlebot). Crawler ini selalu mematuhi aturan robots.txt untuk crawl otomatis.	`crawl-*---.googlebot.com` atau `geo-crawl----*.geo.googlebot.com`	googlebot.json
Crawler kasus khusus	Crawler yang melakukan fungsi tertentu untuk produk Google (seperti AdsBot) saat ada perjanjian antara situs yang di-crawl dan produk tersebut tentang proses crawl-nya. Crawler ini mungkin mematuhi atau tidak mematuhi aturan robots.txt.	`rate-limited-proxy-*---*.google.com`	special-crawlers.json
Pengambil yang dipicu pengguna	Alat dan fungsi produk tempat pengambilan dipicu pengguna akhir. Misalnya, Pemverifikasi Situs Google bertindak atas permintaan pengguna. Karena pengambilan diminta oleh pengguna, pengambil ini mengabaikan aturan robots.txt. Pengambil yang dikontrol oleh Google berasal dari IP di objek `user-triggered-fetchers-google.json` dan di-resolve ke nama host `google.com`. IP dalam objek `user-triggered-fetchers.json` akan di-resolve ke nama host `gae.googleusercontent.com`. IP ini digunakan, misalnya, jika situs yang berjalan di Google Cloud (GCP) memiliki fitur yang memerlukan pengambilan feed RSS eksternal atas permintaan pengguna situs tersebut.	`*---.gae.googleusercontent.com` atau `google-proxy----*.google.com`	user-triggered-fetchers.json dan user-triggered-fetchers-google.json

Ada dua metode untuk memverifikasi crawler Google:

Secara manual: Untuk pencarian satu kali, gunakan alat command line. Metode ini sudah cukup bagi sebagian besar kasus penggunaan.
Secara otomatis: Untuk pencarian dalam skala besar, gunakan solusi otomatis untuk mencocokkan alamat IP crawler dengan daftar alamat IP Googlebot yang dipublikasikan.

Menggunakan alat command line

Jalankan pencarian balik DNS di alamat IP pengaksesan dari log Anda, menggunakan perintah host.
Verifikasi bahwa nama domainnya adalah googlebot.com, google.com, atau googleusercontent.com.
Jalankan pencarian DNS maju pada nama domain yang diambil di langkah pertama menggunakan perintah host pada nama domain yang diambil.
Verifikasi bahwa alamat tersebut sama dengan alamat IP pengaksesan asli dari log Anda.

Contoh 1:

host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

Contoh 2:

host 35.247.243.240
240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.

host geo-crawl-35-247-243-240.geo.googlebot.com
geo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240

Contoh 3:

host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.

host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77

Menggunakan solusi otomatis

Atau, Anda dapat mengidentifikasi Googlebot berdasarkan alamat IP dengan mencocokkan alamat IP crawler dengan daftar rentang IP crawler dan pengambil Google:

Untuk alamat IP Google lain tempat situs Anda dapat diakses (misalnya Apps Script), cocokkan alamat IP pengaksesan dengan daftar umum alamat IP Google. Perhatikan bahwa alamat IP dalam file JSON ditampilkan dalam format CIDR.