Pengaruh kode status HTTP terhadap crawler Google

Halaman ini menjelaskan pengaruh berbagai kode status HTTP terhadap kemampuan Google untuk meng-crawl konten web Anda. Kami membahas 20 kode status teratas yang ditemukan Google di web. Kode status yang lebih jarang ditemukan, seperti 418 (I'm a teapot), tidak akan dibahas.

Kode status HTTP

Kode status HTTP dibuat oleh server yang menghosting situs saat merespons permintaan yang dibuat oleh klien, misalnya browser atau crawler. Setiap kode status HTTP memiliki arti yang berbeda, tetapi sering kali hasil permintaannya sama. Misalnya, ada beberapa kode status yang memberi sinyal pengalihan, tetapi hasilnya tetap sama.

Search Console memunculkan pesan error untuk kode status dalam rentang 4xx—5xx dan untuk pengalihan yang gagal (3xx). Jika server merespons dengan kode status 2xx, konten yang diterima dalam respons tersebut mungkin dipertimbangkan untuk pengindeksan.

Tabel berikut berisi kode status HTTP yang paling banyak ditemukan oleh Google dan penjelasan mengenai cara Google menangani setiap kode status.

Kode status HTTP

2xx (success)

Google mempertimbangkan konten untuk diproses (misalnya, dalam kasus Google Penelusuran, untuk pengindeksan). Jika konten mengindikasikan error untuk Google Penelusuran, misalnya halaman kosong atau ada pesan error, Search Console akan menampilkan error soft 404.

200 (success)

Google meneruskan apa pun yang diterimanya ke langkah pemrosesan berikutnya (yang spesifik per produk). Untuk Google Penelusuran, sistem berikutnya adalah pipeline pengindeksan. Sistem pengindeksan mungkin akan mengindeks konten, tetapi hal ini tidak dijamin.

201 (created)
202 (accepted)

Google menunggu konten selama waktu yang terbatas, lalu meneruskan apa pun yang diterimanya ke langkah pemrosesan berikutnya (yang spesifik per produk). Waktu tunggu bergantung pada agen pengguna, misalnya Googlebot Smartphone mungkin memiliki waktu tunggu yang berbeda dengan Googlebot Image.

204 (no content)

Google tidak dapat menerima konten apa pun sehingga tidak dapat memprosesnya.

3xx (redirection)

Secara default, crawler Google mengikuti maksimal 10 lompatan pengalihan. Namun, crawler produk tertentu mungkin memiliki batas yang berbeda. Misalnya, Googlebot umumnya mengikuti 10 lompatan pengalihan saat meng-crawl konten web umum, tetapi Alat Inspeksi Google tidak mengikuti pengalihan.

Konten apa pun yang diterima Google dari URL pengalihan akan diabaikan, dan konten akhir URL target akan diproses. Untuk file robots.txt, pelajari cara Google menangani robots.txt yang menampilkan kode status 3xx.

301 (moved permanently)

Google mengikuti pengalihan, dan sistem Google menggunakan pengalihan sebagai sinyal kuat bahwa target pengalihan harus diproses.

302 (found)

Secara default, crawler Google mengikuti pengalihan, dan sistem Google menggunakan pengalihan sebagai sinyal lemah bahwa target pengalihan harus diproses. Produk lain mungkin menangani pengalihan secara berbeda.

303 (see other)
304 (not modified)

Crawler Google memberikan sinyal ke sistem pemrosesan berikutnya bahwa kontennya sama seperti saat terakhir kali di-crawl. Dalam kasus Google Penelusuran, pipeline pengindeksan mungkin mengevaluasi ulang sinyal untuk URL, tetapi kode status tetap tidak akan memengaruhi pengindeksan.

307 (temporary redirect) Setara dengan 302.
308 (moved permanently) Setara dengan 301.

4xx (client errors)

Google tidak menggunakan konten dari URL yang menampilkan kode status 4xx. Jika URL sebelumnya digunakan, tetapi kini menampilkan kode status 4xx, sistem Google akan berhenti menggunakan URL tersebut seiring waktu. Dalam kasus Google Penelusuran, Google tidak mengindeks URL yang menampilkan kode status 4xx, dan URL yang sudah diindeks dan menampilkan kode status 4xx akan dihapus dari indeks.

Konten apa pun yang diterima Google dari URL yang menampilkan kode status 4xx akan diabaikan.

400 (bad request)

Semua error 4xx, kecuali 429, diperlakukan sama: Crawler Google memberi tahu sistem pemrosesan berikutnya bahwa konten tidak ada.

Dalam kasus Google Penelusuran, pipeline pengindeksan menghapus URL dari indeks jika sebelumnya telah diindeks. Halaman 404 yang baru ditemukan tidak diproses. Frekuensi crawling menurun secara bertahap.

401 (unauthorized)
403 (forbidden)
404 (not found)
410 (gone)
411 (length required)
429 (too many requests)

Crawler Google memperlakukan kode status 429 sebagai sinyal bahwa server kelebihan beban dan menganggapnya sebagai error server.

5xx (server errors)

Error server 5xx dan 429 meminta crawler Google untuk memperlambat crawling untuk sementara. Untuk Google Penelusuran, URL yang sudah diindeks dipertahankan dalam indeks, tetapi pada akhirnya dihapus.

Konten apa pun yang diterima Google dari URL yang menampilkan kode status 5xx akan diabaikan. Untuk file robots.txt, pelajari cara Google menangani robots.txt yang menampilkan kode status 5xx.

Setelah server mulai merespons dengan kode status 2xx, Google akan secara bertahap meningkatkan frekuensi crawling untuk situs tersebut.

500 (internal server error)

Google menurunkan frekuensi crawling untuk situs. Penurunan frekuensi crawling sebanding dengan jumlah tiap-tiap URL yang menampilkan error server. Untuk Google Penelusuran, pipeline pengindeksan Google menghapus URL yang terus-menerus menampilkan error server dari indeks.

502 (bad gateway)
503 (service unavailable)