Mengoptimalkan anggaran crawl

Panduan ini menjelaskan cara mengoptimalkan crawling Google untuk situs yang sangat besar dan sering diperbarui.

Jika situs Anda tidak memiliki banyak halaman yang berubah dengan cepat, atau jika halaman Anda tampak di-crawl pada hari yang sama saat halaman tersebut dipublikasikan, Anda tidak perlu membaca panduan ini. Khususnya untuk Google Penelusuran, Anda cukup terus memperbarui peta situs dan memeriksa cakupan indeks.

Sasaran panduan ini

Meskipun rekomendasi dalam panduan ini umumnya merupakan praktik yang baik, panduan ini merupakan panduan lanjutan yang utamanya ditujukan untuk jenis situs berikut:

  • Situs besar (lebih dari 1 juta halaman unik) dengan konten yang cukup sering berubah (seminggu sekali)
  • Situs sedang atau lebih besar (lebih dari 10.000 halaman unik) dengan konten yang berubah sangat cepat (setiap hari)
  • Situs dengan sebagian besar total URL-nya diklasifikasikan oleh Search Console sebagai Ditemukan - saat ini tidak diindeks

Teori umum crawling

Web adalah ruang yang hampir tak terbatas, yang melampaui kemampuan Google untuk menjelajahi dan mengindeks setiap URL yang tersedia. Oleh karena itu, ada batas waktu tertentu yang dapat dihabiskan crawler Google untuk meng-crawl suatu situs, dengan situs yang ditentukan oleh nama host. Misalnya, https://www.example.com/ dan https://code.example.com/ adalah dua nama host yang berbeda, sehingga memiliki anggaran crawling terpisah. Jumlah waktu dan resource yang dialokasikan Google untuk meng-crawl suatu situs biasanya disebut anggaran crawling situs dan ditentukan oleh dua elemen utama: batas kapasitas crawl dan permintaan crawl.

Batas kapasitas crawl

Google ingin meng-crawl situs Anda tanpa membebani server. Untuk mencegah hal ini, crawler Google menghitung batas kapasitas crawl, yang merupakan jumlah maksimum koneksi paralel simultan yang dapat digunakan Google untuk meng-crawl situs, serta penundaan waktu antar-pengambilan. Penghitungan ini dilakukan agar dapat mencakup semua konten penting tanpa membebani server Anda.

Batas kapasitas crawl dapat naik dan turun berdasarkan beberapa faktor:

  • Kualitas crawl: Jika situs merespons dengan cepat untuk sementara waktu, batasnya akan naik, yang berarti lebih banyak koneksi dapat digunakan untuk melakukan crawling. Jika situs melambat atau memberikan respons berupa error server, batasnya akan diturunkan dan Google akan mengurangi frekuensi crawling.
  • Batas crawling Google: Google memiliki banyak mesin, tetapi bukan berarti mesin-mesin tersebut tidak terbatas. Kami masih harus membuat pilihan dengan resource yang kami miliki.

Permintaan crawl

Setiap crawler memiliki "permintaan" miliknya sendiri saat meng-crawl web. Misalnya, AdsBot umumnya memiliki permintaan yang lebih tinggi saat situs menjalankan target iklan dinamis, dan Google Shopping memiliki permintaan yang lebih tinggi untuk produk yang ada di feed penjual Anda. Selain itu, permintaan Googlebot bervariasi antar-situs, bergantung pada ukuran, frekuensi pembaruan, kualitas halaman, dan relevansinya.

Secara umum, faktor yang berperan penting dalam menentukan permintaan crawl antara lain:

  • Inventaris yang diketahui: Tanpa panduan dari Anda, Google akan mencoba meng-crawl semua atau sebagian besar URL yang diketahuinya di situs Anda. Jika banyak dari URL ini merupakan duplikat, atau Anda tidak ingin URL tersebut di-crawl karena beberapa alasan lain (dihapus, tidak penting, dan sebagainya), hal ini akan membuang banyak waktu crawling Google di situs Anda. Faktor inilah yang paling dapat Anda kontrol secara langsung.
  • Popularitas: URL yang lebih populer di internet cenderung di-crawl lebih sering untuk mempertahankan posisinya di sistem kami.
  • Konten usang: Sistem kami ingin meng-crawl ulang dokumen sesering mungkin untuk menemukan perubahan apa pun.

Selain itu, peristiwa yang berdampak pada situs secara keseluruhan seperti perpindahan situs dapat memicu peningkatan permintaan crawl untuk memproses ulang konten dengan URL baru.

Ringkasan

Dengan menggabungkan kapasitas crawl dan permintaan crawl, Google menetapkan anggaran crawling situs sebagai kumpulan URL yang dapat dan ingin di-crawl oleh Google. Meskipun batas kapasitas crawl tidak tercapai, jika permintaan crawl rendah, Google akan mengurangi crawling situs Anda.

Praktik terbaik

Untuk memaksimalkan efisiensi crawling, ikuti praktik terbaik berikut:

  • Mengelola inventaris URL: Gunakan alat yang sesuai untuk memberi tahu Google halaman mana yang harus di-crawl dan yang tidak perlu di-crawl. Jika Google menghabiskan terlalu banyak waktu untuk meng-crawl URL yang seharusnya tidak di-crawl, crawler Google mungkin akan memutuskan bahwa tidak ada cukup waktu untuk melihat seluruh situs Anda (atau menaikkan anggaran crawling Anda untuk melakukannya).
    • Gabungkan konten duplikat. Hapus konten duplikat untuk memfokuskan crawling pada konten unik, bukan URL unik.
    • Memblokir crawling URL menggunakan robots.txt. Beberapa halaman mungkin penting bagi pengguna, tetapi bukan berarti Anda ingin halaman tersebut muncul di platform Google atau diproses ulang oleh sistem Google. Misalnya, halaman scrolling tanpa batas yang menduplikasi informasi di halaman tertaut, atau versi dengan urutan berbeda dari halaman yang sama. Jika Anda tidak dapat menggabungkannya seperti yang dijelaskan di butir pertama, blokir halaman yang tidak penting ini menggunakan robots.txt. Jika URL diblokir dengan robots.txt, Google tidak akan dapat meng-crawl URL tersebut, dan peluang URL diproses oleh sistem Google lainnya (seperti diindeks oleh Google Penelusuran) akan berkurang secara signifikan.
    • Menampilkan kode status 404 atau 410 untuk halaman yang telah dihapus secara permanen. Google tidak akan melupakan URL yang diketahuinya, tetapi kode status 404 merupakan sinyal kuat untuk tidak lagi meng-crawl URL tersebut. Namun, URL yang diblokir akan tetap menjadi bagian dari antrean crawling lebih lama, dan akan di-crawl ulang saat pemblokiran dihapus.
    • Memperbaiki error soft 404. Halaman soft 404 akan terus di-crawl dan membuang anggaran Anda. Periksa Laporan Cakupan Indeks untuk melihat error soft 404.
    • Selalu memperbarui peta situs Anda. Google membaca peta situs Anda secara berkala, jadi pastikan untuk menyertakan semua konten yang ingin di-crawl oleh Google. Jika situs Anda menyertakan konten yang diperbarui, sebaiknya sertakan tag <lastmod>.
    • Menghindari rantai pengalihan panjang yang akan berdampak negatif pada crawling.
  • Menjadikan halaman lebih cepat untuk dimuat. Jika Google dapat memuat dan merender halaman Anda dengan lebih cepat, kami mungkin dapat membaca lebih banyak konten dari situs Anda.
  • Debug masalah anggaran crawling. Periksa apakah situs Anda mengalami masalah ketersediaan selama crawling, dan cari cara untuk membuat crawling Anda lebih efisien.

Bagaimana cara meningkatkan anggaran crawling?

Ada dua cara untuk meningkatkan anggaran crawling:

  • Tambahkan lebih banyak resource server: Jika situs Anda tidak dapat di-crawl karena kapasitas server di pihak Anda (misalnya, Anda menerima peringatan Beban host terlampaui di alat inspeksi URL), tambahkan lebih banyak resource server jika dirasa sesuai untuk bisnis Anda.
  • Optimalkan kualitas konten untuk produk Google yang Anda targetkan: Google menentukan resource crawling yang dialokasikan untuk setiap situs dengan mempertimbangkan elemen yang relevan dengan produk Google tertentu. Misalnya, untuk Google Penelusuran, hal ini mencakup elemen seperti popularitas, nilai pengguna secara keseluruhan, keunikan konten, dan kapasitas penayangan.