Pengantar robots.txt
File robots.txt memberi tahu crawler mesin telusur URL mana yang dapat diakses di situs Anda.
File ini digunakan terutama agar situs Anda terhindar dari beban permintaan yang terlampau banyak; file ini bukanlah
mekanisme untuk menyembunyikan halaman web dari Google. Untuk menyembunyikan halaman web dari Google,
blokir pengindeksan dengan noindex
atau lindungi halaman dengan sandi.
Untuk apa file robots.txt digunakan?
File robots.txt digunakan terutama untuk mengelola traffic crawler ke situs Anda, dan biasanya menyembunyikan halaman dari Google, bergantung pada jenis file-nya:
Pengaruh robots.txt pada beragam jenis file | |
---|---|
Halaman web |
Anda dapat menggunakan file robots.txt untuk halaman web (HTML, PDF, atau format non-media lain yang dapat dibaca Google), untuk mengelola traffic crawling jika menurut Anda server kewalahan menangani permintaan dari crawler Google, atau untuk menghindari crawling halaman yang mirip atau tidak penting di situs Anda. Jika halaman web Anda diblokir dengan file robots.txt, URL tersebut masih dapat muncul di hasil penelusuran, tetapi hasil penelusuran tersebut tidak akan memiliki deskripsi. File gambar, file video, PDF, dan file non-HTML lainnya yang disematkan di halaman yang diblokir juga akan dikecualikan dari crawling, kecuali jika dirujuk oleh halaman lain yang diizinkan untuk di-crawl. Jika Anda melihat hasil penelusuran ini untuk halaman Anda dan ingin memperbaikinya, hapus entri robots.txt yang memblokir halaman. Jika Anda ingin menyembunyikan halaman sepenuhnya dari penelusuran, gunakan metode lain. |
File media |
Gunakan robots.txt untuk mengelola traffic crawling, serta untuk mencegah file gambar, video, dan audio muncul dalam hasil penelusuran Google. Langkah ini tidak akan mencegah pengguna atau halaman lain menautkan ke file gambar, video, atau audio Anda. |
File resource | Anda dapat menggunakan file robots.txt untuk memblokir file resource seperti file gambar, skrip, atau gaya yang tidak penting, jika menurut Anda halaman yang dimuat tanpa resource ini tidak akan terpengaruh secara signifikan oleh ketaktersediaan resource tersebut. Namun, jika ketaktersediaan resource ini mempersulit crawler Google dalam memahami halaman, jangan blokir resource. Jika resource diblokir, Google tidak dapat menganalisis halaman yang bergantung pada resource tersebut dengan baik. |
Memahami batasan file robots.txt
Sebelum Anda membuat atau mengedit file robots.txt, Anda harus mengetahui batas metode pemblokiran URL ini. Bergantung pada sasaran dan situasi Anda, sebaiknya pertimbangkan mekanisme lain untuk memastikan URL Anda tidak dapat ditemukan di web.
-
Aturan robots.txt mungkin tidak didukung oleh semua mesin telusur.
Petunjuk dalam file robots.txt tidak dapat memaksakan perilaku crawler ke situs Anda; crawler-lah yang memilih apakah akan mematuhi petunjuk atau tidak. Meskipun Googlebot dan web crawler ternama lainnya mematuhi petunjuk dalam file robots.txt, crawler lain mungkin tidak mematuhinya. Oleh karena itu, jika Anda ingin menjaga informasi tetap aman dari web crawler, sebaiknya gunakan metode pemblokiran lainnya, seperti file pribadi yang dilindungi sandi pada server Anda. -
Crawler yang berbeda menafsirkan sintaksis dengan cara yang berbeda.
Meskipun web crawler ternama mengikuti aturan dalam file robots.txt, setiap crawler mungkin menafsirkan aturan dengan cara yang berbeda. Anda harus mengetahui sintaksis yang sesuai untuk menangani berbagai web crawler karena sebagian web crawler mungkin tidak memahami petunjuk tertentu. -
Halaman yang tidak diizinkan dalam robots.txt masih
dapat diindeks jika ditautkan dari situs lainnya.
Meskipun Google tidak akan meng-crawl atau mengindeks konten yang diblokir oleh file robots.txt, kami mungkin masih menemukan dan mengindeks URL yang tidak diizinkan jika URL tersebut ditautkan dari tempat lain di web. Akibatnya, alamat URL dan, kemungkinan, informasi lain yang tersedia secara publik seperti teks link dalam link ke halaman masih dapat muncul di hasil penelusuran Google. Agar URL tidak muncul dalam hasil penelusuran Google, lindungi file Anda dengan sandi di server, gunakan header respons atau tagmeta
noindex
, atau hapus seluruh halaman.
Membuat atau memperbarui file robots.txt
Jika memutuskan bahwa Anda butuh file robots.txt, pelajari cara membuat file robots.txt. Atau, jika Anda sudah memiliki file robots.txt, pelajari cara memperbaruinya.
Ingin mempelajari lebih lanjut? Lihat referensi berikut: