Mengelola crawling URL navigasi berfaset

Navigasi berfaset adalah fitur umum situs yang memungkinkan pengunjungnya mengubah cara item (misalnya, produk, artikel, atau acara) ditampilkan di halaman. Fitur ini populer dan berguna, tetapi penerapannya yang paling umum, yang didasarkan pada parameter URL, dapat menghasilkan ruang URL yang tidak terbatas sehingga merusak kualitas situs karena:

Crawling berlebih: Karena URL yang dibuat untuk navigasi berfaset tampaknya baru dan crawler tidak dapat menentukan apakah URL tersebut berguna sebelum melakukan crawling terlebih dahulu, crawler biasanya akan mengakses URL navigasi berfaset dalam jumlah sangat besar sebelum akhirnya proses crawler menentukan bahwa URL tersebut sebenarnya tidak berguna.
Crawl penemuan melambat: Meneruskan dari poin sebelumnya, jika upaya crawling terlalu terfokus pada URL yang tidak berguna, crawler tidak akan bisa secara optimal meng-crawl URL baru yang berguna.

URL navigasi berfaset standar dapat berisi berbagai parameter dalam string kueri yang terkait dengan properti item yang difilter. Contoh:

https://example.com/items.shtm?products=fish&color=radioactive_green&size=tiny

Mengubah parameter URL products, color, dan size akan menampilkan kumpulan item yang berbeda di halaman dasar. Sering kali, hal ini berarti kemungkinan kombinasi filternya sangat banyak, yang berarti kemungkinan URL juga sangat banyak. Untuk menghemat resource Anda, sebaiknya tangani URL ini dengan salah satu cara berikut:

Jika Anda tidak memerlukan URL navigasi berfaset yang berpotensi diindeks, cegah crawling URL ini.
Jika Anda memerlukan URL navigasi berfaset yang berpotensi diindeks, pastikan URL tersebut mengikuti praktik terbaik yang diuraikan di bagian berikut. Perlu diingat bahwa meng-crawl URL berfaset cenderung menghabiskan banyak resource komputasi situs karena banyaknya URL dan operasi yang diperlukan untuk merender halaman tersebut.

Jika ingin menghemat resource server dan tidak perlu menampilkan URL navigasi berfaset di Google Penelusuran, Anda dapat mencegah crawling URL ini dengan salah satu cara berikut.

Gunakan robots.txt untuk mencegah crawling URL navigasi berfaset. Sering kali, Anda tidak perlu mengizinkan crawling item yang difilter, karena hal ini menghabiskan resource server secara percuma. Sebagai gantinya, hanya izinkan crawling halaman item individual beserta halaman listingan khusus yang menampilkan semua produk tanpa filter yang diterapkan.
```
user-agent: Googlebot
disallow: /*?*products=
disallow: /*?*color=
disallow: /*?*size=
allow: /*?products=all$
```
Gunakan fragmen URL untuk menentukan filter. Google Penelusuran umumnya tidak mendukung fragmen URL dalam crawling dan pengindeksan. Jika mekanisme pemfilteran Anda didasarkan pada fragmen URL, mekanisme tersebut tidak akan memengaruhi crawling (positif atau negatif). Misalnya, gunakan fragmen URL, bukan parameter URL:
```
https://example.com/items.shtm#products=fish&color=radioactive_green&size=tiny
```

Cara lain untuk memberikan sinyal preferensi URL navigasi berfaset yang (tidak) perlu di-crawl adalah menggunakan elemen link rel="canonical" dan atribut anchor rel="nofollow". Namun, metode ini umumnya kurang efektif dalam jangka panjang dibandingkan metode yang disebutkan sebelumnya.

Penggunaan rel="canonical" untuk menentukan URL mana yang merupakan versi kanonis dari URL navigasi berfaset dapat seiring waktu mengurangi volume crawl versi non-kanonis dari URL tersebut. Misalnya, jika Anda memiliki 3 jenis halaman yang difilter, pertimbangkan untuk mengarahkan rel="canonical" ke versi yang tidak difilter: https://example.com/items.shtm?products=fish&color=radioactive_green&size=tiny menentukan <link rel="canonical" href="https://example.com/items.shtm?products=fish" >.
Menggunakan atribut rel="nofollow" pada anchor yang mengarah ke halaman hasil yang difilter mungkin bermanfaat, tetapi perlu diingat bahwa setiap anchor yang mengarah ke URL tertentu harus memiliki atribut rel="nofollow" agar dapat berfungsi efektif.

Jika Anda ingin URL navigasi berfaset berpotensi di-crawl dan diindeks, pastikan Anda mengikuti praktik terbaik berikut untuk meminimalkan efek negatif dari crawling URL potensial dalam jumlah besar di situs Anda:

Gunakan pemisah parameter URL standar industri '&'. Karakter seperti koma (,), titik koma (;), dan tanda kurung ([ dan ]) sulit dideteksi crawler sebagai pemisah parameter (karena biasanya karakter tersebut bukan pemisah).
Jika Anda mengenkode filter di jalur URL, seperti /products/fish/green/tiny, pastikan urutan logis filter selalu sama dan tidak boleh ada filter duplikat.
Tampilkan kode status HTTP 404 saat kombinasi filter tidak menampilkan hasil. Jika tidak ada halaman di inventaris situs, pengguna dan crawler akan menerima error "not found" dengan kode status HTTP yang sesuai (404). Hal ini juga berlaku jika URL berisi filter duplikat atau kombinasi filter yang tidak masuk akal, dan URL penomoran halaman yang tidak ada. Demikian pula, jika kombinasi filter tidak memiliki hasil, jangan alihkan ke halaman error "not found" umum. Namun, tayangkan error "not found" dengan kode status HTTP 404 di URL tempat error tersebut ditemukan.
Jika Anda memiliki aplikasi web satu halaman, hal ini mungkin tidak dapat dilakukan. Ikuti praktik terbaik untuk aplikasi web satu halaman.

Mencegah crawling URL navigasi berfaset

Memastikan URL navigasi berfaset optimal untuk web