Panduan mendalam tentang cara kerja Google Penelusuran

Google Penelusuran adalah mesin telusur yang sepenuhnya otomatis, yang menggunakan software bernama web crawler untuk menjelajahi web secara rutin guna menemukan halaman yang akan ditambahkan ke indeks kami. Faktanya, sebagian besar halaman yang tercantum dalam hasil penelusuran kami tidak dikirimkan secara manual untuk dicantumkan, tetapi ditemukan dan ditambahkan secara otomatis saat web crawler kami mengeksplor web tersebut. Dokumen ini menjelaskan tahap cara kerja Penelusuran dalam konteks situs Anda. Memiliki pengetahuan dasar ini dapat membantu Anda memperbaiki masalah crawling, membuat halaman Anda diindeks, serta mempelajari cara mengoptimalkan tampilan situs Anda di Google Penelusuran.

Beberapa catatan sebelum memulai

Sebelum membahas detail cara kerja Penelusuran, penting untuk diperhatikan bahwa Google tidak menerima pembayaran untuk meng-crawl situs tertentu lebih sering, atau memberinya peringkat lebih tinggi. Jika Anda mendapatkan informasi sebaliknya, artinya informasi tersebut tidak benar.

Google tidak menjamin bahwa halaman Anda akan di-crawl, diindeks, atau ditayangkan, meskipun jika halaman tersebut mengikuti Dasar-Dasar Google Penelusuran.

Memperkenalkan tiga tahap Google Penelusuran

Google Penelusuran bekerja dalam tiga tahap dan tidak semua halaman berhasil melewati setiap tahap:

Crawling: Google mendownload teks, gambar, dan video dari halaman yang ditemukan di internet dengan program otomatis yang disebut crawler.
Pengindeksan: Google menganalisis file video, gambar, dan teks di halaman, serta menyimpan informasi tersebut di indeks Google, yang merupakan database berukuran besar.
Penayangan hasil penelusuran: Saat pengguna melakukan penelusuran di Google, Google akan menampilkan informasi yang relevan dengan kueri pengguna.

Crawling

Tahap pertama adalah mencari tahu halaman apa yang ada di web. Tidak ada registry pusat untuk semua halaman web, sehingga Google harus terus-menerus mencari halaman baru dan halaman yang diperbarui, serta menambahkan halaman tersebut ke daftar halaman yang dikenal. Proses ini disebut "Penemuan URL". Beberapa halaman sudah dikenal karena telah dikunjungi Google. Halaman lain akan ditemukan saat Google mengekstrak link dari halaman yang dikenal ke halaman baru: misalnya, halaman hub, seperti halaman kategori, akan menyertakan link ke postingan blog baru. Selain itu, halaman lain akan ditemukan saat Anda mengirimkan daftar halaman (peta situs) untuk di-crawl oleh Google.

Setelah menemukan URL halaman, Google mungkin mengunjungi (atau "meng-crawl") halaman untuk mencari tahu apa yang ada di halaman tersebut. Kami menggunakan banyak sekali komputer untuk meng-crawl miliaran halaman di web. Program yang melakukan pengambilan ini disebut Googlebot (juga dikenal sebagai crawler, robot, bot, atau spider). Googlebot menggunakan proses algoritma untuk menentukan situs mana yang akan di-crawl, seberapa sering, dan berapa banyak halaman yang diambil dari setiap situs. Crawler Google juga diprogram sedemikian rupa sehingga crawler tersebut mencoba untuk tidak meng-crawl situs terlalu cepat agar tidak membebaninya. Mekanisme ini didasarkan pada respons situs (misalnya, error HTTP 500 berarti "perlambat").

Namun, Googlebot tidak meng-crawl semua halaman yang ditemukannya. Beberapa halaman mungkin tidak diizinkan untuk di-crawl oleh pemilik situs, dan halaman lainnya mungkin tidak dapat diakses tanpa login ke situs.

Selama crawling, Google merender halaman dan menjalankan semua JavaScript yang ditemukannya menggunakan Chrome versi terbaru, mirip dengan cara browser merender halaman yang Anda kunjungi. Rendering itu penting karena situs sering kali mengandalkan JavaScript untuk menyajikan konten ke halaman, dan tanpa rendering, Google mungkin tidak akan melihat konten tersebut.

Crawling bergantung pada apakah crawler Google dapat mengakses situs. Beberapa masalah umum Googlebot saat mengakses situs meliputi:

Pengindeksan

Setelah halaman di-crawl, Google akan mencoba memahami apa yang ada di halaman tersebut. Tahap ini disebut pengindeksan, yang mencakup pemrosesan serta analisis konten tekstual serta tag & atribut konten utama, seperti elemen <title> dan atribut alt, gambar, video, dan lainnya.

Selama proses pengindeksan, Google menentukan apakah suatu halaman merupakan duplikat halaman lain di internet atau kanonis. Kanonis adalah halaman yang dapat ditampilkan di hasil penelusuran. Untuk memilih kanonis, pertama kami mengelompokkan halaman (juga dikenal sebagai pengelompokan) yang kami temukan di internet yang memiliki konten serupa, lalu memilih halaman yang paling mewakili grup. Halaman lain dalam grup adalah versi alternatif yang dapat ditayangkan dalam konteks yang berbeda, seperti apakah pengguna melakukan penelusuran dari perangkat seluler atau mencari halaman yang sangat spesifik dari cluster tersebut.

Google juga mengumpulkan sinyal tentang halaman kanonis dan kontennya, yang dapat digunakan di tahap berikutnya, yaitu menayangkan halaman di hasil penelusuran. Beberapa sinyal mencakup bahasa halaman, negara asal konten, dan kegunaan halaman.

Informasi yang dikumpulkan tentang halaman kanonis dan cluster-nya dapat disimpan di indeks Google, yaitu database berukuran besar yang dihosting di ribuan komputer. Pengindeksan tidak dijamin; tidak setiap halaman yang diproses oleh Google akan diindeks.

Pengindeksan juga bergantung pada konten halaman dan metadatanya. Beberapa masalah umum pengindeksan dapat mencakup:

Penayangan hasil penelusuran

Saat pengguna memasukkan kueri, mesin kami menelusuri indeks untuk mencari halaman yang cocok dan menampilkan hasil yang kami yakini berkualitas tinggi dan paling relevan dengan kueri pengguna. Relevansi ditentukan oleh ratusan faktor, yang dapat mencakup informasi seperti lokasi, bahasa, dan perangkat pengguna (desktop atau ponsel). Misalnya, hasil penelusuran "bengkel reparasi sepeda" bagi pengguna di Bandung akan berbeda dengan hasil penelusuran bagi pengguna di Bangkok.

Berdasarkan kueri pengguna, fitur penelusuran yang muncul di halaman hasil penelusuran juga berubah. Misalnya, hasil penelusuran "bengkel reparasi sepeda" kemungkinan akan menampilkan hasil lokal dan tanpa hasil gambar, sedangkan hasil penelusuran "sepeda modern" lebih cenderung menampilkan hasil gambar, bukan hasil lokal. Anda dapat menjelajahi elemen UI paling umum dari penelusuran web Google di Galeri Elemen Visual kami.

Search Console mungkin memberi tahu Anda bahwa halaman diindeks, tetapi Anda tidak melihatnya di hasil penelusuran. Hal ini dapat terjadi karena:

Meskipun panduan ini menjelaskan cara kerja Penelusuran, kami selalu berupaya meningkatkan kualitas algoritme kami. Anda dapat memantau perubahan ini dengan mengikuti blog Pusat Google Penelusuran.