最佳化檢索預算
本指南說明如何為規模龐大且更新頻繁的網站進行 Google 檢索最佳化調整。
如果您的網站沒有大量會經常變動的網頁,或者網頁檢索作業看起來都是在發布網頁的同一天完成,那就不需要閱讀這份指南。針對是 Google 搜尋,只要隨時保持 Sitemap 為最新狀態,並定期檢查索引涵蓋範圍即可。
本指南適用對象
雖然本指南中的建議都是廣泛適用的良好做法,但這是一份進階指南,主要適用於下列類型的網站:
- 擁有超過 100 萬個不重複網頁,且內容變動頻率適中 (每週一次) 的大型網站
- 擁有超過 1 萬個不重複網頁,且內容變動極為頻繁 (每天) 的中型或大型網站
- 網站中有大量網址在 Search Console 中分類為「已找到 - 目前尚未建立索引」
檢索基本原理
網海無垠,即使是 Google 也無法探索每個可用網址,並為其一一建立索引。因此,Google 檢索器檢索每個網站所能用的時間有限,而網站的判斷標準以主機名稱為準。舉例來說,https://www.example.com/ 和 https://code.example.com/ 是兩個不同的主機名稱,因此有各自的檢索預算。Google 針對檢索一個網站所能投入的時間和資源,通常就稱為「檢索預算」,而檢索預算多寡取決於兩個主要元素:「檢索容量上限」和「檢索需求」。
檢索容量上限
Google 檢索網站時,並不希望對伺服器造成負擔。為避免這種情況,Google 檢索器會計算「檢索容量上限」,這是指 Google 在檢索網站時可以使用的最大同時連線數量,以及每次擷取作業之間的延遲時間。計算出來的容量上限要能讓 Googlebot 為所有重要內容建立索引,但又不會讓伺服器超過負荷。
檢索容量上限可能因下列因素而有所起伏:
- 檢索健康狀態:如果網站連續一陣子的回應速度都很快,檢索容量上限就會提高,讓 Googlebot 可使用更多連線進行檢索。如果網站的回應速度變慢或出現伺服器錯誤,檢索容量上限則會降低,Google 的檢索次數也會隨之減少。
- Google 的檢索能力上限:Google 擁有許多硬體資源,但數量並非無限,我們仍然需要依據現有資源取捨分配。
檢索需求
每個檢索器在檢索網頁時都有自己的「需求」。舉例來說,如果網站正在放送動態廣告目標,AdsBot 的需求通常會比較高;如果 Google 購物有你商家動態饋給中的產品,Google 購物對這些產品的需求就會比較高;Googlebot 的需求則會因網站規模、更新頻率、網頁品質和關聯性而異 (與其他網站相比)。
一般來說,決定檢索需求的重要因素包括:
- 系統對網址庫的判斷:Google 會在未經您說明的情況下,嘗試檢索您網站上所有或大部分的已知網址;如果這當中存在許多重複網址,或者因為其他原因根本不需要檢索 (例如網址已移除、內容不重要等等),等於 Google 浪費許多時間檢索您的網站。這也是您最能主動控制的因素。
- 熱門程度:為了盡可能在系統中提供最新的資訊,在網際網路上越熱門的網址,其檢索頻率也會越高。
- 過時程度:我們的系統希望能以足夠的頻率重新檢索文件,以便及時反映任何變更。
此外,關聯到整個網站的事件 (例如網站遷移) 可能會使檢索需求增加,因為我們需要重新處理新網址中的內容。
總結
綜合檢索容量和檢索需求兩個層面來看,Google 會將網站檢索預算視為「Google 有能力且想要檢索的網址數量集合」。假如檢索需求較低,即使未達檢索容量上限,Google 也會降低對網站的檢索頻率。
最佳做法
如要盡可能提升檢索效率,請遵循下列最佳做法:
- 管理網址庫:使用適當的工具告訴 Google 要檢索哪些網頁,以及不要檢索哪些網頁。如果 Google 花費太多時間檢索不應檢索的網址,Google 檢索器可能會判定網站的其他部分不值得花時間查看,也不會提高預算來檢索網站。
- 整合重複的內容。 排除重複的內容,讓系統能著重於檢索獨特的內容,而不只是不重複的網址。
- 透過 robots.txt 禁止系統檢索網址。 有些網頁對使用者而言可能很重要,但您並不希望這些網頁出現在 Google 平台上,或由 Google 系統重新處理。例如會重複連結網頁資訊的無限捲動頁面,或是相同網頁的不同排序版本。如果無法依照清單第一條所說的方式進行整合,請使用 robots.txt 封鎖這些不重要的網頁。透過 robots.txt 封鎖網址可防止 Google 檢索這些網址,並大幅降低其他 Google 系統處理這些網址的機率 (例如由 Google 搜尋建立索引)。
-
如果網頁已永久移除,請傳回
404或410狀態碼。 Google 不會忘記已知的網址,但404狀態碼是很強烈的信號,會告訴 Google 不要再檢索該網址。相較來說,系統會在檢索佇列中將遭到封鎖的網址保留較長一段時間,並在解除封鎖後重新進行檢索。 - 排除
soft 404錯誤。系統會繼續檢索soft 404網頁,白白浪費你的預算。請查看索引涵蓋範圍報表是否有soft 404錯誤。 - 隨時保持 Sitemap 為最新狀態。Google 會定期讀取 Sitemap,因此請務必在其中納入您希望 Google 檢索的所有內容。如果網站內容已經更新,建議加入
<lastmod>標記。 - 避免使用過長的重新導向鏈結,因為這種做法會對檢索造成負面影響。
- 確保網頁擁有良好的載入效率。 如果 Google 能夠以更快的速度載入並轉譯網頁,或許就能讀取網站中的更多內容。
- 針對檢索預算問題進行偵錯。 請檢查網站在檢索期間是否有任何可用性問題,並設法讓檢索作業更有效率。
如何提高檢索預算?
提高檢索預算的方法有兩種: