Googlebot のクロールの割り当てについて

2017 年 1 月 16 日（月）

昨今、「クロールの割り当て」についてさまざまな定義を耳にします。しかし、Google の外部で「クロールの割り当て」が表すあらゆるものを一言で説明できるような言葉はありません。この記事では、Googlebot での「クロールの割り当て」の定義や意味を明らかにします。

まず重要なのは、以下で述べるように、クロールの割り当てとは、ほとんどのパブリッシャーの方々にとって気にすべきものではない、ということです。新しいページが公開された当日にクロールされることが多い場合、ウェブマスターの方がクロールの割り当てを重視する必要はありません。同様に、サイトの URL が数千もない場合、そのサイトのクロールはたいてい効率的に行われます。

クロールの対象やタイミング、また、サイトをホストしているサーバーでクロールに割り当て可能なリソースの量に優先順位を付けることが特に重要となるのは、大規模なサイトや、たとえば URL パラメータを使用してページを自動生成するサイトの場合です。

クロール頻度の制限

Googlebot は、ウェブ上の一員として有益な働きができるよう設計されています。その主要な優先事項がクロールです。クロールは、サイトにアクセスするユーザーの利便性を損なわない仕組みになっています。こうした仕組みを「クロール頻度の制限」と呼びます。これにより、特定のサイトについて最大の取得速度が制限されます。

つまり、このクロール頻度の制限とは、Googlebot でサイトのクロール時に使用可能な同時並行接続の数、そして次回の取得までに必要な待ち時間を表します。クロール頻度は、次のような要因によって変動することがあります。

クロールの状態: しばらくの間サイトが迅速に応答している場合はクロール頻度の上限が上がるので、クロール時に使用可能な接続の数が増えます。サイトの応答が遅くなった場合やサーバーエラーが返された場合はクロール頻度の上限が下がり、Googlebot によるクロールが減ります。
Search Console で設定された制限: ウェブサイトの所有者は、自身のサイトが Googlebot にクロールされる回数を減らすことができます。ただし、クロール頻度の上限を高く設定しても、自動的にクロールが増えるわけではありません。

クロールの必要性

クロール頻度が上限に達していない場合でも、インデックス登録における必要性がなければ、Googlebot によるクロールは少なくなります。クロールの必要性の決定において大きな役割を担うのが、次の 2 つの要素です。

人気度: インターネット上で人気の高い URL ほど、Google のインデックスで情報の新しさが保たれるよう頻繁にクロールされる傾向があります。
古さ: Google のシステムでは、インデックス内の URL が古くなり無効とならないようにしています。

また、サイトの移転といったサイト全体のイベントでは、新しい URL のコンテンツをインデックスに再登録するために、クロールの必要性が高まることがあります。

こうしたクロール頻度とクロールの必要性を併せて考えると、クロールの割り当ては、Googlebot によるクロールが可能であり、かつクロールが必要な URL の数であると定義できます。

クロールの割り当てに影響する要因

Google の分析によると、サイトに価値の低い URL が多数ある場合、そのサイトのクロールやインデックス登録に悪影響が及ぶ可能性があります。価値の低い URL は、重要度順に次のようなカテゴリに分けられます。

ファセットナビゲーションとセッション ID
サイト内の重複コンテンツ
ソフトエラーページ
ハッキングされたページ
無限のスペースとプロキシ
質の低いコンテンツやスパムコンテンツ

このようなページでサーバーのリソースが浪費されると、実際に価値のあるページのクロールの妨げとなるため、サイト上の優れたコンテンツの発見に大幅な遅れを引き起こしかねません。

よくある質問

クロールは、サイトが Google の検索結果に表示されるために欠かせないものです。ウェブサイトのクロールが効率的に行われると、Google 検索のインデックスに登録されやすくなります。

サイトの速度はクロールの割り当てに影響しますか？エラーについてはどうですか？

サイトの速度を上げると、ユーザーにとっての利便性が向上するだけでなく、クロール頻度も高くなります。Googlebot では、速度に優れたサイトはサーバーが健全な状態であることを表すものと見なされるため、同じ接続の数でより多くのコンテンツの取得が可能になります。一方、5xx エラーや接続タイムアウトが多い場合はサーバーの状態に問題があると見なされ、クロールが遅くなります。

このため、Search Console のクロールエラーレポートにご注意のうえ、サーバーエラーを少なく抑えるようにすることをおすすめします。

クロールはランキング要因ですか？

クロール頻度が上がっても、必ずしも検索結果での掲載順位が高くなるとは限りません。Google は検索結果のランキングを決定するために何百ものシグナルを活用しています。クロールは、ページを検索結果に表示するために必要ですが、ランキングシグナルではありません。

代替 URL や埋め込みコンテンツはクロールの割り当てにカウントされますか？

一般的に、Googlebot によりクロールされる URL は、いずれもサイトのクロールの割り当てにカウントされます。AMP や hreflang のような代替 URL、CSS や JavaScript といった埋め込みコンテンツ（AJAX つまり XHR 呼び出しを含む）についてもクロールが必要となる可能性があり、その場合にはサイトのクロールの割り当てが使われることになります。同様に、長いリダイレクトチェーンはクロールに悪影響を及ぼすことがあります。

`crawl-delay` ルールを使って Googlebot を制限できますか？

標準以外の crawl-delay robots.txt ルールは、Googlebot で処理されません。

`nofollow` ルールはクロールの割り当てに影響しますか？

場合によって変わります。クロールされる URL はいずれも、クロールの割り当てに影響を及ぼします。そのため、ページで URL が nofollow とマークされていても、サイトの別のページやウェブ上の任意のページがリンクを nofollow としてラベル付けしていない場合は、クロールの対象となります。

robots.txt で許可していない URL もクロールの割り当てに影響しますか？

いいえ。許可されていない URL はクロールの割り当てには影響しません。

サイトのクロールを最適化する方法については、2009 年のクロールの最適化に関するブログ記事をご覧ください。こちらの記事は 2009 年の投稿ですが、現在もお役に立つ内容です。ご不明な点がありましたら、フォーラムでご質問ください。

Posted by Gary Illyes, Crawling and Indexing teams

Googlebot のクロールの割り当てについて コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。