Googlebot

Googlebot は、Google 検索で使用される 2 種類のウェブクローラーの総称です。

スマートフォン用 Googlebot: モバイルデバイスでユーザーをシミュレートするモバイルクローラー。
パソコン用 Googlebot: デスクトップでユーザーをシミュレートするデスクトップクローラー。

Googlebot のサブタイプは、リクエストの HTTP user-agent リクエストヘッダーで確認できます。ただし、両方のクローラータイプが robots.txt 内の同じプロダクトトークン（ユーザーエージェントトークン）に従うため、robots.txt でスマートフォン用 Googlebot またはパソコン用 Googlebot のどちらかをターゲットにすることはできません。

Google 検索はほとんどのサイトについて、主としてコンテンツのモバイルバージョンをインデックスに登録します。そのため、Googlebot のクロールリクエストの大部分はモバイルクローラーを使用して行われ、一部がデスクトップクローラーを使用して行われます。

Googlebot がサイトにアクセスする方法

Googlebot は、平均して数秒に 1 回を超える頻度でサイトにアクセスすることはありません。ただし、遅延などにより、短時間にアクセス頻度が若干増えたように思える場合があります。Google のクロールリクエストへの対応で問題が発生した場合は、クロール頻度を減らすことができます。

Googlebot は、HTML ファイルまたはサポートされているテキストベースのファイルの最初の 15 MB の部分をクロールできます。HTML で参照されるリソース（CSS、JavaScript など）は個別に取得され、取得ごとに同じファイルサイズの制限が適用されます。ファイルの最初の 15 MB を超えると、Googlebot はクロールを停止し、最初の 15 MB のみをインデックス登録の対象として送信します。ファイルサイズの上限は、非圧縮データに適用されます。Google の他のクローラー（動画用 Googlebot、画像用 Googlebot など）では、制限が異なる場合があります。

米国の IP アドレスからクロールする場合、Googlebot のタイムゾーンは太平洋時間です。

その他の Googlebot の技術的特性については、Google クローラーの概要で説明されています。

Googlebot のサイトアクセスをブロックする

Googlebot は、主に以前にクロールしたページに埋め込まれたリンクから、クロールする新しい URL を検出します。サイトへのリンクを公開しないようにして、そのサイトの存在を隠すことはまず不可能です。誰かが「非公開」のサイトからリンクをクリックして別のサイトにアクセスすると、「非公開」のサイトの URL がリファラータグに追加され、他のサイトのリファラーログに保存、公開されるからです。

Googlebot によるサイトのコンテンツのクロールをブロックするには、複数の方法があります。なお、クロールとインデックス登録は異なりますのでご注意ください。Googlebot によるページのクロールをブロックしても、そのページの URL が検索結果に表示されなくなるわけではありません。

Googlebot がページをクロールできないようブロックする場合は robots.txt ファイルを使用してください。
Google がページをインデックス登録するのを望まない場合は noindex を使用してください。
クローラーとユーザーによるページへのアクセスを完全にブロックする場合は パスワード保護などの他の方法を使用してください。

Googlebot をブロックすることは、Google 検索（Discover やすべての Google 検索機能を含む）だけでなく、Google 画像検索、Google Video、Google ニュースなどの他のサービスにも影響します。

Googlebot が本物であるか確認する

Googlebot をブロックする前に、他のクローラーが Googlebot の HTTP user-agent リクエストヘッダーを使用して Googlebot になりすましていることがよくある点に注意してください。問題のリクエストが本当に Google からのものかどうかを確認することが重要です。リクエストが実際に Googlebot から送信されたものかどうかを確認するには、リクエストの送信元 IP についてリバース DNS ルックアップを実施するか、送信元 IP と Googlebot の IP 範囲を照合します。