Googlebot のクロールの割り当てについて
コレクションでコンテンツを整理
必要に応じて、コンテンツの保存と分類を行います。
2017 年 1 月 16 日(月)
昨今、「クロールの割り当て」についてさまざまな定義を耳にします。しかし、Google の外部で「クロールの割り当て」が表すあらゆるものを一言で説明できるような言葉はありません。この記事では、Googlebot での「クロールの割り当て」の定義や意味を明らかにします。
まず重要なのは、以下で述べるように、クロールの割り当てとは、ほとんどのパブリッシャーの方々にとって気にすべきものではない、ということです。新しいページが公開された当日にクロールされることが多い場合、ウェブマスターの方がクロールの割り当てを重視する必要はありません。同様に、サイトの URL が数千もない場合、そのサイトのクロールはたいてい効率的に行われます。
クロールの対象やタイミング、また、サイトをホストしているサーバーでクロールに割り当て可能なリソースの量に優先順位を付けることが特に重要となるのは、大規模なサイトや、たとえば URL パラメータを使用してページを自動生成するサイトの場合です。
クロール頻度の制限
Googlebot は、ウェブ上の一員として有益な働きができるよう設計されています。その主要な優先事項がクロールです。クロールは、サイトにアクセスするユーザーの利便性を損なわない仕組みになっています。こうした仕組みを「クロール頻度の制限」と呼びます。これにより、特定のサイトについて最大の取得速度が制限されます。
つまり、このクロール頻度の制限とは、Googlebot でサイトのクロール時に使用可能な同時並行接続の数、そして次回の取得までに必要な待ち時間を表します。クロール頻度は、次のような要因によって変動することがあります。
-
クロールの状態: しばらくの間サイトが迅速に応答している場合はクロール頻度の上限が上がるので、クロール時に使用可能な接続の数が増えます。サイトの応答が遅くなった場合やサーバーエラーが返された場合はクロール頻度の上限が下がり、Googlebot によるクロールが減ります。
-
Search Console で設定された制限: ウェブサイトの所有者は、自身のサイトが Googlebot にクロールされる回数を減らすことができます。ただし、クロール頻度の上限を高く設定しても、自動的にクロールが増えるわけではありません。
クロールの必要性
クロール頻度が上限に達していない場合でも、インデックス登録における必要性がなければ、Googlebot によるクロールは少なくなります。クロールの必要性の決定において大きな役割を担うのが、次の 2 つの要素です。
-
人気度: インターネット上で人気の高い URL ほど、Google のインデックスで情報の新しさが保たれるよう頻繁にクロールされる傾向があります。
-
古さ: Google のシステムでは、インデックス内の URL が古くなり無効とならないようにしています。
また、サイトの移転といったサイト全体のイベントでは、新しい URL のコンテンツをインデックスに再登録するために、クロールの必要性が高まることがあります。
こうしたクロール頻度とクロールの必要性を併せて考えると、クロールの割り当ては、Googlebot によるクロールが可能であり、かつクロールが必要な URL の数であると定義できます。
クロールの割り当てに影響する要因
Google の分析によると、サイトに価値の低い URL が多数ある場合、そのサイトのクロールやインデックス登録に悪影響が及ぶ可能性があります。価値の低い URL は、重要度順に次のようなカテゴリに分けられます。
このようなページでサーバーのリソースが浪費されると、実際に価値のあるページのクロールの妨げとなるため、サイト上の優れたコンテンツの発見に大幅な遅れを引き起こしかねません。
よくある質問
クロールは、サイトが Google の検索結果に表示されるために欠かせないものです。ウェブサイトのクロールが効率的に行われると、Google 検索のインデックスに登録されやすくなります。
サイトの速度はクロールの割り当てに影響しますか?エラーについてはどうですか?
サイトの速度を上げると、ユーザーにとっての利便性が向上するだけでなく、クロール頻度も高くなります。Googlebot では、速度に優れたサイトはサーバーが健全な状態であることを表すものと見なされるため、同じ接続の数でより多くのコンテンツの取得が可能になります。一方、5xx エラーや接続タイムアウトが多い場合はサーバーの状態に問題があると見なされ、クロールが遅くなります。
このため、Search Console のクロールエラー レポートにご注意のうえ、サーバーエラーを少なく抑えるようにすることをおすすめします。
クロールはランキング要因ですか?
クロール頻度が上がっても、必ずしも検索結果での掲載順位が高くなるとは限りません。Google は検索結果のランキングを決定するために何百ものシグナルを活用しています。クロールは、ページを検索結果に表示するために必要ですが、ランキング シグナルではありません。
代替 URL や埋め込みコンテンツはクロールの割り当てにカウントされますか?
一般的に、Googlebot によりクロールされる URL は、いずれもサイトのクロールの割り当てにカウントされます。AMP や hreflang のような代替 URL、CSS や JavaScript といった埋め込みコンテンツ(AJAX つまり XHR 呼び出しを含む)についてもクロールが必要となる可能性があり、その場合にはサイトのクロールの割り当てが使われることになります。同様に、長いリダイレクト チェーンはクロールに悪影響を及ぼすことがあります。
crawl-delay
ルールを使って Googlebot を制限できますか?
標準以外の crawl-delay
robots.txt ルールは、Googlebot で処理されません。
nofollow
ルールはクロールの割り当てに影響しますか?
場合によって変わります。クロールされる URL はいずれも、クロールの割り当てに影響を及ぼします。そのため、ページで URL が nofollow
とマークされていても、サイトの別のページやウェブ上の任意のページがリンクを nofollow としてラベル付けしていない場合は、クロールの対象となります。
robots.txt で許可していない URL もクロールの割り当てに影響しますか?
いいえ。許可されていない URL はクロールの割り当てには影響しません。
サイトのクロールを最適化する方法については、2009 年のクロールの最適化に関するブログ記事をご覧ください。こちらの記事は 2009 年の投稿ですが、現在もお役に立つ内容です。ご不明な点がありましたら、フォーラムでご質問ください。
Posted by Gary Illyes, Crawling and Indexing teams
特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。
[null,null,[],[[["\u003cp\u003eGooglebot's crawl budget is the number of URLs it can and wants to crawl on a website, influenced by factors like crawl rate limit and crawl demand.\u003c/p\u003e\n"],["\u003cp\u003eCrawl rate limit is the maximum fetching rate for a site, determined by site health and potential limits set in Search Console.\u003c/p\u003e\n"],["\u003cp\u003eCrawl demand is influenced by the popularity and staleness of URLs, with popular and fresh content being crawled more frequently.\u003c/p\u003e\n"],["\u003cp\u003eLow-value-add URLs like faceted navigation, duplicate content, and soft error pages can negatively impact a site's crawl budget and indexing.\u003c/p\u003e\n"],["\u003cp\u003eWhile crucial for indexing, crawl rate is not a direct ranking factor in Google Search results.\u003c/p\u003e\n"]]],["Google's \"crawl budget\" is the number of URLs Googlebot can and wants to crawl, influenced by crawl rate limit and crawl demand. Crawl rate is determined by server responsiveness and user-set limits, while crawl demand depends on URL popularity and staleness. Low-value URLs, such as faceted navigation and duplicate content, negatively impact the budget. Site speed and server errors affect crawl rate. Crawling is not a ranking factor, but it's necessary for a URL to appear in search results.\n"],null,["# What Crawl Budget Means for Googlebot\n\n| It's been a while since we published this blog post. Some of the information may be outdated (for example, some images may be missing, and some links may not work anymore). Check out our updated documentation on [optimizing crawling efficiency](/search/docs/crawling-indexing/large-site-managing-crawl-budget#improve_crawl_efficiency).\n\nMonday, January 16, 2017\n\n\nRecently, we've heard a number of definitions for \"crawl budget\", however we don't have a single\nterm that would describe everything that \"crawl budget\" stands for externally. With this post\nwe'll clarify what we actually have and what it means for Googlebot.\n\n\nFirst, we'd like to emphasize that crawl budget, as described below, is not something most\npublishers have to worry about. If new pages tend to be crawled the same day they're published,\ncrawl budget is not something webmasters need to focus on. Likewise, if a site has fewer than a\nfew thousand URLs, most of the time it will be crawled efficiently.\n\n\nPrioritizing what to crawl, when, and how much resource the server hosting the site can allocate\nto crawling is more important for bigger sites, or those that auto-generate pages based on URL\nparameters, for example.\n\nCrawl rate limit\n----------------\n\n\nGooglebot is designed to be a good citizen of the web. Crawling is its main priority, while making\nsure it doesn't degrade the experience of users visiting the site. We call this the \"crawl rate\nlimit,\" which limits the maximum fetching rate for a given site.\n\n\nSimply put, this represents the number of simultaneous parallel connections Googlebot may use to\ncrawl the site, as well as the time it has to wait between the fetches. The crawl rate can go up\nand down based on a couple of factors:\n\n- **Crawl health**: If the site responds really quickly for a while, the limit goes up, meaning more connections can be used to crawl. If the site slows down or responds with server errors, the limit goes down and Googlebot crawls less.\n- [**Limit set in\n Search Console**](https://support.google.com/webmasters/answer/48620): Website owners can reduce Googlebot's crawling of their site. Note that setting higher limits doesn't automatically increase crawling.\n\nCrawl demand\n------------\n\n\nEven if the crawl rate limit isn't reached, if there's no demand from indexing, there will be low\nactivity from Googlebot. The two factors that play a significant role in determining crawl demand\nare:\n\n- **Popularity**: URLs that are more popular on the Internet tend to be crawled more often to keep them fresher in our index.\n- **Staleness**: Our systems attempt to prevent URLs from becoming stale in the index.\n\n\nAdditionally, site-wide events like site moves may trigger an increase in crawl demand in order to\nreindex the content under the new URLs.\n\n\nTaking crawl rate and crawl demand together we define crawl budget as the number of URLs Googlebot\ncan and wants to crawl.\n\nFactors affecting crawl budget\n------------------------------\n\n\nAccording to our analysis, having many low-value-add URLs can negatively affect a site's crawling\nand indexing. We found that the low-value-add URLs fall into these categories, in order of\nsignificance:\n\n- [Faceted navigation](/search/blog/2014/02/faceted-navigation-best-and-5-of-worst) and [session identifiers](/search/blog/2007/09/google-duplicate-content-caused-by-url)\n- [On-site duplicate content](/search/blog/2007/09/google-duplicate-content-caused-by-url)\n- [Soft error pages](/search/blog/2010/06/crawl-errors-now-reports-soft-404s)\n- Hacked pages\n- [Infinite spaces](/search/blog/2008/08/to-infinity-and-beyond-no) and proxies\n- Low quality and spam content\n\n\nWasting server resources on pages like these will drain crawl activity from pages that do actually\nhave value, which may cause a significant delay in discovering great content on a site.\n\nTop questions\n-------------\n\n\nCrawling is the entry point for sites into Google's search results. Efficient crawling of a\nwebsite helps with its indexing in Google Search. \n\n### Does site speed affect my crawl budget? How about errors?\n\n\nMaking a site faster improves the users' experience while also increasing crawl rate. For\nGooglebot, a speedy site is a sign of healthy servers, so it can get more content over the\nsame number of connections. On the flip side, a significant number of 5xx errors or\nconnection timeouts signal the opposite, and crawling slows down.\n\n\nWe recommend paying attention to the\n[Crawl Errors report in Search Console](https://support.google.com/webmasters/answer/35120)\nand keeping the number of server errors low. \n\n### Is crawling a ranking factor?\n\n\nAn increased crawl rate will not necessarily lead to better positions in Search results.\nGoogle uses hundreds of signals to rank the results, and while crawling is necessary for\nbeing in the results, it's not a ranking signal. \n\n### Do alternate URLs and embedded content count in the crawl budget?\n\n\nGenerally, any URL that Googlebot crawls will count towards a site's crawl budget.\nAlternate URLs, like AMP or hreflang, as well as embedded content, such as CSS and\nJavaScript, including AJAX\n(like [XHR](https://en.wikipedia.org/wiki/XMLHttpRequest))\ncalls, may have to be crawled and will consume a site's crawl budget. Similarly, long\nredirect chains may have a negative effect on crawling. \n\n### Can I control Googlebot with the `crawl-delay` rule?\n\n\nThe non-standard `crawl-delay` robots.txt rule is not processed by Googlebot. \n\n### Does the `nofollow` rule affect crawl budget?\n\n\nIt depends. Any URL that is crawled affects crawl budget, so even if your page marks a URL\nas `nofollow` it can still be crawled if another page on your site, or any page on the web,\ndoesn't label the link as nofollow. \n\n### Do URLs I disallowed through robots.txt affect my crawl budget in any way?\n\n\nNo, disallowed URLs do not affect the crawl budget.\n\n\nFor information on how to optimize crawling of your site, take a look at our blogpost on\n[optimizing crawling](/search/blog/2009/08/optimize-your-crawling-indexing)\nfrom 2009 that is still applicable. If you have questions, ask in the\n[forums](https://support.google.com/webmasters/community/)!\n\n\nPosted by [Gary Illyes](https://garyillyes.com/+), Crawling and Indexing\nteams"]]