LinkedIn에서 Google 검색 확인하기:
LinkedIn에서 팔로우하고 검색 가능한 사이트를 만드는 방법에 관한 Google 검색 뉴스와 리소스를 확인하세요.
Googlebot 크롤링 예산의 의미
컬렉션을 사용해 정리하기
내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.
2017년 1월 16일 월요일
최근 '크롤링 예산'에 관한 다양한 정의를 확인했습니다. 그러나 '크롤링 예산'이 외부적으로 의미하는 모든 것을 설명하는 한 가지 용어는 없습니다. 이 게시물을 통해 크롤링 예산에 관한 Google의 실제 정의와 Googlebot에서의 의미를 명확히 하려고 합니다.
먼저 크롤링 예산은 아래 설명과 같이 대부분의 게시자가 걱정해야 하는 것이 아님을 강조하고 싶습니다. 새 페이지가 게시되는 당일에 크롤링되는 경향이 있으면 크롤링 예산은 웹마스터가 중점을 두어야 하는 사항이 아닙니다. 마찬가지로 사이트의 URL이 수천 개 미만이면 대부분 효율적으로 크롤링됩니다.
크롤링 대상과 시기, 사이트 호스팅 서버가 크롤링에 할당할 수 있는 리소스 양의 우선순위를 정하는 작업은 대규모 사이트나 URL 매개변수에 기반하여 페이지를 자동 생성하는 사이트의 경우에 더 중요합니다.
크롤링 속도 제한
Googlebot은 웹에서 바람직하게 작동하도록 만들어졌습니다. Googlebot의 주요 우선순위는 크롤링이지만, 동시에 사이트를 방문하는 사용자의 환경에 방해가 되어서는 안 됩니다. Google에서는 이를 '크롤링 속도 제한'이라고 하며 이를 통해 주어진 사이트의 최대 가져오기 속도를 제한합니다.
간단히 말해서 Googlebot이 사이트를 크롤링하는 데 사용할 수 있는 동시 연결 수와 가져오기 사이에 기다려야 하는 시간을 나타냅니다. 크롤링 속도는 몇 가지 요소에 따라 올라가거나 내려갈 수 있습니다.
-
크롤링 상태: 사이트에서 한동안 응답을 상당히 빠르게 보내면 한도가 올라가므로 크롤링에 사용할 수 있는 연결이 많아집니다. 사이트의 속도가 느려지거나 서버 오류로 응답하면 한도는 내려가고 Googlebot이 크롤링을 줄입니다.
-
Search Console에서 설정한 한도: 웹사이트 소유자는 Googlebot의 사이트 크롤링을 줄일 수 있습니다. 한도를 높게 설정해도 크롤링은 자동으로 증가하지 않습니다.
크롤링 수요
크롤링 속도 제한에 도달하지 않더라도 색인 생성의 수요가 없으면 Googlebot의 활동이 줄어듭니다. 크롤링 수요를 판단하는 데 중요한 역할을 하는 두 요소는 다음과 같습니다.
-
인기도: 인터넷에서 인기가 높은 URL은 Google 색인에서 최신으로 유지하기 위해 더 자주 크롤링되는 경향이 있습니다.
-
비활성: Google 시스템은 URL이 색인에서 비활성이 되는 것을 방지하려고 합니다.
또한 사이트 이동과 같은 사이트 전체 이벤트는 새 URL에서 콘텐츠의 색인을 다시 생성하기 위해 크롤링 수요의 증가를 유발할 수 있습니다.
크롤링 속도와 크롤링 수요를 함께 고려하여 Google에서는 크롤링 예산을 Googlebot이 크롤링할 수 있고 크롤링하려는 URL 수로 정의합니다.
크롤링 예산에 영향을 미치는 요소
Google의 분석에 따르면 가치가 낮은 URL이 많이 있으면 사이트의 크롤링과 색인 생성에 부정적인 영향을 미칠 수 있습니다. 가치가 낮은 URL은 중요도 순에 따라 다음 카테고리로 분류되는 것으로 나타났습니다.
이러한 페이지에 서버 리소스를 낭비하면 실제로 가치가 있는 페이지의 크롤링 활동이 소모되어 사이트에서 우수한 콘텐츠를 발견하는 데 시간이 상당히 지연될 수 있습니다.
많이 본 질문
크롤링은 사이트가 Google 검색결과에 표시되는 진입점입니다. 웹사이트를 효율적으로 크롤링하면 Google 검색에서 사이트의 색인을 쉽게 생성할 수 있습니다.
사이트 속도가 크롤링 예산에 영향을 미치나요? 오류는 어떤가요?
사이트를 더 빠르게 만들면 사용자 환경이 개선되면서 크롤링 속도도 높아집니다. Googlebot의 경우 속도가 빠른 사이트는 상태가 좋은 서버라는 신호이므로 동일한 연결 수를 통해 더 많은 콘텐츠를 가져올 수 있습니다. 반면 5xx 오류 또는 연결 시간 초과의 상당수가 반대의 경우를 나타내므로 크롤링 속도가 느려집니다.
Search Console의 크롤링 오류 보고서에 유의하고 서버 오류 수를 낮게 유지하는 것이 좋습니다.
크롤링은 순위 결정 요소인가요?
크롤링 속도가 올라간다고 해서 Google 검색결과에서 순위가 꼭 높아지는 것은 아닙니다.
Google에서는 수많은 신호를 사용하여 검색결과의 순위를 매기며 크롤링은 검색결과에 포함되기 위해 꼭 필요하지만 순위 결정 신호는 아닙니다.
대체 URL과 삽입된 콘텐츠가 크롤링 예산에 포함되나요?
일반적으로 Googlebot이 크롤링하는 URL은 모두 사이트의 크롤링 예산에 포함됩니다.
AMP나 hreflang과 같은 대체 URL과 AJAX(XHR) 호출을 비롯한 삽입된 콘텐츠(예: CSS, 자바스크립트)는 크롤링해야 할 수 있고 사이트의 크롤링 예산을 사용합니다. 마찬가지로 긴 리디렉션 체인은 크롤링에 부정적인 영향을 미칠 수 있습니다.
crawl-delay
규칙으로 Googlebot을 제어할 수 있나요?
비표준 crawl-delay
robots.txt 규칙은 Googlebot에서 처리되지 않습니다.
nofollow
규칙이 크롤링 예산에 영향을 미치나요?
경우에 따라 다릅니다. 크롤링된 URL은 모두 크롤링 예산에 영향을 미칩니다. 따라서 페이지에서 URL을 nofollow
로 표시하더라도 사이트의 다른 페이지나 웹의 페이지에서 링크의 라벨을 NOFOLLOW로 지정하지 않으면 여전히 크롤링될 수 있습니다.
robots.txt를 통해 허용하지 않은 URL이 어떤 식으로든 크롤링 예산에 영향을 미치나요?
아니요. 허용되지 않은 URL은 크롤링 예산에 영향을 미치지 않습니다.
사이트의 크롤링을 최적화하는 방법에 관한 자세한 내용은 여전히 유효한 2009년의 크롤링 최적화에 관한 블로그 게시물을 참고하세요. 궁금한 점이 있으면 포럼에서 질문하세요.
게시자: 게리 일리즈, 크롤링 및 색인 생성팀
달리 명시되지 않는 한 이 페이지의 콘텐츠에는 Creative Commons Attribution 4.0 라이선스에 따라 라이선스가 부여되며, 코드 샘플에는 Apache 2.0 라이선스에 따라 라이선스가 부여됩니다. 자세한 내용은 Google Developers 사이트 정책을 참조하세요. 자바는 Oracle 및/또는 Oracle 계열사의 등록 상표입니다.
[null,null,[],[[["\u003cp\u003eGooglebot's crawl budget is the number of URLs it can and wants to crawl on a website, influenced by factors like crawl rate limit and crawl demand.\u003c/p\u003e\n"],["\u003cp\u003eCrawl rate limit is the maximum fetching rate for a site, determined by site health and potential limits set in Search Console.\u003c/p\u003e\n"],["\u003cp\u003eCrawl demand is influenced by the popularity and staleness of URLs, with popular and fresh content being crawled more frequently.\u003c/p\u003e\n"],["\u003cp\u003eLow-value-add URLs like faceted navigation, duplicate content, and soft error pages can negatively impact a site's crawl budget and indexing.\u003c/p\u003e\n"],["\u003cp\u003eWhile crucial for indexing, crawl rate is not a direct ranking factor in Google Search results.\u003c/p\u003e\n"]]],["Google's \"crawl budget\" is the number of URLs Googlebot can and wants to crawl, influenced by crawl rate limit and crawl demand. Crawl rate is determined by server responsiveness and user-set limits, while crawl demand depends on URL popularity and staleness. Low-value URLs, such as faceted navigation and duplicate content, negatively impact the budget. Site speed and server errors affect crawl rate. Crawling is not a ranking factor, but it's necessary for a URL to appear in search results.\n"],null,["# What Crawl Budget Means for Googlebot\n\n| It's been a while since we published this blog post. Some of the information may be outdated (for example, some images may be missing, and some links may not work anymore). Check out our updated documentation on [optimizing crawling efficiency](/search/docs/crawling-indexing/large-site-managing-crawl-budget#improve_crawl_efficiency).\n\nMonday, January 16, 2017\n\n\nRecently, we've heard a number of definitions for \"crawl budget\", however we don't have a single\nterm that would describe everything that \"crawl budget\" stands for externally. With this post\nwe'll clarify what we actually have and what it means for Googlebot.\n\n\nFirst, we'd like to emphasize that crawl budget, as described below, is not something most\npublishers have to worry about. If new pages tend to be crawled the same day they're published,\ncrawl budget is not something webmasters need to focus on. Likewise, if a site has fewer than a\nfew thousand URLs, most of the time it will be crawled efficiently.\n\n\nPrioritizing what to crawl, when, and how much resource the server hosting the site can allocate\nto crawling is more important for bigger sites, or those that auto-generate pages based on URL\nparameters, for example.\n\nCrawl rate limit\n----------------\n\n\nGooglebot is designed to be a good citizen of the web. Crawling is its main priority, while making\nsure it doesn't degrade the experience of users visiting the site. We call this the \"crawl rate\nlimit,\" which limits the maximum fetching rate for a given site.\n\n\nSimply put, this represents the number of simultaneous parallel connections Googlebot may use to\ncrawl the site, as well as the time it has to wait between the fetches. The crawl rate can go up\nand down based on a couple of factors:\n\n- **Crawl health**: If the site responds really quickly for a while, the limit goes up, meaning more connections can be used to crawl. If the site slows down or responds with server errors, the limit goes down and Googlebot crawls less.\n- [**Limit set in\n Search Console**](https://support.google.com/webmasters/answer/48620): Website owners can reduce Googlebot's crawling of their site. Note that setting higher limits doesn't automatically increase crawling.\n\nCrawl demand\n------------\n\n\nEven if the crawl rate limit isn't reached, if there's no demand from indexing, there will be low\nactivity from Googlebot. The two factors that play a significant role in determining crawl demand\nare:\n\n- **Popularity**: URLs that are more popular on the Internet tend to be crawled more often to keep them fresher in our index.\n- **Staleness**: Our systems attempt to prevent URLs from becoming stale in the index.\n\n\nAdditionally, site-wide events like site moves may trigger an increase in crawl demand in order to\nreindex the content under the new URLs.\n\n\nTaking crawl rate and crawl demand together we define crawl budget as the number of URLs Googlebot\ncan and wants to crawl.\n\nFactors affecting crawl budget\n------------------------------\n\n\nAccording to our analysis, having many low-value-add URLs can negatively affect a site's crawling\nand indexing. We found that the low-value-add URLs fall into these categories, in order of\nsignificance:\n\n- [Faceted navigation](/search/blog/2014/02/faceted-navigation-best-and-5-of-worst) and [session identifiers](/search/blog/2007/09/google-duplicate-content-caused-by-url)\n- [On-site duplicate content](/search/blog/2007/09/google-duplicate-content-caused-by-url)\n- [Soft error pages](/search/blog/2010/06/crawl-errors-now-reports-soft-404s)\n- Hacked pages\n- [Infinite spaces](/search/blog/2008/08/to-infinity-and-beyond-no) and proxies\n- Low quality and spam content\n\n\nWasting server resources on pages like these will drain crawl activity from pages that do actually\nhave value, which may cause a significant delay in discovering great content on a site.\n\nTop questions\n-------------\n\n\nCrawling is the entry point for sites into Google's search results. Efficient crawling of a\nwebsite helps with its indexing in Google Search. \n\n### Does site speed affect my crawl budget? How about errors?\n\n\nMaking a site faster improves the users' experience while also increasing crawl rate. For\nGooglebot, a speedy site is a sign of healthy servers, so it can get more content over the\nsame number of connections. On the flip side, a significant number of 5xx errors or\nconnection timeouts signal the opposite, and crawling slows down.\n\n\nWe recommend paying attention to the\n[Crawl Errors report in Search Console](https://support.google.com/webmasters/answer/35120)\nand keeping the number of server errors low. \n\n### Is crawling a ranking factor?\n\n\nAn increased crawl rate will not necessarily lead to better positions in Search results.\nGoogle uses hundreds of signals to rank the results, and while crawling is necessary for\nbeing in the results, it's not a ranking signal. \n\n### Do alternate URLs and embedded content count in the crawl budget?\n\n\nGenerally, any URL that Googlebot crawls will count towards a site's crawl budget.\nAlternate URLs, like AMP or hreflang, as well as embedded content, such as CSS and\nJavaScript, including AJAX\n(like [XHR](https://en.wikipedia.org/wiki/XMLHttpRequest))\ncalls, may have to be crawled and will consume a site's crawl budget. Similarly, long\nredirect chains may have a negative effect on crawling. \n\n### Can I control Googlebot with the `crawl-delay` rule?\n\n\nThe non-standard `crawl-delay` robots.txt rule is not processed by Googlebot. \n\n### Does the `nofollow` rule affect crawl budget?\n\n\nIt depends. Any URL that is crawled affects crawl budget, so even if your page marks a URL\nas `nofollow` it can still be crawled if another page on your site, or any page on the web,\ndoesn't label the link as nofollow. \n\n### Do URLs I disallowed through robots.txt affect my crawl budget in any way?\n\n\nNo, disallowed URLs do not affect the crawl budget.\n\n\nFor information on how to optimize crawling of your site, take a look at our blogpost on\n[optimizing crawling](/search/blog/2009/08/optimize-your-crawling-indexing)\nfrom 2009 that is still applicable. If you have questions, ask in the\n[forums](https://support.google.com/webmasters/community/)!\n\n\nPosted by [Gary Illyes](https://garyillyes.com/+), Crawling and Indexing\nteams"]]