Googlebot 크롤링 예산의 의미

2017년 1월 16일 월요일

최근 '크롤링 예산'에 관한 다양한 정의를 확인했습니다. 그러나 '크롤링 예산'이 외부적으로 의미하는 모든 것을 설명하는 한 가지 용어는 없습니다. 이 게시물을 통해 크롤링 예산에 관한 Google의 실제 정의와 Googlebot에서의 의미를 명확히 하려고 합니다.

먼저 크롤링 예산은 아래 설명과 같이 대부분의 게시자가 걱정해야 하는 것이 아님을 강조하고 싶습니다. 새 페이지가 게시되는 당일에 크롤링되는 경향이 있으면 크롤링 예산은 웹마스터가 중점을 두어야 하는 사항이 아닙니다. 마찬가지로 사이트의 URL이 수천 개 미만이면 대부분 효율적으로 크롤링됩니다.

크롤링 대상과 시기, 사이트 호스팅 서버가 크롤링에 할당할 수 있는 리소스 양의 우선순위를 정하는 작업은 대규모 사이트나 URL 매개변수에 기반하여 페이지를 자동 생성하는 사이트의 경우에 더 중요합니다.

크롤링 속도 제한

Googlebot은 웹에서 바람직하게 작동하도록 만들어졌습니다. Googlebot의 주요 우선순위는 크롤링이지만, 동시에 사이트를 방문하는 사용자의 환경에 방해가 되어서는 안 됩니다. Google에서는 이를 '크롤링 속도 제한'이라고 하며 이를 통해 주어진 사이트의 최대 가져오기 속도를 제한합니다.

간단히 말해서 Googlebot이 사이트를 크롤링하는 데 사용할 수 있는 동시 연결 수와 가져오기 사이에 기다려야 하는 시간을 나타냅니다. 크롤링 속도는 몇 가지 요소에 따라 올라가거나 내려갈 수 있습니다.

크롤링 상태: 사이트에서 한동안 응답을 상당히 빠르게 보내면 한도가 올라가므로 크롤링에 사용할 수 있는 연결이 많아집니다. 사이트의 속도가 느려지거나 서버 오류로 응답하면 한도는 내려가고 Googlebot이 크롤링을 줄입니다.
Search Console에서 설정한 한도: 웹사이트 소유자는 Googlebot의 사이트 크롤링을 줄일 수 있습니다. 한도를 높게 설정해도 크롤링은 자동으로 증가하지 않습니다.

크롤링 수요

크롤링 속도 제한에 도달하지 않더라도 색인 생성의 수요가 없으면 Googlebot의 활동이 줄어듭니다. 크롤링 수요를 판단하는 데 중요한 역할을 하는 두 요소는 다음과 같습니다.

인기도: 인터넷에서 인기가 높은 URL은 Google 색인에서 최신으로 유지하기 위해 더 자주 크롤링되는 경향이 있습니다.
비활성: Google 시스템은 URL이 색인에서 비활성이 되는 것을 방지하려고 합니다.

또한 사이트 이동과 같은 사이트 전체 이벤트는 새 URL에서 콘텐츠의 색인을 다시 생성하기 위해 크롤링 수요의 증가를 유발할 수 있습니다.

크롤링 속도와 크롤링 수요를 함께 고려하여 Google에서는 크롤링 예산을 Googlebot이 크롤링할 수 있고 크롤링하려는 URL 수로 정의합니다.

크롤링 예산에 영향을 미치는 요소

Google의 분석에 따르면 가치가 낮은 URL이 많이 있으면 사이트의 크롤링과 색인 생성에 부정적인 영향을 미칠 수 있습니다. 가치가 낮은 URL은 중요도 순에 따라 다음 카테고리로 분류되는 것으로 나타났습니다.

속성 탐색과 세션 식별자
사이트 내 중복 콘텐츠
soft 오류 페이지
해킹된 페이지
무한 공간과 프록시
품질이 낮거나 스팸인 콘텐츠

이러한 페이지에 서버 리소스를 낭비하면 실제로 가치가 있는 페이지의 크롤링 활동이 소모되어 사이트에서 우수한 콘텐츠를 발견하는 데 시간이 상당히 지연될 수 있습니다.

많이 본 질문

크롤링은 사이트가 Google 검색결과에 표시되는 진입점입니다. 웹사이트를 효율적으로 크롤링하면 Google 검색에서 사이트의 색인을 쉽게 생성할 수 있습니다.

사이트 속도가 크롤링 예산에 영향을 미치나요? 오류는 어떤가요?

사이트를 더 빠르게 만들면 사용자 환경이 개선되면서 크롤링 속도도 높아집니다. Googlebot의 경우 속도가 빠른 사이트는 상태가 좋은 서버라는 신호이므로 동일한 연결 수를 통해 더 많은 콘텐츠를 가져올 수 있습니다. 반면 5xx 오류 또는 연결 시간 초과의 상당수가 반대의 경우를 나타내므로 크롤링 속도가 느려집니다.

Search Console의 크롤링 오류 보고서에 유의하고 서버 오류 수를 낮게 유지하는 것이 좋습니다.

크롤링은 순위 결정 요소인가요?

크롤링 속도가 올라간다고 해서 Google 검색결과에서 순위가 꼭 높아지는 것은 아닙니다. Google에서는 수많은 신호를 사용하여 검색결과의 순위를 매기며 크롤링은 검색결과에 포함되기 위해 꼭 필요하지만 순위 결정 신호는 아닙니다.

대체 URL과 삽입된 콘텐츠가 크롤링 예산에 포함되나요?

일반적으로 Googlebot이 크롤링하는 URL은 모두 사이트의 크롤링 예산에 포함됩니다. AMP나 hreflang과 같은 대체 URL과 AJAX(XHR) 호출을 비롯한 삽입된 콘텐츠(예: CSS, 자바스크립트)는 크롤링해야 할 수 있고 사이트의 크롤링 예산을 사용합니다. 마찬가지로 긴 리디렉션 체인은 크롤링에 부정적인 영향을 미칠 수 있습니다.

`crawl-delay` 규칙으로 Googlebot을 제어할 수 있나요?

비표준 crawl-delay robots.txt 규칙은 Googlebot에서 처리되지 않습니다.

`nofollow` 규칙이 크롤링 예산에 영향을 미치나요?

경우에 따라 다릅니다. 크롤링된 URL은 모두 크롤링 예산에 영향을 미칩니다. 따라서 페이지에서 URL을 nofollow로 표시하더라도 사이트의 다른 페이지나 웹의 페이지에서 링크의 라벨을 NOFOLLOW로 지정하지 않으면 여전히 크롤링될 수 있습니다.

robots.txt를 통해 허용하지 않은 URL이 어떤 식으로든 크롤링 예산에 영향을 미치나요?

아니요. 허용되지 않은 URL은 크롤링 예산에 영향을 미치지 않습니다.

사이트의 크롤링을 최적화하는 방법에 관한 자세한 내용은 여전히 유효한 2009년의 크롤링 최적화에 관한 블로그 게시물을 참고하세요. 궁금한 점이 있으면 포럼에서 질문하세요.

게시자: 게리 일리즈, 크롤링 및 색인 생성팀

Googlebot 크롤링 예산의 의미 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.