크롤링에 관한 허구와 사실

Google에서 웹사이트를 크롤링하는 방법에 관한 지식을 테스트하세요.

사이트맵을 압축하면 크롤링 예산을 늘릴 수 있습니다.
거짓
그렇지 않습니다. 압축된 사이트맵은 여전히 서버에서 가져와야 하므로 압축된 사이트맵을 전송한다고 Google 측의 크롤링 시간이나 노력을 실제로 크게 절약하지는 않습니다.
Google에서 최신 콘텐츠를 선호하므로 페이지를 계속 수정하는 것이 좋습니다.
거짓
Google 검색의 경우 콘텐츠는 생성 날짜와 관계없이 품질로 평가됩니다. 필요에 따라 콘텐츠를 만들고 업데이트합니다. 그러나 사소하게 변경하거나 페이지 날짜를 업데이트하여 인위적으로 페이지를 최신으로 보이게 한다고 가치가 추가되지는 않습니다.
Google은 새 콘텐츠보다 오래된 콘텐츠(가중치가 더 많음)를 선호합니다
거짓
페이지가 유용하다면 새롭든 오래되든 유용한 것입니다.
Google은 클린 URL을 선호하고 쿼리 매개변수를 좋아하지 않습니다.
거짓
Google은 매개변수를 크롤링할 수 있습니다.
페이지 로드 및 렌더링 속도가 빠를수록 Google에서 더 많이 크롤링할 수 있습니다.
참: Google의 리소스가 시간과 크롤링 봇 수를 모두 고려하여 제한된다는 점에서 옳습니다. 제한된 시간에 페이지를 더 많이 제공할 수 있다면 더 많은 페이지를 크롤링할 수 있습니다. 그러나 속도가 느리더라도 더 중요한 정보가 있는 사이트를 크롤링하는 데 더 많은 시간을 사용할 수 있습니다. 사용자를 위해 사이트를 빠르게 만드는 것이 크롤링 범위를 넓히려고 사이트를 빠르게 만드는 것보다 더 중요할 수 있습니다. 매번 모든 콘텐츠를 크롤링하는 것보다 Google이 올바른 콘텐츠를 크롤링하도록 돕는 것이 훨씬 간단합니다. 사이트 크롤링에는 콘텐츠 검색 및 렌더링이 모두 포함됩니다. 페이지 렌더링에 사용된 시간은 페이지 요청에 사용된 시간만큼 계산됩니다. 따라서 페이지 렌더링 속도를 높이면 크롤링 속도도 빨라집니다.
거짓
소규모 사이트는 대규모 사이트만큼 자주 크롤링되지 않습니다.
거짓
사이트에 자주 변경되는 중요한 콘텐츠가 있으면 크기와 상관없이 자주 크롤링합니다.
콘텐츠가 홈페이지에 가까울수록 Google에 더 중요해집니다.
일부만 참
사이트 홈페이지는 사이트에서 가장 중요한 페이지인 경우가 많으므로 홈페이지로 바로 연결되는 페이지가 더 중요하게 보여서 크롤링 빈도가 더 높을 수 있습니다. 그러나 이러한 페이지의 순위가 사이트의 다른 페이지보다 높아지는 것은 아닙니다.
거짓
URL 버전 관리는 Google에서 페이지를 다시 크롤링하도록 하는 좋은 방법입니다.
일부만 참
Google에서 더 빨리 다시 크롤링하도록 유도하기 위해 버전이 지정된 페이지 URL을 사용하는 것이 효과가 있을 수 있습니다. 그러나 그렇게 할 필요가 없는 경우가 많고 페이지가 실제로 변경되지 않으면 크롤링 리소스를 낭비하게 됩니다. 버전이 지정된 URL을 사용하여 새 콘텐츠를 표시한다면 페이지 콘텐츠가 상당히 변경된 경우에만 URL을 변경하는 것이 좋습니다.
거짓
사이트 속도와 오류가 크롤링 예산에 영향을 미칩니다.
사이트를 더 빠르게 만들면 사용자 환경이 개선되면서 크롤링 속도도 높아집니다. Google 크롤러의 경우 속도가 빠른 사이트는 상태가 좋은 서버라는 신호이므로 동일한 연결 수를 통해 더 많은 콘텐츠를 가져올 수 있습니다. 반면 5xx HTTP 응답 상태 코드(서버 오류) 또는 연결 시간 제한의 상당수가 반대의 경우를 나타내며 크롤링 속도가 느려집니다. Search Console의 크롤링 통계 보고서에 유의하고 서버 오류 수를 낮게 유지하는 것이 좋습니다.
거짓
크롤링은 Google 검색의 순위 결정 요소입니다.
거짓
크롤링 속도를 개선하더라도 반드시 Google 검색 결과에서 순위가 높아지는 것은 아닙니다. Google에서는 많은 신호를 사용하여 검색 결과 순위를 매기며 크롤링은 페이지를 검색결과에 표시하는 데 꼭 필요하지만 순위 결정 신호는 아닙니다.
대체 URL 및 삽입된 콘텐츠가 크롤링 예산에 포함됩니다.
일반적으로 Googlebot이 크롤링하는 URL은 모두 사이트의 크롤링 예산에 포함됩니다. AMP 또는 hreflang과 같은 대체 URL과 XHR 가져오기를 비롯한 CSS 및 자바스크립트와 같은 삽입된 콘텐츠는 크롤링해야 할 수 있고 사이트의 크롤링 예산을 사용합니다.
거짓
'crawl-delay' 규칙을 사용하여 Google 크롤러를 제어할 수 있습니다.
거짓
비표준 'crawl-delay' robots.txt 규칙은 Google 크롤러에서 처리되지 않습니다.
크롤링 예산에 영향을 nofollow 규칙
일부만 참
크롤링된 URL은 모두 크롤링 예산에 영향을 미칩니다. 따라서 페이지에서 URL을 nofollow로 표시하더라도 사이트의 다른 페이지나 웹의 페이지에서 링크의 라벨을 nofollow로 지정하지 않으면 여전히 크롤링될 수 있습니다.
거짓
noindex를 사용하여 크롤링 예산을 제어할 수 있습니다.
일부만 참
크롤링된 모든 URL은 크롤링 예산에 영향을 미치며, Google은 noindex 규칙을 찾기 위해 페이지를 크롤링해야 합니다.

하지만 noindex는 색인 생성을 방지하는 데 도움이 됩니다. 페이지가 Google 색인에 포함되지 않도록 할 때 noindex을 계속 사용하셔도 됩니다. 크롤링 예산은 걱정하지 마세요. noindex 등을 사용하여 Google 색인에서 URL을 제거하면 Google 크롤러가 사이트의 다른 URL에 집중할 수 있으므로 noindex로 사이트의 크롤링 예산을 간접적으로 확보할 수 있습니다.
거짓
4xx HTTP 상태 코드를 제공하는 페이지는 크롤링 예산을 낭비합니다.
거짓
4xx HTTP 상태 코드(429 제외)를 제공하는 페이지는 크롤링 예산을 낭비하지 않습니다. Google에서 페이지 크롤링을 시도했지만 상태 코드를 제외한 다른 콘텐츠는 받지 못했습니다.