Google 크롤러 및 가져오기 도구(사용자 에이전트)에 관한 개요

Google은 크롤러 또는 가져오기 도구를 사용하여 자동 또는 사용자 요청에 의해 트리거되는 방식으로 제품에 대한 작업을 수행합니다.

'크롤러'('로봇' 또는 '스파이더'라고도 함)는 한 웹페이지에서 다른 웹페이지로 연결되는 링크를 따라가며 웹사이트를 자동으로 검색하는 데 사용되는 프로그램을 가리키는 일반적인 용어입니다. Google의 기본 크롤러를 Googlebot이라고 합니다.

브라우저와 마찬가지로 가져오기 도구는 사용자 요청 시 단일 URL을 요청하는 도구입니다.

아래 표에는 다양한 제품 및 서비스에서 사용되는 Google 크롤러와 가져오기 도구와 더불어 리퍼러 로그에 표시되는 방식, robots.txt에서 이를 지정하는 방법이 나와 있습니다.

  • 사용자 에이전트 토큰은 사이트의 크롤링 규칙을 작성할 때 크롤러 유형과 일치시키기 위해 robots.txt의 User-agent: 줄에 사용됩니다. 표에서 볼 수 있는 것처럼 일부 크롤러에는 토큰이 두 개 이상 있습니다. 규칙을 적용하려면 크롤러 토큰 하나만 일치시켜야 합니다. 이 목록은 완전하지는 않지만 웹사이트에서 볼 수 있는 대부분의 크롤러를 다룹니다.
  • 전체 사용자 에이전트 문자열은 크롤러의 전체 설명이며 HTTP 요청과 웹 로그에 표시됩니다.

일반 크롤러

Google의 일반 크롤러는 Google의 검색 색인을 만들고, 다른 제품과 관련된 크롤링을 수행하며, 분석하는 데 사용됩니다. 일반 크롤러는 항상 robots.txt 규칙을 따르며 일반적으로 googlebot.json 객체에 게시된 IP 범위에서 크롤링합니다.

일반 크롤러

Googlebot 스마트폰

사용자 에이전트 토큰 Googlebot
전체 사용자 에이전트 문자열 Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Googlebot 데스크톱

사용자 에이전트 토큰 Googlebot
전체 사용자 에이전트 문자열
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36
  • 드물게:
    • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
    • Googlebot/2.1 (+http://www.google.com/bot.html)

Googlebot 이미지

Google 이미지 및 이미지에 종속된 제품의 이미지 바이트를 크롤링하는 데 사용됩니다.

사용자 에이전트 토큰
  • Googlebot-Image
  • Googlebot
전체 사용자 에이전트 문자열 Googlebot-Image/1.0

Googlebot 뉴스

Googlebot 뉴스는 뉴스 기사를 크롤링할 때 Googlebot을 사용하지만, 이전 사용자 에이전트 토큰인 Googlebot-News를 따릅니다.

사용자 에이전트 토큰
  • Googlebot-News
  • Googlebot
전체 사용자 에이전트 문자열 Googlebot-News 사용자 에이전트는 다양한 Googlebot 사용자 에이전트 문자열을 사용합니다.

Googlebot 동영상

Google 동영상 및 동영상에 종속된 제품의 동영상 바이트를 크롤링하는 데 사용됩니다.

사용자 에이전트 토큰
  • Googlebot-Video
  • Googlebot
전체 사용자 에이전트 문자열 Googlebot-Video/1.0

Google 파비콘

사용자 에이전트 토큰
  • Googlebot-Image
  • Googlebot
전체 사용자 에이전트 문자열 Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon

Google StoreBot

Google Storebot은 제품 세부정보 페이지, 장바구니 페이지, 결제 페이지를 포함하되 이에 국한되지 않는 특정 유형의 페이지를 크롤링합니다.

사용자 에이전트 토큰 Storebot-Google
전체 사용자 에이전트 문자열
  • 데스크톱 에이전트:
    Mozilla/5.0 (X11; Linux x86_64; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36
  • 모바일 에이전트:
    Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Mobile Safari/537.36

Google-InspectionTool

Google-InspectionTool은 Search Console에서 리치 결과 테스트URL 검사와 같은 검색 테스트 도구에 사용되는 크롤러입니다. 사용자 에이전트 및 사용자 에이전트 토큰과는 다르게 Googlebot을 모방합니다.

사용자 에이전트 토큰
  • Google-InspectionTool
  • Googlebot
전체 사용자 에이전트 문자열
  • 모바일
    Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Google-InspectionTool/1.0)
  • 데스크톱
    Mozilla/5.0 (compatible; Google-InspectionTool/1.0)

GoogleOther

사이트에서 사용자가 공개적으로 액세스할 수 있는 콘텐츠를 가져오기 위해 여러 제품팀에서 사용할 수 있는 일반적인 크롤러입니다. 예를 들어 내부 연구 및 개발을 위한 일회성 크롤링에 사용할 수 있습니다.

사용자 에이전트 토큰 GoogleOther
전체 사용자 에이전트 문자열 GoogleOther

예외 상황 크롤러

예외 상황 크롤러는 크롤링된 사이트와 크롤링 프로세스 관련 제품 간에 합의가 이루어진 특정 제품에서 사용됩니다. 예를 들어 AdsBot은 광고 게시자의 권한이 있는 전역 robots.txt 사용자 에이전트(*)를 무시합니다. 예외 상황 크롤러는 robots.txt 규칙을 무시할 수 있으므로 일반 크롤러와 다른 IP 범위에서 작동합니다. IP 범위는 special-crawlers.json 객체에 게시됩니다.

예외 상황 크롤러

APIs-Google

Google API에서 푸시 알림 메시지를 전송하는 데 사용됩니다. robots.txt의 전역 사용자 에이전트(*)는 무시합니다.

사용자 에이전트 토큰 APIs-Google
전체 사용자 에이전트 문자열 APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)

AdsBot 모바일 웹 Android

Android 웹페이지 광고 품질을 확인합니다. robots.txt의 전역 사용자 에이전트(*)는 무시합니다.

사용자 에이전트 토큰 AdsBot-Google-Mobile
전체 사용자 에이전트 문자열 Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot 모바일 웹

iPhone 웹페이지 광고 품질을 확인합니다. robots.txt의 전역 사용자 에이전트(*)는 무시합니다.

사용자 에이전트 토큰 AdsBot-Google-Mobile
전체 사용자 에이전트 문자열 Mozilla/5.0 (iPhone; CPU iPhone OS 14_7_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Mobile/15E148 Safari/604.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot

데스크톱 웹페이지 광고 품질을 확인합니다. robots.txt의 전역 사용자 에이전트(*)는 무시합니다.

사용자 에이전트 토큰 AdsBot-Google
전체 사용자 에이전트 문자열 AdsBot-Google (+http://www.google.com/adsbot.html)

애드센스

애드센스 크롤러는 게시자의 사이트와 관련성이 높은 광고를 제공하기 위해 해당 사이트를 방문하여 콘텐츠를 파악합니다. robots.txt의 전역 사용자 에이전트(*)는 무시합니다.

사용자 에이전트 토큰 Mediapartners-Google
전체 사용자 에이전트 문자열 Mediapartners-Google

모바일 애드센스

모바일 애드센스 크롤러는 게시자의 사이트와 관련성이 높은 광고를 제공하기 위해 해당 사이트를 방문하여 콘텐츠를 파악합니다. robots.txt의 전역 사용자 에이전트(*)는 무시합니다.

사용자 에이전트 토큰 Mediapartners-Google
전체 사용자 에이전트 문자열 (Various mobile device types) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

사용자 트리거 가져오기 도구

사용자 트리거 가져오기 도구는 제품 관련 기능을 수행하기 위해 사용자에 의해 트리거됩니다. 예를 들어 Google 사이트 인증 도구는 사용자의 요청에 따라 작동합니다. 사용자가 가져오기를 요청했기 때문에 이러한 가져오기 도구에서는 보통 robots.txt 규칙을 무시합니다. 사용자가 트리거한 가져오기 도구가 사용하는 IP 범위는 user-triggered-fetchers.json 객체에 게시됩니다.

사용자 트리거 가져오기 도구

Feedfetcher

Feedfetcher는 Google 팟캐스트, Google 뉴스, PubSubHubbub에 RSS 또는 Atom 피드를 크롤링하는 데 사용됩니다.

사용자 에이전트 토큰 FeedFetcher-Google
전체 사용자 에이전트 문자열 FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Google 게시자 센터

Google 뉴스 방문 페이지에 사용하기 위해 Google 게시자 센터를 통해 게시자가 명시적으로 제공한 피드를 가져와 처리합니다.

전체 사용자 에이전트 문자열 GoogleProducer; (+https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers#googleproducer)

Google Read Aloud

사용자 요청에 따라 Google Read Aloud에서는 텍스트 음성 변환(TTS)을 통해 웹페이지를 가져와 읽습니다.

전체 사용자 에이전트 문자열

현재 에이전트:

  • 데스크톱 에이전트:
    Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)
  • 모바일 에이전트:
    Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)

이전 에이전트(지원 중단됨):

google-speakr

Google 사이트 인증 도구

Google 사이트 인증 도구는 사용자 요청에 따라 Search Console 확인 토큰을 가져옵니다.

전체 사용자 에이전트 문자열 Mozilla/5.0 (compatible; Google-Site-Verification/1.0)

사용자 에이전트의 Chrome/W.X.Y.Z 관련 참고사항

표에 있는 사용자 에이전트 문자열에 Chrome/W.X.Y.Z 문자열이 표시되는 경우 W.X.Y.Z는 사용자 에이전트가 사용하는 Chrome 브라우저의 버전을 나타냅니다(예: 41.0.2272.96). 이 버전 번호는 Googlebot에 사용되는 최신 Chromium 출시 버전에 맞춰 시간이 지남에 따라 증가합니다.

이 패턴이 있는 사용자 에이전트를 대상으로 로그를 검색하거나 서버를 필터링하는 경우 정확한 버전 번호를 지정하기보다는 버전 번호에 와일드 카드를 사용하세요.

robots.txt의 사용자 에이전트

robots.txt 파일에서 여러 개의 사용자 에이전트가 인식되는 경우 Google에서는 가장 구체적인 사용자 에이전트를 추적합니다. Google 전체에서 내 페이지를 크롤링할 수 있게 하려면 robots.txt 파일을 사용할 필요가 없습니다. 모든 Google 크롤러가 내 콘텐츠 일부에 액세스하는 것을 차단 또는 허용하려면 Googlebot을 사용자 에이전트로 지정하면 됩니다. 예를 들어 내 모든 페이지가 Google 검색에 표시되고 애드센스 광고가 내 페이지에 표시되도록 하려면 robots.txt 파일을 사용할 필요가 없습니다. 마찬가지로 내 페이지 일부가 Google에서 아예 표시되지 않도록 하려는 경우 Googlebot 사용자 에이전트를 차단하면 Google의 다른 사용자 에이전트도 모두 차단됩니다.

그러나 좀 더 구체적으로 지정하면 더욱 세밀하게 제어할 수 있습니다. 예를 들어 모든 페이지가 Google 검색에 표시되기를 원하지만 개인 디렉터리에 있는 이미지는 크롤링되지 않기를 원할 수 있습니다. 이 경우 다음과 같이 robots.txt를 사용해 Googlebot-Image 사용자 에이전트가 개인 디렉터리에 있는 파일을 크롤링하는 것을 차단하면 됩니다(Googlebot은 모든 파일을 크롤링할 수 있음).

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal

또는 모든 페이지에 광고가 표시되도록 하고 싶지만 이러한 페이지가 Google 검색에는 나타나지 않도록 하고 싶을 수 있습니다. 이 경우 다음과 같이 Googlebot은 차단하고 Mediapartners-Google 사용자 에이전트는 허용하면 됩니다.

User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

크롤링 속도 제어

각 Google 크롤러는 특정 목적에 따라 다양한 속도로 사이트에 액세스합니다. Google에서는 알고리즘을 사용하여 각 사이트에 가장 적합한 크롤링 속도를 결정합니다. Google 크롤러가 사이트를 너무 자주 크롤링한다면 크롤링 속도를 줄일 수 있습니다.

지원 중단된 Google 크롤러

다음 Google 크롤러는 더 이상 사용되지 않으며 여기에 기록 참고용으로만 표시됩니다.

지원 중단된 Google 크롤러

Duplex on the web

Duplex on the web 서비스를 지원합니다.

사용자 에이전트 토큰 DuplexWeb-Google
전체 사용자 에이전트 문자열 Mozilla/5.0 (Linux; Android 11; Pixel 2; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Mobile Safari/537.36

Web Light

사용자가 적절한 조건하에 검색에서 페이지를 클릭할 때마다 no-transform 헤더의 존재 여부를 확인했습니다. Web Light 사용자 에이전트는 실제 방문자의 명시적인 탐색 요청에만 사용었으므로 자동 크롤링 요청을 차단하는 데 사용되는 robots.txt 규칙이 무시되었습니다.

사용자 에이전트 토큰 googleweblight
전체 사용자 에이전트 문자열 Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19

모바일 앱 Android

Android 앱 페이지 광고 품질을 확인합니다. AdsBot-Google robots 규칙을 따르지만 robots.txt의 전역 사용자 에이전트(*)는 무시합니다.

사용자 에이전트 토큰 AdsBot-Google-Mobile-Apps
전체 사용자 에이전트 문자열 AdsBot-Google-Mobile-Apps