Xác minh yêu cầu của trình thu thập thông tin và trình tìm nạp của Google

Bạn có thể xác minh liệu một trình thu thập thông tin web truy cập vào máy chủ của bạn có thật sự là một trình thu thập thông tin của Google (chẳng hạn như Googlebot) hay không. Cách này hữu ích trong trường hợp bạn lo ngại rằng có kẻ gây rối hoặc người gửi nội dung không liên quan đang giả mạo Googlebot để truy cập trang web của bạn.

Trình thu thập thông tin của Google được chia thành ba loại:

Loại	Nội dung mô tả	Mặt nạ DNS ngược	Dải IP
Các trình thu thập thông tin chung	Các trình thu thập thông tin chung dùng cho các sản phẩm của Google (chẳng hạn như Googlebot). Các trình thu thập thông tin này luôn tuân thủ các quy tắc trong tệp robots.txt đối với hoạt động thu thập thông tin tự động.	`crawl-*---.googlebot.com` hoặc `geo-crawl----*.geo.googlebot.com`	googlebot.json
Trình thu thập thông tin theo trường hợp đặc biệt	Là trình thu thập thông tin thực hiện các chức năng cụ thể cho nhiều sản phẩm của Google (chẳng hạn như AdsBot) khi có thoả thuận về quá trình thu thập thông tin giữa trang web được thu thập thông tin và sản phẩm đó. Các trình thu thập thông tin này có thể tuân thủ hoặc không tuân thủ quy tắc trong tệp robots.txt.	`rate-limited-proxy-*---*.google.com`	special-crawlers.json
Trình tìm nạp do người dùng kích hoạt	Các công cụ và chức năng sản phẩm nơi người dùng cuối kích hoạt hoạt động tìm nạp. Ví dụ: Google Site Verifier thực hiện hành động theo yêu cầu của người dùng. Do người dùng yêu cầu tìm nạp, những trình tìm nạp này bỏ qua những quy tắc trong tệp robots.txt. Trình tìm nạp do Google kiểm soát bắt nguồn từ những IP trong đối tượng `user-triggered-fetchers-google.json` và phân giải thành tên máy chủ `google.com`. Những IP trong đối tượng `user-triggered-fetchers.json` phân giải thành tên máy chủ `gae.googleusercontent.com`. Ví dụ: những IP này được sử dụng nếu một trang web đang chạy trên Google Cloud (GCP) có một tính năng cần phải tìm nạp Nguồn cấp dữ liệu RSS bên ngoài theo yêu cầu của người dùng trang web đó.	`*---.gae.googleusercontent.com` hoặc `google-proxy----*.google.com`	user-triggered-fetchers.json và user-triggered-fetchers-google.json

Sau đây là hai phương thức để xác minh trình thu thập thông tin của Google:

Thủ công: Nếu bạn chỉ muốn tra cứu một lần, hãy sử dụng công cụ dòng lệnh. Trong hầu hết các trường hợp sử dụng, bạn chỉ cần phương thức này là đủ.
Tự động: Khi cần tra cứu quy mô lớn, hãy sử dụng một giải pháp tự động để so khớp địa chỉ IP của một trình thu thập thông tin với danh sách các địa chỉ IP đã được xuất bản của Googlebot.

Dùng công cụ dòng lệnh

Chạy quy trình tra cứu DNS ngược trên địa chỉ IP truy cập (xem trong nhật ký hệ thống) bằng lệnh host.
Xác minh rằng tên miền đó là googlebot.com, google.com hoặc googleusercontent.com.
Chạy quy trình tra cứu DNS tiến trên tên miền truy xuất được trong bước 1 bằng cách dùng lệnh host đối với tên miền đã truy xuất.
Xác minh rằng địa chỉ này giống với địa chỉ IP truy cập ban đầu trong nhật ký của bạn.

Ví dụ 1:

host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

Ví dụ 2:

host 35.247.243.240
240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.

host geo-crawl-35-247-243-240.geo.googlebot.com
geo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240

Ví dụ 3:

host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.

host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77

Dùng giải pháp tự động

Ngoài ra, bạn có thể xác định Googlebot theo địa chỉ IP bằng cách so khớp địa chỉ IP của trình thu thập thông tin với danh sách dải IP của trình thu thập thông tin và trình tìm nạp của Google:

Đối với các địa chỉ IP khác mà Google có thể dùng để truy cập vào trang web của bạn (ví dụ: Apps Script), hãy so khớp địa chỉ IP truy cập với danh sách địa chỉ IP chung của Google. Xin lưu ý rằng địa chỉ IP trong tệp JSON được thể hiện ở định dạng CIDR.