Tổng quan về trình thu thập thông tin và trình tìm nạp của Google (tác nhân người dùng)

Google sử dụng trình thu thập thông tin và trình tìm nạp để thực hiện hành động cho các sản phẩm của Google, theo cách tự động hoặc kích hoạt theo yêu cầu của người dùng. Trình thu thập thông tin (đôi khi còn gọi là "robot" hoặc "spider") là thuật ngữ chung để chỉ mọi chương trình có chức năng tự động phát hiện và quét các trang web bằng cách đi theo các đường liên kết từ trang web này đến trang web khác. Trình tìm nạp đóng vai trò như một chương trình giống như wget, thường thay mặt người dùng thực hiện một yêu cầu. Ứng dụng khách của Google được chia thành ba loại:

Các trình thu thập thông tin chung Các trình thu thập thông tin chung dùng cho các sản phẩm của Google (chẳng hạn như Googlebot). Các trình thu thập thông tin này luôn tuân thủ các quy tắc trong tệp robots.txt đối với hoạt động thu thập thông tin tự động.
Trình thu thập thông tin theo trường hợp đặc biệt Trình thu thập thông tin theo trường hợp đặc biệt tương tự như trình thu thập thông tin chung, tuy nhiên sẽ được một số sản phẩm cụ thể sử dụng trong trường hợp có thoả thuận về quá trình thu thập thông tin giữa trang web được thu thập thông tin và sản phẩm của Google. Ví dụ: AdsBot bỏ qua tác nhân người dùng chung trong tệp robots.txt (*) khi có sự cho phép của nhà xuất bản quảng cáo.
Trình tìm nạp do người dùng kích hoạt Trình tìm nạp do người dùng kích hoạt là một trong số các công cụ và chức năng sản phẩm mà người dùng cuối kích hoạt hoạt động tìm nạp. Ví dụ: Google Site Verifier thực hiện hành động theo yêu cầu của người dùng.

Thuộc tính kỹ thuật của các trình thu thập thông tin và trình tìm nạp của Google

Chúng tôi đã thiết kế để có thể cho phép hàng nghìn máy chạy các trình thu thập dữ liệu và trình tìm nạp của Google cùng lúc nhằm cải thiện hiệu suất và quy mô tương ứng với sự phát triển của môi trường web. Để tối ưu hoá mức sử dụng băng thông, các ứng dụng khách này được phân phối trên nhiều trung tâm dữ liệu trên toàn thế giới để được ở gần những trang web mà chúng có thể truy cập. Do đó, nhật ký của bạn có thể cho thấy các lượt truy cập từ một vài địa chỉ IP. Google chủ yếu truy cập từ các địa chỉ IP ở Hoa Kỳ. Trong trường hợp phát hiện thấy một trang web chặn yêu cầu từ Hoa Kỳ, có thể Google sẽ cố gắng thu thập thông tin qua địa chỉ IP ở các quốc gia khác.

Các trình thu thập thông tin và trình tìm nạp của Google sử dụng HTTP/1.1 và nếu trang web có hỗ trợ thì sử dụng HTTP/2. Việc thu thập thông tin qua HTTP/2 có thể giúp tiết kiệm tài nguyên điện toán (ví dụ: CPU, RAM) cho trang web của bạn và Googlebot, tuy nhiên, trang web sẽ không nhận được lợi ích cụ thể nào về sản phẩm của Google (ví dụ: không tăng thứ hạng trên Google Tìm kiếm). Để chọn không cho phép thu thập thông tin qua HTTP/2, hãy hướng dẫn máy chủ lưu trữ trang web của bạn phản hồi bằng mã trạng thái HTTP 421 khi Google tìm cách thu thập thông tin trên trang web của bạn qua HTTP/2. Nếu việc này không khả thi, bạn có thể gửi tin nhắn cho nhóm Thu thập dữ liệu (mặc dù giải pháp này chỉ là tạm thời).

Trình thu thập thông tin và trình tìm nạp của Google hỗ trợ các phương thức mã hoá (nén) nội dung sau: gzip, deflateBrotli (br). Các phương thức mã hoá nội dung mà từng tác nhân người dùng của Google hỗ trợ sẽ được giới thiệu trong tiêu đề Accept-Encoding của từng yêu cầu mà chúng thực hiện. Ví dụ: Accept-Encoding: gzip, deflate, br.

Mục tiêu của chúng tôi là thu thập thông tin nhiều trang nhất có thể trên trang web của bạn trong mỗi lần truy cập mà không làm máy chủ của bạn quá tải. Nếu trang web của bạn không đáp ứng được các yêu cầu thu thập thông tin của Google, thì bạn có thể giảm tốc độ thu thập thông tin. Xin lưu ý rằng việc gửi mã phản hồi HTTP không phù hợp đến trình thu thập thông tin của Google có thể ảnh hưởng đến cách trang web của bạn xuất hiện trong các sản phẩm của Google.

Xác minh trình thu thập thông tin và trình tìm nạp của Google

Các trình thu thập thông tin của Google tự xác định mình theo 3 cách:

  1. Tiêu đề yêu cầu HTTP user-agent.
  2. Địa chỉ IP nguồn của yêu cầu.
  3. Tên máy chủ DNS ngược của IP nguồn.

Tìm hiểu cách sử dụng những thông tin này để xác minh trình thu thập thông tin và trình tìm nạp của Google.