Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang
Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.
Xác minh Googlebot và các trình thu thập dữ liệu khác của Google
Bạn có thể xác minh liệu một trình thu thập dữ liệu web truy cập vào máy chủ của bạn có thật sự là một trình thu thập dữ liệu của Google (chẳng hạn như Googlebot) hay không. Cách này hữu ích trong trường hợp bạn lo ngại rằng có kẻ gây rối hoặc người gửi nội dung không liên quan đang giả mạo Googlebot để truy cập trang web của bạn.
Trình thu thập dữ liệu của Google được chia thành ba loại:
Loại |
Mô tả |
Mặt nạ DNS ngược |
Dải IP |
Các trình thu thập dữ liệu chung |
Các trình thu thập dữ liệu chung dùng cho các sản phẩm của Google (chẳng hạn như Googlebot). Các trình thu thập dữ liệu này luôn tuân thủ các quy tắc trong tệp robots.txt đối với hoạt động thu thập thông tin tự động.
|
crawl-***-***-***-***.googlebot.com hoặc
geo-crawl-***-***-***-***.geo.googlebot.com
|
googlebot.json |
Trình thu thập dữ liệu theo trường hợp đặc biệt |
Là trình thu thập dữ liệu thực hiện các chức năng cụ thể cho nhiều sản phẩm của Google (chẳng hạn như AdsBot) khi có thoả thuận về quá trình thu thập dữ liệu giữa trang web được thu thập dữ liệu và sản phẩm đó. Các trình thu thập dữ liệu này có thể tuân thủ hoặc không tuân thủ quy tắc trong tệp robots.txt.
|
rate-limited-proxy-***-***-***-***.google.com |
special-crawlers.json |
Trình tìm nạp do người dùng kích hoạt |
Các công cụ và chức năng sản phẩm nơi người dùng cuối kích hoạt hoạt động tìm nạp. Ví dụ: Google Site Verifier thực hiện hành động theo yêu cầu của người dùng. Do người dùng yêu cầu tìm nạp, những trình tìm nạp này bỏ qua những quy tắc trong tệp robots.txt.
Trình tìm nạp do Google kiểm soát bắt nguồn từ những IP trong đối tượng
user-triggered-fetchers-google.json và phân giải thành
tên máy chủ google.com . Những IP trong đối tượng user-triggered-fetchers.json phân giải thành tên máy chủ gae.googleusercontent.com . Ví dụ: những IP này được sử dụng
nếu một trang web đang chạy trên Google Cloud (GCP) có một tính năng cần phải tìm nạp Nguồn cấp dữ liệu RSS
bên ngoài theo yêu cầu của người dùng trang web đó.
|
***-***-***-***.gae.googleusercontent.com hoặc
google-proxy-***-***-***-***.google.com
|
user-triggered-fetchers.json
và
user-triggered-fetchers-google.json
|
Sau đây là hai phương thức để xác minh trình thu thập dữ liệu của Google:
-
Thủ công: Nếu bạn chỉ muốn tra cứu một lần, hãy sử dụng công cụ dòng lệnh. Trong hầu hết các trường hợp sử dụng, bạn chỉ cần phương thức này là đủ.
-
Tự động: Khi cần tra cứu quy mô lớn, hãy sử dụng một giải pháp tự động để so khớp địa chỉ IP của một trình thu thập dữ liệu với danh sách các địa chỉ IP đã được xuất bản của Googlebot.
Dùng công cụ dòng lệnh
-
Chạy quy trình tra cứu DNS ngược trên địa chỉ IP truy cập (xem trong nhật ký hệ thống) bằng lệnh
host
.
-
Xác minh rằng tên miền đó là
googlebot.com
, google.com
hoặc
googleusercontent.com
.
-
Chạy quy trình tra cứu DNS tiến trên tên miền truy xuất được trong bước 1 bằng cách dùng lệnh
host
đối với tên miền đã truy xuất.
- Xác minh rằng địa chỉ này giống với địa chỉ IP truy cập ban đầu trong nhật ký của bạn.
Ví dụ 1:
host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.
host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1
Ví dụ 2:
host 35.247.243.240
240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.
host geo-crawl-35-247-243-240.geo.googlebot.com
geo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240
Ví dụ 3:
host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.
host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77
Dùng giải pháp tự động
Ngoài ra, bạn có thể xác định Googlebot theo địa chỉ IP bằng cách so khớp địa chỉ IP của trình thu thập dữ liệu với danh sách dải IP của trình thu thập dữ liệu và trình tìm nạp của Google:
Đối với các địa chỉ IP khác mà Google có thể dùng để truy cập vào trang web của bạn (ví dụ: Apps Script), hãy so khớp địa chỉ IP truy cập với danh sách địa chỉ IP chung của Google.
Xin lưu ý rằng địa chỉ IP trong tệp JSON được thể hiện ở định dạng CIDR.
Trừ phi có lưu ý khác, nội dung của trang này được cấp phép theo Giấy phép ghi nhận tác giả 4.0 của Creative Commons và các mẫu mã lập trình được cấp phép theo Giấy phép Apache 2.0. Để biết thông tin chi tiết, vui lòng tham khảo Chính sách trang web của Google Developers. Java là nhãn hiệu đã đăng ký của Oracle và/hoặc các đơn vị liên kết với Oracle.
Cập nhật lần gần đây nhất: 2025-08-04 UTC.
[null,null,["Cập nhật lần gần đây nhất: 2025-08-04 UTC."],[[["\u003cp\u003eVerify if a web crawler is actually a Google crawler to prevent unauthorized access.\u003c/p\u003e\n"],["\u003cp\u003eGoogle has three crawler types: common crawlers, special-case crawlers, and user-triggered fetchers, each with varying adherence to robots.txt rules.\u003c/p\u003e\n"],["\u003cp\u003eTwo verification methods are available: manual verification using command-line tools for individual checks, and automatic verification by comparing IP addresses against published Googlebot IP lists for large-scale checks.\u003c/p\u003e\n"],["\u003cp\u003eGoogle provides JSON files listing IP ranges for different Googlebot types, allowing for automated verification and filtering.\u003c/p\u003e\n"]]],["To verify if a crawler is genuinely from Google, use reverse DNS lookups. Check if the domain is `googlebot.com`, `google.com`, or `googleusercontent.com`. Then, perform a forward DNS lookup on this domain and compare it to the original IP. Alternatively, automatically match the crawler's IP to Google's published IP ranges for common, special, or user-triggered fetchers. Use command-line tools for manual verification or IP-matching against provided JSON files for automation.\n"],null,["# Googlebot and Other Google Crawler Verification | Google Search Central\n\nVerifying Googlebot and other Google crawlers\n=============================================\n\n\nYou can verify if a web crawler accessing your server really is a\n[Google crawler](/search/docs/crawling-indexing/overview-google-crawlers), such as\nGooglebot. This is useful if you're concerned that spammers or other troublemakers are\naccessing your site while claiming to be Googlebot.\n\nGoogle's crawlers fall into three categories:\n\n| Type | Description | Reverse DNS mask | IP ranges |\n|------------------------------------------------------------------------------------------|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|------------------------------------------------------------------------------------------|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|\n| [Common crawlers](/search/docs/crawling-indexing/google-common-crawlers) | The common crawlers used for Google's products (such as Googlebot). They always respect robots.txt rules for automatic crawls. | `crawl-***-***-***-***.googlebot.com` or `geo-crawl-***-***-***-***.geo.googlebot.com` | [googlebot.json](/static/search/apis/ipranges/googlebot.json) |\n| [Special-case crawlers](/search/docs/crawling-indexing/google-special-case-crawlers) | Crawlers that perform specific functions for Google products (such as AdsBot) where there's an agreement between the crawled site and the product about the crawl process. These crawlers may or may not respect robots.txt rules. | `rate-limited-proxy-***-***-***-***.google.com` | [special-crawlers.json](/static/search/apis/ipranges/special-crawlers.json) |\n| [User-triggered fetchers](/search/docs/crawling-indexing/google-user-triggered-fetchers) | Tools and product functions where the end user triggers a fetch. For example, [Google Site Verifier](https://support.google.com/webmasters/answer/9008080) acts on the request of a user. Because the fetch was requested by a user, these fetchers ignore robots.txt rules. Fetchers controlled by Google originate from IPs in the `user-triggered-fetchers-google.json` object and resolve to a `google.com` hostname. IPs in the `user-triggered-fetchers.json` object resolve to `gae.googleusercontent.com` hostnames. These IPs are used, for example, if a site running on Google Cloud (GCP) has a feature that requires fetching external RSS feeds on the request of the user of that site. | `***-***-***-***.gae.googleusercontent.com` or `google-proxy-***-***-***-***.google.com` | [user-triggered-fetchers.json](/static/search/apis/ipranges/user-triggered-fetchers.json) and [user-triggered-fetchers-google.json](/static/search/apis/ipranges/user-triggered-fetchers-google.json) |\n\nThere are two methods for verifying Google's crawlers:\n\n- [Manually](#manual): For one-off lookups, use command line tools. This method is sufficient for most use cases.\n- [Automatically](#automatic): For large scale lookups, use an automatic solution to match a crawler's IP address against the list of published Googlebot IP addresses.\n\nUse command line tools\n----------------------\n\n1. Run a reverse DNS lookup on the accessing IP address from your logs, using the `host` command.\n2. Verify that the domain name is either `googlebot.com`, `google.com`, or `googleusercontent.com`.\n3. Run a forward DNS lookup on the domain name retrieved in step 1 using the `host` command on the retrieved domain name.\n4. Verify that it's the same as the original accessing IP address from your logs.\n\n**Example 1:** \n\n host 66.249.66.1\n 1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.\n\n host crawl-66-249-66-1.googlebot.com\n crawl-66-249-66-1.googlebot.com has address 66.249.66.1\n\n**Example 2:** \n\n host 35.247.243.240\n 240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.\n\n host geo-crawl-35-247-243-240.geo.googlebot.com\n geo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240\n\n**Example 3:** \n\n host 66.249.90.77\n 77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.\n\n host rate-limited-proxy-66-249-90-77.google.com\n rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77\n\nUse automatic solutions\n-----------------------\n\n\nAlternatively, you can identify Googlebot by IP address by matching the crawler's IP address\nto the lists of Google crawlers' and fetchers' IP ranges:\n\n- [Common crawlers like Googlebot](/static/search/apis/ipranges/googlebot.json)\n- [Special crawlers like AdsBot](/static/search/apis/ipranges/special-crawlers.json)\n- [User triggered fetches (users)](/static/search/apis/ipranges/user-triggered-fetchers.json)\n- [User triggered fetches (Google)](/static/search/apis/ipranges/user-triggered-fetchers-google.json)\n\n\nFor other Google IP addresses from where your site may be accessed (for example,\n[Apps Scripts](/apps-script)), match the accessing IP address\nagainst the general\n[list of Google IP addresses](https://www.gstatic.com/ipranges/goog.json).\nNote that the IP addresses in the JSON files are represented in\n[CIDR format](https://wikipedia.org/wiki/Classless_Inter-Domain_Routing)."]]