Những điều cần biết về hoạt động thu thập thông tin trên web do Google thực hiện

Google đã thực hiện hoạt động thu thập thông tin trên mạng Internet mở suốt hơn 30 năm qua, và chúng tôi thường xuyên nhận được nhiều câu hỏi về cách thức hoạt động của trình thu thập thông tin web. Để trả lời một số câu hỏi đó, dưới đây là một số thông tin về trình thu thập thông tin của Google và cách các trình thu thập này giúp chúng tôi sắp xếp thông tin trên thế giới, kết nối mọi người với nội dung trên web.

Thu thập thông tin là gì? Nói tóm lại, thu thập thông tin là cách Google "nhìn thấy" web

Thu thập thông tin là quá trình sử dụng phần mềm tự động để khám phá các trang web mới và tìm hiểu về các trang web đó. Nhờ đó, khi bạn truy cập Google để tìm một trang web, chúng tôi biết rằng trang web đó tồn tại và chúng tôi có thể đưa trang web đó vào kết quả tìm kiếm của bạn. Tất cả các công cụ tìm kiếm đều dựa vào hoạt động thu thập thông tin để biết những trang và thông tin có thể tồn tại. Bạn có thể xem video của chúng tôi về cách Google Tìm kiếm thu thập thông tin các trang để tìm hiểu thêm.

Chúng tôi có nhiều trình thu thập thông tin và mỗi trình đều có những nhiệm vụ quan trọng

Googlebot là trình thu thập thông tin được nhiều người biết đến nhất của chúng tôi và được dùng để duy trì kết quả mới nhất trong Google Tìm kiếm. Chúng tôi còn có nhiều trình thu thập thông tin dành riêng cho những nền tảng khác của chúng tôi, chẳng hạn như Google Hình ảnh và Google Mua sắm. Chúng tôi cung cấp tài liệu đầy đủ về những trình thu thập thông tin thường dùng nhất và mục đích của các trình thu thập thông tin này. Trình thu thập thông tin của chúng tôi sử dụng tên tác nhân người dùng dễ nhận dạng và địa chỉ Internet đã biết. Bằng cách này, chủ sở hữu trang web có thể yên tâm rằng trình thu thập thông tin của Google mà họ đang thấy là hợp pháp.

Chúng tôi thực hiện quy trình thu thập thông tin nhiều lần để tìm thông tin cập nhật mới nhất và cung cấp kết quả tìm kiếm mới nhất

Để thu thập các tin bài mới nhất, có thể chúng tôi sẽ thu thập lại thông tin trang chủ của các trang tin tức sau mỗi vài phút. Trong những trường hợp khác, có thể chúng tôi nhận thấy không có gì thay đổi trong nhiều năm, thế nên có thể chúng tôi sẽ đợi một tháng rồi mới thu thập lại dữ liệu. Chủ sở hữu trang web có thể tác động đến tần suất thu thập lại dữ liệu bằng cách sử dụng các tệp sơ đồ trang web để cho chúng tôi biết về các trang mới và trang được cập nhật.

Việc Googlebot thu thập thông tin thường xuyên là một dấu hiệu tốt!

Nếu chúng tôi thu thập thông tin trang web của bạn nhiều lần, thì đó là dấu hiệu cho thấy các trang của bạn có nội dung mới hoặc liên quan nhiều đến nội dung mà mọi người muốn tìm, và hệ thống của chúng tôi nhận thấy nhu cầu đó. Mua sắm trực tuyến là một ví dụ điển hình: chúng tôi thường xuyên thu thập thông tin các trang web thương mại điện tử để cho trong kết quả của chúng tôi sẽ xuất hiện giá, chương trình khuyến mãi và tình trạng còn hàng mới nhất của nhà bán lẻ.

Hoạt động thu thập thông tin của Google gia tăng theo thời gian khi các trang trở nên phức tạp hơn

Một lý do khác khiến chúng tôi thu thập thông tin thường xuyên là để hiểu rõ mức độ phong phú của một trang web và nội dung mà trang web đó cung cấp. Trình thu thập thông tin của chúng tôi sử dụng một kỹ thuật gọi là kết xuất. Kỹ thuật này sẽ tải toàn bộ một trang web để "xem" một trang giống như một người dùng thực sự. Trong những năm qua, các trang web ngày càng trở nên tinh vi hơn; kích thước trung bình của trang cho thiết bị di động đã tăng từ 816 kilobyte lên 2,3 megabyte và hiện có hơn 60 tệp khác nhau cần tải, từ hình ảnh đến các thành phần tương tác. Vì vậy, để có được một thông tin tổng quan nhanh mang tính đại diện của một trang web ở trạng thái hoàn chỉnh, có thể chúng tôi sẽ cần thu thập thông tin cùng một trang nhiều lần (hoặc nhiều hơn), vì các phần tử mới luôn được thêm vào.

Chúng tôi tự động tối ưu hoá hoạt động thu thập thông tin

Trình thu thập thông tin của chúng tôi được thiết kế để hoạt động hiệu quả và tự điều chỉnh để giảm thiểu tác động đến chủ sở hữu trang web. Ví dụ: khi một trang web bị chậm lại hoặc trả về lỗi, tốc độ thu thập thông tin của chúng tôi sẽ tự động thay đổi để tránh làm quá tải máy chủ của trang web. Chúng tôi cố gắng hạn chế hoạt động thu thập thông tin lãng phí bằng cách lưu nội dung đã thu thập vào bộ nhớ đệm. Trong quá trình khám phá thêm về một trang web, trình thu thập thông tin của chúng tôi cũng có thể nhận ra những phần cần được thu thập thông tin ít hơn; ví dụ: lịch đến năm 9999 có lẽ không cần được thu thập thông tin toàn bộ. Chủ sở hữu trang web có thể trợ giúp bằng cách xác định nội dung không cần thu thập thông tin. Điều này giúp các trang web tiết kiệm tiền nhờ giảm bớt chi phí cơ sở hạ tầng và giúp Internet hoạt động hiệu quả hơn về mặt tổng thể.

Trình thu thập thông tin của Google không bao giờ truy cập vào nội dung có tường phí hoặc nội dung yêu cầu gói thuê bao mà không có sự cho phép

Theo mặc định, nếu một trang không truy cập được trên web mở (ví dụ: nếu nội dung nằm sau trang đăng nhập), thì trình thu thập thông tin của chúng tôi cũng không truy cập được. Chúng tôi có hướng dẫn cụ thể cho chủ sở hữu trang web nếu họ muốn cấp cho Google quyền truy cập rõ ràng vào các trang có nội dung yêu cầu gói thuê bao (ví dụ: để Google có thể giới thiệu người dùng đến nội dung đó). Nếu chọn cấp quyền truy cập gói thuê bao cho trình thu thập thông tin của chúng tôi, bạn có thể sử dụng dữ liệu có cấu trúc để tiếp tục cho khách truy cập là người dùng thấy màn hình đăng nhập mà không vi phạm các quy tắc của chúng tôi về nội dung rác. Bạn có thể ngăn nội dung yêu cầu gói thuê bao xuất hiện trong bản xem trước trang bằng cách tận dụng các chế độ kiểm soát bản xem trước.

Chủ sở hữu trang web có quyền kiểm soát những nội dung được thu thập thông tin và cách thức thu thập thông tin

Chúng tôi tuân thủ các tiêu chuẩn web mở như robots.txt, một tệp văn bản đơn giản cho phép chủ sở hữu trang web khai báo cách thức mà các trình thu thập thông tin như của chúng tôi nên tương tác với các trang của họ. Tệp Robots.txt cùng với thẻ meta robots giúp các trang web dễ dàng thông báo cho Google và các dịch vụ khác về cách thức truy cập vào nội dung của họ. Họ có thể chặn các trang xuất hiện trong Tìm kiếm. Họ có thể cho chúng tôi biết về nội dung mới mà họ muốn được thu thập thông tin bằng cách sử dụng sơ đồ trang web. Ngoài ra, họ có thể quản lý tần suất chúng tôi thu thập thông tin trên trang web của họ thông qua hạn mức thu thập thông tin.

Trình thu thập thông tin tiêu chuẩn của chúng tôi luôn tôn trọng lựa chọn của các trang web về cách thức truy cập và sử dụng nội dung của họ

Sau khi thu thập thông tin, chúng tôi có thể sử dụng dữ liệu đã thu thập nhiều lần để giảm nhu cầu về các yêu cầu lặp lại một cách lãng phí trên các trang web. Ngay cả khi sử dụng lại dữ liệu này, chúng tôi vẫn tiếp tục tôn trọng lựa chọn của các trang web thông qua tệp robots.txt và các chế độ kiểm soát mà chúng tôi cung cấp thông qua giao thức web mở đó. Ví dụ: các trang web có thể sử dụng Google-Extended trong tệp robots.txt để kiểm soát (cũng như thực hiện những thao tác khác) việc nội dung của họ có giúp huấn luyện các phiên bản mô hình Gemini trong tương lai hay không. Việc sử dụng Google-Extended không ảnh hưởng đến việc đưa một trang web vào Tìm kiếm, cũng như chúng tôi không sử dụng Google-Extended làm tín hiệu xếp hạng trong Tìm kiếm.

Chúng tôi cung cấp nhiều công cụ để chủ sở hữu trang web quản lý trải nghiệm thu thập thông tin của Google, trong đó có Google Search Console, là công cụ mà chủ sở hữu trang web có thể dùng mà không mất phí. Công cụ này cung cấp thông tin về lượng dữ liệu chúng tôi đã thu thập cũng như lý do. Công cụ này cũng giúp các trang web chẩn đoán các vấn đề như thời gian ngừng hoạt động của máy chủ hoặc vấn đề về tốc độ. Ngoài ra, Search Console còn cung cấp thông tin toàn diện về cách thức các trang của một trang web xuất hiện trên Tìm kiếm và cách người dùng tương tác với các trang đó.

Trình thu thập thông tin của chúng tôi giúp kết nối mọi người với những nội dung tốt nhất trên web và chúng tôi luôn tìm cách để cải thiện khả năng cũng như hiệu quả của trình thu thập thông tin.