Những điều lầm tưởng và sự thật về hoạt động thu thập thông tin
Hãy kiểm tra kiến thức của bạn về cách Google thu thập thông tin các trang web.
Tôi có thể nén sơ đồ trang web để tăng hạn mức thu thập thông tin.
Đúng
Sai
Không. Google vẫn phải tìm nạp sơ đồ trang web đã nén từ máy chủ, do đó bạn không giúp chúng tôi tiết kiệm được nhiều thời gian hay công sức bằng việc gửi sơ đồ trang web đã nén.
Google ưu tiên nội dung mới, vì vậy tôi nên liên tục thay đổi trang của mình.
Đúng
Sai
Đối với Google Tìm kiếm, nội dung được xếp hạng theo chất lượng, bất kể thời điểm đăng tải. Hãy tạo và cập nhật nội dung nếu bạn thấy cần, nhưng việc cố tình làm mới các trang bằng cách thực hiện các thay đổi không quan trọng và cập nhật ngày tháng của trang sẽ không có tác dụng gì.
Google ưu tiên nội dung cũ (vì có nhiều giá trị) hơn là nội dung mới.
Đúng
Sai
Một trang hữu ích sẽ vẫn hữu ích dù trang đó mới hay cũ.
Google ưu tiên các URL đơn thuần và không thu thập thông tin các tham số truy vấn.
Đúng
Sai
Chúng tôi có thể thu thập thông tin các tham số.
Trang của bạn tải và kết xuất càng nhanh, thì Google có thể thu thập thông tin càng nhiều nội dung.
Đúng
Đúng, vì tài nguyên của chúng tôi bị giới hạn về cả thời gian và số lượng bot thu thập thông tin. Trong một khoảng thời gian nhất định, bạn phân phát cho chúng tôi càng nhiều trang thì chúng tôi có thể thu thập thông tin càng nhiều trang. Tuy nhiên, chúng tôi có thể dành nhiều thời gian để thu thập thông tin trên các trang web có thông tin quan trọng hơn, ngay cả khi mất nhiều thời gian hơn. Việc bạn tăng tốc độ của trang để hỗ trợ người dùng sẽ quan trọng hơn là chỉ tăng tốc độ của trang để tăng mức độ thu thập thông tin. Bạn có thể giúp Google thu thập thông tin bằng một cách đơn giản hơn, đó là cung cấp đúng nội dung cần thu thập thay vì để Google thu thập thông tin toàn bộ nội dung. Hãy lưu ý rằng hoạt động thu thập thông tin trang web bao gồm cả hoạt động truy xuất và kết xuất nội dung. Thời gian dành cho hoạt động kết xuất trang cũng quan trọng không kém thời gian dành cho hoạt động yêu cầu trang.
Vì vậy, tăng tốc độ kết xuất cho các trang cũng làm tăng tốc độ thu thập thông tin.
Sai
Các trang web nhỏ không được Google thu thập thông tin thường xuyên như các trang web lớn.
Đúng
Sai
Nếu trang web có nội dung quan trọng và thay đổi thường xuyên, thì chúng tôi sẽ thu thập thông tin trang web đó thường xuyên, bất kể kích thước.
Nội dung của bạn càng gần trang chủ thì Google càng thấy nội dung đó quan trọng.
Đúng
Đúng một phần
Trang chủ của trang web thường là trang quan trọng nhất trên trang web. Do đó, những trang được liên kết trực tiếp tới trang chủ có thể được coi trọng hơn và được thu thập thông tin thường xuyên hơn. Tuy nhiên, điều này không có nghĩa là những trang như vậy sẽ có thứ hạng cao hơn các trang khác trên trang web của bạn.
Sai
Việc tạo phiên bản URL mới là một cách hữu hiệu để khuyến khích Google quay lại thu thập thông tin trên các trang của tôi.
Đúng
Đúng một phần
Việc tạo thêm phiên bản URL cho trang có thể hữu ích trong việc khuyến khích Google sớm thu thập thông tin trở lại. Tuy nhiên, việc này thường không cần thiết và sẽ làm lãng phí tài nguyên thu thập thông tin nếu trang đó không thực sự thay đổi. Nếu muốn tạo thêm phiên bản URL để thông báo nội dung mới, bạn chỉ nên thay đổi URL khi nội dung trên trang có thay đổi quan trọng.
Sai
Tốc độ trang web và các lỗi ảnh hưởng đến hạn mức thu thập thông tin của tôi.
Đúng
Việc cải thiện tốc độ trang web sẽ cải thiện trải nghiệm người dùng, đồng thời làm tăng tốc độ thu thập thông tin. Đối với trình thu thập thông tin của Google, trang web có tốc độ nhanh là dấu hiệu cho thấy máy chủ hoạt động tốt, nhờ vậy, trình thu thập thông tin có thể thu thập được nhiều nội dung hơn trên cùng một số lượng kết nối. Mặt khác, một lượng lớn mã trạng thái phản hồi HTTP
5xx (lỗi máy chủ) hoặc lỗi hết thời gian chờ kết nối lại báo hiệu điều ngược lại và làm chậm quá trình thu thập thông tin. Bạn nên chú ý đến báo cáo Số liệu thống kê về hoạt động thu thập thông tin trên Search Console và hạn chế số lượng lỗi máy chủ.
Sai
Thu thập thông tin là một yếu tố xếp hạng trong Google Tìm kiếm.
Đúng
Sai
Việc cải thiện tốc độ thu thập thông tin không nhất thiết sẽ dẫn đến vị trí tốt hơn trong kết quả tìm kiếm trên Google.
Google sử dụng nhiều tín hiệu để xếp hạng kết quả. Mặc dù Google cần thu thập thông tin để đưa một trang vào kết quả tìm kiếm, nhưng hoạt động này không phải là tín hiệu xếp hạng.
URL thay thế và nội dung dạng nhúng có được tính vào hạn mức thu thập thông tin hay không?
Đúng
Nhìn chung, mọi URL mà Googlebot thu thập thông tin đều sẽ được tính vào hạn mức thu thập thông tin của trang web.
Các URL thay thế (như AMP hoặc hreflang) cũng như nội dung dạng nhúng (như CSS và JavaScript bao gồm cả các lượt tìm nạp XHR) đều có thể cần thu thập thông tin và sẽ làm tiêu tốn hạn mức thu thập thông tin của trang web.
Sai
Tôi có thể kiểm soát trình thu thập thông tin của Google bằng quy tắc "crawl-delay".
Đúng
Sai
Trình thu thập thông tin của Google không xử lý quy tắc "crawl-delay" không phải tiêu chuẩn của tệp robots.txt.
Quy tắc
nofollow có ảnh hưởng đến hạn mức thu thập thông tin.Đúng
Đúng một phần
Mọi URL được thu thập thông tin đều sẽ ảnh hưởng đến hạn mức thu thập thông tin. Vì vậy, ngay cả khi trang của bạn đánh dấu một URL là
nofollow, Google vẫn sẽ thu thập thông tin URL đó nếu một trang khác trên trang web của bạn (hay bất kỳ trang nào khác trên web) không gắn nhãn nofollow cho đường liên kết.Sai
Tôi có thể sử dụng
noindex để kiểm soát hạn mức thu thập thông tin.Đúng
Đúng một phần
Mọi URL được thu thập thông tin đều sẽ ảnh hưởng đến hạn mức thu thập thông tin và Google phải thu thập thông tin trên trang đó để tìm quy tắc
Tuy nhiên,
noindex.
Tuy nhiên,
noindex sẽ giúp bạn chặn việc đưa trang vào chỉ mục. Nếu bạn muốn đảm bảo rằng những trang đó không xuất hiện trong chỉ mục của Google, hãy tiếp tục sử dụng noindex và đừng lo về hạn mức thu thập thông tin. Ngoài ra, xin lưu ý rằng nếu bạn xoá URL khỏi chỉ mục của Google bằng noindex hoặc cách khác, thì Googlebot có thể tập trung vào các URL khác trên trang web của bạn, tức lànoindex có thể gián tiếp giải phóng một lượng hạn mức thu thập thông tin cho trang web của bạn về lâu dài.
Sai
Các trang phân phát mã trạng thái HTTP
4xx đang làm lãng phí hạn mức thu thập thông tin.Đúng
Sai
Các trang phân phát mã trạng thái
4xx (ngoại trừ 429) không gây lãng phí hạn mức thu thập thông tin. Google đã cố gắng thu thập thông tin trên trang, nhưng nhận được một mã trạng thái và không có nội dung nào khác.