Khắc phục sự cố cho hoạt động thu thập thông tin của Google Tìm kiếm

Sau đây là các bước chính để khắc phục và sửa lỗi cho hoạt động thu thập thông tin của Google Tìm kiếm đối với trang web của bạn:

  1. Kiểm tra xem Googlebot có đang gặp vấn đề về khả năng truy cập trên trang web của bạn hay không.
  2. Kiểm tra xem có trang nào bạn muốn Google thu thập thông tin nhưng vẫn chưa được thu thập thông tin hay không.
  3. Kiểm tra xem có phần nào trong trang web cần được đẩy nhanh tốc độ thu thập thông tin hay không.
  4. Cải thiện hiệu quả thu thập thông tin đối với trang web của bạn.
  5. Xử lý tình trạng thu thập thông tin quá mức trên trang web của bạn.

Kiểm tra xem Googlebot có đang gặp vấn đề về khả năng truy cập trên trang web của bạn hay không

Việc cải thiện khả năng truy cập vào trang web không đảm bảo hạn mức thu thập thông tin của bạn sẽ tăng. Tốc độ thu thập thông tin hợp lý nhất được Google xác định dựa trên nhu cầu thu thập thông tin, như đã mô tả ở trên. Tuy nhiên, các sự cố về khả năng truy cập có thể khiến Google không thể thu thập thông tin trên trang web của bạn ở mức mà chúng tôi mong muốn.

Chẩn đoán:

Hãy dùng báo cáo Số liệu thống kê về hoạt động thu thập thông tin để xem lại quá trình Googlebot thu thập thông tin trên trang web của bạn. Báo cáo này cho biết thời điểm Google gặp sự cố về khả năng truy cập trang web. Nếu trang web của bạn báo lỗi hoặc xuất hiện cảnh báo về khả năng truy cập, hãy xem biểu đồ Khả năng truy cập vào máy chủ và tìm những thời điểm mà yêu cầu của Googlebot vượt quá đường giới hạn màu đỏ, nhấp vào biểu đồ để xem URL nào đang gặp vấn đề rồi cố gắng tìm mối tương quan giữa các URL đó với vấn đề trên trang web.

Ngoài ra, bạn cũng có thể dùng Công cụ kiểm tra URL để kiểm tra một số URL trên trang web của mình. Nếu công cụ này trả về cảnh báo Quá giới hạn tải máy chủ, điều đó nghĩa là Googlebot không thể thu thập thông tin tất cả URL phát hiện được từ trang web của bạn.

Xử lý:

Kiểm tra xem có phần nào trên trang web mà bạn muốn Google thu thập thông tin nhưng vẫn chưa được thu thập hay không

Google dành lượng thời gian cần thiết để lập chỉ mục toàn bộ nội dung chất lượng cao và có giá trị đối với người dùng mà Google tìm được trên trang web của bạn. Nếu bạn cho rằng Googlebot bỏ sót nội dung quan trọng, thì nguyên nhân có thể là do công cụ này không tìm thấy nội dung đó, nội dung bị chặn khỏi Google, hoặc trang web đang hạn chế quyền truy cập của Google (hoặc Google đang cố gắng không làm trang web quá tải).

Chẩn đoán:

Search Console không cung cấp nhật ký thu thập thông tin có thể lọc theo URL hay đường dẫn, nhưng bạn có thể tham khảo nhật ký trang web để xem Googlebot có thu thập thông tin một số URL cụ thể nào đó hay không. Điều này không liên quan đến việc Google có lập chỉ mục các URL đã thu thập thông tin hay không.

Hãy nhớ rằng đối với hầu hết các trang web, Google sẽ mất tối thiểu vài ngày để phát hiện thấy các trang mới. Hầu hết các URL của các trang web sẽ không được thu thập thông tin trong cùng ngày, ngoại trừ những trang web có nội dung bị ảnh hưởng lớn bởi yếu tố thời gian (chẳng hạn như trang web tin tức).

Xử lý:

Nếu bạn thêm trang mới vào trang web của mình và Google không thu thập thông tin các trang đó trong một khoảng thời gian hợp lý, thì nguyên nhân là do Google không biết về các trang đó, nội dung bị chặn, trang web đã đạt đến khả năng phân phát tối đa hoặc bạn đã hết hạn mức thu thập thông tin.

  1. Cho Google biết về các trang mới của bạn: hãy cập nhật sơ đồ trang web để phản ánh các URL mới.
  2. Kiểm tra các quy tắc trong tệp robots.txt để chắc chắn rằng bạn không vô tình chặn trang.
  3. Xem lại những mức ưu tiên của bạn trong hoạt động thu thập thông tin (nghĩa là sử dụng hạn mức thu thập thông tin một cách hợp lý). Quản lý các URL bạn đang cócải thiện hiệu suất thu thập thông tin trên trang web của bạn.
  4. Kiểm tra để đảm bảo bạn vẫn còn công suất phân phát. Googlebot sẽ giảm mức thu thập thông tin nếu phát hiện thấy máy chủ của bạn gặp khó khăn khi phản hồi yêu cầu thu thập thông tin.

Xin lưu ý rằng các trang đã thu thập thông tin vẫn có thể không xuất hiện trong kết quả tìm kiếm nếu trang đó mang lại giá trị không đủ lớn, hoặc người dùng không có nhu cầu truy cập nội dung trên trang.

Kiểm tra xem nội dung cập nhật có được thu thập thông tin kịp thời hay không

Nếu chúng tôi chưa thu thập thông tin các trang mới hoặc vừa cập nhật trên trang web, thì việc này có thể là vì chúng tôi chưa thấy các trang đó hoặc chưa nhận ra rằng trang đã cập nhật. Sau đây là cách bạn có thể thông báo cho chúng tôi về nội dung cập nhật trên trang.

Xin lưu ý rằng Google luôn cố gắng kiểm tra và lập chỉ mục các trang trong một khoảng thời gian hợp lý. Đối với hầu hết trang web, thời gian này kéo dài từ 3 ngày trở lên. Sẽ rất khó để Google có thể lập chỉ mục các trang vào cùng ngày mà bạn xuất bản trang, trừ trường hợp trang của bạn là trang web tin tức hoặc chứa nội dung có giá trị cao và chịu ảnh hưởng của thời gian.

Chẩn đoán:

Hãy kiểm tra nhật ký trang web của bạn để xem thời điểm Googlebot thu thập thông tin các URL cụ thể.

Để biết ngày lập chỉ mục, hãy sử dụng công cụ Kiểm tra URL, hoặc tìm các URL mà bạn đã cập nhật.

Xử lý:

Nên làm:

  • Dùng một sơ đồ trang web Tin tức nếu trang web của bạn có nội dung tin tức.
  • Dùng thẻ <lastmod> trong sơ đồ trang web để cho biết thời điểm cập nhật một URL đã được lập chỉ mục.
  • Dùng một cấu trúc URL có thể thu thập thông tin để giúp Google tìm thấy các trang của bạn.
  • Cung cấp các đường liên kết <a> chuẩn mà Google có thể thu thập thông tin để giúp Google tìm thấy các trang của bạn.
  • Nếu trang web của bạn sử dụng HTML riêng biệt đối với phiên bản dành cho thiết bị di động và phiên bản dành cho máy tính, hãy cung cấp cùng một nhóm đường liên kết trên phiên bản dành cho thiết bị di động giống như trên phiên bản dành cho máy tính. Nếu không thể cung cấp cùng một nhóm đường liên kết trên phiên bản dành cho thiết bị di động, hãy đảm bảo rằng các đường liên kết đó có trong tệp sơ đồ trang web. Google chỉ lập chỉ mục phiên bản dành cho thiết bị di động của các trang, và việc giới hạn các đường liên kết xuất hiện trên đó có thể làm chậm quá trình khám phá trang mới.

Nên tránh:

  • Gửi cùng một sơ đồ trang web không có thay đổi gì nhiều lần trong ngày.
  • Nghĩ rằng Googlebot sẽ thu thập mọi dữ liệu trong sơ đồ trang web hoặc thu thập thông tin sơ đồ trang web ngay lập tức. Sơ đồ trang web là một cách hữu ích để gợi ý Googlebot thu thập thông tin, nhưng không phải là yêu cầu bắt buộc.
  • Đưa vào sơ đồ trang web những URL bạn không muốn xuất hiện trong các kết quả trên Tìm kiếm. Điều này có thể khiến bạn lãng phí hạn mức thu thập thông tin vào các trang mà bạn không muốn Google lập chỉ mục.

Cải thiện hiệu quả thu thập thông tin đối với trang web của bạn

Tăng tốc độ tải trang

Khả năng thu thập thông tin của Google bị giới hạn bởi băng thông, thời gian và khả năng truy cập của các phiên bản Googlebot. Nếu máy chủ của bạn phản hồi yêu cầu nhanh hơn, chúng tôi có thể thu thập thông tin nhiều trang hơn trên trang web của bạn. Dù vậy, Google chỉ muốn thu thập thông tin nội dung chất lượng cao. Do đó, nếu bạn chỉ tăng tốc độ của trang chất lượng thấp, thì Googlebot vẫn không thu thập thông tin thêm nhiều trang trên trang web của bạn. Ngược lại, nếu cho rằng có nội dung chất lượng cao bị bỏ sót trên trang web, thì chúng tôi có thể tăng hạn mức để thu thập thông tin nội dung đó.

Sau đây là cách bạn có thể tối ưu hoá các trang và tài nguyên cho hoạt động thu thập thông tin:

  • Dùng tệp robots.txt để ngăn Googlebot tải các tài nguyên lớn nhưng không quan trọng. Đảm bảo bạn chỉ chặn tài nguyên không quan trọng, tức là những tài nguyên không cần thiết để nắm được ý nghĩa của trang (chẳng hạn như hình ảnh trang trí).
  • Đảm bảo rằng các trang của bạn tải nhanh.
  • Hãy chú ý các chuỗi chuyển hướng dài, vì các chuỗi này gây ảnh hưởng tiêu cực đến hoạt động thu thập thông tin.
  • Thời gian để phản hồi yêu cầu của máy chủ và thời gian cần thiết để kết xuất trang đều quan trọng, bao gồm cả thời gian tải và chạy các tài nguyên được nhúng như hình ảnh và tập lệnh. Hãy chú ý đến các tài nguyên lớn hoặc chậm nhưng cần thiết để lập chỉ mục.

Chỉ định nội dung thay đổi bằng mã trạng thái HTTP

Thường thì Google hỗ trợ các tiêu đề If-Modified-SinceIf-None-Match của yêu cầu HTTP đối với quy trình thu thập thông tin. Trình thu thập thông tin của Google không gửi tiêu đề trong tất cả lần thu thập thông tin; mà tuỳ thuộc vào trường hợp sử dụng của yêu cầu (ví dụ: thường thì AdsBot sẽ thiết lập tiêu đề If-Modified-SinceIf-None-Match của yêu cầu HTTP nhiều hơn). Nếu trình thu thập thông tin của chúng tôi gửi tiêu đề If-Modified-Since, thì giá trị của tiêu đề đó sẽ là ngày và giờ của lần gần đây nhất mà Google thu thập thông tin nội dung này. Dựa trên giá trị đó, máy chủ có thể chọn trả về một mã trạng thái HTTP 304 (Not Modified) không có nội dung phản hồi. Trong trường hợp đó, Google sẽ sử dụng lại phiên bản đã thu thập thông tin lần trước của nội dung. Nếu nội dung mới hơn ngày mà trình thu thập thông tin chỉ định trong tiêu đề If-Modified-Since, máy chủ có thể trả về một mã trạng thái HTTP 200 (OK) cùng với nội dung phản hồi.

Ngoài các tiêu đề của yêu cầu, bạn có thể gửi mã trạng thái HTTP 304 (Not Modified) và không có nội dung phản hồi cho bất kỳ yêu cầu nào của Googlebot nếu nội dung không thay đổi kể từ lần gần nhất Googlebot truy cập URL đó. Việc này sẽ giúp bạn tiết kiệm thời gian và tài nguyên xử lý cho máy chủ, qua đó có thể cải thiện hiệu suất thu thập thông tin.

Ẩn những URL mà bạn không muốn xuất hiện trong kết quả tìm kiếm

Việc lãng phí tài nguyên máy chủ vào các trang không cần thiết có thể làm giảm khả năng thu thập thông tin trên các trang mà bạn thấy quan trọng, đồng thời, có thể làm chậm quá trình khám phá nội dung mới hoặc nội dung vừa cập nhật trên trang web.

Việc đưa vào trang web nhiều URL bạn không muốn Google Tìm kiếm thu thập thông tin có thể ảnh hưởng tiêu cực đến hoạt động thu thập thông tin và lập chỉ mục trang web. Thông thường, những URL này thuộc các loại sau:

Nên làm:

  • Dùng tệp robots.txt nếu bạn không muốn Google thu thập thông tin trên một tài nguyên hoặc một trang.
  • Nếu nhiều trang sử dụng cùng một tài nguyên (chẳng hạn như hình ảnh hoặc tệp JavaScript dùng chung), hãy tham chiếu đến tài nguyên từ cùng một URL trong mỗi trang. Khi đó, Google có thể lưu tài nguyên vào bộ nhớ đệm và sử dụng lại mà không cần yêu cầu tài nguyên đó nhiều lần.

Nên tránh:

  • Đừng thường xuyên thêm hoặc xoá các trang hoặc thư mục khỏi tệp robots.txt như một cách phân bổ lại hạn mức thu thập thông tin cho trang web của bạn. Chỉ dùng tệp robots.txt cho các trang hoặc tài nguyên mà bạn không muốn xuất hiện trên Google trong thời gian dài.
  • Đừng xoay vòng sơ đồ trang web hoặc sử dụng cơ chế ẩn tạm thời khác để phân bổ lại hạn mức.

Lỗi soft 404

Lỗi soft 404 xảy ra khi một URL trả về một trang thông báo cho người dùng rằng trang đó không tồn tại, đồng thời trả về một mã trạng thái 200 (success). Trong một số trường hợp, đó có thể là một trang không có nội dung chính hoặc một trang trống.

Những trang như vậy có thể do máy chủ web, hệ thống quản lý nội dung hoặc trình duyệt của người dùng tạo ra vì nhiều lý do. Ví dụ:

  • Thiếu tệp phía máy chủ.
  • Hỏng kết nối đến cơ sở dữ liệu.
  • Trang kết quả tìm kiếm nội bộ trống.
  • Chưa tải hoặc thiếu tệp JavaScript.

Trường hợp trả về mã trạng thái 200 (success) mang lại trải nghiệm không tốt cho người dùng, nhưng sau đó sẽ hiển thị hoặc đề xuất một thông báo lỗi hoặc một số loại lỗi trên trang. Người dùng có thể nghĩ rằng trang đó là một trang đang hoạt động nhưng sau đó gặp một số loại lỗi. Những trang như vậy sẽ bị loại trừ khỏi Tìm kiếm.

Khi thuật toán của Google phát hiện rằng trang đó thực sự là một trang lỗi (dựa vào nội dung trên trang), thì bạn sẽ thấy một lỗi soft 404 mềm xuất hiện trong báo cáo Lập chỉ mục trang của trang web đó trên Search Console.

Khắc phục lỗi soft 404

Tuỳ thuộc vào trạng thái của trang và kết quả bạn muốn, bạn có thể xử lý các lỗi soft 404 theo nhiều cách:

Hãy cố gắng xác định xem giải pháp nào là tốt nhất cho người dùng của bạn.

Trang và nội dung không còn tồn tại

Nếu bạn đã xoá trang đó và trên trang web không có trang nào khác có nội dung tương tự để thay thế, hãy trả về một mã (trạng thái) phản hồi 404 (not found) hoặc 410 (gone). Những mã trạng thái này cho các công cụ tìm kiếm biết rằng trang đó không tồn tại và bạn không muốn công cụ tìm kiếm lập chỉ mục trang đó.

Nếu có quyền truy cập vào các tệp cấu hình trên máy chủ, bạn có thể tuỳ chỉnh các trang lỗi để những trang đó trở nên hữu ích đối với người dùng. Một trang 404 tuỳ chỉnh tốt sẽ giúp mọi người tìm thấy thông tin họ đang tìm kiếm, đồng thời, cung cấp nội dung hữu ích khác để khuyến khích họ khám phá thêm trên trang web của bạn. Sau đây là một số mẹo để thiết kế một trang 404 tuỳ chỉnh hữu ích:

  • Thông báo rõ ràng với khách truy cập rằng không thể tìm thấy trang họ đang tìm. Sử dụng ngôn ngữ thân thiện và cuốn hút.
  • Đảm bảo rằng trang 404 của bạn có cùng giao diện (kể cả phần điều hướng) với các trang còn lại của trang web.
  • Cân nhắc việc thêm các đường liên kết tới các bài viết hoặc bài đăng phổ biến nhất, cũng như một đường liên kết tới trang chủ của trang web của bạn.
  • Cân nhắc việc cung cấp cho người dùng một phương thức để báo cáo đường liên kết bị hỏng.

Trang 404 tuỳ chỉnh được tạo chỉ để dành cho người dùng. Về phía công cụ tìm kiếm, những trang này là vô ích, do đó hãy đảm bảo máy chủ trả về một mã trạng thái HTTP 404 để ngăn Google lập chỉ mục các trang đó.

Trang hoặc nội dung hiện đã chuyển sang nơi khác

Nếu trang của bạn đã di chuyển hoặc có một trang thay thế phù hợp trên trang web của bạn, hãy trả về một lệnh 301 (permanent redirect) để chuyển hướng người dùng. Thao tác này sẽ không làm gián đoạn trải nghiệm duyệt web của người dùng và cũng là một cách hay để cho các công cụ tìm kiếm biết vị trí mới của trang. Hãy dùng công cụ Kiểm tra URL để xác minh xem URL của bạn có đang thật sự trả về mã thích hợp hay không.

Trang và nội dung vẫn tồn tại

Nếu một trang phù hợp khác bị gắn cờ là có lỗi soft 404, thì có thể trang đó đã tải không đúng cách cho Googlebot hoặc bị thiếu tài nguyên quan trọng trong quá trình hiển thị hoặc cho thấy một thông báo lỗi nổi bật trong quá trình hiển thị. Hãy dùng công cụ Kiểm tra URL để kiểm tra nội dung được hiển thị và mã HTTP được trả về. Nếu trang được hiển thị không có nội dung hoặc gần như không có nội dung, hoặc nếu có thông báo lỗi trong nội dung, thì có thể là do trang của bạn tham chiếu đến nhiều tài nguyên không tải được (hình ảnh, tập lệnh và các thành phần khác không phải văn bản). Tình trạng này có thể bị xem là một lỗi soft 404. Tình trạng tài nguyên không tải được có thể là do tài nguyên bị chặn (bị tệp robots.txt chặn), có quá nhiều tài nguyên trên một trang, có nhiều lỗi máy chủ hoặc tài nguyên có kích thước rất lớn hoặc tải chậm.

Xử lý tình trạng thu thập thông tin quá mức trên trang web của bạn (trường hợp khẩn cấp)

Googlebot có các thuật toán để tránh tình trạng các yêu cầu thu thập thông tin gây quá tải cho trang web. Tuy nhiên, nếu nhận thấy Googlebot đang làm quá tải trang web của mình thì bạn có thể thử một vài cách sau đây.

Chẩn đoán:

Theo dõi máy chủ của bạn để kiểm tra xem Googlebot có gửi quá nhiều yêu cầu đến trang web hay không.

Xử lý:

Trong trường hợp cấp bách, bạn nên thực hiện những bước sau để giảm tốc độ thu thập thông tin của Googlebot:

  1. Tạm thời trả về mã trạng thái phản hồi HTTP 503 hoặc 429 cho các yêu cầu của Googlebot khi máy chủ của bạn bị quá tải. Googlebot sẽ thử thu thập lại dữ liệu trên những URL này sau khoảng 2 ngày. Xin lưu ý rằng việc trả về mã "không thể truy cập" trong vài ngày trở lên sẽ khiến Google giảm hoặc ngừng thu thập thông tin URL vĩnh viễn trên trang web của bạn. Vì vậy, hãy thực hiện thêm những bước sau đây.
  2. Khi tốc độ thu thập thông tin bị giảm, hãy ngừng trả về mã trạng thái phản hồi HTTP 503 hoặc 429 đối với các yêu cầu thu thập thông tin; việc trả về 503 hoặc 429 trong hơn 2 ngày sẽ khiến Google loại bỏ những URL đó khỏi chỉ mục.
  3. Theo dõi hoạt động thu thập thông tin và công suất của máy chủ lưu trữ theo thời gian.
  4. Nếu trình thu thập thông tin gây ra vấn đề là một trong những trình thu thập thông tin AdsBot, thì vấn đề có thể là do bạn đã tạo các mục tiêu Quảng cáo tìm kiếm động cho trang web của mình và Google đang cố gắng thu thập thông tin trên những mục tiêu đó. Trong trường hợp này, Google sẽ thu thập thông tin 3 tuần một lần. Nếu máy chủ của bạn không có khả năng xử lý những lần thu thập thông tin này, bạn nên giới hạn mục tiêu quảng cáo hoặc tăng công suất phân phát.