Ảnh hưởng của mã trạng thái HTTP, lỗi mạng và lỗi DNS đối với Google Tìm kiếm
Trang này mô tả các ảnh hưởng của mã trạng thái HTTP, lỗi mạng và lỗi DNS đối với Google Tìm kiếm. Chúng tôi sẽ đề cập 20 mã trạng thái phổ biến nhất mà Googlebot gặp trên môi trường web cũng như các lỗi mạng và lỗi DNS tiêu biểu nhất. Các mã trạng thái ít gặp hơn, chẳng hạn như 418 (I'm a teapot)
, sẽ không được đề cập. Mọi vấn đề được đề cập trong trang này đều có lỗi hoặc cảnh báo tương ứng trong báo cáo Lập chỉ mục trang của Search Console.
Mã trạng thái HTTP
Mã trạng thái HTTP là do máy chủ lưu trữ trang web tạo ra khi phản hồi yêu cầu của ứng dụng, chẳng hạn như trình duyệt hoặc trình thu thập dữ liệu. Mỗi mã trạng thái HTTP có một ý nghĩa riêng, nhưng thông thường, kết quả của yêu cầu sẽ giống nhau. Ví dụ: có nhiều mã trạng thái để báo hiệu lệnh chuyển hướng, nhưng kết quả mà những mã đó trả về thì giống nhau.
Search Console tạo thông báo lỗi cho mã trạng thái trong phạm vi 4xx–5xx
và cho lệnh chuyển hướng không thành công (3xx
). Nếu máy chủ phản hồi bằng mã trạng thái 2xx
, thì Google có thể cân nhắc lập chỉ mục nội dung nhận được trong phản hồi đó.
Bảng sau đây trình bày những mã trạng thái HTTP mà Google hay bắt gặp nhất và cách Google xử lý từng mã trạng thái đó.
Mã trạng thái HTTP | ||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
|
Google sẽ cân nhắc lập chỉ mục nội dung này. Nếu nội dung có dấu hiệu bị lỗi, chẳng hạn như có trang trống hoặc thông báo lỗi, thì Search Console sẽ cho thấy lỗi
|
|||||||||||
|
Googlebot đi theo tối đa 10 bước chuyển hướng. Nếu trình thu thập dữ liệu không nhận được nội dung trong vòng 10 bước, thì Search Console sẽ hiện lỗi chuyển hướng trong báo cáo Lập chỉ mục trang của trang web. Số bước chuyển hướng mà Googlebot đi theo tuỳ thuộc vào loại tác nhân người dùng; ví dụ: Googlebot Smartphone có thể có giá trị số bước khác với Googlebot Image.
Đối với tệp robots.txt, Googlebot sẽ đi theo ít nhất 5 bước chuyển hướng như xác định trong
RFC 1945, sau đó
dừng lại và coi đó là một lỗi Mọi nội dung mà Googlebot nhận được từ URL chuyển hướng đều bị bỏ qua và nội dung của URL đích cuối cùng sẽ được xem xét để lập chỉ mục.
|
|||||||||||
|
Quy trình lập chỉ mục của Google không xem xét việc lập chỉ mục URL trả về mã trạng thái
Mọi nội dung Googlebot nhận được qua những URL trả về mã trạng thái
|
|||||||||||
|
Các lỗi máy chủ Nếu tệp robots.txt trả về một mã trạng thái lỗi máy chủ trong hơn 30 ngày, thì Google sẽ sử dụng phiên bản gần đây nhất của tệp này lưu trong bộ nhớ đệm. Nếu không có, Google sẽ xem như không có hạn chế nào đối với việc thu thập dữ liệu.
Mọi nội dung Googlebot nhận được qua những URL trả về mã trạng thái
|
Lỗi soft 404
Lỗi soft 404
xảy ra khi một URL trả về một trang thông báo cho người dùng rằng trang đó không tồn tại, đồng thời trả về một mã trạng thái 200 (success)
. Trong một số trường hợp, đó có thể là một trang không có nội dung chính hoặc một trang trống.
Những trang như vậy có thể do máy chủ web, hệ thống quản lý nội dung hoặc trình duyệt của người dùng tạo ra vì nhiều lý do. Ví dụ:
- Thiếu tệp phía máy chủ.
- Hỏng kết nối đến cơ sở dữ liệu.
- Trang kết quả tìm kiếm nội bộ trống.
- Chưa tải hoặc thiếu tệp JavaScript.
Trường hợp trả về mã trạng thái 200 (success)
mang lại trải nghiệm không tốt cho người dùng, nhưng sau đó sẽ hiển thị hoặc đề xuất một thông báo lỗi hoặc một số loại lỗi trên trang. Người dùng có thể nghĩ rằng trang đó là một trang đang hoạt động nhưng sau đó gặp một số loại lỗi. Những trang như vậy sẽ bị loại trừ khỏi Tìm kiếm.
Khi thuật toán của Google phát hiện rằng trang đó thực sự là một trang lỗi (dựa vào nội dung trên trang), thì bạn sẽ thấy một lỗi soft 404
mềm xuất hiện trong báo cáo Lập chỉ mục trang của trang web trên Search Console.
Khắc phục lỗi soft 404
Tuỳ thuộc vào trạng thái của trang và kết quả mong muốn, bạn có thể xử lý các lỗi soft 404
theo nhiều cách:
- Trang và nội dung không còn tồn tại.
- Trang hoặc nội dung hiện đã chuyển sang nơi khác.
- Trang và nội dung vẫn tồn tại.
Hãy cố gắng xác định xem giải pháp nào là tốt nhất cho người dùng của bạn.
Trang và nội dung không còn tồn tại
Nếu bạn đã xoá trang đó và trên trang web không có trang nào khác để thay thế với nội dung tương tự, hãy trả về một mã (trạng thái) phản hồi 404 (not found)
hoặc 410 (gone)
. Những mã trạng thái này cho các công cụ tìm kiếm biết rằng trang đó không tồn tại và nội dung trong đó không nên được lập chỉ mục.
Nếu có quyền truy cập vào các tệp cấu hình trên máy chủ, bạn có thể tuỳ chỉnh các trang thông báo lỗi để những trang đó trở nên hữu ích cho người dùng. Một trang 404
tuỳ chỉnh tốt sẽ giúp mọi người tìm thấy thông tin họ đang tìm kiếm, đồng thời, cung cấp nội dung hữu ích khác để khuyến khích họ khám phá thêm trên trang web của bạn. Sau đây là một số mẹo để thiết kế một trang 404
tuỳ chỉnh hữu ích:
- Thông báo rõ ràng với khách truy cập rằng không thể tìm thấy trang họ đang tìm. Sử dụng ngôn ngữ thân thiện và cuốn hút.
-
Đảm bảo rằng trang
404
của bạn có cùng giao diện (bao gồm phần điều hướng) với các trang còn lại của trang web. - Cân nhắc việc thêm các đường liên kết tới các bài viết hoặc bài đăng phổ biến nhất, cũng như một đường liên kết tới trang chủ của trang web của bạn.
- Cân nhắc việc cung cấp cho người dùng một phương thức để báo cáo đường liên kết bị hỏng.
Trang 404
tuỳ chỉnh được tạo chỉ để dành cho người dùng. Về phía công cụ tìm kiếm, những trang này là vô ích, do đó hãy đảm bảo máy chủ trả về một mã trạng thái HTTP 404
để ngăn Google lập chỉ mục các trang đó.
Trang hoặc nội dung hiện đã chuyển sang nơi khác
Nếu trang của bạn đã di chuyển hoặc có một trang thay thế phù hợp trên trang web của bạn, hãy trả về một lệnh 301 (permanent redirect)
để chuyển hướng người dùng. Thao tác này sẽ không làm gián đoạn trải nghiệm duyệt web của người dùng và cũng là một cách phù hợp để cho các công cụ tìm kiếm biết vị trí mới của trang. Hãy dùng Công cụ kiểm tra URL để xác minh xem URL của bạn có đang thật sự trả về mã thích hợp hay không.
Trang và nội dung vẫn tồn tại
Nếu một trang phù hợp khác bị gắn cờ là có lỗi soft 404
, thì có thể trang đó đã tải không đúng cách cho Googlebot hoặc bị thiếu tài nguyên quan trọng trong quá trình hiển thị hoặc cho thấy một thông báo lỗi nổi bật trong quá trình hiển thị. Hãy dùng Công cụ kiểm tra URL để kiểm tra nội dung được hiển thị và mã HTTP được trả về. Nếu trang được hiển thị không có nội dung hoặc gần như không có nội dung, hoặc nếu có thông báo lỗi trong nội dung, thì có thể là do trang của bạn tham chiếu đến nhiều tài nguyên không tải được (hình ảnh, tập lệnh và các thành phần khác không phải văn bản). Tình trạng này có thể bị xem là một lỗi soft 404
.
Tình trạng tài nguyên không tải được có thể là do tài nguyên bị chặn (bị tệp robots.txt chặn), có quá nhiều tài nguyên trên một trang, có nhiều lỗi máy chủ hoặc tài nguyên có kích thước rất lớn hoặc tải chậm.
Lỗi mạng và lỗi DNS
Lỗi mạng và lỗi DNS nhanh chóng ảnh hưởng tiêu cực đến sự xuất hiện của URL trong Google Tìm kiếm.
Googlebot xử lý lỗi thời gian chờ, lỗi đặt lại kết nối và lỗi DNS tương tự như cách xử lý lỗi máy chủ 5xx
. Trong trường hợp có lỗi mạng, tốc độ thu thập dữ liệu ngay lập tức bắt đầu chậm lại, vì lỗi mạng là dấu hiệu cho thấy có thể máy chủ không xử lý được mức tải phân phát. Do Googlebot không kết nối được với máy chủ lưu trữ trang web, Google cũng chưa nhận được bất kỳ nội dung nào qua máy chủ. Nếu thiếu nội dung, Google không thể lập chỉ mục các URL đã thu thập dữ liệu. Những URL đã được lập chỉ mục nhưng không truy cập được sẽ bị xoá khỏi chỉ mục của Google trong vòng vài ngày. Search Console có thể tạo lỗi cho từng lỗi tương ứng.
Gỡ lỗi mạng
Những lỗi này xảy ra trước hoặc trong khi Google thu thập dữ liệu URL. Lỗi có thể xảy ra trước khi máy chủ phản hồi nên không có mã trạng thái nào báo hiệu được vấn đề. Do đó, việc chẩn đoán những lỗi này có thể khó khăn hơn. Để gỡ lỗi thời gian chờ và lỗi đặt lại kết nối:
- Kiểm tra nhật ký và chế độ cài đặt tường lửa. Có thể do một bộ quy tắc chặn có phạm vi quá rộng. Hãy đảm bảo rằng không có quy tắc tường lửa nào chặn địa chỉ IP của Googlebot.
- Kiểm tra lưu lượng truy cập mạng. Hãy dùng những công cụ như tcpdump và Wireshark để thu thập và phân tích các gói TCP, đồng thời tìm những điểm bất thường do một thành phần mạng hoặc mô-đun máy chủ cụ thể gây ra.
- Nếu bạn không tìm thấy điều gì đáng ngờ, hãy liên hệ với công ty lưu trữ.
Lỗi có thể nằm trong bất kỳ thành phần máy chủ nào đang xử lý lưu lượng truy cập mạng. Ví dụ: giao diện mạng bị quá tải có thể làm mất gói, từ đó gây ra lỗi thời gian chờ (không thể thiết lập kết nối) và lỗi đặt lại kết nối (gói RST
được gửi đi vì có cổng bị đóng nhầm).
Gỡ lỗi DNS
Cấu hình sai là nguyên nhân phổ biến nhất gây ra các lỗi DNS, nhưng các lỗi này cũng có thể xảy ra do một quy tắc tường lửa chặn các truy vấn DNS của Googlebot. Để gỡ lỗi DNS, hãy làm như sau:
-
Kiểm tra các quy tắc tường lửa. Hãy đảm bảo rằng không có quy tắc tường lửa nào chặn bất cứ IP nào của Google, và cả yêu cầu
UDP
lẫnTCP
đều được cho phép. -
Kiểm tra các bản ghi DNS của bạn. Kiểm tra kỹ để đảm bảo rằng các bản ghi
A
vàCNAME
của bạn đang lần lượt trỏ đến đúng địa chỉ IP và tên máy chủ. Ví dụ:dig +nocmd example.com a +noall +answer
dig +nocmd www.example.com cname +noall +answer
-
Kiểm tra để đảm bảo rằng tất cả máy chủ định danh đang trỏ đến đúng địa chỉ IP trang web của bạn. Ví dụ:
dig +nocmd example.com ns +noall +answer
example.com. 86400 IN NS a.iana-servers.net. example.com. 86400 IN NS b.iana-servers.net.dig +nocmd @a.iana-servers.net example.com +noall +answer
example.com. 86400 IN A 93.184.216.34dig +nocmd @b.iana-servers.net example.com +noall +answer
... - Nếu từng thực hiện thay đổi với cấu hình DNS trong vòng 72 giờ qua, có thể bạn phải chờ những thay đổi này có hiệu lực trên toàn bộ mạng DNS. Để tăng tốc độ áp dụng thay đổi, bạn có thể xoá bộ nhớ đệm DNS công khai của Google.
- Nếu bạn đang tự chạy máy chủ DNS của mình, hãy đảm bảo máy chủ hoạt động tốt và không bị quá tải.