Ảnh hưởng của mã trạng thái HTTP đối với trình thu thập thông tin của Google

Trang này mô tả các ảnh hưởng của mã trạng thái HTTP đối với khả năng thu thập thông tin của Google đối với nội dung trên web của bạn. Chúng tôi sẽ đề cập đến 20 mã trạng thái phổ biến nhất mà Google gặp trên môi trường web. Các mã trạng thái ít gặp hơn, chẳng hạn như 418 (I'm a teapot), sẽ không được đề cập.

Mã trạng thái HTTP

Mã trạng thái HTTP là do máy chủ lưu trữ trang web tạo ra khi phản hồi yêu cầu của ứng dụng, chẳng hạn như trình duyệt hoặc trình thu thập thông tin. Mỗi mã trạng thái HTTP có một ý nghĩa riêng, nhưng thông thường, kết quả của yêu cầu sẽ giống nhau. Ví dụ: có nhiều mã trạng thái để báo hiệu lệnh chuyển hướng, nhưng kết quả mà những mã đó trả về thì giống nhau.

Search Console tạo thông báo lỗi đối với mã trạng thái trong phạm vi 4xx—5xx, và đối với lệnh chuyển hướng không thành công (3xx). Nếu máy chủ phản hồi bằng mã trạng thái 2xx, thì Google có thể cân nhắc lập chỉ mục nội dung nhận được trong phản hồi đó.

Bảng sau đây trình bày những mã trạng thái HTTP mà Google hay bắt gặp nhất và cách Google xử lý từng mã trạng thái đó.

Mã trạng thái HTTP

2xx (success)

Google sẽ cân nhắc xử lý nội dung này (ví dụ: trong trường hợp Google Tìm kiếm, thì Google sẽ cân nhắc lập chỉ mục). Nếu nội dung có dấu hiệu bị lỗi đối với Google Tìm kiếm, có trang trống hoặc thông báo lỗi, thì Search Console sẽ cho thấy lỗi soft 404.

200 (success)

Google sẽ chuyển mọi thông tin nhận được sang bước xử lý tiếp theo (tuỳ thuộc vào từng sản phẩm). Đối với Google Tìm kiếm, hệ thống tiếp theo sẽ là quy trình lập chỉ mục. Có thể hệ thống lập chỉ mục sẽ lập chỉ mục nội dung này (nhưng không chắc chắn).

201 (created)
202 (accepted)

Google sẽ chờ nhận nội dung trong một khoảng thời gian nhất định, sau đó đưa phần nội dung đã nhận vào bước xử lý tiếp theo (tuỳ thuộc vào từng sản phẩm). Thời gian chờ sẽ tuỳ thuộc vào loại tác nhân người dùng, ví dụ: thời gian chờ của Googlebot Smartphone có thể khác với thời gian chờ của Googlebot Image.

204 (no content)

Google không nhận được nội dung nào nên không thể xử lý.

3xx (redirection)

Theo mặc định, trình thu thập thông tin của Google sẽ đi theo tối đa 10 bước chuyển hướng. Tuy nhiên, trình thu thập thông tin của một số sản phẩm cụ thể có thể có các giới hạn riêng. Ví dụ: Googlebot thường đi theo 10 bước chuyển hướng khi thu thập thông tin cho nội dung chung trên web, nhưng Công cụ kiểm tra của Google thì không đi theo các bước chuyển hướng.

Mọi nội dung mà Google nhận được từ URL chuyển hướng đều bị bỏ qua và chuyển sang xử lý nội dung của URL đích sau cùng. Đối với tệp robots.txt, hãy tìm hiểu cách Google xử lý tệp robots.txt trả về mã trạng thái 3xx.

301 (moved permanently)

Google sẽ đi theo lệnh chuyển hướng và các hệ thống của Google sẽ xem lệnh chuyển hướng này là một tín hiệu mạnh cho thấy trang đích của lệnh chuyển hướng nên được xử lý.

302 (found)

Theo mặc định, trình thu thập thông tin của Google sẽ đi theo lệnh chuyển hướng, và các hệ thống của Google sẽ xem lệnh chuyển hướng này là một tín hiệu yếu cho thấy đích đến chuyển hướng cần được xử lý. Các sản phẩm khác có thể xử lý lệnh chuyển hướng theo cách khác.

303 (see other)
304 (not modified)

Trình thu thập thông tin của Google sẽ báo hiệu cho hệ thống xử lý tiếp theo rằng nội dung này giống với nội dung trong lần thu thập thông tin trước đó. Trong trường hợp Google Tìm kiếm, quy trình lập chỉ mục có thể tính toán lại các tín hiệu của URL, nhưng ngoài điểm này ra thì mã trạng thái không ảnh hưởng đến hoạt động lập chỉ mục.

307 (temporary redirect) Tương đương với 302.
308 (moved permanently) Tương đương với 301.

4xx (client errors)

Google không sử dụng nội dung từ những URL trả về mã trạng thái 4xx. Nếu trước đây một URL từng được sử dụng nhưng hiện đang trả về mã trạng thái 4xx, thì các hệ thống của Google sẽ ngừng sử dụng URL đó theo thời gian. Trong trường hợp Google Tìm kiếm, Google không lập chỉ mục những URL trả về mã trạng thái 4xx, đồng thời những URL đã được lập chỉ mục và trả về mã trạng thái 4xx sẽ bị xoá khỏi chỉ mục.

Mọi nội dung Google nhận được qua những URL trả về mã trạng thái 4xx đều bị bỏ qua.

400 (bad request)

Ngoại trừ lỗi 429, mọi lỗi 4xx đều được xử lý như nhau: Trình thu thập thông tin của Google thông báo cho hệ thống xử lý tiếp theo rằng nội dung không tồn tại.

Trong trường hợp Google Tìm kiếm, quy trình lập chỉ mục sẽ xoá URL khỏi chỉ mục nếu URL này đã có trong chỉ mục. Hệ thống sẽ không xử lý những trang 404 mới gặp. Tần suất thu thập thông tin sẽ giảm dần.

401 (unauthorized)
403 (forbidden)
404 (not found)
410 (gone)
411 (length required)
429 (too many requests)

Trình thu thập thông tin của Google xem mã trạng thái 429 là tín hiệu cho thấy máy chủ bị quá tải và xem đó là một lỗi máy chủ.

5xx (server errors)

Các lỗi máy chủ 5xx429 sẽ thông báo để trình thu thập thông tin của Google tạm thời giảm tốc độ thu thập thông tin. Đối với Google Tìm kiếm, những URL đã lập chỉ mục sẽ vẫn còn trong chỉ mục, nhưng cuối cùng sẽ bị xoá.

Mọi nội dung Google nhận được qua những URL trả về mã trạng thái 5xx đều bị bỏ qua. Đối với tệp robots.txt, hãy tìm hiểu cách Google xử lý tệp robots.txt trả về mã trạng thái 5xx.

Sau khi máy chủ bắt đầu phản hồi bằng mã trạng thái 2xx, Google sẽ tăng dần tốc độ thu thập thông tin đối với trang web.

500 (internal server error)

Google giảm tốc độ thu thập thông tin đối với trang web. Tốc độ thu thập thông tin sẽ giảm tương ứng với số lượng URL riêng lẻ đang trả về lỗi máy chủ. Đối với Google Tìm kiếm, quy trình lập chỉ mục của Google sẽ xoá khỏi chỉ mục những URL liên tục trả về lỗi máy chủ.

502 (bad gateway)
503 (service unavailable)