Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang
Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.
Ảnh hưởng của mã trạng thái HTTP đối với trình thu thập thông tin của Google
Trang này mô tả các ảnh hưởng của
mã trạng thái HTTP
đối với khả năng thu thập thông tin của Google đối với nội dung trên web của bạn. Chúng tôi sẽ đề cập đến 20 mã trạng thái phổ biến nhất mà Google
gặp trên môi trường web. Các mã trạng thái ít gặp hơn, chẳng hạn như
418 (I'm a teapot),
sẽ không được đề cập.
Mã trạng thái HTTP
Mã trạng thái HTTP là do máy chủ lưu trữ trang web tạo ra khi phản hồi
yêu cầu của ứng dụng, chẳng hạn như trình duyệt hoặc trình thu thập thông tin. Mỗi mã trạng thái HTTP có một
ý nghĩa riêng, nhưng thông thường, kết quả của yêu cầu sẽ giống nhau. Ví dụ: có
nhiều mã trạng thái để báo hiệu lệnh chuyển hướng, nhưng kết quả mà những mã đó trả về thì giống nhau.
Search Console tạo thông báo lỗi đối với mã trạng thái trong phạm vi 4xx—5xx,
và đối với lệnh chuyển hướng không thành công (3xx). Nếu máy chủ phản hồi bằng
mã trạng thái 2xx, thì Google có thể cân nhắc lập chỉ mục nội dung nhận được
trong phản hồi đó.
Bảng sau đây trình bày những mã trạng thái HTTP mà Google hay bắt gặp nhất và
cách Google xử lý từng mã trạng thái đó.
Mã trạng thái HTTP
2xx (success)
Google sẽ cân nhắc xử lý nội dung này (ví dụ: trong trường hợp Google Tìm kiếm, thì Google sẽ cân nhắc lập chỉ mục). Nếu nội dung có dấu hiệu bị lỗi đối với Google Tìm kiếm,
có trang trống hoặc thông báo lỗi, thì Search Console sẽ cho thấy
lỗi soft 404.
200 (success)
Google sẽ chuyển mọi thông tin nhận được sang bước xử lý tiếp theo (tuỳ thuộc vào từng sản phẩm).
Đối với Google Tìm kiếm, hệ thống tiếp theo sẽ là quy trình lập chỉ mục. Có thể hệ thống lập chỉ mục
sẽ lập chỉ mục nội dung này (nhưng không chắc chắn).
201 (created)
202 (accepted)
Google sẽ chờ nhận nội dung trong một khoảng thời gian nhất định, sau đó đưa phần nội dung đã nhận vào bước xử lý tiếp theo (tuỳ thuộc vào từng sản phẩm). Thời gian chờ sẽ tuỳ thuộc vào loại tác nhân người dùng, ví dụ: thời gian chờ của Googlebot Smartphone có thể khác với
thời gian chờ của Googlebot Image.
204 (no content)
Google không nhận được nội dung nào nên không thể xử lý.
3xx (redirection)
Theo mặc định, trình thu thập thông tin của Google sẽ đi theo tối đa 10 bước chuyển hướng. Tuy nhiên, trình thu thập thông tin của một số sản phẩm cụ thể có thể có các giới hạn riêng. Ví dụ: Googlebot thường đi theo 10 bước
chuyển hướng khi thu thập thông tin cho nội dung chung trên web, nhưng Công cụ kiểm tra của Google thì không đi theo các bước chuyển hướng.
Mọi nội dung mà Google nhận được từ URL chuyển hướng đều bị bỏ qua và chuyển sang xử lý
nội dung của URL đích sau cùng. Đối với tệp robots.txt, hãy tìm hiểu cách
Google xử lý tệp robots.txt trả về mã trạng thái 3xx.
301 (moved permanently)
Google sẽ đi theo lệnh chuyển hướng và các hệ thống của Google sẽ xem lệnh chuyển hướng này là
một tín hiệu mạnh cho thấy trang đích của lệnh chuyển hướng nên được xử lý.
302 (found)
Theo mặc định, trình thu thập thông tin của Google sẽ đi theo lệnh chuyển hướng, và các hệ thống của Google sẽ xem lệnh chuyển hướng này là
một tín hiệu yếu cho thấy đích đến chuyển hướng cần được xử lý. Các sản phẩm khác có thể xử lý lệnh chuyển hướng theo cách khác.
303 (see other)
304 (not modified)
Trình thu thập thông tin của Google sẽ báo hiệu cho hệ thống xử lý tiếp theo rằng nội dung này giống với nội dung
trong lần thu thập thông tin trước đó. Trong trường hợp Google Tìm kiếm, quy trình lập chỉ mục có thể tính toán lại
các tín hiệu của URL, nhưng ngoài điểm này ra thì mã trạng thái không ảnh hưởng đến hoạt động lập chỉ mục.
307 (temporary redirect)
Tương đương với 302.
308 (moved permanently)
Tương đương với 301.
4xx (client errors)
Google không sử dụng nội dung từ những URL trả về mã trạng thái 4xx. Nếu
trước đây một URL từng được sử dụng nhưng hiện đang trả về mã trạng thái 4xx, thì
các hệ thống của Google sẽ ngừng sử dụng URL đó theo thời gian. Trong trường hợp Google Tìm kiếm, Google không
lập chỉ mục những URL trả về mã trạng thái 4xx, đồng thời những URL đã được lập chỉ mục
và trả về mã trạng thái 4xx sẽ bị xoá khỏi chỉ mục.
Mọi nội dung Google nhận được qua những URL trả về mã trạng thái 4xx đều bị
bỏ qua.
400 (bad request)
Ngoại trừ lỗi 429, mọi lỗi 4xx đều được xử lý như nhau:
Trình thu thập thông tin của Google thông báo cho hệ thống xử lý tiếp theo rằng nội dung không tồn tại.
Trong trường hợp Google Tìm kiếm, quy trình lập chỉ mục sẽ xoá URL khỏi chỉ mục nếu
URL này đã có trong chỉ mục. Hệ thống sẽ không xử lý những trang 404 mới gặp.
Tần suất thu thập thông tin sẽ giảm dần.
401 (unauthorized)
403 (forbidden)
404 (not found)
410 (gone)
411 (length required)
429 (too many requests)
Trình thu thập thông tin của Google xem mã trạng thái 429 là tín hiệu cho thấy máy chủ bị
quá tải và xem đó là một lỗi máy chủ.
5xx (server errors)
Các lỗi máy chủ 5xx và 429 sẽ thông báo để trình thu thập thông tin của Google
tạm thời giảm tốc độ thu thập thông tin. Đối với Google Tìm kiếm, những URL đã lập chỉ mục sẽ vẫn còn trong chỉ mục,
nhưng cuối cùng sẽ bị xoá.
Sau khi máy chủ bắt đầu phản hồi bằng mã trạng thái 2xx, Google sẽ tăng
dần tốc độ thu thập thông tin đối với trang web.
500 (internal server error)
Google giảm tốc độ thu thập thông tin đối với trang web. Tốc độ thu thập thông tin sẽ
giảm tương ứng với số lượng URL riêng lẻ đang trả về lỗi máy chủ.
Đối với Google Tìm kiếm, quy trình lập chỉ mục của Google sẽ xoá khỏi chỉ mục những URL liên tục trả về
lỗi máy chủ.