Jak kody stanu HTTP wpływają na roboty Google

Z tego artykułu dowiesz się, jak różne kody stanu HTTP wpływają na możliwość indeksowania Twoich treści internetowych przez Google. Opisujemy tutaj 20 kodów stanu, które Google napotyka w internecie. Nie znajdziesz tutaj informacji o rzadkich kodach błędów, takich jak 418 (I'm a teapot).

Kody stanów HTTP

Kody stanów HTTP generuje serwer hostujący witrynę, gdy odpowiada na żądania wysyłane przez klienta, np. przeglądarkę lub robota. Każdy kod stanu HTTP ma inne znaczenie, ale odpowiedź na żądanie często jest taka sama. Na przykład istnieje wiele kodów stanów sygnalizujących przekierowanie, ale ich wynik jest jednakowy.

Search Console generuje komunikaty o błędach dla kodów stanu z zakresu 4xx—5xx oraz dla nieudanych przekierowań (3xx). Jeśli serwer odpowiada kodem stanu 2xx, treść otrzymana w odpowiedzi jest uznawana za możliwą do zindeksowania.

Poniższa tabela zawiera najczęściej napotykane przez Googlebota kody stanów HTTP oraz wyjaśnienie, jak Google obsługuje każdy kod stanu.

Kody stanów HTTP

2xx (success)

Google uznaje, że treści należy przetworzyć (np. w przypadku wyszukiwarki Google – zindeksować). Jeśli treści sugerują występowanie błędu – np. pusta strona lub komunikat o błędzie – Search Console wyświetla błąd soft 404.

200 (success)

Google przekazuje otrzymane informacje do następnego etapu przetwarzania (który jest specyficzny dla danego produktu). W przypadku wyszukiwarki Google kolejnym systemem jest potok indeksowania. Systemy indeksowania mogą indeksować treści, ale nie jest to gwarantowane.

201 (created)
202 (accepted)

Google czeka na treści przez określony czas, a potem przekazuje to, co otrzymał w odpowiedzi, do następnego etapu przetwarzania (który jest zależny od usługi). Ten limit czasu zależy od rodzaju klienta użytkownika, np. Googlebot indeksujący strony na smartfony może mieć inny czas oczekiwania niż Googlebot indeksujący obrazy.

204 (no content)

Google nie udało się otrzymać żadnych treści, więc nie może ich przetworzyć.

3xx (redirection)

Domyślnie roboty Google śledzą do 10 przeskoków przekierowania. Jednak roboty indeksujące konkretne produkty mogą mieć inne limity. Na przykład podczas indeksowania ogólnych treści internetowych Googlebot zwykle śledzi 10 przekierowań, ale narzędzia do sprawdzania Google nie śledzą przekierowań.

Wszystkie treści otrzymane przez Google z adresu URL przekierowania są ignorowane, a zamiast nich przetwarzane są treści pod końcowym docelowym adresem URL. W przypadku plików robots.txt dowiedz się, jak Google obsługuje plik robots.txt, który zwraca kod stanu 3xx.

301 (moved permanently)

Google śledzi przekierowanie, a systemy Google interpretują je jako mocny sygnał, że docelowa strona przekierowania powinna zostać przetworzona.

302 (found)

Domyślnie roboty Google śledzą przekierowanie, a systemy Google interpretują je jako słaby sygnał, że docelowa strona przekierowania powinna być przetworzona. Inne usługi mogą obsługiwać przekierowanie w inny sposób.

303 (see other)
304 (not modified)

Roboty Google wysyłają do następnego systemu przetwarzania sygnał, że treści są identyczne jak przy ostatnim indeksowaniu. W przypadku wyszukiwarki Google proces indeksowania może ponownie obliczyć sygnały dla adresu URL, ale kod stanu nie ma wpływu na indeksowanie.

307 (temporary redirect) Odpowiednik: 302.
308 (moved permanently) Odpowiednik: 301.

4xx (client errors)

Google nie używa treści z adresów URL, które zwracają kod stanu 4xx. Jeśli adres URL był wcześniej używany, ale teraz zwraca kod stanu 4xx, systemy Google z czasem przestaną go używać. W przypadku wyszukiwarki Google nie indeksuje adresów URL, które zwracają kod stanu 4xx. Adresy URL, które zostały już zindeksowane i zwracają kod stanu 4xx, są usuwane z indeksu.

Wszelkie treści otrzymane przez Google z adresów URL, które zwracają kod stanu 4xx, są ignorowane.

400 (bad request)

Wszystkie błędy 4xx (poza błędem 429) są traktowane tak samo: roboty Google informują kolejny system przetwarzania, że treści nie istnieją.

W przypadku wyszukiwarki Google proces indeksowania usuwa adres URL z indeksu, jeśli wcześniej został zindeksowany. Nowo napotkane strony z kodem 404 nie są przetwarzane. Częstotliwość indeksowania powoli się zmniejsza.

401 (unauthorized)
403 (forbidden)
404 (not found)
410 (gone)
411 (length required)
429 (too many requests)

Roboty Google traktują kod stanu 429 jako sygnał, że serwer jest przeciążony, i uznają go za błąd serwera.

5xx (server errors)

Błędy serwera 5xx429 informują roboty Google, że na jakiś czas należy zwolnić indeksowanie. W przypadku wyszukiwarki Google zindeksowane już adresy URL są zachowywane w indeksie, ale po jakimś czasie są z niego usuwane.

Wszelkie treści otrzymane przez Google z adresów URL, które zwracają kod stanu 5xx, są ignorowane. W przypadku plików robots.txt dowiedz się, jak Google obsługuje plik robots.txt, który zwraca kod stanu 5xx.

Gdy serwer zacznie odpowiadać kodem stanu 2xx, Google stopniowo zwiększy szybkość indeksowania witryny.

500 (internal server error)

Googlebot zmniejsza szybkość indeksowania witryny. Spadek szybkości indeksowania jest proporcjonalny do liczby poszczególnych adresów URL, które zwracają błąd serwera. W przypadku wyszukiwarki Google proces indeksowania usuwa z indeksu adresy URL, które stale zwracają błąd serwera.

502 (bad gateway)
503 (service unavailable)