W raporcie „Stan” w Google Search Console widzimy przede wszystkim 4 stany mogące się odnosić do konkretnych podstron naszego serwisu:
  • Błąd
  • Prawidłowe z ostrzeżeniami
  • Prawidłowe
  • Wykluczone

Błąd

Jeśli chodzi o strony mające status błędu to przyczyny takiego stanu rzeczy może być wiele. Najczęstrze to:

Błąd serwera (5xx)

Błąd świadczący jednoznacznie o jakiś problemach z serwerem odpowiadającym za podawanie naszej strony. Tego typu błąd może się pojawić choćby w przypadku zbytniego przeciążenia serwera wynikającego np. ze zbyt dużego ruchu na naszej stronie. Warto uważnie monitorować czy tego typu błędy nie pojawiają się cyklicznie.

Nie udało się odnaleźć przesłanego URL-a (404)

Dość klasyczna sytuacja gdy bot wyszukiwarki albo też użytkownik starają się wejść na konkretny URL dostając jednak w odpowiedzi info, że takiego adresu nie ma. Oczywiście trudno jest ot tak stwierdzić przyczynę. Błąd 404 może wynikać z faktu, że danego adresu nigdy nie było i np. w jakimś linku wkradł się błąd. To już jednak jest istotna informacja bowiem być może w ramach linkowania wewnętrznego albo w ramach profilu linków prowadzących do naszej strony posiadamy nieprawidłowe linki, które warto poprawić. Jednak możemy mieć do czynienia również z sytuacją gdy pod danym adresem faktycznie znajdowała się jakaś treść, która teraz jest niedostępna. Z takim problemem możemy się spotkać choćby podczas migracji naszej strony gdy np. nie wszystkie treści zostaną przeniesione na nową wersję albo gdy w ramach nowej wersji zmieni się struktura URLi a my zapomnimy o przekierowaniach.

Błąd przekierowania

Google trafiając na adres jest świadomy tego, że być może zostanie przekierowany na inny URL choćby ze względu na to, że dana treść została już usunięta. Jednak oczekiwanym stanem jest po prostu proste przekierowanie z adresu A na adres B. Jeśli zatem robot wyszukiwarki trafiając na ten adres B otrzymuje kolejne przekierowanie a potem jeszcze jedno i jeszcze to w pewnym momencie może uznać, że za dużo tego dobrego i taki łańcuch przekierowań zostanie właśnie zaklasyfikowany jako błąd przekierowania. Tak samo stanie się też w przypadku gdy po przekierowaniu z adresu A na adres B bot będzie ponownie przekierowywany na A, które przecież przekierowuje go na B. To z kolei jest tak zwana pętla przekierowań i również ona zaklasyfikowana zostanie jako błąd przekierowania.

Przesłany adres URL wydaje się zgłaszać pozorny błąd 404

O tego typu błędzie mówimy najczęściej gdy następuje niespójność pomiędzy informacją jaką przekazujemy użytkownikowi i botowi wyszukiwarki. Dla użytkownika sprawa jest prosta, gdy trafia na stronę z informacją, że taki adres nie istnieje to już wie że albo podał zły adres albo dana podstrona faktycznie już dłużej nie jest dostępna. Jednak dla bota nawet istotniejsze jest to jaki kod odpowiedzi serwera otrzyma trafiając na taki adres. Jeśli bowiem jest to strona, która już zakończyła swój żywot a bot mimo to dostaje kod 200 to ma wątpliwości jak to interpretować. Dlatego właśnie taka sytuacja uznawana jest za pozorny błąd 404.

Przesłany URL zawiera błędy indeksowania

Może się zdarzyć, że Google napotyka na błąd przy próbie indeksowania nieokreślony błąd niezwiązany z żadnym z wcześniej wspomnianych problemów. W takim wypadku dany URL wymaga dokładniejszej analizy celem określenia co może uniemożliwiać indeksację.

Prawidłowe z ostrzeżeniami

W tym wypadku mamy do czynienia ze stronami, które świadomie lub nie blokujemy poprzez plik robots.txt. Google sam wskazuje, że nie jest to poprawna sytuacja bowiem jeśli faktycznie nie chcemy aby jakie konkretne podstrony trafiały do indeksu to powinniśmy zastosować noindex. Warto więc przejrzeć dokładnie listę tych adresów i sprawdzić czy faktycznie naszym zamiarem było ich blokowanie a jeśli tak to warto od razu oznaczyć je jako noindex. Jednak jeśli na tej liście znajdą się adresy, w przypadku których oczekujemy ich normalnego indeksowania to sprawdźmy plik robots.txt bo być może nieco zbyt ochoczo zabraliśmy się do blokowania pewnych obszarów naszej strony.

Prawidłowy

Stan najbardziej oczekiwany i dotyczący stron, w przypadku których Google nie miał żadnych problemów z indeksacją. Mamy tutaj do czynienia przede wszystkim ze stronami, które zostały przesłane do Google’a (w ramach mapy witryny) i poprawnie zaindeksowane. Jednak w tym miejscu naszą uwagę powinny zwrócić dodatkowo te strony, które Google zaindeksował mimo, że nie były przesyłane. Być może na naszej stronie indeksują się jakieś treści, których indeksowania nie oczekiwaliśmy.

Wykluczono

W przypadku tego stanu mamy do czynienia z największą liczbą możliwych przyczyn. Mówiąc wprost mamy tutaj do czynienia z adresami, które z różnych względów nie mogą się znaleźć w indeksie co wbrew pozorom wcale nie oznacza jednak, że są błędne.

Strona wykluczona za pomocą tagu noindex

Google podczas indeksowania stron zwraca uwagę na to czy życzymy sobie indeksowania konkretnych podstron. Blokować je możemy zarówno na poziomie pliku robots.txt jak i przy wykorzystaniu tagu noindex. To drugie rozwiązanie jest nawet bardziej wskazane aczkolwiek musimy uważać na to czy tag ten faktycznie znalazł się na tych stronach, na których to sobie zakładaliśmy. Jeśli więc przy jakiejś stronie mamy taki status to sprawdźmy czy faktycznie jest to strona, której nie chcieliśmy mieć w indeksie Google. Jeśli tak właśnie jest to wszystko ok gdyż bot natrafił na noindex i zgodnie z naszym życzeniem wykluczył dany adres z indeksowania. Jeśli jednak jest to strona zaplanowana do indeksowania to lepiej jak najszybciej usunąć z niej ten tag.

Strona zablokowana przez plik robots.txt

Dany URL jest zablokowany przez indeksowaniem w wyniku zasad jakie określiliśmy w pliku robots.txt. Pamiętajmy o tym, że nie jest to metoda idealnie chroniąca przed indeksacją zwłaszcza momencie gdy do konkretnej podstrony prowadzą linki z innych stron i Google może do niej bez trudu dotrzeć indeksując ją. Jeśli faktycznie nie chcemy aby dana strona była indeksowana to skuteczniejszym rozwiązaniem jest wykorzystanie tagu noindex.

Zablokowane przez narzędzie do usuwania stron

Konkretny URL został zgłoszony do usunięcia z indeksu. Warto zatem sprawdzić czy faktycznie jest to podstrona, której chcemy się pozbyć z indeksu wyszukiwarki. Jeśli tak musimy być świadomi tego, że żądanie usunięcia z indeksu nie doprowadzi do trwałego usunięcia danej treści z indeksu wyszukiwarki. Po pewnym czasie Google może ponownie zaindeksować taką treść. Jeśli zatem chcemy trwale zabezpieczyć ją przed indeksowaniem zadbajmy o oznaczenie jej tagiem noindex.

Zablokowano z powodu nieautoryzowanego żądania (401)

Google nie może dostać się do takiej treści ponieważ dostęp do niej wymaga autoryzacji. Zastanów się zatem dobrze czy aby na pewno chce indeksować takie treści i jeśli tak to zadbaj o to aby Google miało do nich dostęp bez konieczności logowania.

Nieprawidłowość związana ze skanowaniem

Taki status może być związany zarówno z błędami niedostępności na poziomie naszej strony a więc choćby natrafianiem na 404 jak i błędami na poziomie serwera. Na początek warto poprzez Google Search Console skorzystać z funkcji „Pobierz jako Google”. Być może dostrzeżemy już wtedy jakie problemy może napotykać robot wyszukiwarki przy próbie dostępu do konkretnego adresu. Do czasu rozwiązania problemów taka strona nie zostanie zaindeksowana.

Strona zeskanowana, ale jeszcze nie zaindeksowana

Strona została już przecrawlowana jednak nie trafiła jeszcze do indeksu co może wynikać tak naprawdę z różnych przyczyn.

Strona wykryta – obecnie nie zaindeksowana

Google już wie o istnieniu tej strony ale jeszcze jej nie crawlował. Może to być wynikiem sytuacji gdy podjęta już była próba crawlu jednak strona była zbyt obciążona. W takim wypadku Google przystąpi do ponownej próby crawlu w późniejszym czasie.

Alternatywna strona zawierająca prawidłowy tag strony kanonicznej

W tym wypadku mamy do czynienia ze stroną, która jest duplikatem ale ma poprawnie wskazaną poprzez canonical swój oryginał. Tak więc w tym wypadku nie jest już konieczne żadne działanie z naszej strony bowiem w tym wypadku mamy do czynienia z poprawnym działaniem tagu canonical.

Duplikat, użytkownik nie oznaczył strony kanonicznej

Wskazany URL posiada swoje zduplikowane wersje i Google wykrył, że nie są one poprawnie oznaczone przy wykorzystaniu canonicali. Tak więc powinniśmy przede wszystkim wskazać stronę kanoniczną dla tej bowiem Google uważa, że ta konkretna strona nie jest kanoniczna.

Zduplikowana strona nie HTML

Tutaj również mamy do czynienia z problemem duplikacji związanym jednak z niestandardowym typem treści, którym może być choćby plik PDF. Google określił, że dla takiej treści istnienie wersja kanoniczna i dlatego nie zamierza indeksować takich duplikatów.

Duplikat, wyszukiwarka Google wybrała inną stronę kanoniczną niż użytkownik

Tutaj z kolei mamy do czynienia ze stroną, która jest oznaczona jako kanoniczna ale Google uważa, że inny URL powinien być kanoniczny. Dlatego też indeksuje właśnie tą stronę, która jego zdaniem lepiej spełnią rolę kanonicznej. Dlatego też lepiej faktycznie uznać tą stronę za duplikat wskazać jako stronę kanoniczną tą wybraną przez Google’a.

Duplikat, przesłany URL nie został oznaczony jako strona kanoniczna

Jest to status dla strony, którą zgłosiliśmy wyszukiwarce do zaindeksowania lecz została ona uznana za duplikat, który prawdopodobnie posiada swoją stronę kanoniczną. Musimy być świadomi, że Google trafiając na zbiór duplikatów danej treści zaindeksuje jedynie stronę, którą uzna za kanoniczną a duplikaty zostaną zignorowane. Upewnijmy się zatem czy taka podstrona ma poprawnie wskazaną stronę kanoniczną i czy przypadkiem choćby poprzez mapę naszej strony nie zgłaszamy masowo takich URLi zamiast ich wersji kanonicznych.

Nie znaleziono (404)

Tutaj mamy do czynienia z dość klasyczną sytuacją gdy bot natrafia na stronę, której nie ma. Podstawowa kwestia to zatem określenie czy ta strona kiedykolwiek istniała. Jeśli nigdy nie było takiego URLa w naszym serwisie to warto zwrócić uwagę na linki, które mogły doprowadzić wyszukiwarkę to takiego adresu. Pierwsze co warto przejrzeć to linki wewnętrzne bowiem być może sami wskazujemy choćby gdzieś w ramach nawigacji na taką nieistniejącą podstronę. W dalszej kolejności dobrze byłoby też przejrzeć linki z innych witryn prowadzące do naszej witryny bowiem może to ktoś inny nieprawidłowo do nas podlinkował. Jeśli jednak ustalimy, że taki URL faktycznie kiedyś istniał to trzeba sprawdzić dlaczego jest już niedostępny. Być może w ramach migracji serwisu nie zrobiliśmy poprawnie przekierowań i ten adres ma swój nowy odpowiednik, na który wystarczy wskazać przekierowaniem.

Strona usunięta z powodu skargi prawnej

Strona została usunięta z indeksu w wyniku skargi prawnej. Mogło się to stać na przykład na mocy europejskiego prawa o ochronie danych.

Strona zawiera przekierowanie

Konkretny adres przekierowuje na inny a co za tym idzie Google nie widzi sensu umieszczania go indeksie. Jest to sytuacja teoretycznie ok aczkolwiek powinniśmy się upewnić, że takie adresy są przekierowane na odpowiednie URLe i prowadzą po prostu do wersji tych podstron dostępnych w ramach nowej adresacji na stronie albo odpowiedników powiązanych z nimi tematycznie. Do tego warto też sprawdzić czy rodzaj przekierowania jest odpowiedni i gdy np. jakąś podstronę trwale przenieśliśmy na dany adres to czy stary URL wskazuje na nowy przekierowaniem 301 a nie przypadkiem 302.

W kolejce do crawlowania

Strona jest w kolejce do crawlowania przez bota wyszukiwarki. Powinno to nastąpić w przeciągu kilku kolejnych dni. Warto po tym czasie sprawdzić czy przecrawlowanej strony się powiodło i z powodzeniem została ona dodana do indeksu.

Pozorny błąd 404

Występuje on zazwyczaj wtedy gdy użytkownik otrzymuje informację o tym, że „Nie znaleziono” co jednak nie idzie w parze z kodem odpowiedzi serwera, którym okazuje się być 200 a nie 404. Tak więc z perspektywy bota wyszukiwarki jest to działająca strona (zwraca kod 200), co do której istnieją jednak wątpliwości czy nie jest jednak stroną błędu 404. W taki przypadku warto zerknąć na tak oznaczone URLe i jeśli faktycznie są to strony zwracające komunikat „Nie znaleziono” to zadbać o to aby kodem odpowiedzi serwera było w tym przypadku 404.

Przesłany URL został usunięty

Strona wyleciała z indeksu z nieokreślonych przyczyn. Możliwe, że było to skutkiem problemów z jej dostępnością wynikających z problemów technicznych witryny lub serwera.