CityHost.UA
Pomoc i wsparcie

Co to jest robots.txt | Jak skonfigurować robots.txt dla WordPress

 10277
10.05.2019
article

 


robots.txt — to plik tekstowy w kodowaniu UTF-8, który wskazuje robotom wyszukiwarek, które strony witryny należy skanować, a które — nie. Znajduje się w głównym katalogu zasobu. Jak zobaczyć robots.txt witryny? Na przykład, na stronie Cityhost można go znaleźć pod adresem https://cityhost.ua/robots.txt.

Przeczytaj także: Gdzie znajduje się robots.txt w WordPress?

Poprawnie skonfigurowany robots.txt wskaże robotom Google i innych wyszukiwarek, co nie powinno być skanowane:

  • strony z osobistymi informacjami zarejestrowanych użytkowników (na przykład, konta klientów w sklepach internetowych);
  • strony z wynikami wewnętrznego wyszukiwania na stronie;
  • strony do logowania do panelu zarządzania witryną;
  • strony, które powodują duplikację treści.

A jeśli dopiero zaczynasz zgłębiać podstawy webmasteringu, prawdopodobnie już rozumiesz, że teoretyczna wiedza w tej dziedzinie powinna być natychmiast utrwalana w praktyce. W tym celu zamów tani hosting CityHost z najnowszą wersją PHP, bazami danych MySQL i dostępem przez protokół SSH, twórz bloga lub sklep internetowy na ulubionym silniku i doskonal umiejętności administracji witryny na rzeczywistym przykładzie.

Przeczytaj także: Jak zainstalować WordPress na hostingu

Jak stworzyć i skonfigurować robots.txt dla WordPress

Aby stworzyć poprawny robots.txt, potrzebne będzie:

  • edytor tekstu (na przykład Notepad++, Atom lub nawet standardowy Notatnik Windows);
  • klient FTP (na przykład FileZilla, WinSCP lub Cyberduck);
  • 10–15 minut wolnego czasu.

Uwaga. Jeśli nie umiesz pracować z klientami FTP i Twoja strona jest hostowana na CityHost, możesz dodać skonfigurowany WordPress robots txt za pomocą menedżera plików w panelu zarządzania hostingiem.

Najpierw otwórz edytor tekstu, stwórz nowy plik i zapisz go pod nazwą robots z rozszerzeniem .txt. Ważne, aby wszystkie litery były napisane małymi literami. Opcje Robots.txt, robots.TXT lub ROBOTS.txt — są niepoprawne.

GRATULACJE! Znalazłeś prezent od Cityhost — 50% zniżki na przedłużenie Twojego hostingu, domeny lub VPS na 1 rok.

Aby otrzymać prezent, zrób zrzut ekranu tego obrazu i wyślij go jako komentarz do tego posta: https://t.me/cityhostua/489

Jeśli Twój komentarz z tym obrazem będzie pierwszy — masz szczęście, ponieważ prezent może trafić tylko do jednej osoby. Nie zwlekaj!

Ten bonus jest dostępny w ramach akcji „Idę szukać” i obowiązuje od 30 kwietnia do 31 maja 2026 roku włącznie.


Następnie dodaj do pliku taki kod i zamień link w ostatnim wierszu na URL mapy XML Twojej witryny:

User-agent: *

Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Disallow: *utm*=
Disallow: *openstat=
Allow: */uploads

Sitemap: https://example.com/sitemap.xml

Proponujemy dokładnie zapoznać się ze składnią tego przykładu robots.txt dla WordPress:

  • User-agent — określa, dla których robotów sieciowych napisano zasady poniżej. Wartość * wskazuje, że to, co napisano dalej w robots.txt, powinno być brane pod uwagę przez wszystkie roboty wyszukiwarek.
  • Disallow — wskazuje robotom sieciowym katalogi lub pliki, które nie powinny być skanowane podczas przeszukiwania. Dla witryn WordPress zaleca się zablokowanie skanowania stron archiwów autorów, wyników wyszukiwania, logowania do panelu zarządzania silnikiem, a także kanału RSS itp. To ochroni witrynę przed duplikacją treści i zapobiegnie pojawieniu się w wynikach wyszukiwania stron, które nie powinny się tam znajdować.
  • Allow — wskazuje robotom wyszukiwarek katalogi lub pliki, które należy skanować podczas przeszukiwania. W naszym przykładzie otwarty jest katalog uploads, w którym przechowywane są obrazy, które zawiera ta witryna.
  • Sitemap — wskazuje na mapę witryny. Jeśli jest więcej niż jedna mapa XML, wpisz każdą z nich w robots.txt w osobnym wierszu, który zaczyna się od Sitemap:.

Ostatni krok — przesłanie robots txt do głównego katalogu witryny za pomocą klienta FTP lub menedżera plików w panelu zarządzania hostingiem. Aby sprawdzić, czy przesyłanie zostało wykonane pomyślnie, przejdź pod adres http://example.com/robots.txt, zastępując example.com domeną Twojej witryny. Jeśli wszystko zostało zrobione poprawnie, zobaczysz stronę, na której wyświetlany jest przedstawiony powyżej kod.

Przy okazji, co się stanie, jeśli zastosujesz w robots.txt disallow all? 

Jeśli chcesz zabronić wszystkim robotom wyszukiwarek skanowania witryny, użyj takiej zawartości pliku robots.txt:

User-agent: *
Disallow: /

Taka konfiguracja może negatywnie wpłynąć na SEO, ponieważ wyszukiwarki nie będą mogły indeksować stron. Używaj jej ostrożnie, na przykład dla witryn w fazie rozwoju.

Przeczytaj także: Co to jest WHOIS, do czego jest używany i jak sprawdzić domenę

Jak sprawdzić robots.txt pod kątem błędów

Dowiedziałeś się, jak skonfigurować robots.txt dla WordPress, a następny krok — sprawdzenie poprawności jego składania. W tym celu wykonaj następujące kroki:

  1. Otwórz «Narzędzie do sprawdzania pliku robots.txt», które znajdziesz w starej wersji Google Search Console (punkt menu «Skanowanie»).
  2. Skopiuj zawartość pliku robots.txt i wklej ją w okno edytora.
  3. Upewnij się, że w lewym dolnym rogu okna edytora liczba błędów i ostrzeżeń wynosi zero. Jeśli występują problemy z składnią pliku, w tym wierszu zostanie podana liczba błędów lub zaleceń, a po lewej stronie wiersza edytora z niepoprawnymi informacjami pojawi się czerwony lub pomarańczowy znacznik. Najedź na niego kursorem, a zobaczysz opis błędu.

Jeśli pod oknem edytora «Narzędzia do sprawdzania pliku robots.txt» widzisz wiersz «Błędów: 0, Ostrzeżeń: 0», powiadom wyszukiwarkę o zmianach w robots.txt. W tym celu naciśnij przycisk «Wyślij» w prawym dolnym rogu edytora. Potwierdź wysłanie żądania aktualizacji pliku, naciskając przycisk «Wyślij» obok opcji nr 3 w oknie, które się pojawiło.

Przeczytaj także: Co to są frazy kluczowe i jak je dobrać.

Dlaczego ważne jest poprawne skonfigurowanie robots.txt

W styczniu 2017 roku analityk działu jakości „korporacji dobra” Gary Illyes opublikował na oficjalnym blogu Google dla webmasterów artykuł „Co oznacza budżet crawl dla Googlebota”. W nim zauważył, że jeśli robot sieciowy podczas przeszukiwania witryny napotka niskiej jakości strony lub takie, które duplikują treść innej strony, szybkość i częstotliwość skanowania zmniejszy się. Negatywnym skutkiem tego jest to, że po dodaniu nowej treści na Twoją stronę, pojawi się ona w wynikach wyszukiwania nieprędko.

Poprawnie skonfigurowany robots txt dla WordPress zapobiega skanowaniu przez roboty wyszukiwarek duplikatów i stron, które nie niosą dla odwiedzających żadnej wartości. I, biorąc pod uwagę to, jest nie mniej ważnym elementem technicznej optymalizacji witryny niż na przykład poprawnie skonstruowana i automatycznie aktualizowana mapa witryny lub włączona kompresja gzip.

Jeszcze jedna cecha witryny, która pozytywnie wpływa zarówno na optymalizację wyszukiwarek, jak i na poziom satysfakcji odwiedzających — wysoka szybkość ładowania stron internetowych. W tym może pomóc wynajem serwera dedykowanego, lub tańsza opcja — serwer wirtualny. Zasobów będzie wystarczająco, aby uczynić sklep internetowy, portal online lub blog szybkim, niezawodnym i bezpiecznym.

Czy publikacja była pouczająca? Podziel się nią w mediach społecznościowych i dołącz do naszego kanału Telegram. Przypominamy, że firma hostingowa CityHost oferuje usługi taniego hostingu dla witryn wszelkiego rodzaju. W sprawach technicznych skontaktuj się za pomocą czatu online lub telefonicznie ☎️ 0 800 219 220.

Podobał Ci się artykuł? Powiedz o nim znajomym:
Author: Bohdana Haivoronska

Journalist (since 2003), IT copywriter (since 2013), content marketer at Cityhost.ua. Specializes in articles about technology, creation and promotion of sites.