CityHost.UA
Pomoc i wsparcie

Co to jest robots.txt | Jak skonfigurować robots.txt dla WordPress

 8924
10.05.2019
article ```json

 


robots.txt – to plik tekstowy w kodowaniu UTF-8, który wskazuje robotom wyszukiwarek, które strony witryny należy skanować, a które – nie. Znajduje się w katalogu głównym zasobu. Jak zobaczyć robots.txt strony? Na przykład, na stronie Cityhost można go znaleźć pod adresem https://cityhost.ua/robots.txt.

Przeczytaj także: Gdzie znajduje się robots.txt w WordPress?

Poprawnie skonstruowany robots.txt wskazuje robotom Google i innych wyszukiwarek, czego nie należy skanować:

  • strony z danymi osobowymi zarejestrowanych użytkowników (na przykład, konta klientów w sklepach internetowych);
  • strony z wynikami wewnętrznego wyszukiwania na stronie;
  • strony do logowania się do panelu sterowania witryną;
  • strony, które powodują duplikację treści.

A jeśli dopiero wnikasz w podstawy webmasteringu, z pewnością już rozumiesz, że teoretyczna wiedza w tej dziedzinie powinna być od razu utrwalana w praktyce. W tym celu zamów tani hosting CityHost z najnowszą wersją PHP, bazami danych MySQL i dostępem przez protokół SSH, stwórz bloga lub sklep internetowy na ulubionym silniku i doskonal swoje umiejętności administracji strony na rzeczywistym przykładzie.

Przeczytaj także: Jak zainstalować WordPress na hostingu

Jak stworzyć i skonfigurować robots.txt dla WordPress

Aby stworzyć poprawny robots.txt, potrzebne będzie:

  • edytor tekstu (na przykład, Notepad++, Atom lub nawet standardowy Notatnik Windows);
  • klient FTP (na przykład, FileZilla, WinSCP lub Cyberduck);
  • 10–15 minut wolnego czasu.

Uwaga. Jeśli nie umiesz pracować z klientami FTP i twoja strona jest umieszczona na CityHost, możesz dodać skonfigurowany WordPress robots txt przez menedżera plików w panelu sterowania hostingiem.

Najpierw otwórz edytor tekstu, stwórz nowy plik i zapisz go pod nazwą robots oraz rozszerzeniem .txt. Ważne, aby wszystkie litery były napisane małymi literami. Warianty Robots.txt, robots.TXT lub ROBOTS.txt – są niepoprawne.

Przeczytaj także: Co to są słowa kluczowe i jak je dobrać.

Następnie dodaj do pliku następujący kod i zamień link w ostatnim wierszu na adres URL mapy XML twojej strony:

User-agent: *

Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Disallow: *utm*=
Disallow: *openstat=
Allow: */uploads

Sitemap: https://example.com/sitemap.xml

Proponujemy szczegółowo zapoznać się z składnią tego przykładu robots.txt dla WordPress:

  • User-agent – określa, dla jakich robotów sieciowych napisane są zasady poniżej. Wartość * wskazuje, że wszystko, co napisane dalej w robots.txt, powinno być brane pod uwagę przez wszystkie istniejące roboty wyszukiwarek.
  • Disallow – wskazuje robotom sieciowym katalogi lub pliki, których nie należy skanować podczas przeszukiwania. Dla witryn WordPress zaleca się zamknięcie przed skanowaniem stron archiwów autorów, wyników wyszukiwania, logowania do konsoli silnika oraz kanałów RSS itp. To ochroni stronę przed duplikowaniem treści i uniemożliwi pojawienie się w wynikach wyszukiwania stron, które tam nie powinny być.
  • Allow – wskazuje robotom wyszukiwarek katalogi lub pliki, które należy skanować podczas przeszukiwania. W naszym przykładzie otwarty jest katalog uploads, w którym przechowywane są obrazy opublikowane na stronie.
  • Sitemap – wskazuje na mapę witryny. Jeśli map XML jest więcej niż jedna, wpisz każdą z nich w robots.txt oddzielnym wierszem, który zaczyna się od Sitemap:.

Ostatni krok – przesłanie robots txt do katalogu głównego witryny za pomocą klienta FTP lub menedżera plików w panelu sterowania hostingiem. Aby sprawdzić, czy przesłanie przebiegło pomyślnie, przejdź pod adres http://example.com/robots.txt, zastępując example.com domeną twojej strony. Jeśli wszystko zostało zrobione poprawnie, zobaczysz stronę, na której wyświetli się przedstawiony powyżej kod.

A zresztą, co się stanie, jeśli zastosujesz w robots.txt disallow all?

Jeśli chcesz zabronić wszystkim robotom wyszukiwania skanowania strony, użyj zawartości pliku robots.txt:

User-agent: *
Disallow: /

Taka konfiguracja może negatywnie wpłynąć na SEO, ponieważ wyszukiwarki nie będą mogły indeksować stron. Używaj jej ostrożnie, na przykład dla stron w fazie rozwoju.

Przeczytaj także: Co to jest WHOIS, do czego jest używany i jak sprawdzić domenę

Jak sprawdzić robots.txt pod kątem błędów

Dowiedziałeś się, jak skonfigurować robots.txt dla WordPress, a następny krok – sprawdzenie poprawności jego składni. Aby to zrobić, wykonaj następujące kroki:

  1. Otwórz «Narzędzie do sprawdzania pliku robots.txt», które znajduje się w starej wersji Google Search Console (punkt menu «Skanowanie»).
  2. Skopiuj zawartość pliku robots.txt i wklej ją w oknie edytora.

  3. Upewnij się, że w lewym dolnym rogu okna edytora liczba błędów i ostrzeżeń wynosi zero. Jeśli występują problemy z składnią pliku, w tym wierszu zostanie podana liczba błędów lub zaleceń, a po lewej stronie wiersza edytora z niepoprawnymi informacjami wyświetli się czerwona lub pomarańczowa ikona. Najedź na nią kursorem, a zobaczysz opis błędu.

Jeśli pod oknem edytora «Narzędzia do sprawdzania pliku robots.txt» widzisz linię «Błędów: 0, Ostrzeżeń: 0», powiadom wyszukiwarkę o zmianach w robots.txt. W tym celu naciśnij przycisk «Wyślij» w prawym dolnym rogu edytora. Potwierdź wysłanie żądania aktualizacji pliku, klikając przycisk «Wyślij» obok opcji nr 3 w pojawiającym się oknie.

Dlaczego ważne jest poprawne skonfigurowanie robots.txt

W styczniu 2017 roku analityk działu jakości «korporacji dobra» Gary Illyes opublikował na oficjalnym blogu Google dla webmasterów artykuł «Co oznacza budżet crawl dla Googlebota». W nim zaznaczył, że jeśli robot sieciowy napotka na stronie niskiej jakości lub duplikujące się strony, prędkość i częstotliwość skanowania zmniejszy się. Negatywnym skutkiem tego jest to, że po dodaniu nowej treści na twojej stronie, pojawi się ona w wynikach wyszukiwania nieprędko.

Poprawnie skonfigurowany robots txt dla WordPress zapobiega skanowaniu przez roboty wyszukiwarek duplikatów i stron, które nie niosą dla odwiedzających żadnej wartości. I, biorąc pod uwagę to, jest równie ważnym elementem technicznej optymalizacji strony, jak na przykład, poprawnie skonstruowana i automatycznie aktualizowana mapa strony lub włączona kompresja gzip.

Kolejną cechą strony, która pozytywnie wpływa zarówno na optymalizację wyszukiwania, jak i na poziom zadowolenia odwiedzających – jest wysoka prędkość ładowania stron internetowych. W tym może pomóc wynajem serwera dedykowanego lub tańsza opcja   —  serwer wirtualny. Zasobów tutaj będzie wystarczająco, aby stworzyć sklep internetowy, portal online lub bloga, który będzie szybki, niezawodny i bezpieczny.

Czy publikacja była pouczająca? Jeśli tak, podziel się nią w mediach społecznościowych i dołącz do naszego kanału Telegram. Przypominamy, że firma hostingowa CityHost oferuje usługi taniego hostingu dla stron o dowolnej złożoności. W sprawach technicznych skontaktuj się z czatem online lub telefonicznie ☎️ 0 800 219 220.

```


Podobał Ci się artykuł? Powiedz o nim znajomym:

Author: Bohdana Haivoronska

Journalist (since 2003), IT copywriter (since 2013), content marketer at Cityhost.ua. Specializes in articles about technology, creation and promotion of sites.