CityHost.UA
Допомога і підтримка

Що таке robots.txt | Як налаштувати robots.txt для WordPress

 6921
10.05.2019
article

 


robots.txt — це текстовий файл у кодуванні UTF-8, який підказує пошуковим роботам, які сторінки сайту варто сканувати, а які — ні. Розташовується в кореневій директорії ресурсу. Як подивитися robots.txt сайту? Наприклад, на сайті Cityhost його можна знайти за адресою https://cityhost.ua/robots.txt.

Читайте також: Де знаходиться robots.txt в Wordpress?

Правильно налаштований robots.txt підкаже веб-павукам Google та інших пошукових систем про те, що не потрібно сканувати:

  • сторінки з персональною інформацією зареєстрованих користувачів (наприклад, кабінети покупців в інтернет-магазинах);
  • сторінки з результатами внутрішнього пошуку на сайті;
  • сторінки для входу в панель управління сайтом;
  • сторінки, які спричиняють дублювання контенту.

А якщо ви поки тільки вникаєте в ази веб-мастерингу, напевно вже розумієте, що теоретичні знання в цій галузі в ідеалі відразу ж треба закріплювати на практиці. Для цього замовляйте недорогий хостинг СітіХост з останньою версією PHP, базами даних MySQL і доступом через протокол SSH, створюйте блог або інтернет-магазин на улюбленому движку і відточуйте майстерність адміністрування сайту на реальному прикладі.

Читайте також: Як встановити WordPress на хостинг

Як створити й налаштувати robots.txt для WordPress

Щоби створити коректний robots.txt, знадобиться:

  • текстовий редактор (наприклад, Notepad++, Atom або навіть стандартний Віндоус Блокнот);
  • FTP-клієнт (наприклад, FileZilla, WinSCP або Cyberduck);
  • 10–15 хвилин вільного часу.

Примітка. Якщо не вмієте працювати з FTP-клієнтами і ваш сайт розміщений на СітіХост, додати налаштований WordPress robots txt зможете через файловий менеджер у панелі управління хостингом.

Насамперед відкрийте текстовий редактор, створіть новий файл і збережіть його з ім’ям robots і розширенням .txt. Важливо, щоб усі букви були написані в нижньому регістрі. Варіанти Robots.txt, robots.TXT або ROBOTS.txt — некоректні.

Далі додайте у файл такий код і замініть посилання в останньому рядку на URL XML-мапу вашого сайту: [СКРИНШОТ]

User-agent: *

Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Disallow: *utm*=
Disallow: *openstat=
Allow: */uploads

Sitemap: https://example.com/sitemap.xml

Пропонуємо детально розібратися із синтаксисом цього прикладу robots.txt для WordPress:

  • User-agent — визначає, для яких веб-павуків написані правила нижче. Значення * вказує на те, що написане далі в robots.txt повинні брати до уваги всі пошукові роботи.
  • Disallow — вказує веб-павукам на директорії або файли, які не слід сканувати під час обходу. Для WordPress-сайтів рекомендується закрити від сканування сторінки архівів авторів, результатів пошуку, входу в Майстерню движка, а також RSS-стрічку та ін. Це захистить сайт від дублювання контенту і стане на заваді потраплянню у видачу пошуковиків сторінок, яким там не місце.
  • Allow — вказує пошуковим роботам на директорії або файли, які слід сканувати під час обходу. У нашому прикладі відкрита директорія uploads, у якій зберігаються зображення, які містить цей сайт.
  • Sitemap — вказує на мапу сайту. Якщо XML-мапи дві й більше, пропишіть кожну з них в robots.txt окремим рядком, який починається з Sitemap:.

Останній крок — завантаження robots txt в кореневу директорію сайту з допомогою FTP-клієнта або файлового менеджера в панелі управління хостингом. Для перевірки того, чи було завантаження виконане успішно, перейдіть за адресою http://example.com/robots.txt, замінивши example.com на домен вашого сайту. Якщо все зроблено правильно, побачите сторінку, на якій відображається представлений вище код.

До речі, що буде, якщо застосувати в robots.txt disallow all? 

Якщо потрібно заборонити всім пошуковим роботам сканувати сайт, використовуйте такий вміст файлу robots.txt:

User-agent: *
Disallow: /

Така конфігурація може негативно вплинути на SEO, оскільки пошукові системи не зможуть індексувати сторінки. Використовуйте її обережно, наприклад, для сайтів на стадії розробки.

Читайте також: Що таке WHOIS, для чого його використовують та як перевірити домен

Як перевірити robots.txt на помилки

Ви дізналися як налаштувати robots.txt для WordPress і наступний крок — перевірка на правильність його складання. Для цього виконайте такі дії:

  1. Відкрийте «Інструмент перевірки файлу robots.txt», який знайдете в старій версії Google Search Console (пункт меню «Сканування»).
  2. Скопіюйте вміст файлу robots.txt і вставте його у вікно редагування.
  3. Переконайтеся, що в нижньому лівому кутку вікна редагування кількість помилок і попереджень дорівнює нулю. Якщо проблеми із синтаксисом файлу мають місце, у цьому рядку буде вказано кількість помилок або рекомендацій, а зліва від рядка редактора з некоректною інформацією відобразиться червоний або помаранчевий значок. Навівши на нього курсор, ви побачите опис помилки.

Якщо під вікном редагування «Інструменту перевірки файлу robots.txt» ви бачите рядок «Помилок: 0, Попереджень: 0», повідомте пошуковик про зміни в robots.txt. Для цього натисніть кнопку «Відправити» в правому нижньому кутку редактора. Підтвердіть відправку запиту на оновлення файлу, натиснувши кнопку «Відправити» біля варіанту № 3 у віконці, що з’явилося.

Читайте також: Що таке ключові фрази та як їх підібрати.

Чому важливо правильно налаштувати robots.txt

У січні 2017 року аналітик відділу якості «корпорації добра» Гері Ієш опублікував в офіційному блозі Google для веб-майстрів статтю «Що означає краулінговий бюджет для Googlebot». У ній він зазначив що, у разі, якщо веб-павук під час обходу сайту зустрічатиме неякісні сторінки або такі, що дублюють зміст іншої сторінки, швидкість і частота сканування зменшиться. Негативний наслідок цього в тому, що після додавання на ваш сайт нового контенту, він з’явиться у видачі нескоро.

Коректно настроєний robots txt для WordPress перешкоджає скануванню пошуковими роботами дублів і сторінок, які не несуть для відвідувачів ніякої цінності. І, з огляду на це, є не менш важливим елементом технічної оптимізації сайту ніж, наприклад, правильно складена й автоматично оновлювана мапа сайту або ввімкнена gzip-компресія.

Ще одна характеристика сайту, яка позитивно впливає й на пошукову оптимізацію, і на рівень задоволеності відвідувачів — висока швидкість завантаження веб-сторінок. В цьому може допомогти оренда виділеного сервера, або варіант дешевше — віртуальний сенрвер. Ресурсів буде достатньо, щоб зробити інтернет-магазин, онлайн-портал або блог швидким, надійним і безпечним.

Публікація була пізнавальною? Тоді поділіться нею в соціальних мережах та додавайтеся в наш Telegram канал. Нагадаємо, що хостинг-компанія CityHost надає послуги недорогого хостингу для сайтів будь-якої складності. З технічних питань звертайтесь за допомогою онлайн чата або по телефону ☎️ 0 800 219 220.


Сподобалася стаття? Розкажіть про неї друзям:

Автор: Богдана Гайворонська

Журналіст (з 2003 року), IT-копірайтер (з 2013 року), контент-маркетолог Cityhost.ua. Спеціалізується на статтях про технології, створення та просування сайтів.