CityHost.UA
Помощь и поддержка

Что такое robots.txt | Как настроить robots.txt для WordPress

article

 

robots.txt – текстовый файл в кодировке UTF-8, который подсказывает поисковым роботам, какие страницы сайта стоит сканировать, а какие – нет. Располагается в корневой директории ресурса. Например, на этом сайте его можно посмотреть по адресу https://cityhost.ua/robots.txt.

 

Правильно составленный robots.txt подскажет веб-паукам Гугла, Яндекса и Бинга о том, что не нужно сканировать:

  • страницы с персональной информацией зарегистрированных пользователей (например, кабинеты покупателей в интернет-магазинах);
  • страницы с результатами внутреннего поиска по сайту;
  • страницы для входа в панель управления сайтом;
  • страницы, которые вызывают дублирование контента.

А если вы пока что только вникаете в азы веб-мастеринга, наверняка уже понимаете, что теоретические знания в этой области в идеале сразу же нужно закреплять на практике. Для этого заказывайте недорогой хостинг СитиХост с последней версией PHP, базами данных MySQL и доступом по протоколу SSH, создавайте блог или интернет-магазин на любимом движке и оттачивайте мастерство администрирования сайта на реальном примере.

 

Как создать и настроить robots.txt для WordPress

Чтобы создать корректный robots.txt, понадобится:

  • текстовый редактор (например, Notepad++, Atom или даже стандартный Виндоус Блокнот);
  • FTP-клиент (например, FileZilla, WinSCP или Cyberduck);
  • 10–15 минут свободного времени.

Примечание. Если не умеете работать с FTP-клиентами и ваш сайт размещен на СитиХост, добавить настроенный WordPress robots txt сможете через файловый менеджер в панели управления хостингом.

Первым делом откройте текстовый редактор, создайте новый файл и сохраните его с именем robots и расширением .txt. Важно, чтобы все буквы были написаны в нижнем регистре. Варианты Robots.txt, robots.TXT или ROBOTS.txt – некорректные.

Читайте также: Что такое ключевы слова и как их подобрать.

Далее добавьте в файл следующий код и замените ссылку в последней строке на URL XML-карты вашего сайта:
 

User-agent: *

Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Disallow: *utm*=
Disallow: *openstat=
Allow: */uploads

Sitemap: https://example.com/sitemap.xml
 

Предлагаем детально разобраться с синтаксисом этого примера robots.txt для WordPress:

  • User-agent – определяет, для каких веб-пауков написаны правила ниже. Значение * указывает на то, что написанное далее в robots.txt должны принимать во внимание все существующие поисковые роботы.
  • Disallow – указывает веб-паукам на директории или файлы, которые не следует сканировать при обходе. Для WordPress-сайтов рекомендуется закрыть от сканирования страницы архивов авторов, результатов поиска, входа в Консоль движка, а также RSS-ленту и пр. Это защитит сайт от дублирования контента и воспрепятствует попаданию в выдачу поисковиков страниц, которым там не место.
  • Allow – указывает поисковым роботам на директории или файлы, которые следует сканировать при обходе. В нашем примере открыта директория uploads, в которой хранятся изображения, опубликованные на сайте.
  • Sitemap – указывает на карту сайта. Если XML-карты две и больше, пропишите каждую из них в robots.txt отдельной строчкой, которая начинается с Sitemap:.
Последний шаг – загрузка robots txt в корневую директорию сайта с помощью FTP-клиента или файлового менеджера в панели управления хостингом. Для проверки того, была ли загрузка выполнена успешно, перейдите по адресу http://example.com/robots.txt, заменив example.com на домен вашего сайта. Если всё сделано правильно, увидите страницу, на которой отображается представленный выше код.
 

Как проверить robots.txt на ошибки

Вы узнали как настроить robots.txt для WordPress и следующий шаг – проверка на правильность его составления. Для этого выполните следующие действия:

  1. Откройте «Инструмент проверки файла robots.txt», который находится в старой версии Google Search Console (пункт меню «Сканирование»).
  2. Скопируйте содержимое файла robots.txt и вставьте его в окно редактирования.

  3. Убедитесь, что в нижнем левом углу окна редактирования количество ошибок и предупреждений равно нулю. Если проблемы с синтаксисом файла имеют место, в этой строке будет указано количество ошибок или рекомендаций, а слева от строки редактора с некорректной информацией отобразится красный или оранжевый значок. Наведя на него курсор, вы увидите описание ошибки.

Если под окном редактирования «Инструмента проверки файла robots.txt» вы видите строку «Ошибок: 0, Предупреждений: 0», сообщите поисковик об изменениях в robots.txt. Для этого нажмите кнопку «Отправить» в правом нижнем углу редактора. Подтвердите отправку запроса на обновление файла, нажав кнопку «Отправить» возле варианта №3 в появившемся окошке.

 

Почему важно правильно настроить robots.txt

В январе 2017 года аналитик отдела качества «корпорации добра» Гэри Ийеш опубликовал в официальном блоге Google для веб-мастеров статью «Что означает краулинговый бюджет для Googlebot». В ней он отметил что, в случае, если веб-паук при обходе сайта будет встречать некачественные или дублирующиеся страницы, скорость и частота сканирования уменьшится. Негативное последствие этого в том, что после добавления на ваш сайт нового контента, он появится в выдаче нескоро.

Корректно настроенный robots txt для WordPress препятствует сканированию поисковыми роботами дублей и страниц, которые не несут для посетителей никакой ценности. И, учитывая это, является не менее важным элементом технической оптимизации сайта чем, например, правильно составленная и автоматически обновляемая карта сайта или включенное gzip-сжатие.

Еще одна характеристика сайта, которая положительно влияет и на поисковую оптимизацию, и на уровень удовлетворенности посетителей – высокая скорость загрузки веб-страниц. В этом может помочь аренда выделенного сервера или вариант дешевле — виртуальный сервер. Ресурсов здесь будет достаточно, чтобы сделать интернет-магазин, онлайн-портал или блог быстрым, надежным и безопасным.