Что такое robots.txt ?
Это обычный текстовый файл и располагается в корне вашего сайта и отвечает за индексацию страниц, управляет роботами поисковых машин Yandex Google и других, главная же его задача — ограничивать им доступ к сайту. При неверной настройке этого файла можно не только вылететь из поисковой выдачи, но и занести свой сайт в их черный список. Поэтому нужно уделить этому вопросу должное внимание.
Ограничение доступа поисковым системам к сайту необходимо для того, чтобы они не индексировали служебную информацию о сайте, какие плагины у вас установлены, какой доступ к админке сайта и дубликатам страниц (которых не мало).
К ним относятся архивы новостей и страниц по меткам, по дате, архивы по авторам, по категориям. Если не закрыть их от индексации, то в поисковой выдаче могут появиться варианты одних и тех же страниц и новостей, что поисковики воспримут как спам и исключат ваш сайт из поисковой выдачи.
Так же в robots.txt указывается главное зеркало вашего сайта. URL может выглядеть как www.urokwp.ru или urokwp.ru, для поисковых машин это два разных сайта. Дополнительно указывается карта сайта sitemap.xml на которую тоже ориентируются поисковые машины. Как создать карту сайта рассмотрим в следующем уроке.
Правильный файл robots.txt :
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: */comments
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /category/*/*
Disallow: /wp-login.php
Disallow: /tag
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: */comments
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /category/*/*
Disallow: /wp-login.php
Disallow: /tag
Host: http://urokwp.ru/
Sitemap: http://urokwp.ru/sitemap.xml
Sitemap: http://urokwp.ru/sitemap.xml.gz
Создайте у себя текстовый файл robots.txt, скопируйте в него эти данные из примера и разместите в корне сайта на сервере. Только не забудьте заменить адрес сайта на свой 🙂
Что есть что в нем
- User-agent: определяет к какому поисковику относятся правила.
- Disallow: закрывает доступ поисковикам к разделам сайта.
- Host: указывает главное зеркало сайта.
- Sitemap: указывает расположение карты сайта sitemap.xml
После загрузки файла проверить его доступность можно по адресу http://ваш сайт/robots.txt
А с какой целью директивы для Яндекса вынесены отдельными записями, если же первая строчка «User-agent: *» со звёздочкой сама собой определяет «все поисковики»???
для надежности 🙂 чтобы яшке понятней было. он у нас не блещет умом и сообразительностью