Как сделать правильный robots.txt для WordPress.
На сегодняшний день WordPress - самый популярный движок для блогов. Поэтому мы будем рассматривать в этой статье создание robots.txt для WordPress.
Файл robots.txt также как и карта сайта (sitemap.xml) оптимизирует отображение сайта для поисковых систем, тем самым облегчая индексацию и повышая выдачу в них.
Первым делом поисковики, заходя на сайт, сканируют файл robots.txt, так как там написаны правила для индексации страниц вашего сайта. Если такой файл вы не сделаете или он будет пустым, то они будут индексировать всё подряд. За счет этого, ненужные страницы, не несущие никакой ценной информации для посетителей, будут мешать продвигаться в поиске основным страницам.
Файл robots.txt позволяет:
- запретить поиск дублируемых и ненужных страниц;
- запретить поиск страниц и файлов, которые не должны быть видны через поисковые системы;
- полностью запретить индексацию страниц какой-либо системе;
- указать, где находится карта сайта;
- указать какое зеркало сайта будет главным.
Robots.txt создается в обычном Блокноте. В нём нужно прописать все правила для поисковых систем. Затем, поместить в корневой каталог сайта.
Правила создания robots.txt:
- файл robots.txt должен открываться по адресу [ваш_сайт]/robots.txt. Пример: http://mybusinessarea.ru/robots.txt;
- иметь размер не более 32 кб;
- длина одной строки не должна превышать 1024 символа;
- количество директив не должно превышать 1024;
- новая инструкция должна начинаться с директивы User-agent. В файле robots.txt может быть несколько инструкций. В каждой из них должна присутствовать хотя бы одна директива Disallow. Для Яндекса обычно пишут отдельную от всех поисковых систем инструкцию.
Директивы, использующиеся для составления robots.txt:
User-agent - название поисковой системы, к которой обращается robots.txt. Знак «*» означает обращение ко всем поисковикам;
Disallow - запрет на индексацию;
Allow - разрешение на индексацию поисковыми системами;
Sitmap - указание пути к карте сайта;
Host - указание основного зеркала сайта.
Смысл правильного robots.txt состоит в том, чтобы закрыть от индексации служебные страницы движка сайта, пути к шаблонам и дублям страниц.
Пример правильного файла robots.txt:
User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?s= User-agent: Yandex Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?s= Host: mybusinessarea.ru Sitemap: http://mybusinessarea.ru/sitemap.xml
Торможу я с этим robots.txt… Где не посмотришь, у каждого свой вариант, и если ты не очень осведомлен в этих делах, то разобраться становится очень сложно…
Вариантов написания robots.txt действительно много. Экспериментируйте и выбирайте, то написание, с которым Яндекс лучше всего индексирует ваш сайт и именно так, как вам нужно. Для этого не помешает изучить правила его составления.
Да составить его правильно сложная задачка.