Robots.txt для WordPress

Уже много статей поднято на эту тему, и вот совсем недавно была поднята тема в блоге 7bloggers.ru, на который я недавно подписался. Но перечитав эту кучу статей, я так и не понял, какой же действительно будет правильный robots.txt для WordPress, так как в разных статьях, всё по разному.

Даже вот не так давно читал статью с громким названием – «Правильный Robots.txt для WordPress», НО имея небольшие знания в составлении файла Robots.txt я понял, что это уж точно не идеальный вариант.

Литература.

Поэтому я хочу разобраться, что и как. Переписывать о том для чего он нужен, какие там существуют директивы я не буду, это можно всё прочесть тут:
- Использование robots.txt, от Яндекса
- Используйте файл robots.txt, от Google
- robotstxt.org.ru, на этом сайте можно прочесть про частые ошибки и тут
- Спецификация robots.txt
- Несколько примеров robots.txt для WordPress, и тут robots.txt на codex.wordpress.org

Но всёравно хочется подвести итог. Итак, что я вычитал:

- Директива «User-agent» указывает робота, которому приведён ниже блок инструкций. Нам нужны будут роботы «Yandex» и все остальные «*».
- Перед каждой директивой «User-agent» рекомендуется вставлять пустой перевод строки, но в то же время недопустимо делать переводы строк между другими директивами, кроме «Sitemap».
- Директива «Sitemap» пишется в конце файла, для всех роботов. Перед ней может быть перевод строки.
- Директива «Disallow» запрещает индексировать, а «Allow» делает исключение в подмножестве запретов «Disallow». Но для правильной работы, нужно что бы сначала стоял «Allow», а потом «Disallow». И ещё самое главное, файл robots.txt ничего не разрешает, только запрещает!
- Символ «#» предназначен для описания комментариев, но желательно его не писать.
- Директиву «Host» нужно писать для робота «Yandex», собственно, в большинстве случаев из-за этого и делается разделение правил для роботов. Так же директива «Host» должна быть в конце блока, после «Disallow».
- В файле robots.txt не нужно указывать пути, о которых лучше никому не знать. Существуют другие способы скрыть информацию.
- Меня пугало, нужно ли ставить у «Disallow» на конце директории «/» или нет. Если поставим, то это будет считаться именно для директории запрет, а если нет, то на всё, что будет набрано с этим именем.
- Имя файла robots.txt должно быть в нижнем регистре.
- Чем больше правил, тем роботу будет сложнее индексировать.
- Файл нужно сохранять в UTF-8 кодировки.

Ну, вроде разобрались, я выписал то что меня смущало.

Пишем robots.txt

Если не хочется химичить с этим файлом, то можно написать просто, тогда будет индексироваться всё

User-agent: *
Disallow:
 
User-agent: Yandex
Disallow:
Host: www.domen.ru
 
Sitemap: http://www.domen.ru/sitemap.xml

Теперь я сделаю каркас, то что бывает у всех и что вопросов не должно вызвать

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /wp-register.php
Disallow: /wp-login.php
Disallow: /xmlrpc.php

Думаю, будет полезно закрыть от индексации скрипты, и страницы с GET параметрами(?t=1), конечно для этого нужно, что бы у вас был настроен ЧПУ и таких страниц не было.

Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*?

Советуют закрыть вот эти директории. В панели Яндекс.ВебМастер они обычно помещены в ошибки.

Disallow: /trackback
Disallow: */trackback
Disallow: /feed
Disallow: */feed

С остальными ссылками, дела обстоят так: или количество страниц или дубликат материала для ПС(а они этого не любят). Конечно там не всегда засчитывается за дубликат, но всё же.

Disallow: /comments
Disallow: */comments
Disallow: /search/
Disallow: /author/
Disallow: /category/
Disallow: /tag/

Некоторые параметры.

«Disallow: /wp-content/» — ну в принципе можно. Но тогда вы запретите к индексации те картинки, которые будут на странице, ведь обычно они загружаются в папку /wp-content/uploads/дата/. Можно, конечно это запретить, а правилом Allow открыть папку uploads, но я не стал заостряться.
«Disallow: /*. jpg$» — и другие файлы картинок, тогда это приведёт тоже к запрету их индексирования.
«Disallow: /xmlrpc.php» – я так и не понял что это за зверь, но все советуют закрыть от индексирования. Да и в панели Яндекс.ВебМастер ссылается на него с ошибкой.
«Disallow: /*?» – да вроде же это делает то же самое, что и «Disallow: /*?*» но встречал их вместе, пошёл проверять в «Анализ robots.txt«, а он мне на правило «Disallow: /*?» Пишет «запрещен правилом /*?*«. Так что и не знаю, оставил первый вариант.

Лишние правила.

После того, как соединил всё, что написал, возникло несколько правил, которые повторяются.Ну например мы закрыли файлы wp-register.php, wp-login.php и в то же время, мы запретитли индексировать все php файлы. И получается несколько правил на одно и то же.

Лучше почистить, так как чем больше файл, тем труднее будет поисковому роботу индексировать сайт.

Странно, у блогеров не заполнен robots.txt.

Далее решил посмотреть robots.txt у остальных блогеров, а тут в подписке по RSS вспомнилась тема «101 SEO блог, которые я читаю«, ведь это то, что надо. Кому-кому, но SEO блогерам виднее.

Конечно, 101 блог я не смог пробежать, но первую половину – осилил. И что я вижу? Я был в шоке! У большинства было написано:

User-agent: *
Disallow:

Ну или одно-два условия, видать чисто для виду. Что это? Лень, заговор, или что? Почему у меня(:) а кто я такой?), получилось 50 строк, а у известных блогеров 1-2?
Возможно, поисковым системам не важны дублированные страницы, то тогда конечно. Хотя не понятно, почему не закрывают авторизационные страницы, хотя что с них взять то?

Вывод.

Пока идеальный вариант для меня получился такой http://www.exdll.ru/robots.txt. Но возможно буду фиксировать.

Проверка robots.txt

После того, как составили и загрузили файл, нужно проверить, а вдруг мы допустили какуюнить глупую ошибку и он не читается. Для этого нужно проверить в панели Яндекс.Вебмастер Анализ robots.txt и в инструментах у Google.Вебмастер. Там нужно будет указать несколько страниц сайта, что бы посмотреть будет он их индексировать и не выскочит ли других ошибок.

Ремонт квартир санкт петербурге, Прокат аренда лимузина, Бесплатная юридическая консультация.


Интересные записи

16 комментария для “Robots.txt для WordPress

« Предыдущий21Слоедующий »
  • 1
    Ruslan
    августа 16, 2011 21:05

    у меня проверил индексацию в яндексе, и он сказал что мои страницы запрещены к индексированию благодаря этой строчке «Disallow: /*?»

  • 2
    admin
    июля 16, 2011 01:15

    Нужно заменить Хост и адрес для карты сайта.
    Ещё можно убрать один лишний тег, но можно и с ним

  • 3
    Natalya
    июля 14, 2011 22:02

    Можно у вас скопировать этот robot.txt и он будет подходить для любого сайта на wordpress или нужно адаптировать его под себя?

  • 4
    __LEnIN__
    марта 23, 2011 18:09

    Спасибо за подробную статью)

  • 5
    admin
    марта 21, 2011 20:47

    >Что обозначает Disallow: /*?
    страницы с GET параметрами(ну адреса типа ?t=1)

  • 6
    Павел
    марта 20, 2011 19:41

    Что обозначает Disallow: /*?

  • 7
    qqq
    марта 20, 2010 17:53

    Сасибо =) единственный понятный текст по роботсу, который смог найти

  • 8
    symbians
    сентября 17, 2009 20:49

    спасибо за подробное описание параметров в robots.txt для меня как новичка в wordpress

  • 9
    serg
    августа 7, 2009 01:17

    Надо не так
    Disallow: */trackback
    Disallow: */feed

    Правильнее
    Disallow: /*trackback
    Disallow: /*feed

    С первым вариантом у меня rss спокойно индексирует, проверял через анализатор яндеска, со вторым вариантом закрывает rss

  • 10
    ExDll
    мая 23, 2009 22:48

    B-Real, нет, карта сайта сделана уже другим плагином, Dagon Design Sitemap Generator. Как встроить в дизайн написано вот тута http://www.exdll.ru/out/ChdFQwtLGl9XGkFbTQQYVkFRGENQVlVMS1JCCVA=/

« Предыдущий21Слоедующий »

Написать комментарий