Robots.txt для WordPress
Уже много статей поднято на эту тему, и вот совсем недавно была поднята тема в блоге 7bloggers.ru, на который я недавно подписался. Но перечитав эту кучу статей, я так и не понял, какой же действительно будет правильный robots.txt для WordPress, так как в разных статьях, всё по разному.
Даже вот не так давно читал статью с громким названием – «Правильный Robots.txt для WordPress», НО имея небольшие знания в составлении файла Robots.txt я понял, что это уж точно не идеальный вариант.
Литература.
Поэтому я хочу разобраться, что и как. Переписывать о том для чего он нужен, какие там существуют директивы я не буду, это можно всё прочесть тут:
- Использование robots.txt, от Яндекса
- Используйте файл robots.txt, от Google
- robotstxt.org.ru, на этом сайте можно прочесть про частые ошибки и тут
- Спецификация robots.txt
- Несколько примеров robots.txt для WordPress, и тут robots.txt на codex.wordpress.org
Но всёравно хочется подвести итог. Итак, что я вычитал:
- Директива «User-agent» указывает робота, которому приведён ниже блок инструкций. Нам нужны будут роботы «Yandex» и все остальные «*».
- Перед каждой директивой «User-agent» рекомендуется вставлять пустой перевод строки, но в то же время недопустимо делать переводы строк между другими директивами, кроме «Sitemap».
- Директива «Sitemap» пишется в конце файла, для всех роботов. Перед ней может быть перевод строки.
- Директива «Disallow» запрещает индексировать, а «Allow» делает исключение в подмножестве запретов «Disallow». Но для правильной работы, нужно что бы сначала стоял «Allow», а потом «Disallow». И ещё самое главное, файл robots.txt ничего не разрешает, только запрещает!
- Символ «#» предназначен для описания комментариев, но желательно его не писать.
- Директиву «Host» нужно писать для робота «Yandex», собственно, в большинстве случаев из-за этого и делается разделение правил для роботов. Так же директива «Host» должна быть в конце блока, после «Disallow».
- В файле robots.txt не нужно указывать пути, о которых лучше никому не знать. Существуют другие способы скрыть информацию.
- Меня пугало, нужно ли ставить у «Disallow» на конце директории «/» или нет. Если поставим, то это будет считаться именно для директории запрет, а если нет, то на всё, что будет набрано с этим именем.
- Имя файла robots.txt должно быть в нижнем регистре.
- Чем больше правил, тем роботу будет сложнее индексировать.
- Файл нужно сохранять в UTF-8 кодировки.
Ну, вроде разобрались, я выписал то что меня смущало.
Пишем robots.txt
Если не хочется химичить с этим файлом, то можно написать просто, тогда будет индексироваться всё
User-agent: * Disallow: User-agent: Yandex Disallow: Host: www.domen.ru Sitemap: http://www.domen.ru/sitemap.xml
Теперь я сделаю каркас, то что бывает у всех и что вопросов не должно вызвать
User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/plugins/ Disallow: /wp-content/cache/ Disallow: /wp-content/themes/ Disallow: /wp-register.php Disallow: /wp-login.php Disallow: /xmlrpc.php
Думаю, будет полезно закрыть от индексации скрипты, и страницы с GET параметрами(?t=1), конечно для этого нужно, что бы у вас был настроен ЧПУ и таких страниц не было.
Disallow: /*.php$ Disallow: /*.js$ Disallow: /*.inc$ Disallow: /*.css$ Disallow: /*?
Советуют закрыть вот эти директории. В панели Яндекс.ВебМастер они обычно помещены в ошибки.
Disallow: /trackback Disallow: */trackback Disallow: /feed Disallow: */feed
С остальными ссылками, дела обстоят так: или количество страниц или дубликат материала для ПС(а они этого не любят). Конечно там не всегда засчитывается за дубликат, но всё же.
Disallow: /comments Disallow: */comments Disallow: /search/ Disallow: /author/ Disallow: /category/ Disallow: /tag/
Некоторые параметры.
«Disallow: /wp-content/» — ну в принципе можно. Но тогда вы запретите к индексации те картинки, которые будут на странице, ведь обычно они загружаются в папку /wp-content/uploads/дата/. Можно, конечно это запретить, а правилом Allow открыть папку uploads, но я не стал заостряться.
«Disallow: /*. jpg$» — и другие файлы картинок, тогда это приведёт тоже к запрету их индексирования.
«Disallow: /xmlrpc.php» – я так и не понял что это за зверь, но все советуют закрыть от индексирования. Да и в панели Яндекс.ВебМастер ссылается на него с ошибкой.
«Disallow: /*?» – да вроде же это делает то же самое, что и «Disallow: /*?*» но встречал их вместе, пошёл проверять в «Анализ robots.txt«, а он мне на правило «Disallow: /*?» Пишет «запрещен правилом /*?*«. Так что и не знаю, оставил первый вариант.
Лишние правила.
После того, как соединил всё, что написал, возникло несколько правил, которые повторяются.Ну например мы закрыли файлы wp-register.php, wp-login.php и в то же время, мы запретитли индексировать все php файлы. И получается несколько правил на одно и то же.
Лучше почистить, так как чем больше файл, тем труднее будет поисковому роботу индексировать сайт.
Странно, у блогеров не заполнен robots.txt.
Далее решил посмотреть robots.txt у остальных блогеров, а тут в подписке по RSS вспомнилась тема «101 SEO блог, которые я читаю«, ведь это то, что надо. Кому-кому, но SEO блогерам виднее.
Конечно, 101 блог я не смог пробежать, но первую половину – осилил. И что я вижу? Я был в шоке! У большинства было написано:
User-agent: * Disallow:
Ну или одно-два условия, видать чисто для виду. Что это? Лень, заговор, или что? Почему у меня(:) а кто я такой?), получилось 50 строк, а у известных блогеров 1-2?
Возможно, поисковым системам не важны дублированные страницы, то тогда конечно. Хотя не понятно, почему не закрывают авторизационные страницы, хотя что с них взять то?
Вывод.
Пока идеальный вариант для меня получился такой http://www.exdll.ru/robots.txt. Но возможно буду фиксировать.
Проверка robots.txt
После того, как составили и загрузили файл, нужно проверить, а вдруг мы допустили какуюнить глупую ошибку и он не читается. Для этого нужно проверить в панели Яндекс.Вебмастер Анализ robots.txt и в инструментах у Google.Вебмастер. Там нужно будет указать несколько страниц сайта, что бы посмотреть будет он их индексировать и не выскочит ли других ошибок.
Ремонт квартир санкт петербурге, Прокат аренда лимузина, Бесплатная юридическая консультация.
августа 16, 2011 21:05
у меня проверил индексацию в яндексе, и он сказал что мои страницы запрещены к индексированию благодаря этой строчке «Disallow: /*?»
июля 16, 2011 01:15
Нужно заменить Хост и адрес для карты сайта.
Ещё можно убрать один лишний тег, но можно и с ним
июля 14, 2011 22:02
Можно у вас скопировать этот robot.txt и он будет подходить для любого сайта на wordpress или нужно адаптировать его под себя?
марта 23, 2011 18:09
Спасибо за подробную статью)
марта 21, 2011 20:47
>Что обозначает Disallow: /*?
страницы с GET параметрами(ну адреса типа ?t=1)
марта 20, 2011 19:41
Что обозначает Disallow: /*?
марта 20, 2010 17:53
Сасибо =) единственный понятный текст по роботсу, который смог найти
сентября 17, 2009 20:49
спасибо за подробное описание параметров в robots.txt для меня как новичка в wordpress
августа 7, 2009 01:17
Надо не так
Disallow: */trackback
Disallow: */feed
Правильнее
Disallow: /*trackback
Disallow: /*feed
С первым вариантом у меня rss спокойно индексирует, проверял через анализатор яндеска, со вторым вариантом закрывает rss
мая 23, 2009 22:48
B-Real, нет, карта сайта сделана уже другим плагином, Dagon Design Sitemap Generator. Как встроить в дизайн написано вот тута http://www.exdll.ru/out/ChdFQwtLGl9XGkFbTQQYVkFRGENQVlVMS1JCCVA=/