Назначение файла robots.txt
К основным функциям выполняемым файлом robots относятся:
- закрытие служебного и конфиденциального контента от индексирования в поисковиках
- закрытие страниц с похожим или дублированным контентом от индексации
Закрытие страниц от индексации естественно не означает, что она закрыта для просмотра, кроме того, это не означает даже, что страница не появится в поисковой выдаче, так как может быть найдена по ссылкам. Просто робот не будет загружать содержание этой страницы и в кэше поисковика ее тоже не будет.
Закрытие служебной информации для wordpress
WordPress 3.0 имеет три служебных каталога и в соответствии с первой функцией файла robots их надо закрыть от индексации:
Disallow: /blog/wp-admin/ Disallow: /blog/wp-includes/ Disallow: /blog/wp-content/
В представленном примере блог располагается в каталоге «blog» сайта.
Кроме перечисленных служебных каталогов в недрах страниц блога запрятаны ссылки еще на два служебных файла, расположенных в корневой директории блога — xmlrpc.php и wp-login.php, их тоже надо закрыть:
Disallow: /blog/wp-login.php Disallow: /blog/xmlrpc.php
Теперь служебная информации закрыта.
Борьба с дублированнием контента
Практически на каждой страницы блога есть ссылка на trackback URL для данной страницы — url_страницы/trackback/. Этот URL в конечном итоге с помощью временного перенаправления 302 указывает на url_страницы. Есть небольшая вероятность, что поисковик может связать содержание с этим url, поэтому раньше я закрывал эти url:
Disallow: /blog/*/trackback
Теперь же я это делать перестал — результат я скоро проверю.
При включенном режиме постоянных ссылок при задании удобного URL wordpress все равно генерирует также стандартную ссылку с «?p=». Я перестал закрывать эти ссылки, так как они перенаправляются постоянным редиректом 301 на удобный URL и, кроме того, wordpress указывает атрибут сanonical в ссылке на читаемый URL.
WordPress группирует посты по датам, категориям и меткам и при этом создается дублирование контента. В случае ценности таких группировок, закрывать их в роботе не надо, поисковик разбирется сам. В маленьком и не очень часто обновляемом блоге вреда от этого больше чем пользы. Поэтому я закрываю все группировки роботом:
Disallow: /blog/2009/ Disallow: /blog/2010/ Disallow: /blog/2011/ Disallow: /blog/tag/ Disallow: /blog/category/
RSS ленты и комментарии
RSS ленты (фиды) закрывать не надо, так как они способствуют быстрейшей индексации блога и не создают дублированного контента. Комментарии это дело вкуса — я не закрываю.
Созданный файл robots.txt
User-agent: * Disallow: /blog/wp-login.php Disallow: /blog/wp-admin/ Disallow: /blog/wp-includes/ Disallow: /blog/wp-content/ Disallow: /blog/xmlrpc.php Disallow: /blog/2009/ Disallow: /blog/2010/ Disallow: /blog/2011/ Disallow: /blog/category/ Disallow: /blog/tag/
p.s. 1.04.2012
нашел еще группировку которую можно закрыть, если есть только один блоггер: /blog/author/
спасибо очень ценная информация, но на мой взгляд необходимо еще одно добавление Disallow: /?feed=
если закрыть
Disallow: /blog/category/
то почему-то все записи от индексации тоже закрываются :(
У меня то он закрыт, а записи то видны :)
Ваш метриал меня очень заинтересовал. Я им воспользуюсь. Благодарю.
Может быть Вас заинтересует возможность создания пассивного дохода.