Для того, чтобы узнать есть ли robots.txt на сайте, достаточно просто в адресной строке браузера добавить "/robots.txt", полный вид выглядит так: "http://вашсайт.ru/robots.txt". Практически на каждом интернет ресурсе есть этот robots.txt, именно этот файл определяет и дает поисковому роботу возможность индексировать или не индексировать разделы, категории веб-сайта. Плохо настроенный robots.txt или вообще просто оставленный по-умолчанию, порой может дать плохой результат в поисковой выдаче в виде дублированных страниц, страниц пагинации и так далее. Все это может привести к фильтрам и санкциям со стороны поисковой системы, если в Google это маловероятно, то в Яндексе из-за неверного robots.txt можно легко пропасть из результатов поиска.
Что же такое robots.txt?
Robots.txt - файл формата *.txt расположенный в корневой папке вашего сайта. Файл robots.txt содержит ряд инструкций для поисковых роботов, которые говорят как нужно индексировать веб-сайт. Правильно составленный robots.txt - залог успешной индексации вашего проекта в сети Интернет!
Правила и термины robots.txt
В начале файла robots.txt указана наиболее значимая директива, которая определяет название поискового робота -User-agent. Если ваш ресурс не относится к русскоязычному сегменту, директива будет называться -User-agent: * (для всех поисковых роботов), а для Яндекса добавляем к User-agent нужно добавить название Yandex - User-agent: Yandex.
Затем следуют директивы Allow и Disallow, которые определяют возможность индексирования. Директива Allow разрешает индексацию, а Disallow запрещает.
Если файл robots.txt будет пустой или будет просто отсутствовать, поисковой робот будет индесировать весь сайт, включая ненужные мусорные страницы, которых в поисковой выдаче быть не должно.
Директива Host определяет главное зеркало веб-сайта и ее считывает только робот поисковой системы Яндекс.
Последняя важная часть каждого файла robots.txt в Joomla является директива Sitemap. Именно Sitemap помогает избежать дублированного контента и подсказывает роботу Яндекса правильные адреса на новые материалы. Карта сайта на Joomla указывается в формате XML.
Правильный robots.txt, который рекомендуется использовать на CMS Joomla 2.5 и 3.x:
User-agent: Yandex Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/ Disallow: /layouts/ Disallow: /cli/ Disallow: /bin/ Disallow: /logs/ Disallow: /components/ Disallow: /component/ Disallow: /component/tags* Disallow: /*mailto/ Disallow: /*.pdf Disallow: /*% Disallow: /index.php Host: vash_sait.ru (или www.vash_sait.ru) Sitemap: http://путь к вашей карте XML формата User-agent: * Allow: /*.css?*$ Allow: /*.js?*$ Allow: /*.jpg?*$ Allow: /*.png?*$ Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/ Disallow: /layouts/ Disallow: /cli/ Disallow: /bin/ Disallow: /logs/ Disallow: /components/ Disallow: /component/ Disallow: /*mailto/ Disallow: /*.pdf Disallow: /*% Disallow: /index.php Sitemap: http://путь к вашей карте XML формата
Комментарии
Можно вопрос.
А зачем блокировать media - не будет же индексации картинок.
Зачем блокировать xmlrpc?
И еще вопрос.
Для чего индексировать такие папки как: layouts,cli,bin,logs
Хорошие замечания, поправил код robots.txt
Если у кого-то есть еще что добавить - пишите в комментариях, буду править.
Как дополнение:
Если на сайте протокол http:// то в строчке Host для Яндекса указываем имя домена без протокола moysite.com, а если протокол https:// то его нужно указать обязательно https://moysite.com
непонятно, зачем для Яндекса отдельный робот???
Директиву host понимает только яндекс. Гугл не понимает
В кабинете веб мастера Яндекса указывается основной домен. Так что нет смысла делать для Яндекса отдельный блок только из-за директивы Host
Однако большинство оптимизаторов рекомендуют делать отдельный блок именно для Яндекса
Яша с первого раза не понимает
Я еще закрываю
Disallow: /components/
Disallow: /component/
Disallow: /component/tags*
Disallow: /*mailto/
Disallow: /*.pdf
Disallow: /*%
Disallow: /index.php
Для Гугла добавляю
User-agent: *
Allow: /*.css?*$
Allow: /*.js?*$
Allow: /*.jpg?*$
Allow: /*.png?*$
Значит смотрите какая вещь: если мы закрываем Disallow: /index.php то ссылка на страницу с картой сайта должна быть не
http://site.ru/index.php?option=com_jmap&view=sitemap&format=xml
а
http://site.ru/?option=com_jmap&view=sitemap&format=xml
иначе поисковики не будут ее видеть
Как только не переделывал ссылку в .htaccess, не получалось сделать нужную без индексов и вопросов, а вместе с тем при таком роботе карта поисковику не заходит
скажите, а есть варианты робота для интернет-магазина?
User-agent: *
Allow: /*.css?*$
Allow: /*.less?*$
Allow: /*.js?*$
Allow: /*.jpg?*$
Allow: /*.png?*$
Allow: /*.gif?*$
Allow: /templates/*.css
Allow: /templates/*.less
Allow: /templates/*.js
Allow: /components/*.css
Allow: /components/*.less
Allow: /media/*.js
Allow: /media/*.css
Allow: /media/*.less
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /log/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /plugins/
Disallow: /modules/
Disallow: /component/
Disallow: /component/*
Disallow: /component/content/
Disallow: /component/search/
Disallow: /component/tags*
Disallow: /search*
Disallow: /*mailto/
Disallow: /*.pdf
Disallow: /*%
Квинтэссенция. Оцените. Буду рад комментариям.
Вот с этим "Disallow: /*.pdf" есть оговорочка.. Дело в том, что поисковики достаточно хорошо едят pdf - файлы и видят тексты! Так что если это страницы второстепенной важности, то согласен, а если там что-то, что может помочь людям прийти именно к вам, то закрывать не стоит... По поводу Disallow: /index.php просто нужно сделать переадресацию в htaccess вида
RewriteCond %{REQUEST_URI} ^/index.php?option=com_xmap&view=xml&id=1
RewriteRule .* ^/sitemap.xml
ссылка, которую формирует xmap
и можно условие Disallow: /index.php оставить
Пузат говорит запрещать к индексации страницы типа:
Disallow: /Page*
Что вы об этом думаете?
спасибо за разьяснения, предлагаю осветить подобную тему и про .htaccess
Директиву Host ещё webmaster.mail.ru понимает и учитывает
ХОЧУ ПРЕДУПРЕДИТЬ ПОЛЬЗОВАТЕЛЕЙ У КОГО САЙТ НА GRIDBOX. C этим " Правильный robots.txt", который указан выше "Правильный robots.txt, который рекомендуется использовать на CMS Joomla 2.5 и 3.x:" ни ЯНДЕКС ни ГУГЛ не индекструет страницы компонента GRIDBOX имейте ввиду, если кто то тупо копирует данный robots.txt !!! При добавлении карты Sitemap будет ошибка ЗАРЕЩЕНО к индексации в Robots.txt.