​Для того, чтобы узнать есть ли robots.txt на сайте, достаточно просто в адресной строке браузера добавить "/robots.txt", полный вид выглядит так: "http://вашсайт.ru/robots.txt". Практически на каждом интернет ресурсе есть этот robots.txt, именно этот файл определяет и дает поисковому роботу возможность индексировать или не индексировать разделы, категории веб-сайта. Плохо настроенный robots.txt или вообще просто оставленный по-умолчанию, порой может дать плохой результат в поисковой выдаче в виде дублированных страниц, страниц пагинации и так далее. Все это может привести к фильтрам и санкциям со стороны поисковой системы, если в Google это маловероятно, то в Яндексе из-за неверного robots.txt можно легко пропасть из результатов поиска.

Что же такое robots.txt?

Robots.txt - файл формата *.txt расположенный в корневой папке вашего сайта. Файл robots.txt содержит ряд инструкций для поисковых роботов, которые говорят как нужно индексировать веб-сайт. Правильно составленный robots.txt - залог успешной индексации вашего проекта в сети Интернет!

Правила и термины robots.txt

В начале файла robots.txt указана наиболее значимая директива, которая определяет название поискового робота -User-agent. Если ваш ресурс не относится к русскоязычному сегменту, директива будет называться -User-agent: * (для всех поисковых роботов), а для Яндекса добавляем к User-agent нужно добавить название Yandex - User-agent: Yandex.

Затем следуют директивы Allow и Disallow, которые определяют возможность индексирования. Директива Allow разрешает индексацию, а Disallow запрещает.

Если файл robots.txt будет пустой или будет просто отсутствовать, поисковой робот будет индесировать весь сайт, включая ненужные мусорные страницы, которых в поисковой выдаче быть не должно.

Директива Host определяет главное зеркало веб-сайта и ее считывает только робот поисковой системы Яндекс.

Последняя важная часть каждого файла robots.txt в Joomla является директива Sitemap. Именно Sitemap помогает избежать дублированного контента и подсказывает роботу Яндекса правильные адреса на новые материалы. Карта сайта на Joomla указывается в формате XML.

Правильный robots.txt, который рекомендуется использовать на CMS Joomla 2.5 и 3.x:

User-agent: Yandex
 Disallow: /administrator/
 Disallow: /cache/
 Disallow: /includes/
 Disallow: /installation/
 Disallow: /language/
 Disallow: /libraries/
 Disallow: /modules/
 Disallow: /plugins/
 Disallow: /tmp/
 Disallow: /layouts/
 Disallow: /cli/
 Disallow: /bin/
 Disallow: /logs/
 Disallow: /components/
 Disallow: /component/
 Disallow: /component/tags*
 Disallow: /*mailto/
 Disallow: /*.pdf
 Disallow: /*%
 Disallow: /index.php
 Host: vash_sait.ru (или www.vash_sait.ru)
 Sitemap: http://путь к вашей карте XML формата

 User-agent: *
 Allow: /*.css?*$
 Allow: /*.js?*$
 Allow: /*.jpg?*$
 Allow: /*.png?*$
 Disallow: /administrator/
 Disallow: /cache/
 Disallow: /includes/
 Disallow: /installation/
 Disallow: /language/
 Disallow: /libraries/
 Disallow: /modules/
 Disallow: /plugins/
 Disallow: /tmp/
 Disallow: /layouts/
 Disallow: /cli/
 Disallow: /bin/
 Disallow: /logs/
 Disallow: /components/
 Disallow: /component/
 Disallow: /*mailto/
 Disallow: /*.pdf
 Disallow: /*%
 Disallow: /index.php
 Sitemap: http://путь к вашей карте XML формата