: с по вступление в складчину со скидкой % ВСТУПИТЬ
Вход для складчиков

Блоги вебмастеров

Интересная информация от наших складчиков
Размер шрифта: +

Правильный ROBOTS.TXT для Joomla 3.x / 2.5 (Яндекс + Гугл)

Правильный ROBOTS.TXT для Joomla  3.x / 2.5 (Яндекс + Гугл)

​Для того, чтобы узнать есть ли robots.txt на сайте, достаточно просто в адресной строке браузера добавить "/robots.txt", полный вид выглядит так: "http://вашсайт.ru/robots.txt". Практически на каждом интернет ресурсе есть этот robots.txt, именно этот файл определяет и дает поисковому роботу возможность индексировать или не индексировать разделы, категории веб-сайта. Плохо настроенный robots.txt или вообще просто оставленный по-умолчанию, порой может дать плохой результат в поисковой выдаче в виде дублированных страниц, страниц пагинации и так далее. Все это может привести к фильтрам и санкциям со стороны поисковой системы, если в Google это маловероятно, то в Яндексе из-за неверного robots.txt можно легко пропасть из результатов поиска.

Что же такое robots.txt?

Robots.txt - файл формата *.txt расположенный в корневой папке вашего сайта. Файл robots.txt содержит ряд инструкций для поисковых роботов, которые говорят как нужно индексировать веб-сайт. Правильно составленный robots.txt - залог успешной индексации вашего проекта в сети Интернет!

Правила и термины robots.txt

В начале файла robots.txt указана наиболее значимая директива, которая определяет название поискового робота -User-agent. Если ваш ресурс не относится к русскоязычному сегменту, директива будет называться -User-agent: * (для всех поисковых роботов), а для Яндекса добавляем к User-agent нужно добавить название Yandex - User-agent: Yandex.

Затем следуют директивы Allow и Disallow, которые определяют возможность индексирования. Директива Allow разрешает индексацию, а Disallow запрещает.

Если файл robots.txt будет пустой или будет просто отсутствовать, поисковой робот будет индесировать весь сайт, включая ненужные мусорные страницы, которых в поисковой выдаче быть не должно.

Директива Host определяет главное зеркало веб-сайта и ее считывает только робот поисковой системы Яндекс.

Последняя важная часть каждого файла robots.txt в Joomla является директива Sitemap. Именно Sitemap помогает избежать дублированного контента и подсказывает роботу Яндекса правильные адреса на новые материалы. Карта сайта на Joomla указывается в формате XML.

Правильный robots.txt, который рекомендуется использовать на CMS Joomla 2.5 и 3.x:

User-agent: Yandex
 Disallow: /administrator/
 Disallow: /cache/
 Disallow: /includes/
 Disallow: /installation/
 Disallow: /language/
 Disallow: /libraries/
 Disallow: /modules/
 Disallow: /plugins/
 Disallow: /tmp/
 Disallow: /layouts/
 Disallow: /cli/
 Disallow: /bin/
 Disallow: /logs/
 Disallow: /components/
 Disallow: /component/
 Disallow: /component/tags*
 Disallow: /*mailto/
 Disallow: /*.pdf
 Disallow: /*%
 Disallow: /index.php
 Host: vash_sait.ru (или www.vash_sait.ru)
 Sitemap: http://путь к вашей карте XML формата

 User-agent: *
 Allow: /*.css?*$
 Allow: /*.js?*$
 Allow: /*.jpg?*$
 Allow: /*.png?*$
 Disallow: /administrator/
 Disallow: /cache/
 Disallow: /includes/
 Disallow: /installation/
 Disallow: /language/
 Disallow: /libraries/
 Disallow: /modules/
 Disallow: /plugins/
 Disallow: /tmp/
 Disallow: /layouts/
 Disallow: /cli/
 Disallow: /bin/
 Disallow: /logs/
 Disallow: /components/
 Disallow: /component/
 Disallow: /*mailto/
 Disallow: /*.pdf
 Disallow: /*%
 Disallow: /index.php
 Sitemap: http://путь к вашей карте XML формата 
Как управлять отображением модуля, если он прикреп...
Как восстановить пароль к админке Joomla 3.x / 2.5

Читайте также:

Комментарии

 
israsky в 09.09.2015 21:31

Можно вопрос.
А зачем блокировать media - не будет же индексации картинок.
Зачем блокировать xmlrpc?
И еще вопрос.
Для чего индексировать такие папки как: layouts,cli,bin,logs

Можно вопрос. А зачем блокировать media - не будет же индексации картинок. Зачем блокировать xmlrpc? И еще вопрос. Для чего индексировать такие папки как: layouts,cli,bin,logs
Олег в 10.09.2015 12:08

Хорошие замечания, поправил код robots.txt
Если у кого-то есть еще что добавить - пишите в комментариях, буду править.

Хорошие замечания, поправил код robots.txt Если у кого-то есть еще что добавить - пишите в комментариях, буду править.
Coresolo в 10.09.2015 20:15

Как дополнение:
Если на сайте протокол http:// то в строчке Host для Яндекса указываем имя домена без протокола moysite.com, а если протокол https:// то его нужно указать обязательно https://moysite.com

Как дополнение: Если на сайте протокол http:// то в строчке Host для Яндекса указываем имя домена без протокола moysite.com, а если протокол http[b]s[/b]:// то его нужно указать обязательно https://moysite.com
Alexs44 в 11.09.2015 04:26

непонятно, зачем для Яндекса отдельный робот???

непонятно, зачем для Яндекса отдельный робот???

Директиву host понимает только яндекс. Гугл не понимает :o

Директиву host понимает только яндекс. Гугл не понимает :o
Theos в 12.09.2015 18:03

В кабинете веб мастера Яндекса указывается основной домен. Так что нет смысла делать для Яндекса отдельный блок только из-за директивы Host

В кабинете веб мастера Яндекса указывается основной домен. Так что нет смысла делать для Яндекса отдельный блок только из-за директивы Host
israsky в 12.09.2015 19:00

Однако большинство оптимизаторов рекомендуют делать отдельный блок именно для Яндекса

Однако большинство оптимизаторов рекомендуют делать отдельный блок именно для Яндекса
Coresolo в 11.09.2015 04:48

Яша с первого раза не понимает :)

Яша с первого раза не понимает :)
VISE в 12.09.2015 22:08

Я еще закрываю
Disallow: /components/
Disallow: /component/
Disallow: /component/tags*
Disallow: /*mailto/
Disallow: /*.pdf
Disallow: /*%
Disallow: /index.php

Для Гугла добавляю
User-agent: *
Allow: /*.css?*$
Allow: /*.js?*$
Allow: /*.jpg?*$
Allow: /*.png?*$

Я еще закрываю Disallow: /components/ Disallow: /component/ Disallow: /component/tags* Disallow: /*mailto/ Disallow: /*.pdf Disallow: /*% Disallow: /index.php Для Гугла добавляю User-agent: * Allow: /*.css?*$ Allow: /*.js?*$ Allow: /*.jpg?*$ Allow: /*.png?*$
Vitalyx в 23.09.2015 23:35

Значит смотрите какая вещь: если мы закрываем Disallow: /index.php то ссылка на страницу с картой сайта должна быть не
http://site.ru/index.php?option=com_jmap&view=sitemap&format=xml
а
http://site.ru/?option=com_jmap&view=sitemap&format=xml
иначе поисковики не будут ее видеть

Значит смотрите какая вещь: если мы закрываем Disallow: /index.php то ссылка на страницу с картой сайта должна быть не http://site.ru/index.php?option=com_jmap&view=sitemap&format=xml а http://site.ru/?option=com_jmap&view=sitemap&format=xml иначе поисковики не будут ее видеть
Александр в 25.02.2017 15:00

Как только не переделывал ссылку в .htaccess, не получалось сделать нужную без индексов и вопросов, а вместе с тем при таком роботе карта поисковику не заходит:(

Как только не переделывал ссылку в .htaccess, не получалось сделать нужную без индексов и вопросов, а вместе с тем при таком роботе карта поисковику не заходит:(
Alexs44 в 25.09.2015 02:31

скажите, а есть варианты робота для интернет-магазина?

скажите, а есть варианты робота для интернет-магазина?
Владимир в 06.10.2015 17:24

User-agent: *
Allow: /*.css?*$
Allow: /*.less?*$
Allow: /*.js?*$
Allow: /*.jpg?*$
Allow: /*.png?*$
Allow: /*.gif?*$
Allow: /templates/*.css
Allow: /templates/*.less
Allow: /templates/*.js
Allow: /components/*.css
Allow: /components/*.less
Allow: /media/*.js
Allow: /media/*.css
Allow: /media/*.less
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /log/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /plugins/
Disallow: /modules/
Disallow: /component/
Disallow: /component/*
Disallow: /component/content/
Disallow: /component/search/
Disallow: /component/tags*
Disallow: /search*
Disallow: /*mailto/
Disallow: /*.pdf
Disallow: /*%

Квинтэссенция. Оцените. Буду рад комментариям.

User-agent: * Allow: /*.css?*$ Allow: /*.less?*$ Allow: /*.js?*$ Allow: /*.jpg?*$ Allow: /*.png?*$ Allow: /*.gif?*$ Allow: /templates/*.css Allow: /templates/*.less Allow: /templates/*.js Allow: /components/*.css Allow: /components/*.less Allow: /media/*.js Allow: /media/*.css Allow: /media/*.less Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /log/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /plugins/ Disallow: /modules/ Disallow: /component/ Disallow: /component/* Disallow: /component/content/ Disallow: /component/search/ Disallow: /component/tags* Disallow: /search* Disallow: /*mailto/ Disallow: /*.pdf Disallow: /*% Квинтэссенция. Оцените. Буду рад комментариям.
Лордбой в 22.11.2015 04:33

Вот с этим "Disallow: /*.pdf" есть оговорочка.. Дело в том, что поисковики достаточно хорошо едят pdf - файлы и видят тексты! Так что если это страницы второстепенной важности, то согласен, а если там что-то, что может помочь людям прийти именно к вам, то закрывать не стоит... По поводу Disallow: /index.php просто нужно сделать переадресацию в htaccess вида
RewriteCond %{REQUEST_URI} ^/index.php?option=com_xmap&view=xml&id=1
RewriteRule .* ^/sitemap.xml
ссылка, которую формирует xmap
и можно условие Disallow: /index.php оставить

Вот с этим "Disallow: /*.pdf" есть оговорочка.. Дело в том, что поисковики достаточно хорошо едят pdf - файлы и видят тексты! Так что если это страницы второстепенной важности, то согласен, а если там что-то, что может помочь людям прийти именно к вам, то закрывать не стоит... По поводу Disallow: /index.php просто нужно сделать переадресацию в htaccess вида RewriteCond %{REQUEST_URI} ^/[b]index.php?option=com_xmap&view=xml&id=1[/b] RewriteRule .* ^/[b]sitemap.xml[/b] ссылка, которую формирует xmap и можно условие Disallow: /index.php оставить
vet86 в 23.11.2015 12:18

Пузат говорит запрещать к индексации страницы типа:
Disallow: /Page*
Что вы об этом думаете?

Пузат говорит запрещать к индексации страницы типа: Disallow: /Page* Что вы об этом думаете?
Alexs44 в 29.03.2016 04:33

спасибо за разьяснения, предлагаю осветить подобную тему и про .htaccess

спасибо за разьяснения, предлагаю осветить подобную тему и про .htaccess
PromoExpert в 01.09.2016 11:33

Директиву Host ещё webmaster.mail.ru понимает и учитывает :)

Директиву Host ещё webmaster.mail.ru понимает и учитывает :)
Борис Комелякин в 04.09.2017 19:05

ХОЧУ ПРЕДУПРЕДИТЬ ПОЛЬЗОВАТЕЛЕЙ У КОГО САЙТ НА GRIDBOX. C этим " Правильный robots.txt", который указан выше "Правильный robots.txt, который рекомендуется использовать на CMS Joomla 2.5 и 3.x:" ни ЯНДЕКС ни ГУГЛ не индекструет страницы компонента GRIDBOX имейте ввиду, если кто то тупо копирует данный robots.txt !!! При добавлении карты Sitemap будет ошибка ЗАРЕЩЕНО к индексации в Robots.txt.:D

ХОЧУ ПРЕДУПРЕДИТЬ ПОЛЬЗОВАТЕЛЕЙ У КОГО САЙТ НА GRIDBOX. C этим " Правильный robots.txt", который указан выше "Правильный robots.txt, который рекомендуется использовать на CMS Joomla 2.5 и 3.x:" ни ЯНДЕКС ни ГУГЛ не индекструет страницы компонента GRIDBOX имейте ввиду, если кто то тупо копирует данный robots.txt !!! При добавлении карты Sitemap будет ошибка ЗАРЕЩЕНО к индексации в Robots.txt.:D
2012-2024 © клуб для вебмастеров cmsheaven.org

Вход