: с по вступление в складчину со скидкой % ВСТУПИТЬ
Вход для складчиков
  • CMSHEAVEN.ORG - Обновленные премиум шаблоны и расширения Joomla и Wordpress от популярных разработчиков!
  • Доступны разовые скачивания и подписки.
  • Никаких скрытых ссылок. Только оригинальне файлы прямиком от разработчиков.
  • Самый большой архив в интернете с 2012 года! Качественные расширения для веб-разработчиков и владельцев сайтов.
  • Блоги вебмастеров

    Интересная информация от наших складчиков
    Размер шрифта: +

    Правильный ROBOTS.TXT для Joomla 3.x / 2.5 (Яндекс + Гугл)

    Правильный ROBOTS.TXT для Joomla  3.x / 2.5 (Яндекс + Гугл)

    ​Для того, чтобы узнать есть ли robots.txt на сайте, достаточно просто в адресной строке браузера добавить "/robots.txt", полный вид выглядит так: "http://вашсайт.ru/robots.txt". Практически на каждом интернет ресурсе есть этот robots.txt, именно этот файл определяет и дает поисковому роботу возможность индексировать или не индексировать разделы, категории веб-сайта. Плохо настроенный robots.txt или вообще просто оставленный по-умолчанию, порой может дать плохой результат в поисковой выдаче в виде дублированных страниц, страниц пагинации и так далее. Все это может привести к фильтрам и санкциям со стороны поисковой системы, если в Google это маловероятно, то в Яндексе из-за неверного robots.txt можно легко пропасть из результатов поиска.

    Что же такое robots.txt?

    Robots.txt - файл формата *.txt расположенный в корневой папке вашего сайта. Файл robots.txt содержит ряд инструкций для поисковых роботов, которые говорят как нужно индексировать веб-сайт. Правильно составленный robots.txt - залог успешной индексации вашего проекта в сети Интернет!

    Правила и термины robots.txt

    В начале файла robots.txt указана наиболее значимая директива, которая определяет название поискового робота -User-agent. Если ваш ресурс не относится к русскоязычному сегменту, директива будет называться -User-agent: * (для всех поисковых роботов), а для Яндекса добавляем к User-agent нужно добавить название Yandex - User-agent: Yandex.

    Затем следуют директивы Allow и Disallow, которые определяют возможность индексирования. Директива Allow разрешает индексацию, а Disallow запрещает.

    Если файл robots.txt будет пустой или будет просто отсутствовать, поисковой робот будет индесировать весь сайт, включая ненужные мусорные страницы, которых в поисковой выдаче быть не должно.

    Директива Host определяет главное зеркало веб-сайта и ее считывает только робот поисковой системы Яндекс.

    Последняя важная часть каждого файла robots.txt в Joomla является директива Sitemap. Именно Sitemap помогает избежать дублированного контента и подсказывает роботу Яндекса правильные адреса на новые материалы. Карта сайта на Joomla указывается в формате XML.

    Правильный robots.txt, который рекомендуется использовать на CMS Joomla 2.5 и 3.x:

    User-agent: Yandex
     Disallow: /administrator/
     Disallow: /cache/
     Disallow: /includes/
     Disallow: /installation/
     Disallow: /language/
     Disallow: /libraries/
     Disallow: /modules/
     Disallow: /plugins/
     Disallow: /tmp/
     Disallow: /layouts/
     Disallow: /cli/
     Disallow: /bin/
     Disallow: /logs/
     Disallow: /components/
     Disallow: /component/
     Disallow: /component/tags*
     Disallow: /*mailto/
     Disallow: /*.pdf
     Disallow: /*%
     Disallow: /index.php
     Host: vash_sait.ru (или www.vash_sait.ru)
     Sitemap: http://путь к вашей карте XML формата
    
     User-agent: *
     Allow: /*.css?*$
     Allow: /*.js?*$
     Allow: /*.jpg?*$
     Allow: /*.png?*$
     Disallow: /administrator/
     Disallow: /cache/
     Disallow: /includes/
     Disallow: /installation/
     Disallow: /language/
     Disallow: /libraries/
     Disallow: /modules/
     Disallow: /plugins/
     Disallow: /tmp/
     Disallow: /layouts/
     Disallow: /cli/
     Disallow: /bin/
     Disallow: /logs/
     Disallow: /components/
     Disallow: /component/
     Disallow: /*mailto/
     Disallow: /*.pdf
     Disallow: /*%
     Disallow: /index.php
     Sitemap: http://путь к вашей карте XML формата 
    
    Как управлять отображением модуля, если он прикреп...
    Как восстановить пароль к админке Joomla 3.x / 2.5

    Читайте также:

    Комментарии

     
    israsky в 09.09.2015 21:31

    Можно вопрос.
    А зачем блокировать media - не будет же индексации картинок.
    Зачем блокировать xmlrpc?
    И еще вопрос.
    Для чего индексировать такие папки как: layouts,cli,bin,logs

    Можно вопрос. А зачем блокировать media - не будет же индексации картинок. Зачем блокировать xmlrpc? И еще вопрос. Для чего индексировать такие папки как: layouts,cli,bin,logs
    Олег в 10.09.2015 12:08

    Хорошие замечания, поправил код robots.txt
    Если у кого-то есть еще что добавить - пишите в комментариях, буду править.

    Хорошие замечания, поправил код robots.txt Если у кого-то есть еще что добавить - пишите в комментариях, буду править.
    Coresolo в 10.09.2015 20:15

    Как дополнение:
    Если на сайте протокол http:// то в строчке Host для Яндекса указываем имя домена без протокола moysite.com, а если протокол https:// то его нужно указать обязательно https://moysite.com

    Как дополнение: Если на сайте протокол http:// то в строчке Host для Яндекса указываем имя домена без протокола moysite.com, а если протокол http[b]s[/b]:// то его нужно указать обязательно https://moysite.com
    Alexs44 в 11.09.2015 04:26

    непонятно, зачем для Яндекса отдельный робот???

    непонятно, зачем для Яндекса отдельный робот???
    Поддержка в 11.09.2015 11:00

    Директиву host понимает только яндекс. Гугл не понимает :o

    Директиву host понимает только яндекс. Гугл не понимает :o
    Theos в 12.09.2015 18:03

    В кабинете веб мастера Яндекса указывается основной домен. Так что нет смысла делать для Яндекса отдельный блок только из-за директивы Host

    В кабинете веб мастера Яндекса указывается основной домен. Так что нет смысла делать для Яндекса отдельный блок только из-за директивы Host
    israsky в 12.09.2015 19:00

    Однако большинство оптимизаторов рекомендуют делать отдельный блок именно для Яндекса

    Однако большинство оптимизаторов рекомендуют делать отдельный блок именно для Яндекса
    Coresolo в 11.09.2015 04:48

    Яша с первого раза не понимает :)

    Яша с первого раза не понимает :)
    VISE в 12.09.2015 22:08

    Я еще закрываю
    Disallow: /components/
    Disallow: /component/
    Disallow: /component/tags*
    Disallow: /*mailto/
    Disallow: /*.pdf
    Disallow: /*%
    Disallow: /index.php

    Для Гугла добавляю
    User-agent: *
    Allow: /*.css?*$
    Allow: /*.js?*$
    Allow: /*.jpg?*$
    Allow: /*.png?*$

    Я еще закрываю Disallow: /components/ Disallow: /component/ Disallow: /component/tags* Disallow: /*mailto/ Disallow: /*.pdf Disallow: /*% Disallow: /index.php Для Гугла добавляю User-agent: * Allow: /*.css?*$ Allow: /*.js?*$ Allow: /*.jpg?*$ Allow: /*.png?*$
    Vitalyx в 23.09.2015 23:35

    Значит смотрите какая вещь: если мы закрываем Disallow: /index.php то ссылка на страницу с картой сайта должна быть не
    http://site.ru/index.php?option=com_jmap&view=sitemap&format=xml
    а
    http://site.ru/?option=com_jmap&view=sitemap&format=xml
    иначе поисковики не будут ее видеть

    Значит смотрите какая вещь: если мы закрываем Disallow: /index.php то ссылка на страницу с картой сайта должна быть не http://site.ru/index.php?option=com_jmap&view=sitemap&format=xml а http://site.ru/?option=com_jmap&view=sitemap&format=xml иначе поисковики не будут ее видеть
    Александр в 25.02.2017 15:00

    Как только не переделывал ссылку в .htaccess, не получалось сделать нужную без индексов и вопросов, а вместе с тем при таком роботе карта поисковику не заходит:(

    Как только не переделывал ссылку в .htaccess, не получалось сделать нужную без индексов и вопросов, а вместе с тем при таком роботе карта поисковику не заходит:(
    Alexs44 в 25.09.2015 02:31

    скажите, а есть варианты робота для интернет-магазина?

    скажите, а есть варианты робота для интернет-магазина?
    Владимир в 06.10.2015 17:24

    User-agent: *
    Allow: /*.css?*$
    Allow: /*.less?*$
    Allow: /*.js?*$
    Allow: /*.jpg?*$
    Allow: /*.png?*$
    Allow: /*.gif?*$
    Allow: /templates/*.css
    Allow: /templates/*.less
    Allow: /templates/*.js
    Allow: /components/*.css
    Allow: /components/*.less
    Allow: /media/*.js
    Allow: /media/*.css
    Allow: /media/*.less
    Disallow: /administrator/
    Disallow: /bin/
    Disallow: /cache/
    Disallow: /cli/
    Disallow: /components/
    Disallow: /includes/
    Disallow: /installation/
    Disallow: /language/
    Disallow: /layouts/
    Disallow: /libraries/
    Disallow: /logs/
    Disallow: /log/
    Disallow: /tmp/
    Disallow: /xmlrpc/
    Disallow: /plugins/
    Disallow: /modules/
    Disallow: /component/
    Disallow: /component/*
    Disallow: /component/content/
    Disallow: /component/search/
    Disallow: /component/tags*
    Disallow: /search*
    Disallow: /*mailto/
    Disallow: /*.pdf
    Disallow: /*%

    Квинтэссенция. Оцените. Буду рад комментариям.

    User-agent: * Allow: /*.css?*$ Allow: /*.less?*$ Allow: /*.js?*$ Allow: /*.jpg?*$ Allow: /*.png?*$ Allow: /*.gif?*$ Allow: /templates/*.css Allow: /templates/*.less Allow: /templates/*.js Allow: /components/*.css Allow: /components/*.less Allow: /media/*.js Allow: /media/*.css Allow: /media/*.less Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /log/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /plugins/ Disallow: /modules/ Disallow: /component/ Disallow: /component/* Disallow: /component/content/ Disallow: /component/search/ Disallow: /component/tags* Disallow: /search* Disallow: /*mailto/ Disallow: /*.pdf Disallow: /*% Квинтэссенция. Оцените. Буду рад комментариям.
    Лордбой в 22.11.2015 04:33

    Вот с этим "Disallow: /*.pdf" есть оговорочка.. Дело в том, что поисковики достаточно хорошо едят pdf - файлы и видят тексты! Так что если это страницы второстепенной важности, то согласен, а если там что-то, что может помочь людям прийти именно к вам, то закрывать не стоит... По поводу Disallow: /index.php просто нужно сделать переадресацию в htaccess вида
    RewriteCond %{REQUEST_URI} ^/index.php?option=com_xmap&view=xml&id=1
    RewriteRule .* ^/sitemap.xml
    ссылка, которую формирует xmap
    и можно условие Disallow: /index.php оставить

    Вот с этим "Disallow: /*.pdf" есть оговорочка.. Дело в том, что поисковики достаточно хорошо едят pdf - файлы и видят тексты! Так что если это страницы второстепенной важности, то согласен, а если там что-то, что может помочь людям прийти именно к вам, то закрывать не стоит... По поводу Disallow: /index.php просто нужно сделать переадресацию в htaccess вида RewriteCond %{REQUEST_URI} ^/[b]index.php?option=com_xmap&view=xml&id=1[/b] RewriteRule .* ^/[b]sitemap.xml[/b] ссылка, которую формирует xmap и можно условие Disallow: /index.php оставить
    vet86 в 23.11.2015 12:18

    Пузат говорит запрещать к индексации страницы типа:
    Disallow: /Page*
    Что вы об этом думаете?

    Пузат говорит запрещать к индексации страницы типа: Disallow: /Page* Что вы об этом думаете?
    Alexs44 в 29.03.2016 04:33

    спасибо за разьяснения, предлагаю осветить подобную тему и про .htaccess

    спасибо за разьяснения, предлагаю осветить подобную тему и про .htaccess
    PromoExpert в 01.09.2016 11:33

    Директиву Host ещё webmaster.mail.ru понимает и учитывает :)

    Директиву Host ещё webmaster.mail.ru понимает и учитывает :)
    Борис Комелякин в 04.09.2017 19:05

    ХОЧУ ПРЕДУПРЕДИТЬ ПОЛЬЗОВАТЕЛЕЙ У КОГО САЙТ НА GRIDBOX. C этим " Правильный robots.txt", который указан выше "Правильный robots.txt, который рекомендуется использовать на CMS Joomla 2.5 и 3.x:" ни ЯНДЕКС ни ГУГЛ не индекструет страницы компонента GRIDBOX имейте ввиду, если кто то тупо копирует данный robots.txt !!! При добавлении карты Sitemap будет ошибка ЗАРЕЩЕНО к индексации в Robots.txt.:D

    ХОЧУ ПРЕДУПРЕДИТЬ ПОЛЬЗОВАТЕЛЕЙ У КОГО САЙТ НА GRIDBOX. C этим " Правильный robots.txt", который указан выше "Правильный robots.txt, который рекомендуется использовать на CMS Joomla 2.5 и 3.x:" ни ЯНДЕКС ни ГУГЛ не индекструет страницы компонента GRIDBOX имейте ввиду, если кто то тупо копирует данный robots.txt !!! При добавлении карты Sitemap будет ошибка ЗАРЕЩЕНО к индексации в Robots.txt.:D
    2012-2025 © клуб для вебмастеров cmsheaven.org

    Вход