как создать правильный robots.txt

💕 Грамотное создание правильного файла robots txt(или же его доработка) в значительной мере облегчает и ускоряет не только индексацию сайта в целом, но и помогает владельцу сайта закрыть от индексации ненужные на его взгляд страницы. Что мы понимаем под таким широким словом, как ненужные? Во-первых, нет необходимости индексировать файлы components, которые никакой особой ценности для продвижения сайта не имеют, а также нет нужды разрешать индексировать файлы подписки, поиска, временные файлы и прочую муть.

Как создать правильный robots txt?

😡 Боты поисковых систем – это машины, которые делают всё, что им не запрещают, поэтому, если есть желание не засорять всемирную паутину ненужными для пользователя файлами, то просто стоит создать robots txt и пусть будет лучше в индексе 100 страниц, но все они будут представлять ценность в сети.

Если у Вас есть принципиальное желание иметь в Интернете максимальное количество страниц, независимо от их ценности, то можно просто удалить robots txt или же прописать в нём

User-agent: *
Disallow:

Теперь Вы сможете наслаждаться большим количеством мусора, который будет представлять сайт в сети.

Сегодня хотелось бы рассмотреть создание правильного файла robots txt конкретно для Joomla и под поисковую систему Яндекс, который поможет избежать проблемы с индексацией сайта проблемы с индексацией сайта. Вообще-то в Joomla этот важный технический файл создаётся автоматом и выглядит он в первоначальном виде так –

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/

☝ Однако, как мы видим, он закрывает только основную часть мусорки, поэтому подредактировать его не мешает, что мы с успехом и делаем и получаем в итоге такой правильный robots txt для Joomla, настроенный на поисковую систему Яндекс –

User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /index2.php?option=com_content&task=emailform
Disallow: /*?sl*
Disallow: /name.php?action=print
Disallow: /trackback
Disallow: /*rss.html
Disallow: /*atom.html
Disallow: /*?*
Crawl-delay: 5

👀 Как видим, в начальный файл, созданный CMS, добавлены некоторые изменения, точнее запрещена индексация всего того, что не представляет ценности в поисковой выдаче. Также можно запретить и индексацию картинок, если все они не оригинальные и трафика от Яндекс - Картинки ждать не приходится. При желании можете добавить и точный Host, но это, как говорится по желанию, так как адрес можно вывести е единый с помощью дублирование главной страницы директивы дублирования.

Вот, если не вдаваться в ненужные философские отвлечения от темы, и всё. Использование приведённого выше правильного файла robots txt подходит в 98% случаях для Joomla, так что большинство пользователей сайтов на этом движке могут смело скопировать его и вставить в корень сайта, что избавит их от презентации мусорных файлов своего сайта во всемирной паутине. Для особо сомневающихся в эффективности файла robots txt предлагаем посмотреть видео ролик от Яндекса, в котором простенько, но со вкусом объясняется необходимость этого файла для новичков.

Созданный или изменённый файл сохраняется в корень сайта, где ему дружную компанию составят иные системные файлы - sitemap и как создать favicon, которые также играют свою роль в деле раскрутки Интернет-проекта.

Новые требования к robots от Google

Сейчас Гугл требует, чтобы его ботам был открыт доступ к файлам стилей и скриптов. Если у вас в панели веб-мастера появилась надпись

Googlebot не может получить доступ к файлам CSS и JS на сайте ваш сайт.ру,

то вставьте в файл robots на Joomla следующие директивы:

Allow: /templates/*.css

Allow: /templates/*.js

Allow: /components/*.css

Allow: /components/*.js

Allow: /media/*.js

Allow: /media/*.css

Allow: /plugins/*.css

Allow: /plugins/*.js

✔ Также используйте директивы Clean-param для Get-параметров, о которых расписно маслом на странице https://www.zegeberg.ru/sobstven-sate/populjarnoe/841-direktiva-clean-param-get. С их помощью можно убрать из индекса дубли и не потерять вес важных навигационных страниц.