Как создать правильный robots txt?

😡 Боты поисковых систем – это машины, которые делают всё, что им не запрещают, поэтому, если есть желание не засорять всемирную паутину ненужными для пользователя файлами, то просто стоит создать robots txt и пусть будет лучше в индексе 100 страниц, но все они будут представлять ценность в сети.

Если у Вас есть принципиальное желание иметь в Интернете максимальное количество страниц, независимо от их ценности, то можно просто удалить robots txt или же прописать в нём

User-agent: *

Disallow:

Теперь Вы сможете наслаждаться большим количеством мусора, который будет представлять сайт в сети.

Сегодня хотелось бы рассмотреть создание правильного файла robots txt конкретно для Joomla и под поисковую систему Яндекс, который поможет избежать проблемы с индексацией сайта. Вообще-то в Joomla этот важный технический файл создаётся автоматом и выглядит он в первоначальном виде так –

User-agent: *

Disallow: /administrator/

Disallow: /cache/

Disallow: /components/

Disallow: /images/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /libraries/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /tmp/

Disallow: /xmlrpc/

☝ Однако, как мы видим, он закрывает только основную часть мусорки, поэтому подредактировать его не мешает, что мы с успехом и делаем и получаем в итоге такой правильный robots txt для Joomla, настроенный на поисковую систему Яндекс –

User-agent: Yandex

Disallow: /administrator/

Disallow: /cache/

Disallow: /components/ Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /libraries/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /tmp/

Disallow: /xmlrpc/

Disallow: /index2.php?option=com_content&task=emailform

Disallow: /*?sl*

Disallow: /name.php?action=print

Disallow: /trackback

Disallow: /*rss.html

Disallow: /*atom.html

Disallow: /*?*

Crawl-delay: 5

👀 Как видим в начальный файл, созданный CMS, добавлены некоторые изменения, точнее запрещена индексация всего того, что не представляет ценности в поисковой выдаче. Также можно запретить и индексацию картинок, если все они не оригинальные и трафика от Яндекс - Картинки ждать не приходится. При желании можете добавить и точный Host, но это, как говорится по желанию, так как адрес можно вывести е единый с помощью директивы дублирования.

Вот, если не вдаваться в ненужные философские отвлечения от темы и всё. Использование приведённого выше правильного файла robots txt подходит в 98% случаях для Joomla, так что большинство пользователей сайтов на этом движке могут смело скопировать его и вставить в корень сайта, что избавит их от презентации мусорных файлов своего сайта во всемирной паутине. Для особо сомневающихся в эффективности файла robots txt предлагаем посмотреть видео ролик от Яндекса, в котором простенько, но со вкусом объясняется необходимость этого файла для новичков.

Созданный или изменённый файл сохраняется в корень сайта, где ему дружную компанию составят иные системные файлы - sitemap и favicon, которые также играют свою роль в деле раскрутки Интернет-проекта.

Новые требования к robots от Google

Сейчас Гугл требует, чтобы его ботам был открыт доступ к файлам стилей и скриптов. Если у вас в панели веб-мастера появилась надпись

Googlebot не может получить доступ к файлам CSS и JS на сайте ваш сайт.ру,

то вставьте в файл robots на Joomla следующие директивы:

Allow: /templates/*.css

Allow: /templates/*.js

Allow: /components/*.css

Allow: /components/*.js

Allow: /media/*.js

Allow: /media/*.css

Allow: /plugins/*.css

Allow: /plugins/*.js

✔ Также используйте директивы Clean-param для Get-параметров, о которых расписно маслом на странице https://www.zegeberg.ru/sobstven-sate/populjarnoe/841-direktiva-clean-param-get.html. С их помощью можно убрать из индекса дубли и не потерять вес важных навигационных страниц.



Яндекс.Метрика