как создать правильный robots.txt

Грамотное создание правильного файла robots txt(или же его доработка) в значительной мере облегчает и ускоряет не только индексацию сайта в целом, но и помогает владельцу сайта закрыть от индексации ненужные на его взгляд страницы. Что мы понимаем под таким широким словом, как ненужные? Во-первых, нет необходимости индексировать файлы components, которые никакой особой ценности для продвижения сайта не имеют, а также нет нужды разрешать индексировать файлы подписки, поиска, временные файлы и прочую муть.

Как создать правильный robots txt?

Боты поисковых систем – это машины, которые делают всё, что им не запрещают, поэтому, если есть желание не засорять всемирную паутину ненужными для пользователя файлами, то просто стоит создать robots txt и пусть будет лучше в индексе 100 страниц, но все они будут представлять ценность в сети.

Если у Вас есть принципиальное желание иметь в Интернете максимальное количество страниц, независимо от их ценности, то можно просто удалить robots txt или же прописать в нём

User-agent: *

Disallow:

Теперь Вы сможете наслаждаться большим количеством мусора, который будет представлять сайт в сети.

Сегодня хотелось бы рассмотреть создание правильного файла robots txt конкретно для Joomla и под поисковую систему Яндекс, который поможет избежать проблемы с индексацией сайта. Вообще-то в Joomla этот важный технический файл создаётся автоматом и выглядит он в первоначальном виде так –

User-agent: *

Disallow: /administrator/

Disallow: /cache/

Disallow: /components/

Disallow: /images/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /libraries/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /tmp/

Disallow: /xmlrpc/

Однако, как мы видим, он закрывает только основную часть мусорки, поэтому подредактировать его не мешает, что мы с успехом и делаем и получаем в итоге такой правильный robots txt для Joomla, настроенный на поисковую систему Яндекс –

User-agent: Yandex

Disallow: /administrator/

Disallow: /cache/

Disallow: /components/ Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /libraries/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /tmp/

Disallow: /xmlrpc/

Disallow: /index2.php?option=com_content&task=emailform

Disallow: /*?sl*

Disallow: /name.php?action=print

Disallow: /trackback

Disallow: /*rss.html

Disallow: /*atom.html

Disallow: /*?*

Crawl-delay: 5

Как видим в начальный файл, созданный CMS, добавлены некоторые изменения, точнее запрещена индексация всего того, что не представляет ценности в поисковой выдаче. Также можно запретить и индексацию картинок, если все они не оригинальные и трафика от Яндекс - Картинки ждать не приходится. При желании можете добавить и точный Host, но это, как говорится по желанию, так как адрес можно вывести е единый с помощью директивы дублирования.

Вот, если не вдаваться в ненужные философские отвлечения от темы и всё. Использование приведённого выше правильного файла robots txt подходит в 98% случаях для Joomla, так что большинство пользователей сайтов на этом движке могут смело скопировать его и вставить в корень сайта, что избавит их от презентации мусорных файлов своего сайта во всемирной паутине. Для особо сомневающихся в эффективности файла robots txt предлагаем посмотреть видео ролик от Яндекса, в котором простенько, но со вкусом объясняется необходимость этого файла для новичков.

Созданный или изменённый файл сохраняется в корень сайта, где ему дружную компанию составят иные системные файлы - sitemap и favicon, которые также играют свою роль в деле раскрутки Интернет-проекта.

Новые требования к robots от Google

Сейчас Гугл требует, чтобы его ботам был открыт доступ к файлам стилей и скриптов. Если у вас в панели веб-мастера появилась надпись

Googlebot не может получить доступ к файлам CSS и JS на сайте ваш сайт.ру,

то вставьте в файл robots на Joomla следующие директивы:

Allow: /templates/*.css

Allow: /templates/*.js

Allow: /components/*.css

Allow: /components/*.js

Allow: /media/*.js

Allow: /media/*.css

Allow: /plugins/*.css

Allow: /plugins/*.js

Комментарии   

+1 #6 Administrator 11.05.2012 14:05
Цитирую Евгений:
Подскажите, поставил компонент k2, импортировал материалы из Joomla стандартного, поставил Xmap, включил плагины в нем для content и к2. Теперь в карте сайта ссылки и те и те. Что отключить лучше, если 99% материала на сайте используется из к2? Или как лучше теперь сделать карту сайта чтоб поисковики читали и позиции не терять? Заранее спасибо за помощь!
Я лично K2 не пользовался - повидимому надо просто указать путь одних карт поисковикам, а urls других закрыть от индекса. По-моему просто - пусть будет хоть 10 карт - 9 закрывашь и их нет!
Цитировать
0 #5 Евгений 30.04.2012 14:05
Подскажите, поставил компонент k2, импортировал материалы из Joomla стандартного, поставил Xmap, включил плагины в нем для content и к2. Теперь в карте сайта ссылки и те и те. Что отключить лучше, если 99% материала на сайте используется из к2? Или как лучше теперь сделать карту сайта чтоб поисковики читали и позиции не терять? Заранее спасибо за помощь!
Цитировать
+1 #4 Artem 10.05.2011 08:43
Извиняюсь. я тоже не удалял Disallow: /installation/ - смотрю у большинства эта строка присутствует. Объяснит кто - то что даёт разрешение на её индексацию?
Цитировать
+1 #3 Administrator 10.05.2011 06:11
Для того, чтобы не было проблем достаточно поработать над дублированием морды
Цитировать
0 #2 Administrator 10.05.2011 06:09
Цитирую Serj:
Вот смотрю я на Вас всех дебилов и смеюсь. Копируют тесты друг у друга и засерают интернет всяким гавном. Disallow: /installation/ - как Вы все умудряетесь не удалять эту строчку из robots.txt. И еще, в твоем как бы правильном изложении не хватает директивы Host:, в которой рекомендуется прописывать Основное зеркало сайта.
С Disallow: /installation/ ещё можно поспорить , а указывать или не указывать host дело каждого
Цитировать
+1 #1 Serj 08.05.2011 09:44
Вот смотрю я на Вас всех дебилов и смеюсь. Копируют тесты друг у друга и засерают интернет всяким гавном. Disallow: /installation/ - как Вы все умудряетесь не удалять эту строчку из robots.txt. И еще, в твоем как бы правильном изложении не хватает директивы Host:, в которой рекомендуется прописывать Основное зеркало сайта.
Цитировать

Добавить комментарий


Защитный код
Обновить