Создание и раскрутка сайтов на статичном html всё менее популярна, и большинство веб-мастеров переходит на современные CMS, в частности на Joomla, которая в нагрузку к своим плюсам может и огорчить пользователя, прежде всего, дублированием страниц. Дубли страниц в Joomla это своеобразный бич веб-мастера, хотя, положа руку на сердце, грешат этим многие системы автоматизации сайтов.
Поиск дублей
Во-первых, давайте посмотрим, как определить дубли страниц и почему они негативно сказываются на процессе продвижения сайта. Самый простой способ определения дублирования – это воспользоваться расширенным поиском на Яндексе, где в строчку «сайт» забиваем свой проект, а в поисковую строку тот или иной запрос. В результате можно видеть страницы сайта по мере их релевантности, тут же водятся и дублирующие друг друга страницы. Ещё проще воспользоваться пауком Netpeak Spider, который выгрузит страницы и найдёт в них дубли в один клик.
Второй немаловажный вопрос, почему поисковые системы относятся к этому негативно, ведь это не умышленная попытка обмана поисковиков, а технические проблемы CMS, о который, в принципе роботы должны знать. В том то и дело, что именно роботы могут определить такие страницы, как умышленный спам, ведь фактически по двум разным адресам предоставляется один и тот же материал. Попытки переписки со службой поддержки Яндекса ни к чему не приводят, поэтому надо стараться избегать дублей страниц Joomla.
Удаление дубли
Если сайт небольшой, то можно закрыть дублирующиеся материалы через robots.txt, но это всё равно не выход, а лишь лишний геморрой в копилке оптимизатора. Говорить об этом могу с уверенностью, так как сам прошёл через это, хотя и использовал десятки вариантов для борьбы с дублированием. Сегодня могу поделиться, как можно побороть то, что негативно отражается на раскрутке. Полный бан за такие дубли Joomla получить маловероятно, но добиться пессимизации сайта вполне возможно, поэтому для начала я закрыл в robots.txt все технические и второстепенные страницы массово –
Disallow: ?*
Disallow: /search/
Disallow: /*.pdf
Disallow: /*print=1
Disallow: /*type=atom
Disallow: /*type=rss
Disallow: /*task=rss
Disallow: /*?sl*
Disallow: /*?sl*
Disallow: /*?*
Disallow: /%*
Disallow: /*?*
Disallow: /*--
Disallow: /*---
Disallow: /*/$
Таким образом, отсекается основная складская база, куда Joomla может запихивать дубли. Если кому очень надо открыть некоторые страницы, например, для компонента xmap, то есть для того, чтобы добавить в панель вебмастера карту сайта, то нужные страницы легко открываются с помощью директивы Allow: , которая ставиться перед Disallow:.
Однако лично мне не давали жизни дубли страниц Joomla типа
Сайт.ру/раздел/категория/160.html
Сайт.ру/раздел/категория/материал-160.html
И долгие поиски ни к чему положительному не приводили, кроме как закрывать сотни левых ссылок вручную в robots.txt. Однако однажды ответ пришёл, как озарение и открыл глаза на простейшие вещи, с которыми, знаю точно, сталкивался не я один. Многие сегодня практикуют (и правильно делают) продвижение сайта в социальных сетях, посредством установки кнопок для интеграции. При этом не все обращают внимание, что некоторые плагины при интеграции в Twitter просто обрезают ссылку и для решения проблемы надо настроить или заменить плагин, так как роботы идут по ссылки «твиттнуть» и попадают на её обрезанный вид, который и заносят по своему электронному незнанию в индекс.
Проблема оказалась проста, как медный таз, жаль, что таким образом убирается только часть дублей, правда эта-то часть меня больше всего и волновала. Оказывается, часть ошибок оптимизации всё-таки происходит по совокупности недосмотра веб-мастера и недоработок CMS, так что с этим можно и нужно бороться. Удачи.
Если же Вас не радуют дубли типа /sobstven-sate/eksperiment-seo/383.html, то есть сокращённые адреса страниц, используйте плагин для Joomla Shnodoubles, найти который можно погуглив или отписавшись мне в комментариях, с ним я полностью решил проблему на считанные минуты. Подумав и устав отписываться я предлагаю скачать nodoubles для Joomla прямо с сайта.
Также предлагаю видео по удалению дублей в Joomla посредством 301-го редиректа -
Вопросы-ответы
Можно ли избавить от дублей на автомате?
Отсутствие дублей на 90% гарантируется в автоматическом режиме. Для Joomla достаточно настроить robots и htaccess, а также разобраться со склейкой страниц на основную навигационную. Однако в процессе расширения сайта дубли могут появляться, поэтому отслеживайте их через паука Netpeak Spider.
Неужели пауки ПС не понимают, что дубли на Joomla – это ошибка разработчиков?
А почему эта ошибка не исправляется владельцем? Если вы купите машину с дефектом, то не станете же вы жаловаться, что ваc штрафует ГИБДД за, то что не горят фары или не соответствуют нормам выхлопные газы? В поддержку обращаться смысла нет, так как CMS не платная.
Сейчас сильно жёстко штрафуют за дубли редко, но… Если по запросу, например, дублирование страниц у вас присутствуют в поиске 3-4 документа с одинаковым контентом, но разными урлами, то, как вы думаете статический вес будет на каждой из них максимальный, или размажется? В конце концов это вам решать, нужен ли вам декоративный мусорный сайт или вы хотите делиться с пользователями информацией и получать за это профит при правильной настройке CMS.