С помощью Get-параметров на сайте создается структура, которая отвечает на интерес пользователя (покупателя). Чаще всего это фильтрация-сортировка по различным критериям – цене, объему, весу и т д товаров.
Примеры страниц с параметрами GET
Вот пример классической страницы с Get:
https://es-sense.ru/shop/folder/aromatizator-gotovyy-v-rastvore-500ml?view=list
Если мы уберем get-параметр ?view=list, то получим чистую страницу товара, а с ним это страница сортировки.
https://es-sense.ru/shop/folder/aromatizator-gotovyy-v-rastvore-500ml
Для навигации это удобно, но в интернет-магазине плодятся дубли, что не есть хорошо и заканчивается критической ошибкой в Яндекс Вебмастере.
Решение проблемы от Clean-param
Решается проблема в файле robots.txt, но ошибочно сразу ставить:
Disallow: /*view=list*
И добавлять директивы:
Disallow: /*view=thumbs*
Disallow: /*view=simple*
и пр.
Дубли закроются от индексации, но это не идеальное решение. Лучше использовать для запрета таких ссылок директиву Clean-param, так как она, в отличии от директивы Disallow, позволяет эффективно передать показатели страниц с незначащими GET-параметрами основным страницам.
Проще говоря, Disallow тупо обрежет страницы для индекса, а Clean-param избавит от дублей, но сохранит за основными страницами параметры Get от их навигационных дублей.
Также при этом повышается эффективность обхода сайта и его индексации ботом Яндекса, что есть плюшка, особенно, если интернет-магазин годный и имеет много товаров и страниц навигации.
Можно к прочему использовать и rel="canonical", но даже поддержка Яндекса голосует за Clean-param, а они видят мир с более высокой горы знаний.
Редактируем robots.txt
Итак, будем использовать Clean-param, но как прописать директиву в robots?
В нашем примере надо использовать конструкцию:
Clean-param: view
Они очистит все страниц с get-параметром view=.
Под первым символом & перечисляются параметры, которые роботу не нужно учитывать, под вторым указывается префикс пути страниц, для которых нужно применить правило.
Пример директивы:
Для адреса:
Site.ru/index.php?page=1&sid=974017dcd170d6c4a5d76ae
Решение такое:
Clean-param: sid /index.php
И так далее по шаблону.
Решение актуально для сайтов на сервисе Мегагрупп
Полный расклад по директиве Clean-param от Яндекса на странице поддержки https://yandex.ru/support/webmaster/robot-workings/clean-param.html#clean-param.