"размножение" страниц из-за GET-параметров с точки зрения SEO

16 июля 2012, 16:28

Автор: 1234ru

Часто веб-страницы основным своим содержимым имеют те или иные списки (например, категории товаров в интернет-магазине, тематические разделы статей на сайте и пр.).
Интерфейсы таких списков бывают для удобства снабжены инструментами сортировки и фильтрации (проще говоря, поиска).

Широко используется технологический подход, при котором действие подобных инструментов основывается на работе GET-параметров. В результате появляется несколько адресов, которые указывают на одну и ту же (либо даже урезанную) выборку - например, /books и /books?sort=date, /books?sort=date&price[max]=1000 и т.п., при этом ссылки на сортировку могут встречаться в явном виде в коде страницы.

При этом в GET-параметрах могут встречаться и годные для поисковых систем параметры (как то номер страницы), на которые следует обращать их внимание и позиционировать такие страницы как действительно разные.

Проблему здесь можно усмотреть в следующем: не очень хорошо, когда поисковик видит много страниц и знает, что из них большинство - это одно и то же. Он так меньше "уважает" сайт (есть такое поверье, что лучше, чтоб поисковик знал про 100 страниц сайта, чем знал про 200 и считал половину дубликатами).

Вопрос: действительно ли это проблема и стоит ли предпринимать в связи с этим какие-то действия?
Если да, то какие из нижеперечисленных оправданы? (возможно, какие-то из них окажутся достаточными?)

1. Следить, чтобы в HTML-коде страниц не было ссылок с лишними GET-параметрами (то есть, например, разбивку на страницы делать ссылками, а переключение сортировки закрывать с помощью javascript).

2. При проектировании пространства адресов страниц ясно представлять, какие адреса показывают действительно отличное содержимое, а какие - нет.
Соответственно формировать содержимое <title> страниц (например, для разных страниц списка дополнять <title> надписью "страница такая-то", а для разных режимов сортировки и прочего такого не делать).
В то же время, в содержимом страниц какие-то отличия будут (вплоть до того, что придется писать "книги ценой до 1000 руб.", т.к. это удобно для пользователей - это может немного сбить поисковую машину).

3. Реализовать альтернативный технологический подход, по которому параметры списка хранятся не в GET-массиве, а в переменных сессии.
В этом случае вся проблема отпадает, но появляются некоторые ограничения (например, нельзя дать ссылку непосредственно на отфильтрованную и/или отсортированную выборку), и, кроме того, такой подход гораздо сложнее реализуем технологически.

Как считаете?

Добавить комментарий
Отображение комментариев: Древовидное | Плоское

NO USERPIC

rgbeast

Если страницы одинаковые, поисковик их в итоге склеивает и считает одной и той же, но склейка несколько усложняет восприятие сайта поисковиком, так как отстает от индексации, поэтому злоупотреблять не стоит. Страницы с GET-параметрами удобно иметь, в том числе для индексации, так как они часто содержат в себе уникальное содержимое сайта.

На форумах давно практикуется несколько вариантов страниц - линейный, древовидный, версия для печати, и поисковики с этим умеют обращаться. Возможность дать ссылку - ключевая вещь. Если хочется иметь много несодержательных параметров, то можно их сделать через POST или через скрипт, запрещенный к индексации. При этом сохранить индексацию всех уникальных страниц, важных для поиска.

16.07.2012, 19:16
Ответить

1234ru

Цитата:

Если хочется иметь много несодержательных параметров, то можно их сделать через POST

Вот в том-то и дело, что через POST очень трудно сделать что-то, что, например, не теряет номера страниц, потому что POST - это отправка формы, а ссылка на следующую страницу - это просто ссылка. Средствами обычного HTML (без javascript) сделать так, чтобы при нажатии на ссылку еще и отправлялся POST-запрос, технически невозможно.

Цитата:

или через скрипт, запрещенный к индексации

Вот это не очень понятно..
Предположим, есть адреса вида /books?page=2 и /books?page=2&not_important=1.
Как вынести на другой скрипт то, что показывается по адресам с not_important?

То, что не убивает нас, делает нас инвалидами.

17.07.2012, 10:50
Ответить

NO USERPIC

rgbeast

ничего не запрещает такого:
/books?page=2
и
/books_ext?page=2&not_important=1

При этом не страшно, если на последней все ссылки будут на /books_ext, она все равно не индексируется. Важно, что не нажимая "not important" можно обойти весь контент, оставаясь на адресе /books. Скрипт будет обрабатывать оба адреса идентично за исключением того, что ссылки будут на _ext, если есть флаг not_important

17.07.2012, 12:39
Ответить

1234ru

Тут выяснилось, что в таких случаях нужно использовать атрибут rel="canonical" тега <link>.
См., например, http://support.google.com/webmasters/bin/answer.py?hl=ru&answer=139394

То, что не убивает нас, делает нас инвалидами.

30.07.2012, 10:55
Ответить

NO USERPIC

rgbeast

Интересный атрибут. Оказывается, Яндекс уже год как это поддерживает:
http://help.yandex.ru/webmaster/?id=1111858

30.07.2012, 11:03
Ответить

© 2008—2024 webew.ru, связаться: x собака webew.ru
Сайт использует Flede и соответствует стандартам WAI-WCAG 1.0 на уровне A.

Реклама: https://raschetkasko.ru/

Метки
CSS
HTML
JavaScript
Linux
MySQL/MariaDB
PHP
XML
Алгоритмы
Интернет-маркетинг
SEO
SMO
контекстная реклама
оценка эффективности
социальные сети
управление проектами
целевая аудитория
юзабилити
Протоколы
С/C++
Управление содержимым