Формирование логичной индексации один из приоритетов внутренней оптимизации сайта, если не самый главный. В разных CMS и самописных скриптах для администрирования сайтов создается много не нужных для поисковых систем документов, но важных для корректной работы. Такие страницы необходимо запретить от индексации, чтобы поисковик брал в индекс документы созданные для него, а не все подряд. Разберемся в видами запретов индексации, как лучше ими управлять.
Многие SEO специалисты пишут, что запрет в файле robots txt работает 50/50. Это не так, запрет индексации в данном файле работает всегда и почти со 100% вероятностью все ПС их придерживаются. Разбираться с синтаксисом это тема другой статьи, сейчас разберем методы запрета разных сущностей проекта. Единственное – обязательно роботс должен находиться в корне, то есть site.ru/robots.txt.
Сначала уясним маркировку и название ботов поисковых систем:
User-agent: *
Disallow: /
Если необходимо исключить какого-либо бота, то есть дать ему доступ, то пишем разрешающую директиву с именем робота.
User-agent: *
Disallow: /
User-agent: Yandex
Allow: /
Принцип не отличается от остальных способов, пишем запрещающую директиву и название папки. В примере ниже видим три записи, первая без звездочек, вторая с ними, третья разрешающая:
User-agent: *
Disallow: /papka
Disallow: */papka/*
Allow: */papka/podpapka
Опять метод аналогичен, но не забываем про вложенность:
User-agent: *
Disallow: /fayl.jpg
Disallow: */fayl.jpg
Allow: */papka/fayl.jpg
Allow: fayl.jpg
Логика понятна, в первой строке запрет идет только если картинка в корне сайта, если он появиться в других местах, то будет открыт для индексации. Вторая полностью закроет изображение с таким именем во всех урлах. Третья дает исключение, что вот в такой папке можно индексировать файл. Четвертая говорит что не зависимо от всех запретов, во всех категориях разрешено брать в индекс это фото.
Закрытие от индексации картинок ничем не отличается от любого типа файлов, с одним различием что их обычно открывают или запрещают на уровне расширения, например:
User-agent: *
Disallow: /images/*.jpg
Изображения скрывают от ПС в одном случае – чтобы они не попадали в поиск по картинкам и их не могли скачать напрямую с поиска. Но если фото скрыто таким методом, то скорее всего проверка Google на мобильную версию выдаст ошибку и вам не отобразиться в результатах проверки роботом Гугла. Поэтому скрывать стоит именно те изображения, которые не являются частью контента и интерфейса, а принадлежат к какой-либо дополнительной ценности.
Я думаю вы уже догадались, что будет в роботсе, чтобы запретить индексацию картинок и фотографий.
User-Agent: *
Disallow: *.jpg
Disallow: *.png
Disallow: *.gif
Что значит страницы с параметрами? То есть страницы, которые содержать знак вопроса «?», в основном они не содержат в себе ничего полезного, являются дублями, служат для перенаправления, в общем индексироваться не должны. Для упрощения работы с ними разработана директива clean-param. Что это такое вы можете посмотреть в официально видео Яндекс Вебмастера.
Преимущество в том что не нужно для каждого параметра задавать свой disallow, а можно объединить все в один, который не закроет по случайности нормальные страницы, а только те которые содержат «?». Например, сайт генерирует такие адреса:
В тех же интернет магазинах их намного больше, тогда приходиться под каждую писать отдельную строку с disallow и закрывать от индекса, это будет выглядеть так.
User-agent: *
Disallow: *PAGEN_*
Disallow: *filter=*
Disallow: *backurl=*
На некоторых проектах это количество может достигать до 100 и более разных генерируемых параметров. Согласитесь каждый писать с новой строки и следить за правильностью написания не слишком правильно. Для этого есть специальный инструмент, запись будет выглядеть так:
User-agent: *
Clean-param: sort&filter&backurl
Отойдем от robots, перейдем к более жестким мерам. Чтобы заблокировать конкретную страницу от индекса нужно в шапке, точнее в разделе <head>, прописать комбинацию.
<html>
<head>
<meta name="robots" content="noindex, nofollow" />
</head>
<body>...</body>
</html>
В атрибуте content видим значение noindex, то есть это полный запрет, на то чтобы поисковой робот индексировал страницу. Nofollow говорит, что переходить по ссылкам и передавать вес с данного документ нельзя.
Значения можно комбинировать с index – разрешена индексация, follow – можно переходить по ссылкам. Например, комбинация ниже, запрещает индексацию, но переходить по ссылкам можно.
<meta name="robots" content="noindex, follow" />
Данный способ относиться к способам блокировки по user agent. То есть если в прошлых методах могут быть исключения и робот берет в индекс страницы (но это очень редко), то в данном методе робота просто разворачивают и не дают зайти на сайт.
SetEnvIfNoCase User-Agent "^Googlebot" search_bot
SetEnvIfNoCase User-Agent "^Yandex" search_bot
Это радикальный метод, комбинацию лучше уточнять у своего хостинга. Применяют только в случае крайней необходимости если роботы ПС берут в индекс ненужные адреса.
Последний метод это с помощью ответа сервера. Вы наверное слышали фразы, код ответа 200, 404, 301 и т.д. Когда какой либо user agent заходит на сайт, то его браузер получает код ответа, наряду с которым можно уточнить, какому виду агентов закрывать доступ к сайту.
HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
X-Robots-Tag: noindex, nofollow
X-Robots-Tag: noarchive
Полный перечень и детальное описание можете прочитать в Яндекс Справке. Метод применяется очень редко ввиду сложности внедрения и высокой вероятности сбоя.
Метод крайне не стабилен и работает 50 на 50, потому что вырывать из контекста документа како-либо блок и просить его не воспринимать при создании кешированных копий и построения выдачи – сложная задача для ПС. Можете поэкспериментировать, поместите что-нибудь в тег <noindex> либо <!—noindex—>, пример:
<noindex>тут все что угодно</noindex>
Изначально в WordPress есть только возможность заблокировать весь сайт от индексации. Переходим в раздел Чтение и ставим соответствующую галочку.
Для точечного управления индексацией используем плагин Yoast SEO, наиболее подходящий под все задачи. Чтобы закрывать целые разделы переходим в раздел «Отображение в поисковой выдаче» далее по каждому табу и где необходимо ставим переключатель в положение ВЫКЛ.
Для точечного закрытия рубрик, записей, товаров, категорий и всего остального, входим в редактирование любой сущности, внизу открываем поле Дополнительно и выбираем пункт «НЕТ», отмеченный на скриншоте.
Разберем три способа проверки индексации, это с помощью инструментов от поисковых систем, через поисковую выдачу и расширения.
Если запрет делали через файл robots, то проверьте его обработку через кабинет Вебмастера Яндекс. Заходим Инструменты — > Анализ robots txt
В Google Search console принцип почти такой же, только нужно ввести в строку выше адрес страницы, если индексация запрещена, то система об этом сообщит, но не только по robots, а вообще по всем видам запрета индексации.
Отмечу, что если изменения внесены недавно, то страницы мгновенно не вылетят из индекса. То есть не стоит после правок сразу идти в поиск и проверять есть ли там страница или нет. Проверяйте как минимум через 1-2 недели. Для проверки наличия в индексе используйте запрос вида URL:адрес страницы, работает в обоих поисковиках Yandex и Google. Если ничего не найдено будет, то значит документ вылетел из индекса.
Самое популярное решение это RDS бар, можете поставить его через любой магазин (оно бесплатно), например в хроме. Нажимаете и получаете информацию.
В статье разобрались как происходит и как запретить индексацию разных элементов, это важная часть SEO и оптимизации в целом, настраивайте и следите за количеством документов в поиске.
очень подробно, про картинки буду точно применять. благодарю за инфу