Адрес офиса:
Москва, Одесская ул., 2кС, 117638
Время работы:
Ежедневно
с 10 до 19
+7(495)477-57-39
Ежедневно
с 10 до 19

Правильный файл robots.txt для сайта: примеры robots txt

Опубликовано: 28.08.2023
Дмитрий Михайлов
2018

Файл robots — это текстовый файл, он имеет огромную роль в индексации сайта, он помогает «понять» поисковым системам, что необходимо брать в поиск из страниц, что следует закрывать от индексации от поискового робота, какие файлы они могут использовать для рендеринга и кеширования, а так же какие ссылки на важные файлы и главные зеркала. В интернете можно прочитать, что поисковики сейчас не учитывают директивы из роботса, но скажу вам с 100% уверенностью – Яндекс ему следует полностью. Гугл тоже, но бывают моменты, что он все-таки индексирует закрытые страницы, но это редко. В статье разберем примерные стартовые конфигурации правильной настройки robots.txt для разных CMS. В конце примеры сервисов Яндекса, Google и сторонних для анализа файла robots.txt.

Оптимальные правила и код robots.txt для WordPress

Следует осознавать, что приведенный ниже пример кода для файла robots.txt является универсальным, это своего рода стандарт исключений для роботов. Тем не менее, для каждого конкретного сайта необходимо вносить индивидуальные дополнения и корректировки. Необходимо понимать, для каких страниц запрещать индексирование для поисковых систем, чтобы составить правильный текстовый файл. Важно избегать внесения изменений, если отсутствует понимание и опыт. В таком случае, рекомендуется обратиться за помощью к специалистам.

Стандартный файл robots.txt

Этот вариант предпочтителен по сравнению со вторым, поскольку отсутствует риск случайно запретить индексацию каких-либо файлов внутри основной директории WordPress или в папке wp-content:

User-agent: *
Disallow: /wp-
Disallow: /tag/
Disallow: */trackback
Disallow: */page
Disallow: /author/*
Disallow: /template.html
Disallow: /readme.html
Disallow: *?replytocom
Disallow: */feed/*
Disallow: */feed/
Allow: */uploads
Allow: *.js
Allow: *.css
Allow: *.png
Allow: *.gif
Allow: *.jpg
Sitemap: https://site.ru/sitemap.xml
Host: https://site.ru/
Директива Host — это правило, которое указывает поисковой системе, какое зеркало сайта (с www или без www) считать основным. Эта директива находится в файле Robots.txt и предназначена исключительно для использования Яндексом.

Дополнение для плагина WooCommerce

Если используете плагин для создания интернет магазинов WooCommerce, то обязательно необходимо поставить запрет индексировать автоматически создаваемые страницы. Просто добавьте наряду с другими командами вот такие:
Disallow: /cart/
Disallow: /checkout/
Disallow: /*add-to-cart=*
Disallow: /my-account/

Загружать роботс следует в корень сайта, там где находятся папки wp-content, wp-admin и wp-includes. Для этого понадобиться FTP доступ.

куда заливать robots в wordpress

Создаем файл robots txt в плагине Yoast SEO

Если вы не хотите возиться с FTP и на ресурсе установлен плагин YoastSEO, то вы можете сделать физический роботс (есть еще виртуальный) в нем. Переходим по таким пунктам, как на нижнем скриншоте. Если у вас нет роботса, то система предложит его создать соответствующей кнопкой.

Физический – значит он создан из файлов и залит на сервер, то есть его можно увидеть в корне сайта. Виртуальный – значит что его создает PHP скрипт, тоже метод хороший, для этого есть множество плагинов, например Virtual Robots.txt, думаю показывать нет необходимости, там все интуитивно понятно.

yoast

Правила robots txt для сайта на Bitrix

Битрикс — очень большая и насыщенная различным функционалом CMS (система управления контентом), поэтому она генерирует огромное количество страниц с параметрами и другими включениями, одна только функция фильтрации может сделать до 10 различных комбинаций URL, что очень плохо будет влиять на SEO. Индексацию можно просто убить, если не настроить robots для Bitrix.


User-agent: * # правила для всех роботов
Disallow: /cgi-bin # папка на хостинге
Disallow: /bitrix/ # папка с системными файлами битрикса
Disallow: *bitrix_*= # GET-запросы битрикса
Disallow: /local/ # папка с системными файлами битрикса
Disallow: /*index.php$ # дубли страниц index.php
Disallow: /auth/ # авторизация
Disallow: *auth= # авторизация
Disallow: /personal/ # личный кабинет
Disallow: *register= # регистрация
Disallow: *forgot_password= # забыли пароль
Disallow: *change_password= # изменить пароль
Disallow: *login= # логин
Disallow: *logout= # выход
Disallow: */search/ # поиск
Disallow: *action= # действия
Disallow: *print= # печать
Disallow: *?new=Y # новая страница
Disallow: *?edit= # редактирование
Disallow: *?preview= # предпросмотр
Disallow: *backurl= # трекбеки
Disallow: *back_url= # трекбеки
Disallow: *back_url_admin= # трекбеки
Disallow: *captcha # каптча
Disallow: */feed # все фиды
Disallow: */rss # rss фид
Disallow: *?FILTER*= # здесь и ниже различные популярные параметры фильтров
Disallow: *?ei=
Disallow: *?p=
Disallow: *?q=
Disallow: *?tags=
Disallow: *B_ORDER=
Disallow: *BRAND=
Disallow: *CLEAR_CACHE=
Disallow: *ELEMENT_ID=
Disallow: *price_from=
Disallow: *price_to=
Disallow: *PROPERTY_TYPE=
Disallow: *PROPERTY_WIDTH=
Disallow: *PROPERTY_HEIGHT=
Disallow: *PROPERTY_DIA=
Disallow: *PROPERTY_OPENING_COUNT=
Disallow: *PROPERTY_SELL_TYPE=
Disallow: *PROPERTY_MAIN_TYPE=
Disallow: *PROPERTY_PRICE[*]=
Disallow: *S_LAST=
Disallow: *SECTION_ID=
Disallow: *SECTION[*]=
Disallow: *SHOWALL=
Disallow: *SHOW_ALL=
Disallow: *SHOWBY=
Disallow: *SORT=
Disallow: *SPHRASE_ID=
Disallow: *TYPE=
Disallow: *utm*= # ссылки с utm-метками
Disallow: *openstat= # ссылки с метками openstat
Disallow: *from= # ссылки с метками from
Allow: */upload/ # открываем папку с файлами uploads
Allow: /bitrix/*.js # здесь и далее открываем для индексации скрипты
Allow: /bitrix/*.css
Allow: /local/*.js
Allow: /local/*.css
Allow: /local/*.jpg
Allow: /local/*.jpeg
Allow: /local/*.png
Allow: /local/*.gif
# Укажите один или несколько файлов Sitemap
Sitemap: http://site.ru/sitemap.xml

Правила MODx Evo и Revo

Файл robots.txt для MODx Evo

User-agent: * # правила для всех роботов
Disallow: /cgi-bin # папка на хостинге
Disallow: /manager/ # авторизация
Disallow: /assets/ # папка с системными файлами modx
Disallow: /core/ # папка с системными файлами modx
Disallow: /connectors/ # папка с системными файлами modx
Disallow: /index.php # дубли страниц index.php
Disallow: *?* # ссылки с параметрами
Disallow: *utm*= # ссылки с utm-метками
Disallow: *openstat= # ссылки с метками openstat
Disallow: *from= # ссылки с метками from
Allow: /assets/*.jpg # здесь и далее открываем для индексации изображения, файлы и скрипты
Allow: /assets/*.jpeg
Allow: /assets/*.gif
Allow: /assets/*.png
Allow: /assets/*.pdf
Allow: /assets/*.doc
Allow: /assets/*.docx
Allow: /assets/*.xls
Allow: /assets/*.xlsx
Allow: /assets/*.ppt
Allow: /assets/*.pptx
Allow: /assets/*.js
Allow: /assets/*.css
Allow: *?page= # открываем для индексации страницы пагинации (и проверьте, чтобы для них был настроен canonical)
# Укажите один или несколько файлов Sitemap
Sitemap: http://site.ru/sitemap.xml

Для MODX Revo дополнительно можно указать такую строку Disallow: /assets/components/

Robots.txt для Opencart

Правильный роботс будет таким:


User-agent: *
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index.php?route=product/product*&manufacturer_id=
Disallow: /admin
Disallow: /catalog
Disallow: /system
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Disallow: /*?tracking=
Disallow: /*&tracking=
Disallow: /*compare-products
Disallow: /*search
Disallow: /*cart
Disallow: /*checkout
Disallow: /*login
Disallow: /*logout
Disallow: /*vouchers
Disallow: /*wishlist
Disallow: /*my-account
Disallow: /*order-history
Disallow: /*newsletter
Disallow: /*return-add
Disallow: /*forgot-password
Disallow: /*downloads
Disallow: /*returns
Disallow: /*transactions
Disallow: /*create-account
Disallow: /*recurring
Disallow: /*address-book
Disallow: /*reward-points
Disallow: /*affiliate-forgot-password
Disallow: /*create-affiliate-account
Disallow: /*affiliate-login
Disallow: /*affiliates
Disallow: /*?filter_tag=
Disallow: /*brands
Disallow: /*specials
Disallow: /*simpleregister
Disallow: /*simplecheckout
Disallow: *utm=
Allow: /catalog/view/javascript/
Allow: /catalog/view/theme/*/
Sitemap: https://site.ru/index.php?route=feed/google_sitemap

Ссылка на xml карту сайта может быть другой, сейчас указана стандартная, вы прописываете свой URL если он отличается.

Составление robots.txt и проверка

Проверить файл можно по следующим ссылкам:
  • Яндекс: https://webmaster.yandex.ru/site/Адрессайта/tools/robotstxt/
  • Google: https://www.google.com/webmasters/tools/robots-testing-tool (нужна авторизация и наличие сайта в панели веб-мастера)
  • Сервис для составления файлов robots.txt: http://pr-cy.ru/robots/
  • Сервис для создания и проверки файла robots.txt: https://seolib.ru/tools/generate/robots/

Рекомендации для составления файлов

Советы по составлению файла роботс:

  1. Не забывайте менять site.ru на свой домен.
  2. В статье указаны стандартные, начальные директивы, дополняйте его своими. Чтобы увидеть ненужные страницы в индексе поисковой системы – необходимо просмотреть в Яндекс Вебмастере в отчете Индексирование и в Search Console у Google.
  3. Управляйте индексацией для разных роботов поисковых систем с помощью директивы User-agent, у всех примеров из статьи выставлено *, это значит для всех. Можно задать правила для поисковых роботов Яндекса, изменив звездочку на YandexBot или Googlebot.

Смотрите полезное видео по статье:

 

Последние статьи

Каждую неделю я готовлю для вас интересные и полезные материалы. Здесь представлены только бесплатные статьи, остальные доступны участникам закрытого клуба
Дочитали?
для вас бонус
Осталось 3 бесплатных консультации - аудита вашего сайта. Успейте оставить заявку