Анализ, использование и директивы файла robots.txt

Robots.txt (роботс) – это текстовый файл, в котором указываются правила индексирования сайта для роботов поисковых систем. Яндекс и Google регулярно загружают с сервера данный документ при очередном анализе сайта. Благодаря использования в нём специальных директив вы можете разрешить или наоборот запретить поисковикам доступ к определённой информации на ресурсе.

Создание и настройка документа robots.txt

Создать данный файл можно в обычном текстовом редакторе. Для описания правил индексации используются специальные директивы (записи в виде строк). Именно по ним робот понимает какой контент можно индексировать, а какой нельзя.

Сам документ размещается в корневой директории ресурса. Обратите внимание, что его название должно указываться в нижнем регистре (все буквы маленькие).

Мы категорически не рекомендуем использовать для создания данного документа автоматические генераторы, так как это может очень негативно отразиться на индексации ресурса и, как следствие, на качестве и скорости его продвижения в интернете.

Инструкция по использованию директив в файле robots.txt

Директива User-agent

Указывает на робота, для которого действуют правила индексирования. Например:

User-agent: * (правила распространяются на всех поисковых роботов);
User-agent: YandexBot (правила распространяются только на основного робота Яндекса).

Список поисковых роботов можно подсмотреть в руководстве Яндекс и Google.

Запрещающающая директива Disallow

Использование данной директивы в файле robots.txt запрещает индексацию каталогов или отдельных страниц ресурса. Например:

Disallow: /search/ (закрывает индексацию ссылок из встроенного поиска);
Disallow: /catalog (закрывает индексацию всех ссылок, которые начинаются с данной записи).

Скрывать от индексации необходимо техническую информацию и страницы, содержание которых не предназначено для поисковых роботов (например, страницы поиска, админку, корзину и т.д.).

Разрешающая директива Allow

Имеет полностью противоположное действие директиве Disallow. Например:

Allow: /catalog (разрешает индексирование всех страниц, которые начинаются со ссылки https://www.example.ru/catalog/…);
Allow: / (разрешена индексация всех страниц сайта).

Директива Sitemap

Указывает поисковику месторасположение файла Sitemap (карты сайта). Запись будет иметь следующий вид: Sitemap: https://www.example.ru/sitemap.xml/.

В robots.txt допустимо использование некоторых таких директив. Поэтому, если файлов Sitemap на сайте несколько, необходимо указать путь к каждому из них.

Директива Clean-param

Данная запись указывает роботу о наличии на страница параметров (например, UTM-метки), которые не нужно учитывать при обращении к файлу robots.txt.

Например, одна и та же страница может иметь несколько ссылок:

http://www.example.ru/catalog?ref=page_1
http://www.example.ru/catalog?ref=page_2
http://www.example.ru/catalog?ref=page_3

Чтобы при анализе ресурса робот не посчитал это дублированием контента, в файле robots.txt необходимо использовать запись: Clean-param: ref /catalog/.

Директива Crawl-delay

Задает роботу минимальный период времени (в секундах) между окончанием загрузки одной страницы и началом загрузки следующей. Это актуально для слабых серверов. Например, запись “Crawl-delay: 3.5” задает тайм-аут в три с половиной секунды.

Другие варианты директив

Обратите внимание, что записи, с помощью которых настраивается процесс индексации ресурса поисковиками, могут быть указаны разными способами. Например, запись “disallow: /” аналогична записи “disallow: ”. Более подробные примеры использования директив вы можете найти в руководстве поисковых систем.

Анализ файла robots.txt

Чтобы узнать правильно ли составлен данный документ, вы можете провести его проверку в панели вебмастера Яндекс по ссылке: https://webmaster.yandex.ru/tools/robotstxt/. В поле “Результаты анализа robots.txt” будут указаны директивы, которые видит робот при сканировании вашего сайта.

Здесь же вы можете увидеть наличие разрешения или запрета на индексирование определенных страниц. Для этого укажите список URL в специальном поле.

Аналогичный инструмент есть в Google Search Console: https://www.google.com/webmasters/tools/robots-testing-tool?hl=ru.