Robots.txt (роботс) – это текстовый файл, в котором указываются правила индексирования сайта для роботов поисковых систем. Яндекс и Google регулярно загружают с сервера данный документ при очередном анализе сайта. Благодаря использования в нём специальных директив вы можете разрешить или наоборот запретить поисковикам доступ к определённой информации на ресурсе.
Создать данный файл можно в обычном текстовом редакторе. Для описания правил индексации используются специальные директивы (записи в виде строк). Именно по ним робот понимает какой контент можно индексировать, а какой нельзя.
Сам документ размещается в корневой директории ресурса. Обратите внимание, что его название должно указываться в нижнем регистре (все буквы маленькие).
Мы категорически не рекомендуем использовать для создания данного документа автоматические генераторы, так как это может очень негативно отразиться на индексации ресурса и, как следствие, на качестве и скорости его продвижения в интернете.
Указывает на робота, для которого действуют правила индексирования. Например:
Список поисковых роботов можно подсмотреть в руководстве Яндекс и Google.
Использование данной директивы в файле robots.txt запрещает индексацию каталогов или отдельных страниц ресурса. Например:
Скрывать от индексации необходимо техническую информацию и страницы, содержание которых не предназначено для поисковых роботов (например, страницы поиска, админку, корзину и т.д.).
Имеет полностью противоположное действие директиве Disallow. Например:
Указывает поисковику месторасположение файла Sitemap (карты сайта). Запись будет иметь следующий вид: Sitemap: https://www.example.ru/sitemap.xml/.
В robots.txt допустимо использование некоторых таких директив. Поэтому, если файлов Sitemap на сайте несколько, необходимо указать путь к каждому из них.
Данная запись указывает роботу о наличии на страница параметров (например, UTM-метки), которые не нужно учитывать при обращении к файлу robots.txt.
Например, одна и та же страница может иметь несколько ссылок:
Чтобы при анализе ресурса робот не посчитал это дублированием контента, в файле robots.txt необходимо использовать запись: Clean-param: ref /catalog/.
Задает роботу минимальный период времени (в секундах) между окончанием загрузки одной страницы и началом загрузки следующей. Это актуально для слабых серверов. Например, запись “Crawl-delay: 3.5” задает тайм-аут в три с половиной секунды.
Обратите внимание, что записи, с помощью которых настраивается процесс индексации ресурса поисковиками, могут быть указаны разными способами. Например, запись “disallow: /” аналогична записи “disallow: ”. Более подробные примеры использования директив вы можете найти в руководстве поисковых систем.
Чтобы узнать правильно ли составлен данный документ, вы можете провести его проверку в панели вебмастера Яндекс по ссылке: https://webmaster.yandex.ru/tools/robotstxt/. В поле “Результаты анализа robots.txt” будут указаны директивы, которые видит робот при сканировании вашего сайта.
Здесь же вы можете увидеть наличие разрешения или запрета на индексирование определенных страниц. Для этого укажите список URL в специальном поле.
Аналогичный инструмент есть в Google Search Console: https://www.google.com/webmasters/tools/robots-testing-tool?hl=ru.