robots.txt — это текстовый файл в корне домена, который простыми словами объясняет поисковым роботам, какие URL можно сканировать, а какие нет. Стандарт Robots Exclusion Protocol появился в 1994 году благодаря Мартейну Костеру и был официально закреплён как RFC 9309 в сентябре 2022 года.
Файл с инструкциями для краулеров читают Googlebot, YandexBot, Bingbot и сотни других ботов до начала обхода сайта. Грамотная настройка экономит краулинговый бюджет (crawl budget): Google в Search Console показывает, сколько запросов бот сделал за сутки, и оптимизация этого расхода напрямую влияет на скорость индексации новых страниц.
§ 01Зачем нужен
Файл инструкций для краулеров решает 3 задачи: закрывает служебные разделы (/admin, /cart, /search), бережёт краулинговый бюджет на крупных сайтах от 10 000 URL и указывает путь к Sitemap.xml. Джон Мюллер из Google в 2021 году напоминал: robots.txt не скрывает страницу из выдачи — для этого нужен noindex или защита паролем. Что значит запрет в robots.txt: бот не зайдёт на URL, но при наличии внешних ссылок страница может попасть в индекс без сниппета.
§ 02Как настраивается
Файл размещается строго по адресу example.com/robots.txt в кодировке UTF-8, размером до 500 КБ (лимит Google). Базовый синтаксис: User-agent: * задаёт правило для всех ботов, Disallow: /private/ закрывает раздел, Allow: /private/public.html открывает исключение. Директива Sitemap: https://example.com/sitemap.xml ставится отдельной строкой. Для разных ботов пишут разные блоки: Googlebot, YandexBot, GPTBot — последний массово блокируют с августа 2023 года против обучения ChatGPT.
−85% краула /search/ — Интернет-магазин одежды на Shopify закрыл через Disallow: /search/ и /cart/ внутренние фасеты. За 8 недель Googlebot снизил обход мусорных URL на 85%, краул-бюджет сместился на карточки. Замер в Google Search Console → Crawl Stats.
индексация 12k → 3.2k — B2B SaaS на Next.js добавил Disallow: /app/ и /api/ для ботов, оставив доступ к /docs/ и /blog/. За 4 месяца индекс очистился с 12 000 до 3 200 релевантных URL. Контроль через Ahrefs Site Audit и отчёт «Страницы» в Яндекс.Вебмастере.
§ 03Где смотреть результат
Проверка файла с инструкциями для краулеров идёт через 3 инструмента. Google Search Console в разделе Настройки → robots.txt с декабря 2023 года показывает историю версий и ошибки парсинга. Яндекс.Вебмастер имеет отдельный валидатор по адресу webmaster.yandex.ru/tools/robotstxt. Screaming Frog SEO Spider в режиме List позволяет прогнать список URL и увидеть, какие заблокированы. Отчёт «Покрытие» в GSC отдельно выделяет страницы со статусом «Проиндексировано, несмотря на блокировку в robots.txt».
§ 04Подводные камни
Запрет в robots.txt не равен удалению из индекса — это главная ошибка новичков. Чтобы убрать страницу из выдачи, оставьте её открытой для сканирования и добавьте мета-тег noindex, иначе бот не увидит запрет. Закрытие /wp-content/ или /static/ ломает рендеринг: Googlebot с 2019 года использует Chromium и требует доступ к CSS и JS. Регистр имеет значение: Disallow: /Page и /page — два разных правила. Файл кешируется ботами до 24 часов, поэтому после правок индексация изменений идёт с задержкой.