Технический SEO

robots.txt

Robots Exclusion Protocol · Стандарт исключений для роботов

robots.txt — это текстовый файл в корне сайта с инструкциями для поисковых краулеров. Указывает, какие разделы можно сканировать, а какие закрыты от обхода Google, Яндекса и других ботов.

robots.txt — это текстовый файл в корне домена, который простыми словами объясняет поисковым роботам, какие URL можно сканировать, а какие нет. Стандарт Robots Exclusion Protocol появился в 1994 году благодаря Мартейну Костеру и был официально закреплён как RFC 9309 в сентябре 2022 года.

Файл с инструкциями для краулеров читают Googlebot, YandexBot, Bingbot и сотни других ботов до начала обхода сайта. Грамотная настройка экономит краулинговый бюджет (crawl budget): Google в Search Console показывает, сколько запросов бот сделал за сутки, и оптимизация этого расхода напрямую влияет на скорость индексации новых страниц.

§ 01Зачем нужен

Файл инструкций для краулеров решает 3 задачи: закрывает служебные разделы (/admin, /cart, /search), бережёт краулинговый бюджет на крупных сайтах от 10 000 URL и указывает путь к Sitemap.xml. Джон Мюллер из Google в 2021 году напоминал: robots.txt не скрывает страницу из выдачи — для этого нужен noindex или защита паролем. Что значит запрет в robots.txt: бот не зайдёт на URL, но при наличии внешних ссылок страница может попасть в индекс без сниппета.

§ 02Как настраивается

Файл размещается строго по адресу example.com/robots.txt в кодировке UTF-8, размером до 500 КБ (лимит Google). Базовый синтаксис: User-agent: * задаёт правило для всех ботов, Disallow: /private/ закрывает раздел, Allow: /private/public.html открывает исключение. Директива Sitemap: https://example.com/sitemap.xml ставится отдельной строкой. Для разных ботов пишут разные блоки: Googlebot, YandexBot, GPTBot — последний массово блокируют с августа 2023 года против обучения ChatGPT.

Сценарий настройки

−85% краула /search/ — Интернет-магазин одежды на Shopify закрыл через Disallow: /search/ и /cart/ внутренние фасеты. За 8 недель Googlebot снизил обход мусорных URL на 85%, краул-бюджет сместился на карточки. Замер в Google Search Console → Crawl Stats.

Замер эффекта

индексация 12k → 3.2k — B2B SaaS на Next.js добавил Disallow: /app/ и /api/ для ботов, оставив доступ к /docs/ и /blog/. За 4 месяца индекс очистился с 12 000 до 3 200 релевантных URL. Контроль через Ahrefs Site Audit и отчёт «Страницы» в Яндекс.Вебмастере.

§ 03Где смотреть результат

Проверка файла с инструкциями для краулеров идёт через 3 инструмента. Google Search Console в разделе Настройки → robots.txt с декабря 2023 года показывает историю версий и ошибки парсинга. Яндекс.Вебмастер имеет отдельный валидатор по адресу webmaster.yandex.ru/tools/robotstxt. Screaming Frog SEO Spider в режиме List позволяет прогнать список URL и увидеть, какие заблокированы. Отчёт «Покрытие» в GSC отдельно выделяет страницы со статусом «Проиндексировано, несмотря на блокировку в robots.txt».

§ 04Подводные камни

Запрет в robots.txt не равен удалению из индекса — это главная ошибка новичков. Чтобы убрать страницу из выдачи, оставьте её открытой для сканирования и добавьте мета-тег noindex, иначе бот не увидит запрет. Закрытие /wp-content/ или /static/ ломает рендеринг: Googlebot с 2019 года использует Chromium и требует доступ к CSS и JS. Регистр имеет значение: Disallow: /Page и /page — два разных правила. Файл кешируется ботами до 24 часов, поэтому после правок индексация изменений идёт с задержкой.

Частые ошибки
01
Закрытие страниц от индексации через Disallow. Disallow запрещает обход, но не индексацию: страница попадает в выдачу с пометкой «описание недоступно». Google прямо предупреждает об этом в справке Search Central — страдает чистота индекса и CTR. Как правильно: Используйте мета-тег noindex или X-Robots-Tag для деиндексации. Disallow оставьте только для экономии краулингового бюджета.
02
Блокировка JS и CSS от ботов. Краулер не может отрендерить страницу так, как видит её пользователь, и считает её непригодной для мобильных. С 2015 года Google официально требует доступ к ресурсам — страдают позиции и mobile-friendly статус. Как правильно: Откройте JS, CSS и изображения через Allow. Проверяйте рендер в инструменте «Проверка URL» Search Console.
03
Размещение файла не в корне домена. Боты читают robots.txt строго по адресу /robots.txt корневого хоста. Файл в подпапке или на поддомене без отдельной копии игнорируется — сайт обходится без правил, утекает краулинговый бюджет и приватные разделы. Как правильно: Разместите robots.txt в корне каждого хоста и поддомена. Проверяйте отдачу 200 OK через «Тестер robots.txt» в Яндекс.Вебмастере.
Часто спрашивают

Robots.txt частые вопросы вебмастеров

Robots.txt простыми словами — что это и зачем?

+

Robots.txt — текстовый файл в корне домена (site.ru/robots.txt), который сообщает поисковым роботам, какие URL обходить, а какие пропускать. Стандарт Robots Exclusion Protocol работает с 1994 года и поддерживается Google, Яндексом, Bing. Файл читается ботом первым при заходе на сайт.

Создайте обычный .txt в кодировке UTF-8 и положите в корень сайта. Минимум — две директивы: User-agent (для какого бота правило) и Disallow (что закрыть). Добавьте Sitemap: со ссылкой на XML-карту. Размер файла — до 500 КБ для Google, иначе остаток игнорируется.

Robots.txt запрещает сканирование страницы, а noindex запрещает индексирование. Закрытый в файле URL может всё равно попасть в выдачу без сниппета, если на него ведут внешние ссылки. Для гарантированного исключения из индекса используйте noindex в <meta> или X-Robots-Tag, оставив страницу открытой для обхода.

Напрямую — нет, директивы файла не являются фактором ранжирования. Косвенно влияние сильное: правильное закрытие фасетных фильтров, корзины и админки экономит краулинговый бюджет и ускоряет индексацию важных страниц. Ошибочный Disallow: / способен полностью выбить сайт из выдачи за 1–2 апдейта.

Да, желательно создать даже для маленького проекта. Без файла сервер отдаёт 404 на каждый запрос бота — это не критично, но засоряет логи. Для лендинга достаточно трёх строк: User-agent: *, Allow: /, Sitemap:. Закрывать стоит только служебные разделы вроде /admin или /cart.

Не нашли ответ?

Спросите Андрея Гусарова — отвечаю в течение 1-2 рабочих дней.

Нажимая, вы соглашаетесь с обработкой данных.