Robots.txt простыми словами — что это и зачем?

Robots.txt — текстовый файл в корне домена (site.ru/robots.txt), который сообщает поисковым роботам, какие URL обходить, а какие пропускать. Стандарт Robots Exclusion Protocol работает с 1994 года и поддерживается Google, Яндексом, Bing. Файл читается ботом первым при заходе на сайт.

Как правильно настроить robots.txt с нуля?

Создайте обычный .txt в кодировке UTF-8 и положите в корень сайта. Минимум — две директивы: User-agent (для какого бота правило) и Disallow (что закрыть). Добавьте Sitemap: со ссылкой на XML-карту. Размер файла — до 500 КБ для Google, иначе остаток игнорируется.

Чем отличается robots.txt от мета-тега noindex?

Robots.txt запрещает сканирование страницы, а noindex запрещает индексирование. Закрытый в файле URL может всё равно попасть в выдачу без сниппета, если на него ведут внешние ссылки. Для гарантированного исключения из индекса используйте noindex в <meta> или X-Robots-Tag, оставив страницу открытой для обхода.

Влияет ли robots.txt на ранжирование в Google?

Напрямую — нет, директивы файла не являются фактором ранжирования. Косвенно влияние сильное: правильное закрытие фасетных фильтров, корзины и админки экономит краулинговый бюджет и ускоряет индексацию важных страниц. Ошибочный Disallow: / способен полностью выбить сайт из выдачи за 1–2 апдейта.

Нужен ли robots.txt новому сайту на 10 страниц?

Да, желательно создать даже для маленького проекта. Без файла сервер отдаёт 404 на каждый запрос бота — это не критично, но засоряет логи. Для лендинга достаточно трёх строк: User-agent: *, Allow: /, Sitemap:. Закрывать стоит только служебные разделы вроде /admin или /cart.

robots.txt — что это и как настроить файл

robots.txt

Robots Exclusion Protocol · Стандарт исключений для роботов

robots.txt — это текстовый файл в корне сайта с инструкциями для поисковых краулеров. Указывает, какие разделы можно сканировать, а какие закрыты от обхода Google, Яндекса и других ботов.

robots.txt — это текстовый файл в корне домена, который простыми словами объясняет поисковым роботам, какие URL можно сканировать, а какие нет. Стандарт Robots Exclusion Protocol появился в 1994 году благодаря Мартейну Костеру и был официально закреплён как RFC 9309 в сентябре 2022 года.

Файл с инструкциями для краулеров читают Googlebot, YandexBot, Bingbot и сотни других ботов до начала обхода сайта. Грамотная настройка экономит краулинговый бюджет (crawl budget): Google в Search Console показывает, сколько запросов бот сделал за сутки, и оптимизация этого расхода напрямую влияет на скорость индексации новых страниц.

§ 01Зачем нужен

Файл инструкций для краулеров решает 3 задачи: закрывает служебные разделы (/admin, /cart, /search), бережёт краулинговый бюджет на крупных сайтах от 10 000 URL и указывает путь к Sitemap.xml. Джон Мюллер из Google в 2021 году напоминал: robots.txt не скрывает страницу из выдачи — для этого нужен noindex или защита паролем. Что значит запрет в robots.txt: бот не зайдёт на URL, но при наличии внешних ссылок страница может попасть в индекс без сниппета.

§ 02Как настраивается

Файл размещается строго по адресу example.com/robots.txt в кодировке UTF-8, размером до 500 КБ (лимит Google). Базовый синтаксис: User-agent: * задаёт правило для всех ботов, Disallow: /private/ закрывает раздел, Allow: /private/public.html открывает исключение. Директива Sitemap: https://example.com/sitemap.xml ставится отдельной строкой. Для разных ботов пишут разные блоки: Googlebot, YandexBot, GPTBot — последний массово блокируют с августа 2023 года против обучения ChatGPT.

Сценарий настройки

−85% краула /search/ — Интернет-магазин одежды на Shopify закрыл через Disallow: /search/ и /cart/ внутренние фасеты. За 8 недель Googlebot снизил обход мусорных URL на 85%, краул-бюджет сместился на карточки. Замер в Google Search Console → Crawl Stats.

Замер эффекта

индексация 12k → 3.2k — B2B SaaS на Next.js добавил Disallow: /app/ и /api/ для ботов, оставив доступ к /docs/ и /blog/. За 4 месяца индекс очистился с 12 000 до 3 200 релевантных URL. Контроль через Ahrefs Site Audit и отчёт «Страницы» в Яндекс.Вебмастере.

§ 03Где смотреть результат

Проверка файла с инструкциями для краулеров идёт через 3 инструмента. Google Search Console в разделе Настройки → robots.txt с декабря 2023 года показывает историю версий и ошибки парсинга. Яндекс.Вебмастер имеет отдельный валидатор по адресу webmaster.yandex.ru/tools/robotstxt. Screaming Frog SEO Spider в режиме List позволяет прогнать список URL и увидеть, какие заблокированы. Отчёт «Покрытие» в GSC отдельно выделяет страницы со статусом «Проиндексировано, несмотря на блокировку в robots.txt».

§ 04Подводные камни

Запрет в robots.txt не равен удалению из индекса — это главная ошибка новичков. Чтобы убрать страницу из выдачи, оставьте её открытой для сканирования и добавьте мета-тег noindex, иначе бот не увидит запрет. Закрытие /wp-content/ или /static/ ломает рендеринг: Googlebot с 2019 года использует Chromium и требует доступ к CSS и JS. Регистр имеет значение: Disallow: /Page и /page — два разных правила. Файл кешируется ботами до 24 часов, поэтому после правок индексация изменений идёт с задержкой.

Частые ошибки

Закрытие страниц от индексации через Disallow. Disallow запрещает обход, но не индексацию: страница попадает в выдачу с пометкой «описание недоступно». Google прямо предупреждает об этом в справке Search Central — страдает чистота индекса и CTR. Как правильно: Используйте мета-тег noindex или X-Robots-Tag для деиндексации. Disallow оставьте только для экономии краулингового бюджета.

Блокировка JS и CSS от ботов. Краулер не может отрендерить страницу так, как видит её пользователь, и считает её непригодной для мобильных. С 2015 года Google официально требует доступ к ресурсам — страдают позиции и mobile-friendly статус. Как правильно: Откройте JS, CSS и изображения через Allow. Проверяйте рендер в инструменте «Проверка URL» Search Console.

Размещение файла не в корне домена. Боты читают robots.txt строго по адресу /robots.txt корневого хоста. Файл в подпапке или на поддомене без отдельной копии игнорируется — сайт обходится без правил, утекает краулинговый бюджет и приватные разделы. Как правильно: Разместите robots.txt в корне каждого хоста и поддомена. Проверяйте отдачу 200 OK через «Тестер robots.txt» в Яндекс.Вебмастере.

robots.txt

§ 01Зачем нужен

§ 02Как настраивается

§ 03Где смотреть результат

§ 04Подводные камни

Robots.txt — частые вопросы вебмастеров

Robots.txt простыми словами — что это и зачем?

Как правильно настроить robots.txt с нуля?

Чем отличается robots.txt от мета-тега noindex?

Влияет ли robots.txt на ранжирование в Google?

Нужен ли robots.txt новому сайту на 10 страниц?

Не нашли ответ?

robots.txt

§ 01Зачем нужен

§ 02Как настраивается

§ 03Где смотреть результат

§ 04Подводные камни

Robots.txt — частые вопросы вебмастеров

Robots.txt простыми словами — что это и зачем?

Как правильно настроить robots.txt с нуля?

Чем отличается robots.txt от мета-тега noindex?

Влияет ли robots.txt на ранжирование в Google?

Нужен ли robots.txt новому сайту на 10 страниц?

Читайте дальше

Краулинг

Sitemap.xml

Hreflang

Не нашли ответ?