Краулинговый бюджет (crawl budget) — это лимит URL, которые Googlebot обходит за определённый период; простыми словами, сколько страниц робот успеет посмотреть за визит. Термин ввёл Гэри Илш в блоге Google Search Central в январе 2017 года, объединив два понятия: crawl rate limit и crawl demand.
На сайтах до 10 000 URL краулинговый бюджет почти не ограничивает индексацию — об этом писал John Mueller в 2020 году. Что это значит для крупных проектов: маркетплейсы и СМИ с миллионами страниц теряют до 30% URL из индекса, если сервер отдаёт 5xx или Time to First Byte превышает 600 мс.
§ 01Зачем нужен
Краулинговый бюджет нужен Google для экономии вычислительных ресурсов: серверы Googlebot обходят триллионы URL ежедневно. Для владельца сайта это значит контроль над тем, какие страницы попадут в индекс быстрее. На новостном портале с 500 000 URL разница между обходом за 2 дня и за 2 недели напрямую влияет на трафик. Оптимизация crawl budget критична для e-commerce с фасетной навигацией, где количество комбинаций фильтров достигает миллионов.
§ 02Как настраивается
Настройка краулингового бюджета идёт через robots.txt, директиву noindex и атрибут rel=canonical. В Search Console раздел Settings → Crawl stats показывает среднее число запросов в день и host status. С чего начать: закрыть в robots.txt параметрические URL вида ?sort=, ?utm_, страницы внутреннего поиска. Screaming Frog и Ahrefs Site Audit находят цепочки редиректов длиннее 2 шагов — каждый лишний хоп тратит бюджет.
обход 18k → 64k URL/сут — Маркетплейс одежды на Shopware с 2.1 млн SKU закрыл фасетные фильтры через robots.txt и схлопнул дубли по canonical. За 8 недель Googlebot стал обходить 64k URL в сутки против 18k. Динамика в логах через Screaming Frog Log Analyser и отчёт Crawl Stats в GSC.
индексация 41% → 87% — Медиапортал о финансах на WordPress с 12k статей убрал тонкие архивы тегов и поднял TTFB с 1.4 до 0.4 с через Cloudflare APO. Доля проиндексированных URL выросла с 41% до 87% за 4 месяца. Замер по отчёту Pages в Google Search Console.
§ 03Где смотреть результат
Основной отчёт — Crawl Stats в Google Search Console: график Total crawl requests за 90 дней, разбивка по типу файла, response code, цели обхода (Discovery/Refresh). В логах сервера (формат combined) фильтруют User-Agent Googlebot/2.1 и считают уникальные URL за сутки. На сайте с 1 млн страниц здоровый показатель — обход 5–15% URL ежедневно. Резкий спад на 40% за неделю — сигнал проблем с сервером или качеством контента.
§ 04Подводные камни
Краулинговый бюджет тратится на бесполезные URL: дубли с trailing slash, soft 404, старые sitemap с удалёнными страницами. В марте 2024 года Google усилил фильтрацию low-quality content — после Core Update боты стали реже возвращаться на тонкие страницы. Что делает ситуацию хуже: блокировка CSS и JS в robots.txt мешает рендерингу, и Google расходует бюджет повторно. Не путайте crawl budget и index budget — это разные лимиты.