Краулинг (crawling) — это обход страниц сайта поисковыми роботами для поиска нового и обновлённого контента. Простыми словами: бот Googlebot или ЯндексБот ходит по ссылкам, скачивает HTML и передаёт его на индексацию. Сам термин закрепился в индустрии после запуска Googlebot в 1998 году, а в 2019 Google перевёл основной краулер на evergreen Chromium с поддержкой JavaScript.
Без краулинга страница не попадёт в выдачу: что это значит на практике — пока робот не обошёл URL, его нет ни в индексе, ни в ранжировании. Скорость обхода контролируется через robots.txt, Sitemap.xml и отчёт Crawl Stats в Google Search Console, где видно до 90 дней истории запросов бота.
§ 01Зачем нужен
Краулинг решает задачу обнаружения: робот находит новые URL по внутренним и внешним ссылкам, по карте сайта и по данным из Indexing API. Для чего нужно — без обхода поисковик не узнает об изменениях цен, новых статьях и удалённых страницах. John Mueller в 2022 году подтвердил: средний интервал переобхода для среднего сайта составляет от нескольких дней до нескольких недель. Краулинг отличается от индексации: первое — скачивание, второе — добавление в базу.
§ 02Как настраивается
Управление обходом строится на трёх файлах: robots.txt закрывает разделы от ботов, sitemap.xml подсказывает приоритетные URL, заголовок X-Robots-Tag задаёт правила на уровне ответа сервера. Простыми словами: robots.txt — это карта запретов, sitemap — карта приглашений. С 2023 года Google игнорирует директиву crawl-delay, скорость регулируется автоматически по нагрузке. Для крупных проектов 100 000+ URL подключают логи сервера и Screaming Frog Log Analyzer.
обход 12k → 38k URL/день — Маркетплейс одежды на Bitrix открыл краулинговый бюджет: убрал фасетные дубли через robots.txt и canonical, сжал sitemap на 40k URL. Googlebot за 8 недель увеличил обход с 12 до 38 тысяч URL в сутки. Замер по Search Console Crawl Stats и логам Nginx.
индексация 14 → 3 дней — B2B SaaS-платформа на Next.js с 6k страниц документации внедрила IndexNow и динамический sitemap с lastmod. Среднее время от публикации до попадания в индекс Яндекса упало с 14 до 3 дней за квартал. Контроль через Яндекс.Вебмастер и серверные логи.
§ 03Где смотреть результат
Отчёт Crawl Stats в Google Search Console показывает: количество запросов в день, средний размер ответа, время отклика и распределение по типам файлов. Для Яндекса аналог — раздел Статистика обхода в Яндекс Вебмастере. Анализ серверных логов в Screaming Frog или JetOctopus раскрывает, какие URL бот посещает чаще, а какие игнорирует. Краулинг считается здоровым, когда время ответа сервера держится ≤ 200 мс, а доля 5xx-ошибок не превышает 1%.
§ 04Подводные камни
Краулинговый бюджет (crawl budget) — главная боль сайтов от 10 000 страниц: бот тратит лимит на дубли, фасетные фильтры и параметры сортировки вместо целевых URL. Барри Шварц в Search Engine Land фиксировал случаи 2024 года, когда Googlebot тратил до 70% обхода на бесполезные параметрические страницы. Зачем это контролировать — чтобы новые товары и статьи попадали в индекс за часы, а не недели. Опасные ошибки: цепочки редиректов длиннее 3 шагов, soft 404, бесконечные календари и отсутствие rel=canonical на пагинации.