Технический SEO

Краулинг

crawling · сканирование сайта

Краулинг (crawling) — это процесс обхода страниц сайта поисковыми роботами для поиска нового и обновлённого контента. Простыми словами: сканирование URL-адресов ботами Google и Яндекса перед индексацией.

Краулинг (crawling) — это обход страниц сайта поисковыми роботами для поиска нового и обновлённого контента. Простыми словами: бот Googlebot или ЯндексБот ходит по ссылкам, скачивает HTML и передаёт его на индексацию. Сам термин закрепился в индустрии после запуска Googlebot в 1998 году, а в 2019 Google перевёл основной краулер на evergreen Chromium с поддержкой JavaScript.

Без краулинга страница не попадёт в выдачу: что это значит на практике — пока робот не обошёл URL, его нет ни в индексе, ни в ранжировании. Скорость обхода контролируется через robots.txt, Sitemap.xml и отчёт Crawl Stats в Google Search Console, где видно до 90 дней истории запросов бота.

§ 01Зачем нужен

Краулинг решает задачу обнаружения: робот находит новые URL по внутренним и внешним ссылкам, по карте сайта и по данным из Indexing API. Для чего нужно — без обхода поисковик не узнает об изменениях цен, новых статьях и удалённых страницах. John Mueller в 2022 году подтвердил: средний интервал переобхода для среднего сайта составляет от нескольких дней до нескольких недель. Краулинг отличается от индексации: первое — скачивание, второе — добавление в базу.

§ 02Как настраивается

Управление обходом строится на трёх файлах: robots.txt закрывает разделы от ботов, sitemap.xml подсказывает приоритетные URL, заголовок X-Robots-Tag задаёт правила на уровне ответа сервера. Простыми словами: robots.txt — это карта запретов, sitemap — карта приглашений. С 2023 года Google игнорирует директиву crawl-delay, скорость регулируется автоматически по нагрузке. Для крупных проектов 100 000+ URL подключают логи сервера и Screaming Frog Log Analyzer.

Кейс e-commerce

обход 12k → 38k URL/день — Маркетплейс одежды на Bitrix открыл краулинговый бюджет: убрал фасетные дубли через robots.txt и canonical, сжал sitemap на 40k URL. Googlebot за 8 недель увеличил обход с 12 до 38 тысяч URL в сутки. Замер по Search Console Crawl Stats и логам Nginx.

До и после

индексация 14 → 3 дней — B2B SaaS-платформа на Next.js с 6k страниц документации внедрила IndexNow и динамический sitemap с lastmod. Среднее время от публикации до попадания в индекс Яндекса упало с 14 до 3 дней за квартал. Контроль через Яндекс.Вебмастер и серверные логи.

§ 03Где смотреть результат

Отчёт Crawl Stats в Google Search Console показывает: количество запросов в день, средний размер ответа, время отклика и распределение по типам файлов. Для Яндекса аналог — раздел Статистика обхода в Яндекс Вебмастере. Анализ серверных логов в Screaming Frog или JetOctopus раскрывает, какие URL бот посещает чаще, а какие игнорирует. Краулинг считается здоровым, когда время ответа сервера держится ≤ 200 мс, а доля 5xx-ошибок не превышает 1%.

§ 04Подводные камни

Краулинговый бюджет (crawl budget) — главная боль сайтов от 10 000 страниц: бот тратит лимит на дубли, фасетные фильтры и параметры сортировки вместо целевых URL. Барри Шварц в Search Engine Land фиксировал случаи 2024 года, когда Googlebot тратил до 70% обхода на бесполезные параметрические страницы. Зачем это контролировать — чтобы новые товары и статьи попадали в индекс за часы, а не недели. Опасные ошибки: цепочки редиректов длиннее 3 шагов, soft 404, бесконечные календари и отсутствие rel=canonical на пагинации.

Частые ошибки
01
Подмена краулинга индексацией в отчётах. Страница попала в обход робота, но это не значит, что она в индексе. Команда отчитывается о росте обхода, а трафик не растёт — бизнес теряет доверие к SEO-отделу. Как правильно: Разделяйте отчёты: 'Просканировано' и 'Проиндексировано'. Сравнивайте обе цифры в Search Console — отчёт 'Индексирование страниц'.
02
Раздача краулингового бюджета на мусорные URL. Фасетные фильтры, UTM-метки и пагинация съедают лимит обхода Googlebot. В итоге новые карточки товара ждут переобхода 30–60 дней, а сезонный трафик уходит конкурентам. Как правильно: Закрывайте параметрические URL через robots.txt и rel=canonical. Проверяйте логи сервера на долю запросов Googlebot к мусорным путям.
03
Замер краулинга через сторонние парсеры вместо логов. Screaming Frog показывает, как сайт видит ваш парсер, но не реальный Googlebot. По данным Джона Мюллера, только серверные логи дают точную частоту обхода — без них фиксы CWV и редиректов летят вслепую. Как правильно: Настройте анализ логов в Screaming Frog Log Analyser или JetOctopus. Фильтруйте по верифицированному Googlebot — не по User-Agent.
Часто спрашивают

Краулинг частые вопросы про сканирование сайта

Краулинг простыми словами — что это и зачем нужен?

+

Краулинг — это обход страниц сайта поисковыми роботами Googlebot и YandexBot для поиска нового и обновлённого контента. Без сканирования URL не попадают в индекс и не показываются в выдаче. Боты переходят по ссылкам, читают HTML и передают данные на этап индексации.

Краулинг — это сам обход и чтение страницы роботом, а индексация — добавление её содержимого в базу поиска. Сначала бот сканирует URL, затем алгоритм решает, стоит ли включать страницу в индекс. Страница может быть просканирована, но не проиндексирована — например, при noindex или низком качестве контента.

Основные инструменты: файл robots.txt, XML-карта sitemap.xml, директивы nofollow и HTTP-заголовки. В Google Search Console и Яндекс.Вебмастере можно отслеживать частоту обхода и отправлять URL на пересканирование. Для крупных проектов от 10 000 страниц критична оптимизация краулингового бюджета.

Обычно от нескольких часов до 2–3 недель — зависит от авторитета домена и частоты обновления. Свежие новостные сайты обходятся ботами по несколько раз в день, молодые ресурсы — раз в 1–2 недели. Ускорить помогает запрос индексации в Search Console и пинг через IndexNow для Яндекса и Bing.

Да, медленные ответы сервера напрямую сокращают количество страниц, которые робот успевает обойти за визит. Google рекомендует TTFB до 200 мс и стабильный код 200 без 5xx-ошибок. По опыту GUSAROV, оптимизация хостинга и кеширования увеличивает охват сканирования на 30–60% для сайтов от 5000 URL.

Не нашли ответ?

Спросите Андрея Гусарова — отвечаю в течение 1-2 рабочих дней.

Нажимая, вы соглашаетесь с обработкой данных.