Ошибка сканирования (crawl error) — это сбой, при котором Googlebot не может загрузить страницу сайта. Простыми словами, робот стучится в URL, а в ответ получает 404, 500 или таймаут вместо HTML. Термин закрепился в документации Google ещё во времена старого Webmaster Tools (до 2015 года), а с переходом на Search Console отчёт разделили на ошибки сайта и ошибки URL.
В 2024 году по данным Ahrefs до 16% сайтов имеют критические сбои обхода, что напрямую бьёт по индексации и трафику. Что это значит для владельца: страница с ошибкой выпадает из выдачи через 2–4 недели после первого фейла Googlebot.
§ 01Зачем нужен контроль ошибок сканирования
Ошибка сканирования сигнализирует, что часть бюджета обхода тратится впустую. Googlebot выделяет каждому домену лимит запросов в сутки (crawl budget), и каждый ответ 5xx уменьшает доверие к серверу. По данным John Mueller (Search Off the Record, 2023), при стабильных 500-х робот снижает частоту визитов в 3–5 раз. Оптимизация краулинга начинается именно с зачистки таких сбоев.
§ 02Как настраивается мониторинг
Базовый источник — отчёт Индексирование → Страницы в Google Search Console, где сбои разбиты по типам: soft 404, ответ сервера 5xx, перенаправление, заблокировано в robots.txt. Для глубокого аудита подключают Screaming Frog SEO Spider (лимит 500 URL в бесплатной версии) или JetOctopus. Что делает связка: краулер имитирует Googlebot и фиксирует код ответа по каждому URL.
индексация 62% → 94% — Интернет-магазин одежды на Shopify Plus получил 1240 ошибок 5xx из-за лимита запросов CDN. После настройки rate-limit и редиректов покрытие индексации выросло с 62% до 94% за 8 недель. Замер через GSC Index Coverage и логи Cloudflare.
органика +38% за 5 мес — B2B SaaS платформа аналитики на Next.js устранила 480 soft 404 на динамических роутах через корректные статусы и noindex для пустых страниц. Органический трафик вырос на 38% за 5 месяцев. Контроль через Ahrefs Site Audit и GSC.
§ 03Где смотреть результат
В Search Console динамика видна в графике Не проиндексировано за 3 месяца. Дополнительно стоит включить лог-анализ через Screaming Frog Log File Analyser: он показывает реальные визиты Googlebot и коды ответов в access.log сервера. Для крупных проектов от 100 тыс. страниц логи парсят в BigQuery с визуализацией в Looker Studio — это даёт картину по разделам сайта.
§ 04Подводные камни
Soft 404 часто маскируется под рабочую страницу: сервер отдаёт 200, но контент пустой или дублирует категорию. Googlebot такое распознаёт и выкидывает URL из индекса. Вторая ловушка — массовые редиректы через 3+ хопа: цепочка длиннее 5 переходов прерывается роботом. Расшифровка отчёта требует чтения JSON-выгрузки API Search Console, иначе теряются URL за пределами топ-1000 в интерфейсе.