Технический SEO

Ошибка сканирования

crawl error · ошибка обхода Googlebot

Ошибка сканирования (crawl error) — это сбой, из-за которого поисковый робот не может получить доступ к странице сайта. Такие проблемы мешают индексации и снижают позиции в выдаче.

Ошибка сканирования (crawl error) — это сбой, при котором Googlebot не может загрузить страницу сайта. Простыми словами, робот стучится в URL, а в ответ получает 404, 500 или таймаут вместо HTML. Термин закрепился в документации Google ещё во времена старого Webmaster Tools (до 2015 года), а с переходом на Search Console отчёт разделили на ошибки сайта и ошибки URL.

В 2024 году по данным Ahrefs до 16% сайтов имеют критические сбои обхода, что напрямую бьёт по индексации и трафику. Что это значит для владельца: страница с ошибкой выпадает из выдачи через 2–4 недели после первого фейла Googlebot.

§ 01Зачем нужен контроль ошибок сканирования

Ошибка сканирования сигнализирует, что часть бюджета обхода тратится впустую. Googlebot выделяет каждому домену лимит запросов в сутки (crawl budget), и каждый ответ 5xx уменьшает доверие к серверу. По данным John Mueller (Search Off the Record, 2023), при стабильных 500-х робот снижает частоту визитов в 3–5 раз. Оптимизация краулинга начинается именно с зачистки таких сбоев.

§ 02Как настраивается мониторинг

Базовый источник — отчёт Индексирование → Страницы в Google Search Console, где сбои разбиты по типам: soft 404, ответ сервера 5xx, перенаправление, заблокировано в robots.txt. Для глубокого аудита подключают Screaming Frog SEO Spider (лимит 500 URL в бесплатной версии) или JetOctopus. Что делает связка: краулер имитирует Googlebot и фиксирует код ответа по каждому URL.

Кейс e-commerce

индексация 62% → 94% — Интернет-магазин одежды на Shopify Plus получил 1240 ошибок 5xx из-за лимита запросов CDN. После настройки rate-limit и редиректов покрытие индексации выросло с 62% до 94% за 8 недель. Замер через GSC Index Coverage и логи Cloudflare.

Кейс SaaS

органика +38% за 5 мес — B2B SaaS платформа аналитики на Next.js устранила 480 soft 404 на динамических роутах через корректные статусы и noindex для пустых страниц. Органический трафик вырос на 38% за 5 месяцев. Контроль через Ahrefs Site Audit и GSC.

§ 03Где смотреть результат

В Search Console динамика видна в графике Не проиндексировано за 3 месяца. Дополнительно стоит включить лог-анализ через Screaming Frog Log File Analyser: он показывает реальные визиты Googlebot и коды ответов в access.log сервера. Для крупных проектов от 100 тыс. страниц логи парсят в BigQuery с визуализацией в Looker Studio — это даёт картину по разделам сайта.

§ 04Подводные камни

Soft 404 часто маскируется под рабочую страницу: сервер отдаёт 200, но контент пустой или дублирует категорию. Googlebot такое распознаёт и выкидывает URL из индекса. Вторая ловушка — массовые редиректы через 3+ хопа: цепочка длиннее 5 переходов прерывается роботом. Расшифровка отчёта требует чтения JSON-выгрузки API Search Console, иначе теряются URL за пределами топ-1000 в интерфейсе.

Частые ошибки
01
Смешение ошибок сканирования и индексации. Команда видит в Search Console «Просканировано, но не проиндексировано» и чинит robots.txt, хотя доступ открыт. Реальная причина — низкое качество контента, страдают позиции и краулинговый бюджет. Как правильно: Разделяйте отчёты «Покрытие» и «Статистика сканирования» в GSC. Сначала смотрите HTTP-код, потом причину исключения.
02
Массовое закрытие 404 редиректами на главную. Чтобы быстро «починить» ошибки, ставят 301 со всех битых URL на главную. Google с 2016 года расценивает это как soft 404 — сигналы не передаются, страницы выпадают из индекса, теряется до 30% длинного хвоста трафика. Как правильно: Настройте 301 только на релевантные страницы-аналоги. Реально удалённые URL отдавайте честным 410 Gone.
03
Замер ошибок один раз после деплоя. SEO-специалист открывает GSC через 2 дня после релиза, не видит роста ошибок и закрывает задачу. Но отчёт «Статистика сканирования» обновляется с лагом 3–28 дней — реальные 5xx всплывают позже, трафик уже просел. Как правильно: Внедрите еженедельный мониторинг логов сервера через Screaming Frog Log Analyzer или Splunk. Сравнивайте окна по 28 дней.
Часто спрашивают

Ошибка сканирования — частые вопросы

Ошибка сканирования — что это простыми словами?

+

Ошибка сканирования — это ситуация, когда Googlebot или ЯндексБот не смог открыть страницу сайта. Причины разные: ответ сервера 5xx, таймаут более 30 секунд, блокировка в robots.txt или некорректный редирект. Без доступа робот не добавит URL в индекс.

Чаще всего встречаются 4 типа: ошибки DNS, ошибки сервера (5xx), ошибки 404 и проблемы с robots.txt. По данным Search Console, около 60% сбоев приходится на soft 404 и 5xx. Реже встречаются циклические редиректы и SSL-сбои.

Откройте Google Search Console → раздел ‘Индексирование’ → ‘Страницы’. Там показаны причины, по которым URL не попали в индекс. Для Яндекса используйте Вебмастер → ‘Диагностика’. Дополнительно прогоните сайт через Screaming Frog или Netpeak Spider — они находят битые ссылки и цепочки редиректов.

Да, прямо влияет. Если робот неделю не может достучаться до страницы, она выпадает из индекса и теряет трафик. Массовые 5xx снижают краулинговый бюджет: Googlebot уменьшает частоту обхода до восстановления стабильности сервера, обычно на 2–4 недели.

Обычно 3–14 дней. После устранения причины нажмите ‘Проверить исправление’ в Search Console — это ускоряет повторный обход. Крупные сайты с миллионом URL могут ждать до месяца, пока робот пересканирует все проблемные адреса.

Не нашли ответ?

Спросите Андрея Гусарова — отвечаю в течение 1-2 рабочих дней.

Нажимая, вы соглашаетесь с обработкой данных.