Технический SEO

Анализ логов сервера

Log Analysis · Server Log Analysis

Анализ логов (log analysis) — это разбор записей сервера о визитах ботов и пользователей. Показывает, как Googlebot реально сканирует сайт: какие URL обходит, как часто и с какими кодами ответа.

Кейс e-commerce

crawl budget +38% — Маркетплейс электроники на 240k SKU выгрузил access.log за 30 дней в Screaming Frog Log Analyser. Нашли, что Googlebot тратил 41% запросов на фасеты с ?sort=. Закрыли в robots.txt — за 8 недель доля обхода товарных карточек выросла с 22% до 60%.

Кейс SaaS

404 от бота −85% — B2B SaaS-платформа для HR прогнала nginx-логи через GoAccess и ELK. Обнаружили 12 400 обращений Googlebot к удалённым URL /blog/old/*. Настроили 301 на актуальные разделы — за 6 недель 404-ответы снизились с 14% до 2% по данным Search Console.

Частые ошибки
01
Подмена реального обхода данными Search Console. Считают, что отчёт «Статистика сканирования» = полный обход. На деле GSC агрегирует и сглаживает, а логи показывают каждый хит Googlebot. Из-за этого пропускают паразитные обходы и теряют краулинговый бюджет. Как правильно: Сравнивайте отчёт GSC с сырыми логами за тот же период. Расхождения проверяйте по IP и user-agent.
02
Парсинг логов без верификации Googlebot. Берут все строки с user-agent Googlebot и считают долю обхода. До 30% таких хитов — фейковые боты и парсеры. Метрики искажаются, выводы о сканировании становятся ложными, бюджет уходит в пустоту. Как правильно: Проверяйте каждый IP обратным DNS-запросом по гайду Google 2023 года. Используйте Screaming Frog Log Analyzer или JetOctopus.
03
Замер обхода за слишком короткое окно. Анализируют логи за 3–7 дней и делают выводы о приоритетах Googlebot. Бот возвращается к части URL раз в 30–60 дней — короткое окно скрывает реальную картину и приводит к неверным решениям по структуре. Как правильно: Стройте анализ минимум на 30 днях логов, для крупных сайтов — 60–90 дней. Сегментируйте обход по типам страниц.
Часто спрашивают

Анализ логов сервера: ответы на популярные вопросы

Анализ логов сервера простыми словами — что это?

+

Анализ логов — это разбор файлов access.log, куда сервер записывает каждый запрос: IP, User-Agent, URL, код ответа, время. По этим записям видно реальное поведение Googlebot и YandexBot, а не модель из Search Console. Стандартные форматы — Combined и Common Log Format у Apache и Nginx.

Логи показывают сырую правду со стороны сервера, а Search Console — агрегированную выборку от Google с задержкой до 3 дней. В логах видны все 100% визитов ботов, включая поддельных, тогда как GSC отдаёт только подтверждённые краулы и округляет цифры до тысяч.

Для сайтов до 10 000 URL — раз в квартал, для крупных e-commerce и медиа от 100 000 страниц — ежемесячно или непрерывно. После миграции, смены структуры или редизайна логи стоит смотреть в течение 2–4 недель ежедневно, чтобы поймать всплески 404 и 5xx.

Популярны Screaming Frog Log File Analyser (от $99/год), JetOctopus, Oncrawl и Botify для энтерпрайза. Для разовых задач хватает связки GoAccess, AWK и Python с pandas. Bigdata-команды грузят логи в BigQuery или ELK-стек и строят дашборды в Kibana.

Три вещи: распределение краулингового бюджета по разделам, доля кодов 4xx/5xx у Googlebot и orphan-страницы, которые бот посещает, но их нет в sitemap. По опыту GUSAROV, у 70% проектов до 30% бюджета уходит на параметрические URL и фасеты — их закрывают через robots.txt и canonical.

Не нашли ответ?

Спросите Андрея Гусарова — отвечаю в течение 1-2 рабочих дней.

Нажимая, вы соглашаетесь с обработкой данных.