Индексация (indexing) — это процесс, при котором поисковая система добавляет страницу в свою базу данных и делает её доступной в выдаче. Простыми словами: пока URL не попал в индекс Google или Яндекса, он не существует для поиска. Первая массовая индексация веба началась с запуска Googlebot в 1998 году, а в 2018-м Google перешёл на Mobile-first indexing — приоритет отдаётся мобильной версии.
В 2024 году Google обработал триллионы URL, но в индекс попадает лишь часть страниц сайта. Что это значит для бизнеса: новые материалы могут висеть в очереди днями и неделями. Проверить статус индексации страницы можно в Google Search Console через отчёт Pages и в Яндекс.Вебмастере.
§ 01Зачем нужна индексация
Индексация решает простую задачу: связать запрос пользователя со страницей. Googlebot обходит сайт, рендерит HTML и JavaScript, а затем алгоритм решает, достоин ли URL попасть в базу. По данным Ahrefs (2020), около 90,63% страниц в интернете не получают трафика из Google — частая причина именно проблемы с индексацией. Без попадания в индекс бессмысленны и ссылки, и контент, и оптимизация мета-тегов.
§ 02Как настраивается индексация
Управление индексацией строится на трёх инструментах: файл robots.txt запрещает обход, мета-тег <meta name='robots' content='noindex'> запрещает добавление в базу, а sitemap.xml подсказывает роботу приоритетные URL. С 2019 года Google официально игнорирует директиву noindex в robots.txt — её нужно ставить именно в HTML. Канонический тег rel=canonical склеивает дубли и экономит краулинговый бюджет.
индекс 1 200 → 8 400 URL — Интернет-магазин одежды на Shopify закрыл фасетные дубли через canonical и обновил sitemap.xml с приоритетами. За 4 месяца в индекс Google вошло 8 400 страниц из 9 100. Замер через Google Search Console (отчёт 'Страницы').
скорость индексации 14 → 2 дня — Новостной портал на WordPress подключил IndexNow для Яндекса и Google Indexing API для срочных публикаций. Среднее время попадания свежей статьи в выдачу сократилось с 14 до 2 дней за 8 недель. Контроль через логи сервера и Яндекс.Вебмастер.
§ 03Где смотреть результат
Основной отчёт — Google Search Console, раздел Pages (бывший Coverage). Там видно, сколько URL проиндексировано, сколько отклонено и по какой причине: Crawled — currently not indexed, Discovered — not indexed, Duplicate. Для Яндекса аналог — Яндекс.Вебмастер, раздел Страницы в поиске. Оператор site:domain.com даёт грубую оценку. Screaming Frog и Ahrefs Site Audit показывают, какие страницы отдают noindex или закрыты canonical.
§ 04Подводные камни
Главная ловушка — индексация мусора: страниц фильтров, пагинации, UTM-копий. Это размывает краулинговый бюджет, и важные URL попадают в индекс с задержкой. Джон Мюллер из Google неоднократно повторял в 2022–2023: качество сайта влияет на то, какую долю страниц робот берёт в базу. Вторая проблема — JavaScript-рендеринг: если контент подгружается динамически без SSR, Googlebot может проиндексировать пустую оболочку. Проверяйте через Inspect URL в GSC.