1. Main
  2. Блог
  3. Основы краулинга и управление поисковыми роботами

Основы краулинга и управление поисковыми роботами

Когда мы видим результаты поиска в интернете, это только часть большого процесса. За кулисами поисковых систем находится огромное количество страниц, прошедших сканирование и индексацию, и выбранных на основе множества критериев.

Процесс формирования страницы с результатами поиска включает в себя три этапа:

  1. Сканирование (краулинг).
  2. Индексация.
  3. Предоставление результатов, которое состоит из поиска по индексу и ранжирования страниц.

В этой статье мы сосредоточимся на первом этапе – сканировании или краулинге.

Что такое краулинг сайта и как он работает?

Что такое краулинг сайта и как он работает?

Краулинг – это процесс, в ходе которого поисковые роботы обнаруживают новые или обновленные страницы для добавления их в индекс поисковых систем. Это первый шаг, на котором собираются данные для последующей обработки и построения индекса. Не все просканированные страницы попадают в индекс.

Поисковый робот – это программа, собирающая контент в интернете. Он работает значительно быстрее, чем человек, используя множество компьютеров для одновременного запроса тысяч страниц.

Основные функции робота-краулера:

  • Проверка и сравнение списка URL-адресов для сканирования с уже индексированными адресами.
  • Удаление дубликатов из очереди, чтобы избежать повторного скачивания одной и той же страницы.
  • Переиндексация измененных страниц для обновления результатов поиска.

Поисковые роботы просматривают страницы и переходят по ссылкам, подобно обычным пользователям, обрабатывая различные типы контента.

Примеры специализированных роботов Google:

  • Googlebot – основной поисковый робот.
  • Googlebot News – робот для новостей.
  • Googlebot Images – робот для изображений.
  • Googlebot Video – робот для видео.

Зачем нужен файл robots.txt и индексный файл

Процесс краулинга начинается с файла robots.txt, который указывает краулеру на ограничения доступа к контенту и ссылку на карту сайта (Sitemap). Карта сайта содержит ссылки на ключевые страницы. Однако, в некоторых случаях робот может проигнорировать этот файл, и страницы всё равно попадут в индекс. Поэтому конфиденциальную информацию следует защищать паролем на сервере.

При сканировании сайтов робот обнаруживает ссылки на каждой странице и добавляет их в свою базу. Робот может найти ваш сайт даже без внешних ссылок, если осуществить переход с вашего сервера на другой. Таким образом, URL источника запроса сохраняется в журнале источников ссылок на целевом сервере, делая его доступным для робота.

Зачем нужен файл robots.txt и индексный файл

Понимание работы краулера и управление им на вашем сайте

Хотите узнать, как ваш сайт видит поисковый робот? Отключите JavaScript в браузере и используйте инструменты разработчика. Вот как это сделать в Google Chrome:

  1. Откройте инструменты разработчика, нажав F12, и перейдите в настройки.
  2. Деактивируйте JavaScript и обновите страницу.

Если без JavaScript страница сохраняет основную информацию и ссылки, то скорее всего, она будет хорошо сканироваться.

Другой метод – использование функции «Просмотреть как Googlebot» в Google Search Console. Если краулер видит страницу так же, как и вы, сканирование пройдет успешно.

Также можно воспользоваться специализированным ПО, например, Netpeak Spider, который выявляет различные ошибки, возникающие при сканировании.

Если страница отображается не так, как ожидалось, проверьте, не заблокирована ли она в robots.txt или файле .htaccess.

Сайты на JavaScript и Ajax могут вызывать проблемы при сканировании, так как поисковые системы пока не идеально обрабатывают такой контент.

Как управлять сканированием сайта

Для оптимизации сканирования вашего сайта можно использовать следующие методы:

  • Разрешить сканирование, если сайт был закрыт паролем, и передавать информацию о URL через HTTP-заголовок «referer».
  • Разместить ссылку на ваш сайт на других ресурсах, включая социальные сети.
  • Зарегистрироваться в Google Webmaster Tools.
  • Напрямую сообщить о сайте через панель вебмастера Google.
  • Использовать внутреннюю перелинковку для улучшения навигации и сканирования, например, через хлебные крошки.
  • Создать карту сайта и указать на неё в файле robots.txt.

Как ограничить сканирование

  • Защитите каталоги сервера паролем.
  • Установите ограничения в файле robots.txt.
  • Используйте метатег <meta name=”robots” content=”nofollow”/> для запрета перехода по ссылкам.
  • Примените HTTP-заголовок X-Robots tag для запрета сканирования на уровне сервера.

Управление частотой сканирования

Googlebot определяет частоту сканирования сайтов алгоритмически. Вы можете помочь краулеру, предоставив файл sitemap с атрибутами <lastmod>, <changefreq> и <priority>, хотя они рассматриваются как рекомендации, а не как обязательные к выполнению. В Google Search Console есть инструмент для ручной отправки запроса на сканирование.

Управление частотой сканирования

Выводы

  1. Различный контент обрабатывается поисковыми роботами в разной последовательности.
  2. Для улучшения сканирования создавайте карты сайтов и используйте внутреннюю перелинковку.
  3. Для ограничения индексации используйте метатег <meta name=”robots” content=”nofollow”/> или HTTP-заголовок X-Robot tag, так как файл robots.txt не является строгой инструкцией для действия.

Похожие статьи

Об авторе

Павел Буевич

Павел Буевич

Head of SEO агентства GUSAROV. Преподаватель курса по SEO-продвижению. Научит проверять сайты на ошибки, анализировать конкурентов и разрабатывать стратегии продвижения.