Когда мы видим результаты поиска в интернете, это только часть большого процесса. За кулисами поисковых систем находится огромное количество страниц, прошедших сканирование и индексацию, и выбранных на основе множества критериев.
Процесс формирования страницы с результатами поиска включает в себя три этапа:
- Сканирование (краулинг).
- Индексация.
- Предоставление результатов, которое состоит из поиска по индексу и ранжирования страниц.
В этой статье мы сосредоточимся на первом этапе – сканировании или краулинге.
Что такое краулинг сайта и как он работает?
Краулинг – это процесс, в ходе которого поисковые роботы обнаруживают новые или обновленные страницы для добавления их в индекс поисковых систем. Это первый шаг, на котором собираются данные для последующей обработки и построения индекса. Не все просканированные страницы попадают в индекс.
Поисковый робот – это программа, собирающая контент в интернете. Он работает значительно быстрее, чем человек, используя множество компьютеров для одновременного запроса тысяч страниц.
Основные функции робота-краулера:
- Проверка и сравнение списка URL-адресов для сканирования с уже индексированными адресами.
- Удаление дубликатов из очереди, чтобы избежать повторного скачивания одной и той же страницы.
- Переиндексация измененных страниц для обновления результатов поиска.
Поисковые роботы просматривают страницы и переходят по ссылкам, подобно обычным пользователям, обрабатывая различные типы контента.
Примеры специализированных роботов Google:
- Googlebot – основной поисковый робот.
- Googlebot News – робот для новостей.
- Googlebot Images – робот для изображений.
- Googlebot Video – робот для видео.
Зачем нужен файл robots.txt и индексный файл
Процесс краулинга начинается с файла robots.txt, который указывает краулеру на ограничения доступа к контенту и ссылку на карту сайта (Sitemap). Карта сайта содержит ссылки на ключевые страницы. Однако, в некоторых случаях робот может проигнорировать этот файл, и страницы всё равно попадут в индекс. Поэтому конфиденциальную информацию следует защищать паролем на сервере.
При сканировании сайтов робот обнаруживает ссылки на каждой странице и добавляет их в свою базу. Робот может найти ваш сайт даже без внешних ссылок, если осуществить переход с вашего сервера на другой. Таким образом, URL источника запроса сохраняется в журнале источников ссылок на целевом сервере, делая его доступным для робота.
Понимание работы краулера и управление им на вашем сайте
Хотите узнать, как ваш сайт видит поисковый робот? Отключите JavaScript в браузере и используйте инструменты разработчика. Вот как это сделать в Google Chrome:
- Откройте инструменты разработчика, нажав F12, и перейдите в настройки.
- Деактивируйте JavaScript и обновите страницу.
Если без JavaScript страница сохраняет основную информацию и ссылки, то скорее всего, она будет хорошо сканироваться.
Другой метод – использование функции «Просмотреть как Googlebot» в Google Search Console. Если краулер видит страницу так же, как и вы, сканирование пройдет успешно.
Также можно воспользоваться специализированным ПО, например, Netpeak Spider, который выявляет различные ошибки, возникающие при сканировании.
Если страница отображается не так, как ожидалось, проверьте, не заблокирована ли она в robots.txt или файле .htaccess.
Сайты на JavaScript и Ajax могут вызывать проблемы при сканировании, так как поисковые системы пока не идеально обрабатывают такой контент.
Как управлять сканированием сайта
Для оптимизации сканирования вашего сайта можно использовать следующие методы:
- Разрешить сканирование, если сайт был закрыт паролем, и передавать информацию о URL через HTTP-заголовок «referer».
- Разместить ссылку на ваш сайт на других ресурсах, включая социальные сети.
- Зарегистрироваться в Google Webmaster Tools.
- Напрямую сообщить о сайте через панель вебмастера Google.
- Использовать внутреннюю перелинковку для улучшения навигации и сканирования, например, через хлебные крошки.
- Создать карту сайта и указать на неё в файле robots.txt.
Как ограничить сканирование
- Защитите каталоги сервера паролем.
- Установите ограничения в файле robots.txt.
- Используйте метатег <meta name=”robots” content=”nofollow”/> для запрета перехода по ссылкам.
- Примените HTTP-заголовок X-Robots tag для запрета сканирования на уровне сервера.
Управление частотой сканирования
Googlebot определяет частоту сканирования сайтов алгоритмически. Вы можете помочь краулеру, предоставив файл sitemap с атрибутами <lastmod>, <changefreq> и <priority>, хотя они рассматриваются как рекомендации, а не как обязательные к выполнению. В Google Search Console есть инструмент для ручной отправки запроса на сканирование.
Выводы
- Различный контент обрабатывается поисковыми роботами в разной последовательности.
- Для улучшения сканирования создавайте карты сайтов и используйте внутреннюю перелинковку.
- Для ограничения индексации используйте метатег <meta name=”robots” content=”nofollow”/> или HTTP-заголовок X-Robot tag, так как файл robots.txt не является строгой инструкцией для действия.