В этой статье вы прочитаете про Google Crawler, как с ним работать, или руководство начинающего SEO специалиста, думаю многим кто хочет создать свой сайт, будет интересно.
Также если интересуетесь SEO, то возможно вам будет интересна статья «Руководство по SEO на странице в 2021 — 2022 году», думаю она тоже будет полезна.
Во-первых, Google ползает по Интернету в поисках новых страниц. Затем Google индексирует эти страницы, чтобы понять, о чем они, и ранжирует их в соответствии с полученными данными. Обход и индексация – это два разных процесса, но оба они выполняются обходчиком.
В этом руководстве собрано все, что нужно знать SEO-специалисту о сканерах. Читайте, чтобы узнать, что такое краулер, как он работает и как вы можете сделать его взаимодействие с вашим сайтом более успешным.
Что такое Crawler:
Crawler (также searchbot, spider) — это часть программного обеспечения, которое Google и другие поисковые системы используют для сканирования Интернета. Проще говоря, он «ползает» по Сети от страницы к странице в поисках нового или обновленного контента, которого Google еще не имеет в своих базах данных.
Любая поисковая система имеет свой собственный набор искателей. Что касается Google, то существует более 15 различных типов искателей, и основной искатель Google называется Googlebot. Googlebot выполняет как обход, так и индексацию, поэтому подробнее узнайте, как он работает.
Как работает Crawler:
Нет центрального реестра URL-адресов, который обновляется всякий раз, когда создается новая страница. Это означает, что Google не «предупреждается» о них автоматически, а должен найти их в Интернете. Googlebot постоянно бродит по Интернету и ищет новые страницы, добавляя их в базу данных Google существующих страниц.
Как только Googlebot обнаруживает новую страницу, он отображает (визуализирует) страницу в браузере, загружая все HTML, сторонний код, JavaScript и CSS. Эта информация хранится в базе данных поисковой системы, а затем используется для индексации и ранжирования страницы. Если страница была проиндексирована, она добавляется в Google Index — еще одну супер-огромную базу данных Google.
Как искатель видит страницы:
Искатель отображает страницу в последней версии браузера Chromium. В идеальном сценарии искатель “видит” страницу так, как вы ее спроектировали и собрали. В реалистичном сценарии все может обернуться гораздо сложнее.
Рендеринг мобильных и настольных компьютеров:
Googlebot может “видеть” вашу страницу с помощью двух подтипов сканеров: Googlebot Desktop и Googlebot Smartphone. Это подразделение необходимо для индексации страниц как для настольных, так и для мобильных поисковых систем.
Несколько лет назад Google использовал настольный краулер для посещения и визуализации большинства страниц. Но все изменилось с появлением концепции mobile-first. Google посчитала, что мир стал достаточно удобным для мобильных устройств, и начала использовать смартфон Googlebot для сканирования, индексации и ранжирования мобильных версий веб-сайтов как для мобильных, так и для настольных поисковых систем.
Тем не менее, внедрение мобильной индексации оказалось сложнее, чем предполагалось. Интернет огромен, и большинство веб-сайтов оказались плохо оптимизированы для мобильных устройств. Это заставило Google использовать концепцию mobile-first для обхода и индексации новых веб-сайтов и тех старых, которые стали полностью оптимизированы для мобильных устройств. Если веб-сайт не удобен для мобильных устройств, он из первых рук сканируется и визуализируется Googlebot Desktop.
Даже если ваш сайт был переведен на мобильную индексацию, некоторые страницы все равно будут сканироваться Googlebot Desktop, поскольку Google хочет проверить, как ваш сайт работает на настольном компьютере. Google прямо не говорит, что будет индексировать вашу настольную версию, если она сильно отличается от мобильной. Тем не менее, логично предположить это, так как основная цель Google-предоставить пользователям самую полезную информацию. И Google вряд ли хочет потерять эту информацию, слепо следуя концепции mobile-first.
Примечание: В любом случае ваш сайт будут посещать как мобильные, так и настольные приложения Googlebot. Поэтому очень важно позаботиться об обеих версиях вашего сайта и подумать об использовании адаптивного макета, если вы еще этого не сделали.
Как узнать, что Google сканирует и индексирует ваш сайт с помощью концепции mobile-first? Вы получите специальное уведомление в Google Search Console.
Рендеринг HTML и JavaScript:
У Googlebot могут быть некоторые проблемы с обработкой и рендерингом громоздкого кода. Если код вашей страницы неаккуратен, искатель может не суметь правильно отобразить его и считать вашу страницу пустой.
Что касается рендеринга JavaScript, вы должны помнить, что JavaScript-это быстро развивающийся язык, и Googlebot может иногда не поддерживать последние версии. Убедитесь, что ваш JS совместим с Googlebot, или ваша страница может быть отображена неправильно.
Следите за временем загрузки JS. Если скрипту требуется более 5 секунд для загрузки, Googlebot не будет отображать и индексировать контент, созданный этим скриптом.
Примечание: Если ваш сайт полон тяжелых элементов JS, и вы не можете обойтись без них, Google рекомендует рендеринг на стороне сервера. Это ускорит загрузку вашего сайта и предотвратит ошибки JavaScript.
Чтобы узнать, какие ресурсы на вашей странице вызывают проблемы с рендерингом (и действительно ли у вас вообще есть какие-либо проблемы), войдите в свою учетную запись Google Search Console, перейдите в раздел Проверка URL-адресов, введите URL-адрес, который вы хотите проверить, нажмите кнопку Проверить URL-адрес и нажмите кнопку Просмотреть тестированную страницу.
Затем перейдите в раздел «Дополнительная информация» и нажмите на папки «Ресурсы страницы» и «Сообщения консоли JavaScript», чтобы увидеть список ресурсов, которые не удалось отобразить Googlebot.
Теперь вы можете показать список проблем веб-мастерам и попросить их исследовать и исправить ошибки.
Что влияет на поведение Crawler:
Поведение Googlebot не хаотично — оно определяется сложными алгоритмами, которые помогают роботу ориентироваться в Сети и задавать правила обработки информации.
Тем не менее, поведение алгоритмов-это не то, с чем вы можете просто ничего не делать и надеяться на лучшее. Давайте подробнее рассмотрим, что влияет на поведение искателя и как вы можете оптимизировать обход ваших страниц.
Внутренние ссылки и обратные ссылки
Если Google уже знает ваш сайт, Googlebot будет время от времени проверять ваши главные страницы на наличие обновлений. Вот почему крайне важно размещать ссылки на новые страницы на авторитетных страницах вашего сайта. В идеале — на главной странице.
Вы можете обогатить свою домашнюю страницу блоком, который будет содержать последние новости или сообщения в блоге, даже если у вас есть отдельные страницы для новостей и блога. Это позволит Googlebot гораздо быстрее находить ваши новые страницы. Эта рекомендация может показаться вполне очевидной, однако многие владельцы сайтов продолжают пренебрегать ею, что приводит к плохой индексации и низким позициям.
С точки зрения обхода обратные ссылки работают одинаково. Поэтому, если вы добавляете новую страницу, не забывайте о внешнем продвижении. Вы можете попробовать гостевой постинг, запустить рекламную кампанию или попробовать любой другой способ, который вы предпочитаете, чтобы Googlebot увидел URL вашей новой страницы.
Примечание: Ссылки должны быть dofollow, чтобы Googlebot мог следовать за ними. Хотя Google недавно заявил, что ссылки nofollow также можно использовать в качестве подсказок для обхода и индексации, вам все равно рекомендуется использовать dofollow. Просто чтобы убедиться, что сканеры действительно видят эту страницу.
Глубина клика:
Глубина клика показывает, как далеко страница находится от главной страницы. В идеале любая страница сайта должна быть доступна в течение 3 кликов. Большая глубина кликов замедляет «ползание» по сайту и вряд ли приносит пользу пользовательскому опыту.
Вы можете использовать WebSite Auditor, чтобы проверить, есть ли на вашем сайте какие-либо проблемы, связанные с глубиной кликов. Запустите инструмент, перейдите в раздел Структура сайта > > Страницыи обратите внимание на столбец Глубина щелчка.
Если вы видите, что некоторые важные страницы находятся слишком далеко от главной страницы, пересмотрите расположение структуры вашего сайта. Хорошая структура должна быть простой и масштабируемой, чтобы вы могли добавлять столько новых страниц, сколько вам нужно, не отрицательно влияя на простоту.
Карта сайта;
Карта сайта-это документ, содержащий полный список страниц, которые вы хотите иметь в Google. Вы можете отправить карту сайта в Google через Google Search Console (Index > > Sitemaps), чтобы Googlebot знал, какие страницы посещать и сканировать. Карта сайта также сообщает Google, есть ли какие-либо обновления на ваших страницах.
Примечание: Карта сайта не гарантирует, что Googlebot будет использовать ее при обходе вашего сайта. Искатель может игнорировать вашу карту сайта и продолжать обход веб-сайта так, как он решит. Тем не менее, никто не был оштрафован за наличие карты сайта, и в большинстве случаев она оказывается полезной. Некоторые CMS даже автоматически генерируют карту сайта, обновляют ее и отправляют в Google, чтобы сделать ваш процесс SEO быстрее и проще. Рассмотрите возможность отправки карты сайта, если ваш сайт новый или большой (имеет более 500 URL).
Вы можете собрать карту сайта с помощью аудитора сайта. Перейдите в раздел Настройки > > Настройки XML Sitemap > > Генерация Sitemap и настройте необходимые параметры. Назовите свою карту сайта ( Sitemap File Name) и загрузите ее на свой компьютер, чтобы затем отправить в Google или опубликовать на своем сайте (Sitemap Publishing).
Инструкции по индексации:
При обходе и индексации ваших страниц Google следует определенным инструкциям, таким как robots.txt, noindex tag, robots meta tag и X-Robots-Tag.
Robots.txt это файл корневого каталога, который ограничивает доступ некоторых страниц или элементов контента из Google. Как только Googlebot обнаружит вашу страницу, он посмотрит на нее. robots.txt файл. Если обнаруженная страница ограничена для обхода пользователем robots.txt, Googlebot прекращает обход и загрузку любого контента и скриптов с этой страницы. Эта страница не будет отображаться в поиске.
Robots.txt файл может быть сгенерирован в программе WebSite Auditor (Настройки > > Robots.txt Настройки).
Теги Noindex, robots meta tagи X-Robots-Tag используются для ограничения обхода и индексации страницы. Тег noindex ограничивает индексацию страницы всеми типами искателей. Метатег robots используется для указания способа обхода и индексирования определенной страницы. Это означает, что вы можете запретить некоторым типам искателей посещать страницу и держать ее открытой для других. X-Robots-Tag может быть использован в качестве элемента ответа HTTP-заголовка это может ограничить индексацию страницы или поведение искателей на странице. Этот тег позволяет выбирать отдельные типы роботов-обходчиков (если они указаны). Если тип робота не указан, инструкции будут действительны для всех типов искателей.
Примечание: Robots.txt файл не гарантирует, что страница будет исключена из индексации. Googlebot рассматривает этот документ скорее как рекомендацию, чем как приказ. Это означает, что Google может игнорировать robots.txt и индексировать страницу для поиска. Если вы хотите убедиться, что страница не будет индексироваться, используйте тег noindex.
Все ли страницы доступны для обхода:
Нет. Некоторые страницы могут быть недоступны для обхода и индексирования. Давайте подробнее рассмотрим эти типы страниц:
Защищенные паролем страницы. Googlebot имитирует поведение анонимного пользователя, у которого нет никаких учетных данных для посещения защищенных страниц. Таким образом, если страница защищена паролем, она не будет сканироваться, так как Googlebot не сможет добраться до нее.
Страницы, исключенные инструкциями по индексации. Это страницы из robots.txt, страницы с тегом noindex, метатегом роботов и X-Robots-Tag.
Сиротские страницы. Сиротские страницы-это страницы, которые не связаны ни с какой другой страницей на веб-сайте. Googlebot-это робот-паук, который открывает новые страницы, следуя по всем найденным ссылкам. Если нет ссылок, которые указывают на страницу, то страница не будет сканироваться и не будет отображаться в поиске.
Некоторые страницы ограничены от обхода и индексирования специально. Это, как правило, страницы, которые не предназначены для поиска: страницы с личными данными, политики, условия использования, тестовые версии страниц, архивные страницы, страницы результатов внутреннего поиска и так далее.
Но если вы хотите, чтобы ваши страницы были доступны для обхода и приносили вам трафик, убедитесь, что вы не защищаете общедоступные страницы паролями, не обращаете внимания на ссылки (внутренние и внешние) и тщательно проверяете инструкции по индексации.
Чтобы проверить возможность обхода страниц вашего сайта в Google Search Console, перейдите в раздел Index > > Coverage report. Обратите внимание на проблемы с пометкой Error (not indexed) и Valid with warning (indexed, хотя и имеет проблемы).
Вы также можете запустить более полный аудит индексации с помощью WebSIte Auditor. Инструмент не только покажет проблемы со страницами, доступными для индексации, но и покажет вам страницы, которые Google еще не видит. Запустите программное обеспечение и перейдите в раздел Структура сайта > > Аудит сайта.
Примечание: Если вы не хотите, чтобы Googlebot находил или обновлял какие-либо страницы (некоторые старые страницы, страницы, которые вам больше не нужны), удалите их из sitemap, если они у вас есть, установите статус 404 Not Found или отметьте их тегом noindex.
Когда мой сайт появится в поиске:
Понятно, что ваши страницы не появятся в поиске сразу же после того, как вы сделаете свой сайт живым. Если ваш сайт абсолютно новый, Googlebot потребуется некоторое время, чтобы найти его в Интернете. Имейте в виду, что это “немного” может занять до 6 месяцев в некоторых случаях.
Если Google уже знает ваш сайт, и вы сделали некоторые обновления или добавили новые страницы, то скорость появления изменений сайта в Интернете зависит от бюджета обхода.
Бюджет обхода — это объем ресурсов, которые Google тратит на обход вашего сайта. Чем больше ресурсов потребуется Googlebot для обхода вашего сайта, тем медленнее он будет отображаться в поиске.
Распределение бюджета обхода зависит от следующих факторов:
Популярность сайта. Чем популярнее сайт, тем больше очков обхода Google готов потратить на его обход.
Скорость обновления. Чем чаще вы обновляете свои страницы, тем больше обходных ресурсов получит ваш сайт.
Количество страниц. Чем больше страниц у вас есть, тем больше будет ваш бюджет обхода.
Емкость сервера для обработки обхода. Ваши хостинговые серверы должны быть способны своевременно реагировать на запросы сканеров.
Обратите внимание, что бюджет обхода не расходуется одинаково на каждую страницу, так как некоторые страницы потребляют больше ресурсов (из-за тяжелого JavaScript и CSS или из-за беспорядка HTML). Таким образом, выделенного бюджета обхода может оказаться недостаточно для обхода всех ваших страниц так быстро, как вы ожидаете.
В дополнение к тяжелым проблемам с кодом, некоторые из наиболее распространенных причин плохого обхода и нерациональных бюджетных расходов на обход-это проблемы с дублированием контента и плохо структурированными URL-адресами.
Проблемы с дублированием контента:
Дублированный контент имеет несколько страниц с в основном похожим контентом. Это может произойти по многим причинам, таким как:
Доступ к странице разными способами: с www или без www, через http или https;
Динамические URL — адреса-когда много разных URL-адресов ведут к одной и той же странице;
A/B тестирование версий страниц.
Если не исправлено, повторяющиеся проблемы с содержимым приводят к тому, что Googlebot несколько раз обходит одну и ту же страницу, так как он считает, что это все разные страницы. Таким образом, поисковые ресурсы тратятся впустую, и Googlebot может не успеть найти другие значимые страницы вашего сайта. Кроме того, дублированный контент снижает позиции ваших страниц в поиске, так как Google может решить, что общее качество вашего сайта низкое.
Правда в том, что в большинстве случаев вы не можете избавиться от большинства вещей, которые могут вызвать дублирование контента. Но вы можете предотвратить любые проблемы с дублированием контента, настроив канонические URL-адреса. Канонический тег сигнализирует, какая страница должна считаться “главной”, таким образом, остальные URL, указывающие на ту же страницу, не будут индексироваться, а ваш контент не будет дублироваться. Вы также можете запретить роботам посещать динамические URL-адреса с помощью robots.txt файл.
Проблемы со структурой URL:
Удобные URL-адреса ценятся как людьми, так и машинными алгоритмами. Googlebot не является исключением. Googlebot может быть сбит с толку при попытке понять длинные и богатые параметрами URL-адреса. Таким образом, тратится больше ресурсов обхода. Чтобы предотвратить это, сделайте свои URL-адреса удобными для пользователя.
Убедитесь, что ваши URL-адреса понятны, следуют логической структуре, имеют правильную пунктуацию и не содержат сложных параметров. Другими словами, ваши URL-адреса должны выглядеть так:
http://example.ru/vegetables/cucumbers/pickles
Примечание: К счастью, оптимизация бюджета обхода контента не так сложна, как может показаться. Но правда в том, что вам нужно беспокоиться об этом только в том случае, если вы являетесь владельцем большого (1 миллион + страниц) или среднего (10 000 + страниц) веб-сайта с часто (ежедневно или еженедельно) меняющимся контентом. В остальных случаях вам просто нужно правильно оптимизировать свой сайт для поиска и вовремя исправить проблемы с индексацией.
Вывод:
Главный гусеничный робот Google, Googlebot, работает по сложным алгоритмам, но вы все равно можете “ориентироваться” на его поведение, чтобы сделать его полезным для вашего сайта. Кроме того, большинство шагов оптимизации процесса обхода повторяют те стандартные SEO, с которыми вы все знакомы.