Блог о SEO
Telegram-канал

Google про сканирование сайтов

Сканирование (краулинг) - это процесс обхода страниц и ресурсов сайта роботами поисковых систем для дальнейшей индексации. На странице собраны ответы Google касающиеся сканирования сайтов.

Временно удаленные страницы могут передавать PageRank

Инструмент временного удаления в Search Console не меняет способ сканирования или индексации страницы, он просто скрывает её от появления в результатах поиска, поэтому страница все еще может передавать PageRank.

2020-05-29
Джон Мюллер, Google

Создайте просматриваемый сайт, который не является слишком глубоким или слишком широким

Чтобы все страницы сайта были доступны и легко просканированы Google, следует создавать разумную структуру, которая не будет слишком глубокой или слишком широкой. Постарайтесь сделать так, чтобы Google запуская сканирование на любой странице вашего сайта мог увидеть все остальные страницы, просто перейдя по ссылкам. Для проверки сканирования с различных страниц следует использовать сторонний сканер.

2020-05-12
Джон Мюллер, Google

Отчеты о покрытии в Search Console не включают в себя сторонние размещенные файлы Sitemap

Если вы размещаете свои файлы sitemap на стороннем сайте, они могут использоваться, но не попадут в отчеты о покрытии в Search Console.

2020-04-14
Джон Мюллер, Google

Googlebot может сканировать URL найденные после отправки форм

Google может попытаться отправить форму на сайте чтобы посмотреть что получится, а затем просканировать любые полученные URL-адреса, что приведет к увеличению активности сканирования.

2020-04-09
Джон Мюллер, Google

Сокращение количества страниц на большом сайте может быть полезно

Сокращение количества страниц на очень большом сайте может помочь Google выяснить, какие страницы являются наиболее важными, но, скорее всего, не окажет никакого влияния на небольшой сайт.

2020-04-09
Джон Мюллер, Google

Google всегда будет понятен, когда робот Google сканирует сайт

Возможно, что сотрудник Google посетит ваш сайт через браузер, в этом случае он не будет отображаться как робот Google. Однако при сканировании сайта роботом Googlebot всегда будет отображаться корректное имя, потому что информация о том какие страницы сайта были посещены и проиндексированы должна быть открытой.

2020-04-03
Джон Мюллер, Google

Google использует как само изображение, так и страницу на которой оно размещено, для выбора изображения в поиск

Робот Google не понимает содержимое изображения и поэтому должен учитывать контекст веб-страницы. Он изучает страницу, и использует для ранжирования связку изображения и страницы на которой оно размещено. В первую очередь Google используют веб-страницу для понимания того что отражено на изображении и всегда учитывает данную связку при ранжировании.

2020-03-31
Джон Мюллер, Google

Сайты с долгим ответом сервера сканируются меньше

Если Google не может повторно просканировать страницу достаточно быстро из-за долгого времени ответа сервера, он не будет повторно сканировать её так часто, как хотелось бы.

2020-03-20
Джон Мюллер, Google

Ресурсы, используемые на страницах, включены в краулинговый бюджет Google

Ресурсы, которые нужны Google для отображения страниц, включены в краулинговый бюджет и отображены в данных статистики сканирования в Search Console.

2020-03-20
Джон Мюллер, Google

Среднее время сканирования может зависеть от нескольких медленных страниц

Если Google тратит больше времени на сканирование нескольких медленно загружающихся страниц, это может привести к ухудшению среднего времени загрузки и общие данные сканирования будут хуже.

2020-03-20
Джон Мюллер, Google

Используйте sitemap ping, атрибут lastmod и отдельные файлы карты сайта для индексации обновленного содержимого

Чтобы ускорить индексацию обновленного содержимого в Google, отправьте ping Googlebot при обновлении файла sitemap, используйте атрибут lastmod с датами последнего изменения в файлах sitemap и создавайте отдельный файл sitemap для обновленного содержимого, который нужно сканировать чаще других.

2020-03-20
Джон Мюллер, Google

После удаления низкокачественных страницы пройдут месяцы, прежде чем это повлияет на сканирование и качество сайта

Удаление низкокачественных страниц с вашего сайта может оказать положительное влияние на его сканирование, но эффект от этого может быть отложенным от 3 до 9 месяцев, результат можно будет отследить по логам сайта. Положительное влияние на общее качество сайта может быть заметно спустя ещё более долгое время. Странно, если после удаления таких страниц будет какое-то негативное влияние.

2020-03-20
Джон Мюллер, Google

Не используйте сторонние cookie для отображения контента

Поскольку Chrome блокирует сторонние файлы cookie, а Google использует Chrome для отображения страниц, если отображение содержимого страниц вашего сайта зависит от содержимого сторонних файлов cookie, то он не будет отображаться для Google.

2020-03-17
Джон Мюллер, Google

Google отслеживает более 5 переадресаций в каждом цикле сканирования

Google выполняет 5 переадресаций в течение одного цикла сканирования, но позже он продолжит обходить цепочки перенаправлений. Как только он найдет окончательный URL в цепочке перенаправления, то сосредоточатся на этом URL.

2020-03-06
Джон Мюллер, Google

Статистика сканирования Search Console включает URL-адреса, полученные другими сервисами Google

Статистика сканирования Google в Search Console является точным отражением собственных логов сканирования Google, но включает URL-адреса, полученные от других служб Google, использующих ту же инфраструктуру, что и Googlebot, включая проверки целевой страницы Google Ads и сканирование поиска по товарам.

2020-03-06
Джон Мюллер, Google

Google не использует валидатор W3C

Google не учитывает проверку валидатором W3C в своих алгоритмах, поэтому вам не нужно беспокоиться, если на ваших страницах есть какие-то ошибки при проверке. Однако валидатор - это отличный способ убедиться, что страницы вашего сайта отображаются корректно и доступны (например, для устройств чтения с экрана).

2020-03-06
Джон Мюллер, Google

Быстрое снижение трафика после ошибки на сайте не следует связывать с ней

Если вы видите резкое снижение трафика, в течении дня после внесения изменений на сайте, то скорее всего дело в обновлениях алгоритма поиска. Для влияния технической ошибки на трафик требуется больше время, так как сканирование - более длительный процесс.

2020-03-03
Джон Мюллер, Google

Google не взаимодействует с кнопками на JavaScript

Google не взаимодействует с элементами на которые навешаны JavaScript-события клика (вроде кнопок «Показать больше»), но он использует расширение фрейма для рендеринга очень длинных страниц, чтобы посмотреть не догружается ли контент автоматически.

2020-02-21
Джон Мюллер, Google

Изменения алгоритма могу влиять на скорость сканирования

Количество страниц, которые Google хочет просканировать может меняться при изменении алгоритма. Это может произойти из-за того что некоторые страницы станут (или перестанут) считаться менее важными для отображения в результатах поиска или из-за оптимизации процесса сканирования.

2020-02-21
Джон Мюллер, Google

Включайте измененные недавно страницы в отдельный файл sitemap

Вместо того чтобы каждый раз отправлять все свои файлы sitemap для сканирования Google новых страниц, лучше включить недавно измененные страницы в отдельный файл sitemap, который можно отправлять на переобход чаще, оставив не изменившиеся страницы в других файлах sitemap.

2020-02-18
Джон Мюллер, Google

Используйте элемент lastmod для последовательного учета изменений на сайте

Следует вдумчиво использовать элементы lastmod в файлах sitemap, чтобы правильно показывать последовательность изменений на сайте. Это помогает Google распознать, какие страницы важны, и в первую очередь просканировать их.

2020-02-07
Джон Мюллер, Google

Рендеринг страниц отличается у Googlebot и пользователей

Googlebot не делает снимок рендеринга страницы в какое-то определённое время для дальнейшей индексации. Основная причина этого заключается в том, как Google обрабатывает страницы, так как рендеринг страницы для индексации отличается от рендеринга страницы в браузере пользователя. Это может привести к тому что элементы на сайте будут обрабатываться иначе чем у пользователя и рендеринг с целью индексации будет занимать дольше времени.

2020-02-07
Джон Мюллер, Google

То, что Google сканирует старые URL - не проблема

Из-за процесса рендеринга страниц сайта Google может сканировать старые URL, для их проверки. Вы можете заметить это в своих лог-файлах, но это нормально и не вызовет никаких проблем.

2020-01-31
Джон Мюллер, Google

Проверка URL в Search Console не всегда показывает как страница была просканирована для индексации

«Другая ошибка» возникает при проверке URL в Search Console, когда не удается получить его содержимое в этом конкретном тесте (например, это возможно для ресурсов страницы). При сканировании страницы с целью индексации Google будет тратить больше времени на получение и кэширование ресурсов к которым обращается страница, чтобы иметь возможность правильно их отображать.

2020-01-24
Джон Мюллер, Google

Переобход страниц осуществляется не реже чем раз в 6 месяцев

Google старается повторно сканировать страницы не реже чем раз в 6 месяцев.

2020-01-21
Джон Мюллер, Google

Google по-прежнему учитывает директиву unavailable_after в теге meta robots

Google не перестал учитывать директиву unavailable_after в теге meta robots, используемую для указания даты когда страница перестанет быть доступна. Скорее всего, примерно в эту дату Google будет повторно сканировать страницу, чтобы убедиться что не удаляет из индекса страницу которая все еще доступна.

2020-01-10
Джон Мюллер, Google

Технические проблемы на сайте могут привести к тому, что его контент будет индексироваться на сайтах-скраперах раньше

Если контент с сайтов-скраперов появляется в индексе раньше чем с сайта-источника, то скорее всего у этого сайта имеются технические проблемы. Например, Googlebot может не находить хаб-страницы или страницы категорий или может застревать в ловушках сканирования, следуя по URL-адресам с избыточными GET-параметрами.

2020-01-07
Джон Мюллер, Google

Google может регулировать скорость сканирования сайта в зависимости от его производительности и контента

Расчет скорости сканирования сайта Google может автоматически изменяться с учётом того насколько быстро сайт отдает контент и сколько контента необходимо сканировать.

2019-12-27
Джон Мюллер, Google

Настройте 404 или 410 ответ сервера чтобы Googlebot не сканировал взломанные страницы

Если ваш домен был взломан, то лучшим способом предотвратить сканирование Googlebot взломанных страниц будет настроить для них 404 или 410 ответ сервера с помощью файла htaccess. Также это остановит выполнение серверных скриптов и запросов к базе данных.

2019-12-10
Джон Мюллер, Google

Google может увеличить частоту сканирования сайта, если заметит что его структура изменилась

Если вы удалите значительную часть страниц, и при сканировании сайта Google обнаружит большое число страниц с 404 ответом сервера, то он может решить что структура вашего сайта изменилась. Это может привести к тому что Google станет чаще сканировать сайт чтобы понять какие изменения произошли.

2019-12-10
Джон Мюллер, Google

Использование 410 ответа сервера не гарантирует быстрое удаление страниц

Чтобы удалить весь раздел сайта из индекса, лучше всего настроить для него 410 ответ сервера. Коды ответа 404 и 410 являются разными сигналами для робота Googlebot, причем 410 является более явным сигналом того, что страница была удалена. Однако, так как Google встречает большое количество неверных сигналов на сайтах, он будет использовать ваш код ответа сервера лишь в качестве подсказки, поэтому использование 410 ответа сервера все-таки не гарантирует то, что страницы будут удалены быстрее.

2019-12-10
Мартин Сплитт, Google

Используйте Chrome DevTools и Google Testing Tools для проверки теневого DOM страницы

Есть два способа проверить теневое DOM-дерево страницы, чтобы сравнить его с тем, что видит робот Googlebot. Самый простой способ - использовать Chrome DevTools, в инспекторе вы увидите элемент #shadow-root, который вы можете раскрыть, это покажет, что содержит теневой DOM. Вы также можете использовать инструмент проверки структурированных данных чтобы просмотреть визуализированную DOM, она должна содержать всё то, что изначально было в теневой DOM.

2019-12-10
Мартин Сплитт, Google

Расхождение в данных Search Console и логах сервера при сканировании - это вполне нормально

В отчете по статистике сканирования в Search Console показаны абсолютно все обращения, которые выполнялись Googlebot. Сюда входят данные о сканировании, рендеринге и даже обращению к robots.txt. И хотя такая статистика сканирования довольно полезна, но сравнивать её с логами бывает слишком затруднительно.

2019-11-26
Джон Мюллер, Google

Для определения своего краулингового бюджета воспользуйтесь данными Search Console и логов сервера

Есть два аспекта, которые позволят вам понять свой краулинговый бюджет сайта.
Первый касается скорости, с которой Google смог загрузить страницы сайта (информация об этом есть в Search Console). Если она высокая, то значит Google просканировал всё что мог (хотя, возможно, пропустил некоторые страницы).
Второй касается ошибок сервера и их влияния на сканирование сайта. Изучение логов сервера позволяет понять, появляются ли такие ошибки.

2019-11-26
Джон Мюллер, Google

Сводные отчёты в Search Console сосредоточены на неполной выборке URL-адресов

Сводные отчеты в Search Console, например, отчет по удобству использования на мобильных устройствах, отчет по AMP-версиям страниц и отчет по расширенным результатам в поиске, сосредоточены лишь на выборке URL-адресов с сайта.
Для сравнения, отчет о покрытии включает в себя все проиндексированные URL-адреса, а это означает, что не стоит сравнивать итоговые числа в различных отчетах. Например. в отчете о покрытии может быть показано 4000 проиндексированных страниц, тогда как в отчете об удобстве использования для мобильных устройств общее количество страниц может составлять только 2000 (это и будет размером выборки данного отчета).

2019-11-26
Джон Мюллер, Google

Google определяет удобство использования страницы на мобильных устройствах основываясь на эмуляции

Google проверяет удобство использования страницы на мобильных устройствах с помощью рендеринга страницы аналогичного тому, который будет производиться на мобильных устройствах пользователей. Иногда во время такой эмуляции могут возникать ошибки при загрузке файлов CSS или JavaScript, это может привести к появлению небольшого количества ошибок удобства использования на мобильных устройствах в Search Console. Эти ошибки связаны с загрузкой Google отдельных файлов и являются временными, а также не повлияют на индексацию таких страниц.

2019-11-26
Джон Мюллер, Google

Google распознает рекламные объявления, появляющиеся при переходе между страницами сайта

Google пытается распознать рекламные объявления, которые появляются при переходе между страницами сайта чтобы отличать их от обычных рекламных баннеров страницы. Это делается, чтобы они не вызывали проблем при сканировании сайта Googlebot. Это может стать проблемой только в том случае, если межстраничное объявление подменяет контент на странице, тем самым блокируя его сканирование.

2019-11-15
Джон Мюллер, Google

Обеспечьте индексирование страниц категорий и закройте от индексации страницы поиска по сайту

Чтобы избежать таких проблем как индексация дублей страниц и засорение сайтом индекса Google, займитесь улучшением качества страниц категорий и помощью им в индексации. Также закройте от индексации страницы внутреннего поиска, поскольку именно функционал поиска часто генерирует низкокачественные страницы.

2019-11-12
Джон Мюллер, Google
Подпишитесь на новые статьи блога