Блог о SEO
Telegram-канал

Google про сканирование сайтов

Сканирование (краулинг) - это процесс обхода страниц и ресурсов сайта роботами поисковых систем для дальнейшей индексации. На странице собраны ответы Google касающиеся сканирования сайтов.

Временно удаленные страницы могут передавать PageRank

Инструмент временного удаления в Search Console не меняет способ сканирования или индексации страницы, он просто скрывает её от появления в результатах поиска, поэтому страница все еще может передавать PageRank.

2020-05-29
Джон Мюллер, Google

Создайте просматриваемый сайт, который не является слишком глубоким или слишком широким

Чтобы все страницы сайта были доступны и легко просканированы Google, следует создавать разумную структуру, которая не будет слишком глубокой или слишком широкой. Постарайтесь сделать так, чтобы Google запуская сканирование на любой странице вашего сайта мог увидеть все остальные страницы, просто перейдя по ссылкам. Для проверки сканирования с различных страниц следует использовать сторонний сканер.

2020-05-12
Джон Мюллер, Google

Отчеты о покрытии в Search Console не включают в себя сторонние размещенные файлы Sitemap

Если вы размещаете свои файлы sitemap на стороннем сайте, они могут использоваться, но не попадут в отчеты о покрытии в Search Console.

2020-04-14
Джон Мюллер, Google

Googlebot может сканировать URL найденные после отправки форм

Google может попытаться отправить форму на сайте чтобы посмотреть что получится, а затем просканировать любые полученные URL-адреса, что приведет к увеличению активности сканирования.

2020-04-09
Джон Мюллер, Google

Сокращение количества страниц на большом сайте может быть полезно

Сокращение количества страниц на очень большом сайте может помочь Google выяснить, какие страницы являются наиболее важными, но, скорее всего, не окажет никакого влияния на небольшой сайт.

2020-04-09
Джон Мюллер, Google

Google всегда будет понятен, когда робот Google сканирует сайт

Возможно, что сотрудник Google посетит ваш сайт через браузер, в этом случае он не будет отображаться как робот Google. Однако при сканировании сайта роботом Googlebot всегда будет отображаться корректное имя, потому что информация о том какие страницы сайта были посещены и проиндексированы должна быть открытой.

2020-04-03
Джон Мюллер, Google

Google использует как само изображение, так и страницу на которой оно размещено, для выбора изображения в поиск

Робот Google не понимает содержимое изображения и поэтому должен учитывать контекст веб-страницы. Он изучает страницу, и использует для ранжирования связку изображения и страницы на которой оно размещено. В первую очередь Google используют веб-страницу для понимания того что отражено на изображении и всегда учитывает данную связку при ранжировании.

2020-03-31
Джон Мюллер, Google

Сайты с долгим ответом сервера сканируются меньше

Если Google не может повторно просканировать страницу достаточно быстро из-за долгого времени ответа сервера, он не будет повторно сканировать её так часто, как хотелось бы.

2020-03-20
Джон Мюллер, Google

Ресурсы, используемые на страницах, включены в краулинговый бюджет Google

Ресурсы, которые нужны Google для отображения страниц, включены в краулинговый бюджет и отображены в данных статистики сканирования в Search Console.

2020-03-20
Джон Мюллер, Google

Среднее время сканирования может зависеть от нескольких медленных страниц

Если Google тратит больше времени на сканирование нескольких медленно загружающихся страниц, это может привести к ухудшению среднего времени загрузки и общие данные сканирования будут хуже.

2020-03-20
Джон Мюллер, Google

Используйте sitemap ping, атрибут lastmod и отдельные файлы карты сайта для индексации обновленного содержимого

Чтобы ускорить индексацию обновленного содержимого в Google, отправьте ping Googlebot при обновлении файла sitemap, используйте атрибут lastmod с датами последнего изменения в файлах sitemap и создавайте отдельный файл sitemap для обновленного содержимого, который нужно сканировать чаще других.

2020-03-20
Джон Мюллер, Google

После удаления низкокачественных страницы пройдут месяцы, прежде чем это повлияет на сканирование и качество сайта

Удаление низкокачественных страниц с вашего сайта может оказать положительное влияние на его сканирование, но эффект от этого может быть отложенным от 3 до 9 месяцев, результат можно будет отследить по логам сайта. Положительное влияние на общее качество сайта может быть заметно спустя ещё более долгое время. Странно, если после удаления таких страниц будет какое-то негативное влияние.

2020-03-20
Джон Мюллер, Google

Не используйте сторонние cookie для отображения контента

Поскольку Chrome блокирует сторонние файлы cookie, а Google использует Chrome для отображения страниц, если отображение содержимого страниц вашего сайта зависит от содержимого сторонних файлов cookie, то он не будет отображаться для Google.

2020-03-17
Джон Мюллер, Google

Google отслеживает более 5 переадресаций в каждом цикле сканирования

Google выполняет 5 переадресаций в течение одного цикла сканирования, но позже он продолжит обходить цепочки перенаправлений. Как только он найдет окончательный URL в цепочке перенаправления, то сосредоточатся на этом URL.

2020-03-06
Джон Мюллер, Google

Статистика сканирования Search Console включает URL-адреса, полученные другими сервисами Google

Статистика сканирования Google в Search Console является точным отражением собственных логов сканирования Google, но включает URL-адреса, полученные от других служб Google, использующих ту же инфраструктуру, что и Googlebot, включая проверки целевой страницы Google Ads и сканирование поиска по товарам.

2020-03-06
Джон Мюллер, Google

Google не использует валидатор W3C

Google не учитывает проверку валидатором W3C в своих алгоритмах, поэтому вам не нужно беспокоиться, если на ваших страницах есть какие-то ошибки при проверке. Однако валидатор - это отличный способ убедиться, что страницы вашего сайта отображаются корректно и доступны (например, для устройств чтения с экрана).

2020-03-06
Джон Мюллер, Google

Быстрое снижение трафика после ошибки на сайте не следует связывать с ней

Если вы видите резкое снижение трафика, в течении дня после внесения изменений на сайте, то скорее всего дело в обновлениях алгоритма поиска. Для влияния технической ошибки на трафик требуется больше время, так как сканирование - более длительный процесс.

2020-03-03
Джон Мюллер, Google

Google не взаимодействует с кнопками на JavaScript

Google не взаимодействует с элементами на которые навешаны JavaScript-события клика (вроде кнопок «Показать больше»), но он использует расширение фрейма для рендеринга очень длинных страниц, чтобы посмотреть не догружается ли контент автоматически.

2020-02-21
Джон Мюллер, Google

Изменения алгоритма могу влиять на скорость сканирования

Количество страниц, которые Google хочет просканировать может меняться при изменении алгоритма. Это может произойти из-за того что некоторые страницы станут (или перестанут) считаться менее важными для отображения в результатах поиска или из-за оптимизации процесса сканирования.

2020-02-21
Джон Мюллер, Google

Включайте измененные недавно страницы в отдельный файл sitemap

Вместо того чтобы каждый раз отправлять все свои файлы sitemap для сканирования Google новых страниц, лучше включить недавно измененные страницы в отдельный файл sitemap, который можно отправлять на переобход чаще, оставив не изменившиеся страницы в других файлах sitemap.

2020-02-18
Джон Мюллер, Google

Используйте элемент lastmod для последовательного учета изменений на сайте

Следует вдумчиво использовать элементы lastmod в файлах sitemap, чтобы правильно показывать последовательность изменений на сайте. Это помогает Google распознать, какие страницы важны, и в первую очередь просканировать их.

2020-02-07
Джон Мюллер, Google

Рендеринг страниц отличается у Googlebot и пользователей

Googlebot не делает снимок рендеринга страницы в какое-то определённое время для дальнейшей индексации. Основная причина этого заключается в том, как Google обрабатывает страницы, так как рендеринг страницы для индексации отличается от рендеринга страницы в браузере пользователя. Это может привести к тому что элементы на сайте будут обрабатываться иначе чем у пользователя и рендеринг с целью индексации будет занимать дольше времени.

2020-02-07
Джон Мюллер, Google

То, что Google сканирует старые URL - не проблема

Из-за процесса рендеринга страниц сайта Google может сканировать старые URL, для их проверки. Вы можете заметить это в своих лог-файлах, но это нормально и не вызовет никаких проблем.

2020-01-31
Джон Мюллер, Google

Проверка URL в Search Console не всегда показывает как страница была просканирована для индексации

«Другая ошибка» возникает при проверке URL в Search Console, когда не удается получить его содержимое в этом конкретном тесте (например, это возможно для ресурсов страницы). При сканировании страницы с целью индексации Google будет тратить больше времени на получение и кэширование ресурсов к которым обращается страница, чтобы иметь возможность правильно их отображать.

2020-01-24
Джон Мюллер, Google

Переобход страниц осуществляется не реже чем раз в 6 месяцев

Google старается повторно сканировать страницы не реже чем раз в 6 месяцев.

2020-01-21
Джон Мюллер, Google

Google по-прежнему учитывает директиву unavailable_after в теге meta robots

Google не перестал учитывать директиву unavailable_after в теге meta robots, используемую для указания даты когда страница перестанет быть доступна. Скорее всего, примерно в эту дату Google будет повторно сканировать страницу, чтобы убедиться что не удаляет из индекса страницу которая все еще доступна.

2020-01-10
Джон Мюллер, Google
Подпишитесь на новые статьи блога