Индекс и индексация сайта: что это такое?
Индекс поисковых систем – специальная база данных, в которую заносится информация, собираемая поисковыми роботами со страниц сайтов. При этом учитывается текстовое наполнение, внутренние и внешние ссылки, графические и некоторые другие объекты. Когда пользователь задает запрос поисковой системе, происходит обращение к базе данных. После этого выполняется ранжирование по релевантности – формирование списка сайтов по мере убывания их значимости.
Что такое индексация
Процесс добавления роботами собранной информации в базу называется индексацией. Затем данные определенным образом обрабатываются и создается индекс – выжимка из документов. Процесс заполнения индекса осуществляется одним из двух способов: вручную или автоматически. В первом случае владелец ресурса должен самостоятельно добавить URL веб-ресурса в специальную форму, которая есть у «Яндекса», Google и других поисковых систем. Во втором робот сам находит сайт, планомерно переходя по внешним ссылкам с других площадок или сканируя файл-карту sitemap.xml.
Первые попытки индексировать веб-ресурсы были сделаны еще в середине 90-х годов прошлого столетия. Тогда база данных была похожа на обычный предметный указатель, в котором содержались ключевые слова, найденные роботами на посещенных ими сайтах. Почти за 30 лет этот алгоритм был значительно усовершенствован и усложнен. Например, сегодня информация перед попаданием в индекс обрабатывается по сложнейшим вычислительным алгоритмам с привлечением искусственного интеллекта.
Зачем индекс поисковым системам
Индексация страниц сайта – неотъемлемая часть работы поисковых систем (не только Google и «Яндекса», но и всех остальных). База, полученная в процессе сканирования веб-ресурсов, используется для формирования релевантной выдачи. Основные роботы поисковых систем:
- основной – сканирует весь контент на сайте и его отдельных страницах;
- быстрый – индексирует только новую информацию, которая была добавлена после очередного обновления.
Также существуют роботы для индексации rss-ленты, картинок и др.
При первом посещении в базу попадают все новые сайты, если они подходят под требования поисковой системы. Во время повторного визита информация лишь дополняется деталями.
Скорость индексации страниц
Чем быстрее происходит добавление страницы в индекс, тем лучше для веб-ресурса. Однако поисковые роботы не могут выполнять такой большой объем работы так же часто, как обновляется наполнение сайтов. Индексация в «Яндекс» в среднем занимает одну-две недели, а в Google – несколько дней. С целью ускорения индексации ресурсов, для которых очень важно быстрое попадание информации в базу (новостные порталы и т. д.), применяется специальный робот, посещающий такие сайты от одного до нескольких раз в день.
Как проверить индексацию в «Яндексе» и Google
Воспользоваться информацией из панели веб-мастеров. В списке сервисов Google откройте Search Console, а затем перейдите в раздел «Индекс Google». Нужная информация будет находиться в блоке «Статус индексирования». В «Яндекс.Вебмастер» необходимо перейти по следующей цепочке: «Индексирование сайта» — «Страницы в поиске». Еще один вариант: «Индексирование сайта» — «История» — «Страницы в поиске».
Задать поиск по сайту с использованием специальных операторов. Для этого используйте запрос с конструкцией «site:», указав далее адрес вашего ресурса в полном формате. Так вы узнаете количество проиндексированных страниц. Серьезные расхождения в значениях (до 80 %), полученных в разных поисковых системах, говорят о наличии проблем (например, веб-ресурс может находиться под фильтром).
Установить специальные плагины и букмарклеты. Это небольшие дополнения для браузера, которые позволяют выполнить проверку индексации страниц сайта. Одним из самых популярных среди них является RDS Bar.
Как ускорить индексацию
На скорость индексации сайта прямо влияют несколько факторов:
- отсутствие ошибок, замедляющих процесс сбора информации поисковым роботом;
- авторитетность ресурса;
- частота обновления контента на сайте;
- частота добавления нового контента на сайт;
- уровень вложенности страниц;
- корректно заполненный файл sitemap.xml;
- ограничения в robots.txt.
Чтобы ускорить индексацию сайта, выполните ряд правил:
- выберите быстрый и надежный хостинг;
- настройте robots.txt, установив правила индексации и сняв ненужные запреты;
- избавьтесь от дублей и ошибок в коде страниц;
- создайте карту сайта sitemap.xml и сохраните файл в корневой папке;
- по возможности организуйте навигацию таким образом, чтобы все страницы были в 3 кликах от главной;
- добавьте ресурс в панели веб-мастеров «Яндекса» и Google;
- сделайте внутреннюю перелинковку страниц;
- зарегистрируйте сайт в авторитетных рейтингах;
- регулярно обновляйте контент.
Дополнительно рекомендуем оценить объем flash-элементов с точки зрения их влияния на продвижение. Наличие визуальных объектов этого типа значительно снижает долю поискового трафика, так как не дает роботам выполнить индексацию в полной мере. Также не желательно размещения ключевой информации в PDF-файлах, сохраненных определенным образом (сканироваться может только текстовое содержимое документа).
Урок 406 Массовая проверка индекса страниц сайта в Яндексе и Google, добавление в индекс страниц “пачками”
Привет! Сегодня я расскажу очень важные вещи, упустив которые можно терять трафик. Часто по мере работы над сайтами, нужно определить: какие страницы проиндексированы, какие нет. Какие страницы требует дополнительного внимания для того, чтобы они попали в индекс.
Особенно это ярко заметно при работе с интернет-магазинами: при работе с огромным количеством товаров/разделов, постоянно добавляются все новые и новые страницы. Поэтому нужен жесткий контроль индексации свежедобавленных страниц, чтобы не терять трафик с поиска.
В этом небольшом уроке я расскажу, как я проверяю страницы сайта на проиндексированность.
Оглавление
- Как проверить страницы на индексацию
- Что делать с непроиндексированными страницами?
- Переиндексация существующих страниц
- Работа с индексом с помощью программы Comparser
- Стандартные способы улучшения индексации
Как проверить страницы на индексацию
Как я проверяю проиндексированность конкретной страницы с помощью RDS bar, я уже рассказывал тут.
Ну или же можно просто вбить в Яндекс вот этот код:
url:www.wpnew.ru/about | url:wpnew.ru/about
Или для Google:
info:https://wpnew.ru/about
Конечно, URL адрес wpnew.ru/about меняете на свой.
А что же делать, если нужно проверить проиндексированность десяток/сотен, а то и более статей? Я поступаю следующим образом:
- Ставим замечательную бесплатную программу YCCY
(скачать можете отсюда). - Запускаем ее и переходим в Indexator:
- В левую часть программы загружаем список URL, который нужно проверить на индекс:
- В настройках при работе с Яндекс я поставил работу через Yandex XML. Что такое Яндекс XML лимиты и с чем его едят я уже рассказывал:
- Выбираем интересующую нас поисковую систему, отмечаем что нас интересует (в нашем случае “Индексированность”) и нажимаем на кнопку “Начать проверку”:
- И вуаля, справа вы увидим отдельный список проиндексированных страниц, а также того, чего пока нет в индексе:
Что делать с непроиндексированными страницами?
Сервисы для ускорения индексации
Я обычно не проиндексированные страницы прогоняю с помощью разных сервисов, я предпочитаю этот getbot.guru. Да, безусловно не 100% страниц залезают с помощью него в индекс но все же в среднем около 70-80% из прогнанных URL как правило залезает (сильно зависит от адекватности страниц тоже).
Сервис, конечно же, платный, нужно платить за каждый URL. За те страницы, которые не попали в индекс последует возврат средств, что очень справедливо и заманчиво (зависит от тарифа). А уже эти страницы, которые не попали в индекс, я повторно отправляю в сервис. Снова при следующем апдейте часть из этих страниц входит в индекс.
Думаю, разобраться сможете сами, ничего сложно нет. Регистрируетесь -> Создаете проект -> Запускаете проект. Единственное, могут возникнуть сложности при выборе тарифа. Я предпочитаю работать с тарифом “Абсолют апдейт” (кликните на изображение, чтобы увеличить):
Кстати, обратите внимание, что в сервисе тоже можно проверить страницы на проиндексированность. Цена вопроса в районе 10 копеек за 1 URL. Я же предпочитаю бесплатный YCCY, о котором писал выше.
Принцип работы getbot.guru (взял с ветки сёрча):
На страницы из проекта отсылается быстробот яндекса, периодически проверяется индексация страниц проекта в Яндекс, на страницы не вошедшие в индекс, быстробот отсылается ещё раз. После завершения задания, для страниц не вошедших в индекс, осуществляется автоматический возврат средств на баланс. Мы не используем социальные сети и спам методы для привлечения быстробота. Для работы сервиса используется своя сеть новостных сайтов, владельцами которых мы являемся.
Ускорение индексации с помощью Твиттера или новостных сайтов
Ну, если вы не любите прогоны с помощью подобных сервисов, то можно воспользоваться Твиттером. Ссылки в Твиттере поисковики очень хорошо “кушают”, если аккаунты более-менее адекватные.
Про это я уже писал относительно подробно в уроке “Как быстро добавить страницу в индекс“. Там помимо твиттера я разбирал еще другие способы быстрой индексации.
Точно также можно купить хорошие ссылки с новостных сайтов (к примеру, в Sape) и загнать быстробота к себе на сайт, тем самым помочь индексации.
Переиндексация существующих страниц
Аналогично можно отправить страницу на перееиндексацию. Проверяя кэш страницы в поисковиках, можно узнать проиндексировалась страница или нет. Как проверить кэш страницы я рассказывал в том же уроке.
Работа с индексом с помощью программы Comparser
YCCY хоть и старая программа, но мне она очень нравится. Я ее использую для проверки индексации известных мне страниц.
Если же нужно выяснить, какие страницы сайта еще не попали в индекс я пользуюсь программой Comparser (я уже писал про нее целый урок). Его принцип простой: он выгружает все URL сайта, которые вы разрешили для индексирования (этот пункт можно менять в настройках) и проверяет каждую страницу на индекс. Либо с помощью простого обращения выгружает первые 1000 страниц из индекса.
И снова, те страницы, которые выявлены, что находятся вне индекса, прогоняем через разные сервисы или твиттер аккаунты. Имейте в виду, что, если вы хотите купить твиты, то хорошо работают незаспамленные аккаунты. К примеру, мне достаточно сделать ретвит своей статьи своим же аккаунтом, она мгновенно попадает в индекс.
Если вдруг нужно проверить “пачку” страниц на переиндексацию, можно снять дату кэширования в той же самом Компарсере:
Так вы можете понять, какие страницы переиндексированы, какие нет.
Стандартные способы улучшения индексации
Ну и конечно, не забывайте стандартные способы улучшения индексации:
Если быть честным, конечно никакой он не секретный, просто не все знают про данный способ. Пользуйтесь. И, конечно же, регулярно добавляйте новые страницы на сайт, чтобы робот почаще к вам заходил. Поисковики любят сайты, которые обновляются регулярно.
Дам еще пару ссылок по теме, если вы вдруг в ходе работы с индексом сайта обнаружили мусор (“сопли”) и хотите удалить их из индекса:
Друзья, ответьте, пожалуйста, на мои следующие вопросы, для меня это очень важно:
- Как вы проверяете страницы на проиндексированность?
- Как непроиндексированные страницы сайта загоняете в индекс? Какой сервис/софт для этого используете?
Проверить индексацию на yandex и google. Поисковый индекс
Чтобы продвигаемые страницы могли выводиться в поиске, они должны находиться в индексе поисковых систем. Давайте разберемся, как проверить, какие страницы сайта находятся в индексе Яндекса или Google, узнать количество документов в базе поисковой системы. Какие инструменты существуют для отслеживания индексации страниц. Но вначале немного ликбеза.
Что такое индекс поисковой системы?
Индекс поисковой системы – это база данных, в которой находится информация обо всех документах (страницах с сайтов, файлов), которые могут участвовать в поиске.
Не все страницы включаются в индекс. Например, если страница вашего сайта признается роботом поисковой системы как низкокачественная, она может не включаться в индекс и не принимать участие в поиске. Аналогичная судьба часто ожидает страницы-дубли или документы, содержащие скопированные с других сайтов тексты.
В Google имеется основной индекс и дополнительный (supplemental index).
В дополнительный индекс попадают документы, которые имеют более низкое качество, чем документы из основного индекса. Они не участвуют в основном поиске, их редко посещает робот Google, они практически не приносят трафик на сайт.
В дополнительный индекс Google обычно попадают:
- страницы с неуникальным контентом,
- страницы, на которых практически отсутствует контент и страницы с текстом менее 500 символов,
- дубли,
- иногда в дополнительный индекс могут попадать страницы с низким весом.
Почему важно проверять количество страниц в индексе?
Очень важно отслеживать индексацию страниц, потому что от этого зависит трафик из поисковых систем. Если страница не проиндексирована, она не сможет появиться в выдаче по какому-либо запросу.
Как узнать, сколько страниц в индексе Яндекса или Google?
Есть несколько способов проверить количество страниц в индексе поисковых систем:
1. Введите в поисковую строку запрос: site:site.com (где site.com – это URL или адрес главной страницы сайта), как на скриншоте ниже:
Под строкой поиска вы увидите примерное количество страниц в индексе поисковой системы. В примере выше указано число страниц в индексе Google. Этот способ позволяет узнать число страниц в базе поисковой системы у любого сайта, в том числе конкурента.
2. Проверить количество страниц в индексе Google, можно в сервисе Google для вебмастеров . Аналогичный сервис в Яндексе – это Яндекс.Вебмастер. В нем можно посмотреть число страниц в индексе данной поисковой системы. Для просмотра данных потребуется подтвердить права на сайт в сервисах. Поэтому данный способ не подходит для анализа сайтов конкурентов.
Если у вас есть доступ в Яндекс.Вебмастер, зайдите на вкладку «Индексирование» -> «Страницы в поиске» и над графиком выберите отображение «История». Здесь вы сможете посмотреть не только число страниц в индексе, но и историю индексирования сайта.
3. При помощи онлайн-сервисов, например, многие бесплатные сервисы для проведения аудитов сайтов выводят информацию о количестве страниц в индексе.
Как проверить страницу в индексе Яндекса или Google?
Часто вебмастеру требуется узнать, находится в индексе конкретная страница сайта или нет. Самый простой способ узнать это – ввести поисковый запрос, состоящий из адреса страницы. Если в результатах поиска вы увидите искомую страницу, значит, она находится в индексе:
В Яндекс.Вебмастер есть функция, которая позволяет не только проверять, в индексе страница или нет, но и следить, чтобы важные страницы не выпадали из поиска. Чтобы добавить страницу в список отслеживаемых, зайдите в раздел «Индексирование» -> «Важные страниц» и в открывшейся форме добавьте нужные страницы:
Можно настроить отслеживание до 100 страниц, что достаточно для многих проектов. Если вам нужно отслеживать больше документов на сайте, то можно воспользоваться сервисом Топвизор . Он позволяет проверять, в индексе страницы сайта или нет, без ограничения по числу документов. Помимо проверки индексации сайта, сервис позволяет снимать позиции по запросам, группировать запросы и многое другое.
Как вернуть или добавить страницу в индекс?
В панелях для вебмастеров имеются специальные сервисы, позволяющие отправить страницу на переиндексацию или добавить новую страницу с сайта в поисковую систему:
Второй способ отправить страницу на переиндексацию – это добавить ссылки на страницу в социальные сети, новостные ресурсы и другие интернет-ресурсы, которые часто посещают роботы поисковых систем.
Если вы отправили страницу на индексацию, но она не появилась в поиске, скорее всего, робот посчитал документ малополезным. Нужно доработать страницу, чтобы она попала в индекс.
Как ускорить индексацию сайта?
Индексацию сайта можно ускорить на разных этапах продвижения сайта:
- Добавьте сайт в панели для вебмастеров. Это позволит ускорить попадание нового сайта в индекс.
- Чаще обновляйте контент. Тогда поисковые роботы будут чаще заходить на сайт и новые страницы будут быстрее добавляться в индекс.
- Следите за качеством контента. На сайты с низким качеством контента роботы могут заходить реже или совсем перестать индексировать такие проекты.
- Периодически проводите технический аудит сайта , чтобы исключать технические причины выпадения страниц из индекса. Например, иногда при редактировании файла robots.txt вебмастера по ошибке закрывают некоторые документы от индексации.
- Если вы подавали заявку на удаление страницы из индекса через панели для вебмастеров, но затем передумали и решили снова включить страницу в поиск, то с ее индексацией могут возникнуть проблемы. Она не будет добавляться в индекс, несмотря на все ваши действия. Иногда решить проблему помогает только обращение в службу поддержки поисковой системы.
- Если страницы стали вылетать из индекса, проверьте сайт на наличие фильтров , уникальность текстов и техническую сторону работы сайта.
- Если сайт слишком большой, вы можете достигнуть лимита по числу документов в индексе поисковой системы (такой лимит есть для каждого сайта). В этом случае можно закрыть от индексации второстепенные страницы, чтобы основные присутствовали в поиске.
В этой статье мы рассмотрели, как проверить индекс сайта в Яндексе или Google, узнать количество страниц в базе поисковой системы, настроить автоматическое отслеживание индексации проекта. Если у вас остались вопросы, добавьте их в комментариях под статьей.
Доброго времени суток, дорогие друзья. Многие начинающие веб-мастера, самостоятельно занимающиеся продвижением своих сайтов, не уделяют должного внимания индексации своего ресурса. Это приводит к потере времени и денег, затраченных на создание неэффективной интернет-площадки, которую не любят поисковики, а соответственно, и пользователи с рекламодателями.
Поэтому сегодня, продолжая цикл статей о сайтостроительстве, мы поговорим о том, как проверить проиндексирован ли сайт в целом и его отдельные страницы в частности, а также обсудим, как и для чего нужно ускорять процесс индексации.
Мы уже не раз говорили о том, что можно только при условии достижения высокого уровня посещаемости, интересного потенциальным рекламодателям.
Большинство пользователей попадает на определенный ресурс из поисковых систем, вводя в них интересующие их запросы. Поисковые роботы сверяют эти запросы со своей базой данных и выводят оптимальные результаты поиска. Для того чтобы сайт попал в эту базу, он должен быть проиндексирован поисковой системой. В противном случае посетители просто не смогут найти его.
При этом очень важно, чтобы не просто ресурс, но каждая его новая страничка была максимально быстро учтена поисковиком. Оптимально, если она содержит внутреннюю перелинковку, позволяющую не только заносить в базу новый материал, но и по указанным ссылкам обновлять старый.
Почему индексация должна быть быстрой?
Кроме увеличения трафика посетителей скорость индексирования влияет и на многие другие показатели ресурса.
Ежедневно в сети появляются новые сайты, тематика которых конкурирует с вашей веб-площадкой. Все они наполняются схожим контентом, который по мере роста численности конкурентов, теряет свою уникальность. Это происходит оттого, что большинство сайтов занимается публикацией многочисленных рерайтов. Простым языком, если вы написали уникальную статью и сразу не позаботились о ее учете поисковиком, не факт, что в момент такового материал останется уникальным.
Кроме того, не проиндексированный контент становится лакомой мишенью для мошенников. Недобросовестному веб-мастеру ничего не мешает попросту скопировать материал на свой ресурс, провести быстрое индексирование и получить от поисковых роботов право на его авторство. А вашу статью поисковики в дальнейшем сочтут не уникальной, что может привести к бану интернет-площадки. Поэтому контролировать и ускорять процесс индексации особенно важно для молодых ресурсов, пробивающих себе дорогу.
Еще одним моментом, зависящим от быстрого индексирования каждой страницы, является возможность получать деньги за платные ссылки. Ведь до тех пор, пока статья с ссылкой не будет проиндексирована поисковиками, свое вознаграждение вы не получите.
Как проверить проиндексирован ли сайт в целом?
Для начала стоит убедиться, что ваш сайт попадает в базу поисковиков. Для этого нужно узнать общее число его страниц. При наличии современной системы управления веб-ресурсом, посмотреть данную цифру можно в административной части. При этом учитывается итоговое число страничек и записей.
Если по какой-либо причине данная информация недоступна, можно воспользоваться сервисом Xml-sitemaps.com. Учтите, что он бесплатен только при работе с сайтами, имеющими в своем арсенале до полутысячи страниц.
Узнав требуемое число, можно приступать к проверке индексирования площадки в главных поисковых системах – Яндекс и Google. Для этого существует несколько способов:
- Использование специальных инструментов для веб-мастеров: webmaster.yandex.ru и google.com/webmasters . Зарегистрировавшись в них и добавив свой ресурс в систему, вам станут доступны не только данные о количестве проиндексированных страничек, но и статистика других «пузомерок».
- Ручная проверка через ввод специальных команд в строку поиска. При этом в Яндексе нужно ввести конструкцию host:имя сайта+домен либо host:www+ имя сайта+домен, например, host:abc.ru. На это система выдаст все проиндексированные страницы. Для проверки в Google потребуется ввести запрос: site:имя сайта+домен, т.е. site:abc.ru.
- Использование автоматических сервисов, проверяющих индексацию сразу в обеих поисковых системах. К числу таких относятся, например, Site-auditor.ru , Pr-cy.ru или Seolib.ru . Также можно добавить в свой браузер плагин RDS Bar, который будет показывать сведения о ресурсе, включая индексацию страничек, на котором вы находитесь.
С помощью любого из данных методов можно узнать, проиндексирован ли сайт в целом, и определить число занесенных в базу поисковиков страниц ресурса.
Что делать с полученной информацией?
В идеале, количество страничек сайта должно совпадать с числом проиндексированных страниц. К сожалению, так бывает далеко не всегда. Гораздо чаще встречаются два варианта развития событий:
- Проиндексированное число элементов – меньше. Соответственно, вы сильно теряете в трафике, ведь по многим запросам пользователей ваш сайт остается недоступным для них.
- Количество проиндексированных страниц превышает реальное число таковых. Если у вас подобный вариант, радоваться не стоит. Вероятнее всего имеет место дублирование страничек, что размывает их вес, увеличивает число повторяющегося материала и мешает продвижению ресурса.
Обе проблемы необходимо максимально быстро решить. Иначе вы рискуете получить неэффективную веб-площадку, заработать на которой можно только в мечтах. А для этого придется проверить индексацию всех страниц по отдельности, чтобы узнать, какие из них «стратили».
Как проверить индексацию отдельной или всех страниц
Проверка отдельной странички нужна, когда необходимо убедиться, что новый опубликованный контент успешно «замечен» поисковыми системами. Или когда вы приобрели на чужом ресурсе платную ссылку и теперь с нетерпением ждете ее индексации. Это можно сделать через:
- Ввод URL страницы в строку поиска Яндекс или Google. В случае если проблем с восприятием страницы поисковиками нет, она первой отобразится в результатах поиска.
- Уже упомянутый плагин RDS Bar.
Для проверки индексации всех страничек сайта понадобится список их адресов (URL). Для этого можно воспользоваться каким-либо генератором карт веб-ресурсов, к примеру, Sitemap Generator. Чтобы собрать только URL страниц, не забудьте внести маску ненужных адресов, например, на комментарии, в окне «Exclude Patterns». По окончании процесса следует перейти во вкладку Yahoo Map/Text, откуда скопировать сгенерированный перечень всех адресов.
Имея его на руках, индексацию всех страничек не составит труда проверить с помощью программы YCCY.ru . Просто добавьте данные в список исходных URL и выберите одну из предложенных поисковых систем: Google, Яндекс или Rambler. Нажмите кнопку «Начать Проверку» и получайте утешительные или не очень результаты.
Как улучшить и ускорить процесс индексации?
Узнав перечень непроиндексированных страниц, необходимо разобраться в причинах этого. Прежде всего, стоит проверить качество работы хостинга и самой веб-площадки и убедиться в уникальности размещенных материалов. Далее промониторьте ресурс на наличие контента слишком короткого (до 2 000 символов без пробелов), содержащего более 2-3 ссылок на сторонние ресурсы, либо много Java и Flash ссылок. Все эти факторы в первую очередь могут влиять на то, что ваш материал остается «невидимым» для поисковиков.
Ускорить процесс индексирования сайта можно с помощью:
- частого обновления уникального материала, что очень ценят поисковики;
- грамотной внутренней перелиновки страниц, позволяющей поисковым системам видеть новый и обновлять уже содержащийся в базе контент;
- публикации ссылок на статьи во всех социальных сетях и тематических форумах;
- закупки ссылок с прокачанного аккаунта.
Надеюсь, вы поняли, что быстрая индексация страниц ресурса – основа его продвижения в поисковиках, от которой напрямую зависит ваш потенциальный доход.
Время чтения: 11 минут(ы)
Технические доработки под требования SEO и оптимизация структуры сайта – это первостепенные моменты в продвижении ресурса, но если поисковые системы не знают о нем, то есть он не проиндексирован, то продвижение невозможно.
Что же такое индексация? Это добавление поисковыми роботами собранных сведений о ресурсе в базы данных. Дальнейшее ранжирование происходит уже по проиндексированным страницам. Предлагаем несколько простых и понятных способов проверки страниц, которые «видят» поисковые системы.
Рассмотрим каждый вариант подробнее.
1. Проверка индексирования сайта через панель Яндекс.Вебмастера и Google Search Console
Бесплатный и достоверный способ с использованием сервисов для вебмастеров.
Яндекс.Вебмастер
После прохождения верификации переходим в панель и нажимаем вкладку «Индексирование» – «Страницы в поиске». Тут представлены страницы веб-сайта, участвующие в поиске Яндекса.
Также количество загруженных и проиндексированных страниц можно посмотреть в сервисе на странице «Мои сайты».
Для анализа список страниц можно скачать из сервиса файлом в форматах.xls и.csv.
Google Search Console
Аналогично вебмастеру Яндекса проходим авторизацию в аккаунте Google, входим в сервис https://search.google.com/search-console/about?hl=ru , вводим url сайта и нажимаем кнопку «Добавить ресурс».
После подтверждения прав на сайт для проверки индексации ресурса в панели Вебмастера Гугл переходим во вкладку «Индекс» – «Покрытие».
Нужно учитывать, что информация в Google Search Console примерная, так как в отчете показывается статистика после последнего обхода, то есть количество страниц может быть другим на текущий момент проверки.
Примеры проверки индексации сайта
2. Проверка количества проиндексированных страниц в ПС при помощи операторов
Применяя документный оператор «site» возможно увидеть примерное количество страниц в индексе. Для использования этого параметра введите в строке поиска «site:адрес_интересующего_сайта», например «site:https://www.bordur32.ru ».
3. Анализ индексации сайта при помощи плагинов и расширений
Чтобы не вводить операторы в строке браузера перед url используется данный автоматизированный способ. Скачиваем бесплатный букмарклет для браузера (небольшой по размеру скрипт, сохраняемый в закладках) и кликаем на специальную иконку находясь на сайте.
4. Отслеживание проиндексированных страниц с помощью online сервисов
Еще один способ проверки индексации это использование сторонних ресурсов. Например, переходим на сайт a.pr-cy.ru вводим url и нажимаем «Анализировать».
Индексацию сайта можно проверить и в других сервисах, например: seogadget.ru, xseo.in и других.
5. Программы для контроля индексации сайта
Существуют бесплатные (Site-Auditor) и платные программы (Semonitor) для анализа сайта и проверки страниц в индексе. Выбранное программное обеспечение скачиваем и устанавливаем на ПК. В строку ввода добавляем url проверяемого сайта.
Проверка индексации страницы
Иногда требуется не только узнать сколько страниц проиндексировано в Яндексе и Google, но и нужно определить индексируется ли какая-то конкретная страница. Это можно сделать следующими способами:
1. В панели для вебмастеров:
2. Оператор «url»
В строке поиска вводим специальный оператор. Запрос будет выглядеть так: «url:адрес_интересующей_страницы».
3. Оператор «info»
В поисковой системе Google можно воспользоваться оператором «info». Запрос в строке поиска будет выглядеть следующим образом: «info:адрес_интересующей_страницы»
Почему сайт может не индексироваться
В идеале страницы ресурса должны быть проиндексированы и их количество в поисковых системах должно быть примерно одинаковым. Но так бывает далеко не всегда. Рассмотрим причины мешающие индексации сайта.
Ошибки в файле robots.txt
Файл robots.txt – это текстовый документ в формате.txt лежащий в корневом каталоге веб-сайта, запрещающий или разрешающий индексирование страниц роботам ПС. Поэтому неправильное использование директив может закрыть от индексации весь сайт или отдельные страницы ресурса.
Отсутствие файла sitemap.xml
Карта сайта (файл sitemap.xml) – это специальный документ расположенный в корневом каталоге, содержащий ссылки на все страницы ресурса. Этот файл помогает поисковым роботам оперативно и качественно индексировать ресурс. Поэтому в него нужно добавлять только те страницы, которые должны попасть в индекс.
Новый сайт
Процесс индексации нового ресурса занимает некоторое время. Поэтому в данном случае нужно просто подождать, не забывая контролировать процесс индексации.
Приватные настройки
В некоторых CMS, таких, как WordPress и Megagroup, существует возможность скрыть от индексации страницы через админку сайта, данные настройки могут стоять по умолчанию.
Тег «noindex»
Страницы могут быть закрыты от индекса в коде с помощью мета тега name=»robots» content=»noindex, nofollow» />. Нужно проверить его наличие и либо убрать из кода, либо заменить на «index» и «follow».
Мусорные страницы
Еще одной из причин может стать большое количество мусорных страниц, не предоставляющих полезного и уникального контента в рамках сайта. Такие страницы нужно закрывать от индексации, чтобы не возникали проблемы с индексированием ресурса и робот не тратил время на посещения этих страниц.
Также причиной не индексации страниц ресурса могут быть ошибки сканирования, блокировка сайта в файле.htaccess, дубли страниц, не уникальный контент, низкий uptime хостинга, медленная скорость загрузки сайта, баны и фильтры ПС.
Выводы SEO-специалиста Веб-центра
Главная цель как владельца сайта так и SEO-специалиста добиться индексирования нужных страниц ресурса. Для этого нужно регулярно контролировать страницы в поиске Яндекса и Google, проверять сервисы для вебмастеров на наличие ошибок на сайте, наполнять его уникальным и полезным контентом, следить и оптимизировать скорость загрузки ресурса.
Для ускорения процесса индексации нужно подтвердить права на сайт в Яндекс.Вебмастер и Google Search Console и разместить в них ссылку на файл sitemap.xml, также можно отправлять на переобход важные страницы ресурса.
Недавно на работе столкнулся с задачей, когда было необходимо проверить большое количество страниц на индексацию в Yandex и Google. Можно без проблем воспользоваться платными сервисами (например, Топвизор), который выдаст всю информацию в красивом виде. Либо какими-то сервисами, которые бесплатно дают проверить только 10 страниц, но страниц таких может быть очень много, а платные сервисы могут обойтись в хорошую сумму. Можно сделать это все бесплатно, но для этого нам понадобиться Кей Коллектор.
В первую очередь нам необходимо будет подготовить ссылки, так как для каждой ПС нам нужны разные команды.
Массовая проверка ссылок в Яндексе
Для проверки в Яндексе необходимо подготовить списком ссылки такого формата:
host:zamal.info/poleznye-seo-servisy/ | url:zamal.info/poleznye-seo-servisy/
host: zamal.info/category/seo/| url: zamal.info/category/seo/
Массовая проверка ссылок в Гугле
В Гугле же будет все немного проще:
site:zamal.info/poleznye-seo-servisy/
site:zamal.info/category/seo/
Для чего эти команды?
Многие могут сказать, а почему бы просто не вбить адрес ссылки, ведь он сразу покажет либо пустой запрос, либо эту ссылку. Увы, так не прокатит. Да, в каких-то случаях это сработает. Но в иных, Яндекс легко может показать другие УРЛы, которые не связаны с тем, который вбили мы. А Кей Коллектор нам выдаст информацию о том, что страница ваша страница в индексе есть, хотя это не так.
Как так массово сделать ссылки?
Проверяем индексацию страниц через Key Collector
Собрав 2 отдельных списка (ну или один для проверки в определенном ПС), открываем Кей Коллектор. Создаем проект. Заходим в настройки – парсинг и в поле «удалять символы» и «заменять на пробельный символ символы» удаляем все, что там есть и сохраняем.
Как долго длиться процесс?
Это уже все зависит от количества проверяемых ссылок. На проверку 10к страниц у меня ушло где-то 12 часов
Настраиваем экспорт
Пока идет процесс проверки, можно сразу настроить экспорт. Заходим в настройки – экспорт. Внизу ставим галочку только над «Фраза» и «Позиция » или «Позиция [G]». После завершения процесса выгружаем все в xls файл (нажимаем на зеленую иконку слева сверху).
Смотрим результат
В итоге у нас получается таблица в две колонки, в которой указана страница и позиция.
1 – в индексе
-1 – не в индексе
Затем мы можем просто отфильтровать непроиндексированные страницы и уже отправить или на переобход страниц (если их немного), либо создать для них отдельную карту сайта и тоже отправить на переобход (добавив ее в вебмастер).
Для Гугла действует ровно такая же схема, отличается лишь командами, о которых писал выше.
Итог
Таким простым способом можно практически бесплатно проверить массово нужные страницы на наличие индексации в поисковиках. Почему практически бесплатно? Немного съест антикапча, ну это мелочи.
Если вы последовательно читаете мой мануал, то в прошлой статье узнали, как можно ускорить индексацию сайта .
Теперь нам надо это процесс контролировать. Т.е. следить за страницами, какие попадают в индекс, а какие нет. Осуществить проверку индексации сайта не сложно. Для этого есть два решения: ручной метод и специальный seo-софт.
В первую очередь можно воспользоваться системой автоматического продвижения SeoPult . Система конечно платная, НО много информации по своему сайту можно посмотреть бесплатно! В частности, какие страницы проиндексированы, посмотреть релеватные запросы, советы по оптимизации страниц и много другой и полезной информации. Советую по чаще туда заглядывать.
Так же, можно воспользоваться бесплатной программой Site-Auditor от Ашманова. Как я сказал, она бесплатная, периодически обновляется и вполне справляется с этой задачей. Что бы проверить индексацию сайта через программу Site-Auditor, скачиваем ее с официального сайта. Запускаем софт и в меню «экспресс анализ» вбиваем наш урл, жмем «проверить».
Прога выдает нам количество страниц в индексе Яндекс и Google. Нажав на эти цифры мы попадем в выдачу ПС, где и будут наши проиндексированные страницы. Такую же проверку можно сделать, если у вас есть программа Yazzle , которой мы оценивали конкурентов.
Но бывают случаи, когда подобный анализ не совсем удобен или невозможно сделать. Например ПС обновили что-то и софт перестал работать (пока его не обновят), а вам надо срочно проверить. Или, что чаще, надо проверить индексацию конкретной страницы, а в общем списке искать не всегда удобно. Тут и поможет второй (ручной) способ.
Проверка индексации сайта в Яндексе
Проверить индексацию своего сайта в Яндексе можно в панели вебмастера webmaster.yandex.ru/ . Но для этого сайт придется добавить в эту панель и подтвердить права на сайт. Без регистрации, увы, он не покажет все данные по индексации. Вот раздел с данными по индексации в панеле вебмастера.
Там вы сможете посмотреть индексацию страниц за последнюю неделю, за 2 недели и за все время.
Индексацию отдельной страницы в Яндексе проще всего в самом поиске. Тупо вбиваем страницу в строку поиска и жмем найти. Если она в индексе, Яндекс покажет ее сниппет. Если ее нет, соответственно не покажет.
Там же, если нажать зеленую стрелочку рядом с url станицы, мы сможет посмотреть сохраненную копию документа. Это та версия страницы, которая хранится в данный момент в кэше Яндекса. В кеше содержится очень важная информация — дата, когда робот последний раз посещал ваш сайт. Всегда можно глянуть в кэше, учел Яндекс или Гугл ваши последние изменения на странице или нет.
Проверка индексации сайта в Google
Что бы проверить, как ваш сайт проиндексировал Google достаточно в поисковой строке ввести специальную команду
site:имя_сайта.домен
Гугл покажет, сколько страниц в индексе. А по зеленой стрелочке (как и в Яндексе) можно посмотреть сохраненную копию страницы (содержимое кеша). Где вы увидите текущую версию страницы в базе Google. Отдельную страницу также можно глянуть просто вбив ее в поисковую строку.
Проверка индексации сайта в Rambler
Индексацию в Рамблере в данный момент можно проверить только одним путем – вбить урл в строку поиска. Там же можно посмотреть, что находится в кэше. Для этого надо нажать «копия».
Что такое индексация — самый полный гайд
Часто происходит путаница в терминологии: под индексацией иногда подразумевают сканирование сайта или совокупность и сканирования и индексации. В этом нет большой ошибки, часто путаницу вносят сами мануалы поисковых систем. Иногда в текстах Яндекса и Гугла можно увидеть использование термина индексация в разных контекстах, например:
Индексация сайта простыми словами
Так что же такое индексация: если кратко, то индексация (или индексирование, indexing) – один из процессов работы поисковых систем по построению поисковой базы в результате которого содержимое страниц попадает в индекс поисковой системы.
Для большей ясности приведу терминологию, а потом опишу все процессы.
Терминология
Планировщик (Scheduler) – программа, которая выстраивает маршрут обхода интернета роботами исходя из характеристик страниц, таких как частота обновления документов, востребованность этих страниц, цитируемость.
Crawler, Spider (Паук) Googlebot, YandexBot. Робот, ответственный за обход и скачивание страниц из интернета в порядке очередности, который задается планировщиком. Подразделяются на:
- Основной робот, обходящий контент в порядке общей очереди.
- Быстрый робот (быстроробот или быстробот). Робот, который использует свежий индекс, на основе группы заданных хабовых страниц с важной, часто обновляемой информацией, например, с новостями популярных СМИ.
Сканирование (Crawling) – процесс загрузки страниц краулером в результате чего они попадают в хранилище, в виде сохраненных копий.
Краулинговый спрос: это то, как часто и в каком объеме робот бы хотел сканировать конкретные страницы.
Краулинговый лимит: ограничения скорости сканирования на стороне сайта, связанные с производительностью сайта или заданным вручную ограничением.
Краулинговый бюджет – это совокупность краулингового спроса и доступной скорости сканирования сайта (краулингового лимита). Простыми словами – это то сколько робот хочет и может скачать страниц.
Сохраненная копия – необработанная копия документа на момент последнего сканирования.
Поисковый индекс – информация со страниц, приведенная в удобный для работы поисковых алгоритмов формат. Список всех терминов и словопозиций где и на каких страницах они упоминаются. Информация хранится в базе в виде инвертированного индекса. Схематический пример:
Индексация – процесс загрузки, анализа содержимого документа документа с последующим включением в поисковый индекс.
Поисковая база – это совокупность поискового индекса, сохраненных страниц и служебной информации о документах, таких как заголовки, типы и кодировка документов, коды ответов страниц, мета теги и др.
Как происходит сканирование сайта
Так как ресурсы поисковых систем не безграничны, планировщик составляет очередь обхода страниц, исходя критериев их полезности, востребованности, популярности и др. Каждый сайт получает свой краулинговый бюджет исходя из скоростных характеристик сайта и таких критериев как:
- Доля полезных/мусорных страниц на сайте, дубликаты
- Спамные и малополезные страницы
- Наличие бесконечной генерации страниц, например, некорректной фасетной навигации
- Популярность страниц
- Насколько актуальные версии страниц сайта, содержащиеся в поисковой базе
Робот в постоянном режиме скачивает страницы и помещает их в хранилище, заменяя старые версии. Мы можем увидеть их в виде сохраненных копий. Далее уже происходит индексация страниц.
Как проходит индексация сайта
Индексацию можно условно разбить на следующие процессы:
- Загрузка и разбор страницы по элементам: текст, мета-теги, микроразметка, изображения, видео и другой контент и служебные данные.
- Анализ страницы по определенным параметрам, например: разрешена ли она к индексации, сканированию, является ли неглавной копией другой страницы, содержит ли страница малополезный, спамный контент и др.
- Если страница успешно прошла все проверки, она добавляется в индекс.
Как проходит индексация сайта в Яндексе
Все описанное в предыдущем пункте справедливо и для Яндекса и для Google. Какие есть особенности индексации у Яндекса?
У Google обновление поисковой базы – непрерывный процесс. В Яндексе обновление происходит во время Апдейтов, примерно раз в три дня. О том что произошло обновление можно узнать по уведомлениям в Яндекс.Вебмастере
Как проверить индексацию
Есть разные способы для проверки статуса индексации сайтов и отдельных его страниц:
- Вебмастер Яндекса
- Панель Google Search Console
- API панели для вебмастеров Yandex/Google
- SEO-сервисы, например Rush Analytics
- Плагины и расширения для браузеров
- Поисковые операторы ПС
- GA/Метрика
- Серверные логи
Выбор сервиса зависит от поисковой системы, а также задачи: узнать сколько страниц всего в индексе, получить список проиндексированных страниц или проверить статус индексации конкретной страницы или списка страниц. Подробнее расписано ниже.
Как узнать сколько страниц проиндексировано на сайте
Расширения для браузера
Быстрые способы проверить статус индексации сайта – расширения и букмарклеты для браузера, например RDS-бар
Сервисы для анализа сайтов
Так же можно проверить с помощью сервисов, таких как pr-cy.ru
Яндекс.Вебмастер и Google Search Console
Если есть доступы к панелям вебмастеров, можно получить количество проиндексированных страниц в панелях вебмастеров:
Яндекс Вебмастер – http://webmaster.yandex.ru
Google Search Console – https://search.google.com/search-console/
С помощью специализированных программ для SEO, например Allsubmitter, Netpeak Checker.
Это может понадобиться когда нужна пакетная проверка параметров чужих сайтов.
Пример проверки числа проиндексированных страниц в Netpeak Checker.
Проверка индексации сайтов в Яндекс:
Проверка индексации сайтов в Google:
Пример проверки индексации сайтов в Яндекс и Google в Allsubmitter.
Как выгрузить список проиндексированных страниц сайта в Яндексе и Google
Яндекс Вебмастер: Отчет индексирование -> Страницы в поиске -> Все страницы
Внизу страницы ссылки на скачивание файла – cуществует ограничение в 50 000 страниц.
Google Search Console: в отчете Покрытие – выбираем нужные типы страниц
Переходим в нужный отчет и скачиваем список страниц в удобном формате. Google отдает только 1 000 страниц.
Поисковые операторы Яндекса
Запрос для поиска страниц в пределах одного домена – url:www.site.ru/* | url:site.ru/* | url:site.ru | url:www.site.ru.
Запрос для поиска с учетом всех поддоменов – site:site.ru
Список операторов и инструкцию по работе с ними можно посмотреть в справке Яндекса.
Ограничение: можно получить только 1000 результатов. Нужны специальные инструменты чтобы скопировать список страниц SERP: расширения браузера, букмарклеты или программы для парсинга выдачи.
Поисковые операторы Google
Запрос для поиска страниц в пределах одного сайта – site:site.ru
Получение списка страниц входа из систем веб-аналитики
Списки страниц входа из органики Яндекса в системах аналитики Яндекс.Метрика и Google.Analytics. Страницы по которым идут переходы с органической выдачи с большой вероятностью индексируются, но для точности рекомендуется проверять индексацию собранных страниц – индекс не статичен и страницы могут выпадать из индекса.
Список страниц по которым сайт показывается в выдаче в Яндекс.Вебмастере
Для выгрузки большого списка страниц из Яндекс.Вебмастера потребуется специальный скрипт.
Плагин для API Google Webmasters: Google Search Analytics for Sheets
Отображает страницы по которым были показы сайта в выдаче.
Преимущества выгрузки списка страниц через API в том что можно получить десятки тысяч страниц, которые с большой вероятностью проиндексированы, в отличие от веб-интерфейса где установлено ограничение по выгрузкам в 1000 страниц.
Серверные логи сайта
Получить список страниц которые посещает робот можно из логов, например с помощью программы SEO Log File Analyser от создателей Screaming Frog.
Как проверить индексацию конкретной страницы в Яндексе и Google
Сервис Яндекс.Вебмастер: Индексирование -> Проверить статус URL
Проверка с помощью оператора: пример запроса url:https://site.com/page/
Сервис Google Search Console: инструмент “Покрытие”
Нужно ввести в указанной на скрине строке поиска URL-адрес своего сайта и откроется отчет о статусе страницы.
Проверка с помощью оператора: пример запроса site:https://habr.com/ru/news/t/468361/
После отмены оператора info остался оператор site, но он выдает не всегда точные данные, можно сократить список результатов с помощью указания уникального текста проверяемой страницы.
Как массово проверить индексацию списка страниц
Для проверки можно использовать SEO-сервисы, например Rush Analytics.
Это позволяет массово проверить индексацию до десятков-сотен тысяч страниц
Как проверить разрешена индексация/сканирование страницы в Robots.txt
В Яндексе
Проверить доступна ли роботам страница или содержит запрет можно через. Инструменты -> Анализ robots.txt
В Google
Инструмент проверки файла robots.txt
Важно: если файл robots.txt отдает 404 ошибку, боты считают что разрешено сканирование всего сайта без ограничений. Если файл отдает ошибку 5хх, то Googlebot считает это полным запретом на сканирование сайта, но если ошибка отдается более 30 дней – считает что разрешено сканировать весь сайт без ограничений. Яндекс любые серверные ошибки считает отсутствием файла robots.txt и отсутствием ограничений на обход и индексацию сайта.
Как узнать динамику числа проиндексированных страниц
С помощью специализированных сервисов, например: https://be1.ru/
С помощью Яндекс Вебмастера: в разделе Индексирование -> Страницы в поиске.
С помощью Google Search Console: в отчете Покрытие.
Почему число проиндексированных страниц может отличаться в разных сервисах?
Нужно понимать что проиндексированные страницы и страницы в поиске это разные сущности. Не все проиндексированные страницы будут включены в поиск и не все страницы в поиске будут показываться через операторы поиска – операторы лишь выводят результаты пустого поиск по сайту а не список всех страниц. Но этого в большинстве случаев достаточно чтобы оценить порядок числа проиндексированных страниц сайта.
Запрет индексации страниц
Запрет индексации с помощью Meta Noindex/X-Robots-Tag
Для гарантированного исключения попадания страниц в индекс можно использовать атрибут Noindex Мета Тега Robots или HTTP-заголовка X-Robots-Tag. Подробнее про этот атрибут можно прочитать тут.
Важно: Использование запрета индексации в через Meta/X-Robots-Tag Noindex вместе с запретом в Robots.txt
При добавлении директивы Noindex в мета-тег Robots и http-заголовок X-Robots-Tag, чтобы ее прочитать, робот должен просканировать страницу, поэтому она должна быть разрешена в файле Robots.txt. Следовательно для точечного запрета индексации страниц иногда требуется снять запрет в robots.txt или добавить директиву Allow, чтобы робот смог переобойти эти страницы.
Несмотря на вышеописанное, запрет в robots.txt в большинстве случаев все таки приведет к тому, что страницы не будут индексироваться, но его нельзя использовать для закрытия персональных данных или страниц с конфиденциальной информацией.
Как запретить индексацию страницы в robots.txt
Стоит сразу упомянуть что запрет в robots.txt не является надежным методом закрытия страниц от индексации.
В файле robots.txt указываются основные директивы для запрета или разрешения обхода/индексации отдельных страниц или разделов сайта.
Важно: Многие ошибочно считают что директива Disallow в Robots.txt служит для запрета индексации страниц, это не совсем так. Основная цель файла Robots.txt – управление трафиком поисковых роботов на сайте, а не индексацией / переиндексацией и разные поисковые системы по разному интерпретируют запрет.
Многие вебмастера не понимают почему после запрета страницы в robots.txt она продолжает находиться в индексе и приносить трафик. Запрет посещения и обновления страницы роботом не означает, что он обязан удалить уже присутствующую в индексе страницу. К тому же для индексации не всегда обязательно физически сканировать страницу, информацию о ней можно собирать из различных источников, например, из анкоров входящих ссылок.
Почему заблокированные в robots.txt страницы отображаются в выдаче?
В Яндексе и Google различается механизм обработки директив файла Robots.txt. Для Google директива Disallow в robots.txt запрещает лишь обход страниц, но не их индексацию из-за чего часто появляются страницы со статусом:
Для запрета индексации в Google через файл Robots.txt ранее использовалась незадокументированная директива Noindex в Robots.txt, но с сентября 2019 года Google перестал поддерживать ее.
На данный момент для надежного запрета индексации страниц в Google рекомендуется использовать атрибут Noindex Мета Тега Robots и HTTP-заголовка X-Robots-Tag.
Яндекс же, наоборот, воспринимает запрет в Robots.txt Disallow: как сигнал к запрету и сканирования и индексирования сайта и после добавления директивы Disallow: страницы будут удалены из индекса.
Использование атрибута canonical для запрета индексации дубликатов
Для консолидации дубликатов или похожих страниц страниц используется атрибут canonical, который указывает поисковикам по какому адресу рекомендуется индексировать страницу.Yandex” search_bot
Запрет сканирования, индексации с помощью кодов ответа сервера 3хх/4хх
Чтобы гарантированно запретить роботам скачивать страницы, можно отдавать ботам при сканировании страниц коды:
- 301 редирект: особенно подходит для запрета дубликатов и склейки их с основными страницами;
- 403 Forbidden: доступ запрещен;
- 404 Not Found: не найдено;
- 410 Gone: удалено;
Удаление страниц из индекса
Удаление страниц или каталогов через Search Console
Инструмент не запрещает страницы к индексации или сканированию – он лишь временно скрывает страницы из поисковой выдачи. Рекомендуется использовать только для экстренного удаления страниц, случайно попавших в выдачу, после этого уже физически удалить их или запретить сканирование/индексацию.
Ускоренное удаление из индекса страниц в Яндексе
На сайт должны быть подтверждены права. Можно удалить только страницы, которые недоступны для робота: запрещенные в robots.txt или отдавать код 3хх, 4хх.
Для удаления из индекса Яндекса страниц чужого сайта можно воспользоваться формой – https://webmaster.yandex.ru/tools/del-url/.
Требования к URL-адресам такие же: запрет в robots.txt или коды ответа 301, 403, 404, 410 и т.п.
Как добавить страницы в индекс Яндекса или Google
Роботы постоянно ходят по ссылкам на сайтах. Для ускорения добавления существуют инструменты:
- Sitemap.xml. Добавьте и регулярно обновляйте актуальный список страниц в сайтмапах сайта.
- В Яндексе: инструменты -> переобход страниц
- В Google: Проверка URL -> Запросить индексирование
Как проверить обход / сканирование сайта поисковыми системами
Яндекс:
Общее количество загруженных (просканированных) Яндексом страниц можно увидеть на главной странице вебмастера.
Динамику обхода страниц можно увидеть на странице Индексирование -> Статистика обхода.
Google: отчет: статистика сканирования сайта.
Также можно проверить обход сайта всеми поисковыми роботами с помощью анализа серверных логов сайта (Access logs). Например, через программу SEO Log File Analyser.
Как часто происходит индексация сайта
Поисковые боты постоянно равномерно загружают страницы сайта, далее выкладывая их в обновленный индекс: Google обновляет индекс в постоянном режиме, Яндекс во время апдейтов поисковой базы, примерно раз в три дня.
Частота сканирования и переиндексации каждого отдельного сайта различается, и зависит от факторов:
- объем контента/страниц сайта
- краулинговый спрос поисковой системы для текущего сайта
- настройки скорости сканирования в вебмастерах
- скорость работы сайта
Как улучшить и ускорить индексацию сайта
Рекомендации для увеличения охвата страниц индексом поисковых систем:
- качественный уникальный контент, востребованный пользователями
- все основные страницы должны быть в валидных сайтмапах sitemap.xml
- оптимизация вложенности страниц
- оптимизация краулингового спроса/бюджета
- хорошая скорость сайта
- закрывать лишние страницы, чтобы не тратить на них ресурсы роботов
- внутренняя перелинковка
- создание ротарора на сайте (Ловец ботов)
Как ограничить скорость сканирования сайта
Обычно если требуется ограничить нагрузку, которую создают роботы, то у сайта большие проблемы и это негативно скажется на его индексации. Боты стараются быть “хорошими” юзерами и сканируют сайт равномерно, стараясь не перегружать сервера.
То что сайт от этого испытывает проблемы с нагрузкой, в 90% случаев может быть сигналом к смене хостинга/сервера или оптимизации производительности CMS. Но в случае крайней необходимости все таки можно задать рекомендуемую скорость сканирования сайта.
Для ограничения скорости обхода сайта можно воспользоваться инструментами Яндекс.Вебмастер и Google
Яндекс:
Google:
В старой версии консоли можно было временно ограничить максимальную скорость сканирования сайта
В обновленной консоли такой возможности нет, но можно отправить сообщение о проблеме с активностью GoogleBot’а на сайте – https://www.google.com/webmasters/tools/googlebot-report
Как проверить индексацию страницы в Яндексе, Google, Bing, Mail.ru?
Проверка индексации страницы в Яндексе, Google, Bing и Mail.ru
В SEO-оптимизации очень важно, чтобы страницы сайта быстро и легко попадали в индекс поисковой системы. Если страница долго не может проиндексироваться, то вполне возможно, что-то не то с сайтом — или чисто технически, или же поисковикам он «не нравится». Проверить, есть или нет документ в индексе, можно несколькими способами.
Как проверять индексацию страницы?
Самый быстрый способ сделать это — прибегнуть к помощи специального софта, например, к разным SEO-плагинам для браузеров. Если вы ещё ничего подобного не используете, то самое время установить RDS Bar для Chrome и Page Promoter Bar для Firefox. С их помощью проверить индексацию очень просто:
- для Rds Bar’а в колонке «Проиндексировано» выбираем «Индекс G стр» и «Индекс Я»
- в Page Promoter Bar для Firefox щёлкаем «Кеш страницы в Яндекс/Google». Если документ не в индексе — об этом выскочит уведомление в формате JavaScript Alert
Недостаток таких методов (да и вообще, любых автоматизированных способов обращения к поисковым системам) — частая необходимость вводить капчу (особенно у Яндекса). К тому же, порой Page Promoter Bar даёт неверные сведения относительно кеша Яндекса.
Проверяем индексацию страницы в Яндексе и Google через поиск по сайту
Это самый медленный и сам верный способ проверки. Он предполагает использование встроенного поиска по сайту от этих двух поисковых систем или же использование т.н. расширенного поиска.
- Встроенный поиск по сайту. В этом случае у вас на сайте должна быть установлена форма поиска от Гугла или Яндекса. Достаточно ввести в неё ключевой запрос для нужной страницы. Если в результатах поиска проверяемый документ будет — значит он в индексе, иначе — нет.
- Расширенный поиск. Для Yandex: заходим по такому адресу http://yandex.ru/search/advanced и вводим свой запрос (ключевой для проверяемой страницы, например, её заголовок) и сайт, на котором ищем:
Проверяем индексацию страницы в Яндексе через расширенный поиск
В результатах поиска будут отображены релевантные данному запросу страницы конкретного сайта (или не будут, если их нет). Где-то вверху выдачи должна быть проверяемая страница (опять же, если она есть в индексе). Также в расширенном поиске Яндекса можно произвести много дополнительных настроек (см. картинку выше).
Для Google: заходим по такому адресу http://www.google.ru/advanced_search и делаем примерно то же, что и в Яндексе:
Проверка индексации страницы в Google через расширенный поиск
Жмём «Найти» и смотрим.
Данный процесс можно немного сократить. Для этого в обычном поиске Яндекса пишем «host:домен Запрос», соответственно меняя домен на свой домен и Запрос — на свой запрос:
Поиск по сайту в Yandex
А в поиске Гугла пишем так: «Запрос site:домен»:
Поиск по сайту в Google
Быстрый способ проверить индексацию страницы в Яндексе, Google, Bing,Mail.ru
Для этого просто нужно знать специальные поисковые команды.
- В Яндексе в окно поиска вводим такой запрос: url:url проверяемой страницы. Например, «url:http://web-ru.net/contacts/». Если она в индексе — будет отображена в результате поиска.
- В Google в окно поиска вводим site:url. Например, «site:http://web-ru.net/contacts/».
- В Bing.com в окно поиска вводим такой запрос: url:url проверяемой страницы (как для Яндекса).
- Ну и в Mail.ru такой: site:url (как для Гугла).
Up на 25-е июня 2012 — пришло видео от Гугла по данной теме:
Пожалуй, это основные методы для проверки индексации страницы сайта в популярных поисковиках. Я обычно использую поиск по сайту. Это хоть и не самый быстрый способ, зато всегда точный и не требует запоминания разных команд. Какой метод используете вы? поделитесь в комментариях!P.S. Кажется, у поисковых систем есть чувство юмора.
Все мои новые посты на данном сайте попадают в индекс Яндекса в течение 10-30 минут. А этот — только через 10 часов.
Loading…Проверка индексации страниц. Поисковый индекс. Как проверить индексацию
1 голосЗдравствуйте, уважаемые читатели блога Start-Luck. Рано или поздно каждый веб-мастер начинает интересоваться все ли страницы его сайта видят поисковые системы. В этом нет ничего удивительного. Ты стараешься, хочешь чтобы каждая твоя статья была полезна, то есть понятна поисковику. Иначе, зачем стараться и продолжать?
Проверка индексации сайта в поисковых системах довольно простой процесс, но есть множество способов ее осуществить. Не так давно я уделил свое внимание Яндексу и именно там, а сегодня решил поговорить и о Гугле. Эта статья будет обобщающей. Обо всем методах проверки блога на видимость в поисковиках.
Давайте начнем.
Ручной метод
Один из лучших методов узнать сколько страниц вашего сайта находится в поисковике – спросить у него самого. Это бесплатно, быстро, просто и без какой бы то ни было регистрации. Самый простой и довольно-таки точный метод.
Какой же запрос нужно ввести, чтобы Яндекс показал все странички, что у него по вам есть? Нет ничего проще. Выглядеть он будет так: URL:домен-вашего-сайта*
Теперь смотрим сколько страниц нашлось. Эта информация высвечивается в правом верхнем углу под словом найти.
Для Google код будет немного отличаться. Пишем site:домен . Как вы видите, страниц чуть меньше. В принципе, это нормально. Гугл менее дружен к отечественным ресурсам. Эта компания не занимается вплотную российским сегментом. Огорчены? Я скажу вам: «Слава Богу».
Запросы Google к «своим» вебмастерам настолько суровы, что они на стену лезть готовы. Попасть на первое место может далеко не каждая статья. Те русские разработчики, что работают на английском, в голос утверждают, что работать на российский Гугл значительно легче и удобнее.
Точный метод
В принципе, конечно, ни Google, ни Yandex – не являются злыми монстрами, которые скрывают информацию от создателей сайта. Они всячески способствуют тому, чтобы проекты были качественными, а потому с радостью предоставляют доступ к различной статистике. В том числе и статистике индексации.
Эти два метода являются наиболее точными. Помимо индексации эти приложения подскажут о множестве других полезных настроек, так что рекомендую их установить и пользоваться в обязательном порядке.
Привет! Сегодня я расскажу очень важные вещи, упустив которые можно терять трафик. Часто по мере работы над сайтами, нужно определить: какие страницы проиндексированы, какие нет. Какие страницы требует дополнительного внимания для того, чтобы они попали в индекс.
Особенно это ярко заметно при работе с интернет-магазинами: при работе с огромным количеством товаров/разделов, постоянно добавляются все новые и новые страницы. Поэтому нужен жесткий контроль индексации свежедобавленных страниц, чтобы не терять трафик с поиска.
В этом небольшом уроке я расскажу, как я проверяю страницы сайта на проиндексированность.
Как проверить страницы на индексацию
Как я проверяю проиндексированность конкретной страницы с помощью RDS bar, я уже рассказывал .
Ну или же можно просто вбить в Яндекс вот этот код:
Url:www..ru/about
Или для Google:
Info:https://сайт/about
Конечно, URL адрес сайт/about меняете на свой.
А что же делать, если нужно проверить проиндексированность десяток/сотен, а то и более статей? Я поступаю следующим образом:
Что делать с непроиндексированными страницами?
Сервисы для ускорения индексации
Я обычно не проиндексированные страницы прогоняю с помощью разных сервисов, я предпочитаю этот getbot.guru . Да, безусловно не 100% страниц залезают с помощью него в индекс но все же в среднем около 70-80% из прогнанных URL как правило залезает (сильно зависит от адекватности страниц тоже).
Сервис, конечно же, платный, нужно платить за каждый URL. За те страницы, которые не попали в индекс последует возврат средств, что очень справедливо и заманчиво (зависит от тарифа). А уже эти страницы, которые не попали в индекс, я повторно отправляю в сервис. Снова при следующем апдейте часть из этих страниц входит в индекс.
Думаю, разобраться сможете сами, ничего сложно нет. Регистрируетесь -> Создаете проект -> Запускаете проект. Единственное, могут возникнуть сложности при выборе тарифа. Я предпочитаю работать с тарифом «Абсолют апдейт» (кликните на изображение, чтобы увеличить):
Кстати, обратите внимание, что в сервисе тоже можно проверить страницы на проиндексированность. Цена вопроса в районе 10 копеек за 1 URL. Я же предпочитаю бесплатный YCCY, о котором писал выше.
На страницы из проекта отсылается быстробот яндекса, периодически проверяется индексация страниц проекта в Яндекс, на страницы не вошедшие в индекс, быстробот отсылается ещё раз. После завершения задания, для страниц не вошедших в индекс, осуществляется автоматический возврат средств на баланс. Мы не используем социальные сети и спам методы для привлечения быстробота. Для работы сервиса используется своя сеть новостных сайтов, владельцами которых мы являемся.
Ускорение индексации с помощью Твиттера или новостных сайтов
Ну, если вы не любите прогоны с помощью подобных сервисов, то можно воспользоваться Твиттером. Ссылки в Твиттере поисковики очень хорошо «кушают», если аккаунты более-менее адекватные.
Про это я уже писал относительно подробно в уроке » «. Там помимо твиттера я разбирал еще другие способы быстрой индексации.
Переиндексация существующих страниц
Аналогично можно отправить страницу на перееиндексацию. Проверяя кэш страницы в поисковиках, можно узнать проиндексировалась страница или нет. Как проверить кэш страницы я рассказывал в .
Работа с индексом с помощью программы Comparser
YCCY хоть и старая программа, но мне она очень нравится. Я ее использую для проверки индексации известных мне страниц.
Если же нужно выяснить, какие страницы сайта еще не попали в индекс (я уже писал про нее целый урок). Его принцип простой: он выгружает все URL сайта, которые вы разрешили для индексирования (этот пункт можно менять в настройках) и проверяет каждую страницу на индекс. Либо с помощью простого обращения выгружает первые 1000 страниц из индекса.
И снова, те страницы, которые выявлены, что находятся вне индекса, прогоняем через разные сервисы или твиттер аккаунты. Имейте в виду, что, если вы хотите купить твиты, то хорошо работают незаспамленные аккаунты. К примеру, мне достаточно сделать ретвит своей статьи своим же аккаунтом, она мгновенно попадает в индекс.
Если вдруг нужно проверить «пачку» страниц на переиндексацию, можно снять дату кэширования в той же самом Компарсере:
Рассмотрим вопрос как определить количество проиндексированных страниц в поисковых системах. Сделать это можно разными путями. Что такое индекс можете прочитать в статье индекс поисковой машины .
Информация о количестве страниц в индексе является открытой и доступной для всех. Так что любой вебмастер может проверить абсолютно любой сайт.
1. Сколько страниц проиндексировано Яндексом
1.1. Через запросы в Яндексе
Заходим на главную страницу Яндекса (yandex.ru или ya.ru) и вбиваем в поиске запрос:
site : www.site.ru | url:site.ru или host : www.site.ru | url:site.ru
В ответе Яндекс выдаст количество проиндексированных страниц:
1.2. Через панель Яндекс Вебмастер
В панели webmaster.yandex.ru есть специальная вкладка проиндексированные страницы:
Здесь же можно посмотреть количество страниц известных роботу, количество исключенных страниц и дату последнего посещения роботом сайта. Однако стоит отметить, что воспользоваться Яндекс Вебмастером могут только владельцы сайтов, поскольку это «частная» информация.
2. Сколько страниц проиндексировано Google
2.1. Через запросы в Гугле
Как и в Яндексе, в Google есть специальный запрос, который выводит все известные страницы сайта. Заходим на главную страницу google.ru и вводим:
site :site.ru
Такой запрос отобразит все известные страницы. Чтобы узнать какие страницы попали в так называемый «основной индекс» в конце запроса нужно дописать амперсант:
site :site.ru/&
2.2. Через панель Google Webmaster
В панели google.com/webmaster есть специальная вкладка «Индекс Google» -> «Статус индексирования»:
Помимо рассмотренных способов так же есть универсальные методы.
3. Универсальные методы
3.1. Узнать индексацию через специальные сервисы
Специальными сервисами я называю множество различных систем аналитики. Например, самими популярными являются:
Здесь можно получить информацию об количестве проиндексированных страниц сразу в несколько поисковых системах.
Индекс поисковой системы — база данных, которая хранит информацию о веб-документах. Назначение этого «хранилища» очевидно — используя базу данных, поисковик может быстро и точно вычислять значения факторов ранжирования, численное значение релевантности URL по запросу пользователя и формировать результаты выдачи.
Для SEO-специалистов и владельцев сайтов это означает одно — сколько страниц проиндексировано, столько документов и может быть найдено в результатах выдачи по целевым запросам и столько же URL может привлекать трафик.
Как быстро проверить индексацию в Яндексе и Google?
Способов и сервисов проверки индексации страниц достаточно много и у нас есть три инструмента, которые показывают количество документов в индексе по домену:
Просто укажите домен в любом из них. Инструмент поможет проверить сайт на индексацию и подскажет сколько документов в базе данных Google и Яндекс, с учётом поддоменов или без них:
Поисковые операторы для проверки индексации
Узнать индексацию сайта можно, используя операторы поиска. Для Яндекса это операторы «site:» , «host:» и «url:» .
Для Google — «site:» , «inurl:» и «info:» .
В обеих поисковых системах указываются приблизительные результаты, но можно использовать дополнительные параметры, чтобы узнать, сколько страниц было проиндексировано, например, за неделю:
Для того, чтобы проверить индексацию определённой страницы сайта используйте оператор «url:» для Яндекса и «info:» для Google.
Вебмастер и Search Console
В Вебмастере переходим на вкладку «индексирование» — «страницы в поиске». Здесь расположилась статистика по добавленным и удалённым из поиска документам. Также можно посмотреть историю изменений для всего сайта за определённый интервал дат:
Проверить индексацию сайта в Google можно с помощью Search Console. В новой версии консоли переходим на вкладку «статус» — «индексирование отправленных URL» и получаем картину изменений, ошибок, исключенных страниц и график показов:
Возможный контроль индексации
Важно понимать, что сканирование или обход страницы сайта не означает её попадание в индекс. Иногда необходимо запретить индексирование страниц, которые не нужны в поиске, например: URL с техническими GET-параметрами, служебные или пользовательские документы (корзина, личный кабинет и прочие), документы с UTM-метками. Поэтому каждому сайту желательно иметь:
Sitemap.xml — файл, который помогает поисковым роботам сканировать сайт, с учётом заданных приоритетов.
Robots.txt — файл, задающий правила и параметры обхода для всех роботов поисковых систем или индивидуально для каждой:
С помощью команды Disallow можно запрещать индексирование отдельных URL или разделов сайта.
Crawl delay — задаёт минимальное время обращения робота к серверу для избежания нагрузок на сайт.
Clean param — позволяет указать неважные для индексации CGI-параметры в URL-адресах, то есть различные идентификаторы пользователей, сессий и так далее. Используется только в Яндексе.
Открытые страницы должны быть в поиске, только тогда можно думать о ранжировании. Не забывайте проверять сайт на индексацию , отслеживайте изменения и удачных позиций в выдаче!
Приветствую, дорогие друзья! В сегодняшней статье я хочу рассказать о том, как проверить индексацию конкретной страницы сайта. Представьте, что вы написали статью и опубликовали её на сайте. Прежде чем предпринимать какие-либо действия, необходимо узнать, как оценили эту страницу поисковые системы на данном этапе продвижения.
Для этого нам нужно знать, проиндексирована страница или нет. Если страница проиндексирована, начинаем ее улучшать, подбирать запросы и анализировать конкурентов, иначе ускоряем индексацию страницы (). А как же узнать проиндексирована страница или нет?
Вообще, можно воспользоваться самым банальным методом. Открываем панель веб-мастера в Яндексе и смотрим проиндексированные страницы (аналогично с Google). Конечно, способ хороший, но, к сожалению, имеет единственный минус, причем очень важный для продвижения страницы. Панель вебмастера обновляется 1 раз в сутки, а то и раз в 2 дня. Это не совсем удобно для seo оптимизатора, для которого очень важно знать оценку качества страницы.
Что означает оценка качества? Большинство seo оптимизаторов продвигаются по низко-конкурентным поисковым запросам, поэтому важно знать, какую позицию присвоит поисковая система при первой индексации страницы. В зависимости от позиции нужно анализировать соответствующих конкурентов, стоящих выше в выдаче.
Таким образом, я хочу рассказать Вам об инструментах, которыми я лично пользуюсь при продвижении блогов.
Во-первых, это программа YCCY, которая служит мне больше 2-х лет. Она отличается своей точностью проверки индексации страниц. Кстати, она же является одним из самых старых инструментов seo оптимизатора. Несмотря на её возраст, она до сих пор актуальна и используются не только для проверки индексации страниц, но и для ряда других целей, таких как пакетная проверка всех страниц сайта, проверка обратных ссылок и мн. др.
что это такое, как происходит, как ускорить и проверить индексацию
Нравится статья?
Понравится и работать с нами.
НачатьИндексация сайта в поисковых системах – это то, без чего SEO продвижение невозможно. Если страниц вашего сайта нет в индексе, они не выводятся в поисковой выдаче, а значит, в конкуренции за верхние позиции вы пока не участвуете, и пользователи из поиска не могут перейти к вам.
Разбираемся, как Яндекс и Google индексируют сайты, можно ли ускорить и проконтролировать процесс и каким страницам индексация не нужна.
Что такое индексация и как она происходит
Поисковые системы по запросу выдают пользователям подходящие страницы за пару секунд. Естественно, в это время роботы не перебирают реальные сайты – такой поиск тянулся бы часами. Для ускорения поисковики обращаются к собственной, заранее собранной базе данных. Эта база – и есть индекс.
Поисковики индексируют сайт автоматически, с помощью поисковых роботов – их называют пауками или краулерами. Упрощенно это выглядит так:
- Пауки постоянно отслеживают новые сайты и страницы в интернете.
- Попав на сайт, робот сканирует его. Если в корневой папке лежит правильно заполненный файл robots.txt (а мы настоятельно советуем его прописать и поместить туда), краулер быстрее поймет, какие страницы нужно индексировать, а какие – нет.
- На каждой странице робот в автоматическом режиме оценивает важнейшие элементы, от которых зависит позиция при ранжировании (ключевые запросы, текст, структуру, метатеги и пр.).
- Проиндексированные страницы передаются в базу данных. В каждый визит робот обрабатывает не так много страниц, до 30 штук, чтобы не перегружать ваш сервер.
- После индексации сайта страницы начинают отображаться в выдаче, ведь теперь поисковая система знает о них.
- В дальнейшем робот продолжает посещать ваш сайт, чтобы просканировать и добавить в базу новые страницы. Также поисковики могут удалять страницы из индекса, обнаружив на них технические ошибки. Если вы ежедневно публикуете контент, робот может заходить к вам несколько раз в день, а если сайт долго остается без изменений, то и поисковики будут реже обращать на него внимание (до 3 раз в месяц).
Индексация сайта в Яндексе сразу после запуска может занять до 1 месяца, а в Гугл – до 1 недели.
Как быстрее попасть в индекс
Для успешного продвижения в Яндексе и Google важно, чтобы новые страницы как можно скорее попадали в индекс и начинали ранжироваться. Поэтому советуем использовать возможности для ускоренной индексации сайта.
Как привлечь внимание поисковиков и быстрее занять место в выдаче:
- Обязательно составить служебный файл robots.txt и карту сайта Sitemap в помощь поисковым ботам.
- Войти в панели управления Google Search Console и «Яндекс.Вебмастер» и оставить заявку на индексацию конкретных страниц.
- Обеспечить надежность и скорость работы сайта – робот при обнаружении проблем на сайте снижает частоту обхода.
- Позаботиться о качественных внешних ссылках, которые добавят вам «веса» и повысят шансы на быструю индексацию сайта по ключевым словам.
- Регулярно добавлять новые страницы и публиковать свежие материалы – тогда поисковики будут чаще обращать внимание на ваш ресурс. Обязательно добавлять новые материалы в «Оригинальные тексты» в Яндекс.Вебмастере.
- Оптимизировать сайт в плане удобства для пользователей – юзабилити. В первую очередь, важны понятный каталог и система навигации, сеть перекрестных внутренних ссылок (перелинковка) – всё, что ускоряет перемещение бота по вашему сайту и помогает ему проиндексировать больше страниц за один раз.
Кстати, быстро индексировать страницы нужно не только новым сайтам. Если вы обновили цены или описания в каталоге, прописали привлекательные метатеги Description или загрузили в блог горячую новость, вам тоже важно, чтобы индексацию не пришлось ждать месяцами.
Как проверить индексацию сайта
В первые недели после запуска нового сайта важно проверить, попали ли нужные страницы в индекс поисковых систем и сколько вообще страниц проиндексировано. Но и в дальнейшем советуем держать руку на пульсе.
Вот основные способы проверить индексацию сайта в поисковых системах:
- Вручную через брендовые запросы
- Через оператор site в поисковой строке
- В Яндекс.Вебмастере или Search Console в Гугл
- Автоматически с помощью плагинов, скриптов или специальных сервисов
Вводим в строке поиска название компании и просматриваем первую пару страниц выдачи. Способ самый простой, без технических сложностей, но не быстрый и не очень удобный.
Чуть сложнее, но точнее: вбиваем в поиске Яндекса или Гугл оператор site, а после него – адрес сайта.
Например, наберем URL zamkitut.ru для проверки индексации сайта. В результатах поиска будут только проиндексированные страницы заданного сайта, и ничего не придется выбирать вручную.
Способ для тех, у кого есть доступ к панели вебмастера. В Гугл нужно открыть вкладку «Индекс Google» и выбрать «Статус индексирования», а в Яндекс.Вебмастере развернуть меню «Индексирование сайта», а затем «Страницы в поиске». Здесь можно посмотреть не только текущее количество страниц в индексе, но и динамику.
Сервисы и программы – быстрый и надежный способ проверить индексацию сайта онлайн. Не вручную вбивать запросы: небольшие программы для проверки обычно можно сохранить в браузере, как закладки, и запускать при необходимости.
Советуем попробовать плагин RDS bar для разных браузеров, а также программы наподобие Netpeak Spider или Netpeak Checker.
Так выглядит рабочее окно Netpeak Spider: программа выдает много дополнительной информации, помимо количества страниц в индексе.
3 и 4 способ – самые информативные и удобные, мы советуем мониторить индексацию по ходу продвижения сайта именно так. В специальной программе или на панели вебмастера вы увидите, когда последний раз Яндекс индексировал сайт, какие именно страницы попали в индекс, какие проблемы выявили поисковики и т.д.
Почему сайт не индексируется и как это исправить
Иногда с индексацией возникают проблемы: сайт целиком или отдельные страницы перестают выводиться в поисковой выдаче. Почему Яндекс не индексирует сайт и как это исправить:
- Прошло недостаточно времени. Если сайт или группа страниц появились недавно, поисковой робот мог просто не успеть их проиндексировать – используйте наши приемы ускорения из списка выше.
- Неправильно заполнен файл robots.txt. Лучше доверить работу с этим служебным файлом программистам, потому что случайная ошибка в нем может запретить индексировать сайт без вашего ведома.
- Критичные для поисковиков ошибки на сайте – их важно находить и вовремя исправлять.
- Нет карты сайта (SiteMap). Обязательно пропишите ее и добавьте в корневую папку – карта поможет ускорить индексацию сайта.
- На сайте есть дубли страниц или контент, полностью скопированный с других ресурсов – такие страницы принципиально не индексируются.
- Сервер работает с перебоями. Если сайт периодически недоступен или загружается слишком медленно, могут быть проблемы с индексацией, так что есть смысл переехать на более надежный хостинг.
Как закрыть сайт от индексации и когда это нужно
Иногда бывает нужно запретить индексацию сайта или отдельных страниц.
Зачем это делается:
- Чтобы в выдачу не попадали служебные страницы сайта: личный кабинет пользователя, корзина, панель управления и прочее.
- Чтобы поисковой робот быстрее добрался до целевых страниц и проиндексировал их, а не тратил время на малозначительный контент, который не нужно продвигать.
- Чтобы в индекс не попали дубли страниц (поисковики это не любят).
Пример страницы, которую нужно закрыть от индексации – корзина в интернет-магазине дверной фурнитуры.
Основные способы «спрятать» ненужные страницы или разделы от поисковиков:
- В файле robots.txt закрыть сайт от индексации позволяет директива Disallow – она прописывается рядом с адресами страниц, которые не должны попасть в выдачу.
- В коде страницы можно использовать тег «noindex» – он закрывает от индексации не ссылки, а только часть текста, заключенную внутри тега.
- Атрибут rel=«nofollow» – применяется к конкретной ссылке и указывает поисковым роботам, что по ней не нужно переходить. Этот атрибут понимают все поисковики.
- Мета-тег robots – он дает поисковым системам указания насчет индексации. Если в содержимом этого мета-тега прописать «noindex, nofollow», страница не будет индексироваться.
Важно: «noindex» считывает и понимает только Яндекс. Для управления индексацией в Google применяйте другие способы из этого списка.
Инструмент проверки индекса домена Google, Bing и Yahoo
Сведения об инструменте и инструкции по эксплуатации
Анализ большого объема данных и построение индекса, из которого доступ к данным простым и эффективным способом на основе критериев поиска называется индексированием. Чтобы страница отображалась в результатах поиска, она должна быть сначала проиндексирована.
Эта программа проверки индекса страниц проверяет, сколько страниц с доменным именем проиндексировано в индексах Google, Yahoo и Bing.
Примечание. Задержка 15 секунд, потому что мы не хотим, чтобы поисковые системы нас ненавидели.
В Интернете серверы Google / Bing / Yahoo постоянно посещают страницы и читают их содержание. Поисковые системы создают внутренний индекс, который представляет собой структуру данных, содержащую ключевые слова страниц. Сканеры поисковых систем обнаруживают гиперссылки, переходят по ним, и процесс повторяется на связанных страницах. Поисковая система, такая как Google / Bing / Yahoo, находит страницы по ссылкам и картам сайта, отправленным в их инструменты для веб-мастеров. Сканер Google определяет ценность содержания страницы, связанную с поиском пользователей и их запросами.Эта программа проверки индекса Google проверяет, индексируется ли ваш сайт популярными поисковыми системами, такими как Google, Yahoo и Bing.
Когда вы говорите, вы ищете в Интернете в Google, вы не ищете в Интернете, вы ищете в индексе Google.
Как Google индексирует?
Например, Google сканирует веб-сайт, такой как New York Times, и индексирует все веб-страницы, затем Google также сканирует внешние ссылки / веб-сайты, найденные на веб-сайте, и далее сканирует эти ссылки / веб-сайты, и этот процесс продолжается и продолжается.
Как попасть в индекс Google?
— Добавьте контент, который, по вашему мнению, является лучшим из всех. Потому что качественный контент всегда становится вирусным после хорошей стратегии контент-маркетинга. Вы получите больше упоминаний на других веб-сайтах, а Google быстро проиндексирует ваши страницы.
— Добавьте хорошую структуру навигации на свой сайт. Дайте возможность пользователю быстро перемещаться по каждому разделу.
— Добавьте внутренние ссылки на свои веб-страницы.
— Оптимизируйте свою страницу, чтобы она загружалась быстрее. Более быстрая загрузка страницы имеет большое значение для пользователя и позволяет Google быстрее индексировать ваш сайт.
— Попробуйте добавить свой домен в каталог Dmoz.org для лучшей индексации в Google.
— Создайте профиль Google Plus, чтобы привлечь внимание Google, потому что Google владеет социальной сетью (Google Plus).
— Получайте обратные ссылки с доменов с высоким авторитетом, доменов, которые Google посещает ежедневно или ежечасно.
— Создайте карту сайта в формате XML и отправьте ее в Google Webmasters Tool, чтобы Google мог легко узнать все ссылки в одном месте.
1.Введите URL в текстовое поле.
2. Щелкните Отправить для обработки. Это может занять некоторое время.
3. Щелкните Экспорт , чтобы сохранить результаты в формате Excel.
Проверьте статус индексации вашей страницы WordPress
Мы в FirmCatalyst проверяем это тремя способами:
Проверьте настройки WordPress
Прежде всего, мы проверяем, доступна ли вообще наша установка WordPress для поисковых роботов. Для этого мы авторизуемся в интерфейсе администратора нашей страницы WordPress и переходим « Settings »> « Read ».Убедитесь, что в разделе « Видимость для поисковых систем » пункт « Остановить индексирование этого веб-сайта поисковыми системами » стоит , а не .
Проанализируйте URL-адрес по вашему выбору в маске ввода. Инструмент показывает, имеет ли рассматриваемая страница тег NoIndex или Nofollow, что предотвратит индексирование URL-адреса.
С помощью Meta Robots Checker от ReviewTools вы можете проверить, можно ли проиндексировать ваш сайт с помощью SearchEngines.Используйте сайт: домен.по поисковому запросу
Для этого вызовите поиск google.de. В маске ввода введите команду: « site: your-website. com ». Теперь вы должны увидеть список всех URL-адресов вашего веб-сайта, которые проиндексированы в поиске Google.
Проверьте сообщения об ошибках в Search Console.
Search Console — это центр Google для информирования веб-мастеров о любых штрафах, ошибках или других уведомлениях, которые могут повлиять на ваш сайт. Новая версия Search Console (конец 2019 года) также покажет вам, как Google индексирует ваш сайт и как быстро загружаются страницы вашего сайта, при условии, что вы связали поисковую консоль со своим сайтом.
Статус индексации вашего веб-сайта в Search ConsoleЭто возможно, если ваш домен был подтвержден с помощью Google Analytics или необходимого метатега.
Убедитесь, что зарегистрированная недвижимость в точности соответствует вызываемой версии вашего сайта. Например, если основная версия вашего веб-сайта доступна по адресу https://your-website.com , свойство, которое вы ввели в Search Console, не должно быть https://www.your-website.com . .В таком случае результаты будут искажены, и вы не сможете получить доступ ко всем данным.
Подсказка: Если ваш веб-сайт еще не подтвержден для Google Search Console, следуйте соответствующему руководству на сайте growthwizard.de/yoast-seo-instellungen/.
Удаление ошибок поиска 404
Ошибки 404 — это, пожалуй, самая вредная вещь, с которой приходится иметь дело вашему сайту. Задача каждой поисковой системы — всегда предлагать пользователю наилучший ответ на его поисковый запрос.Поэтому поисковые системы всегда пытаются адаптировать свои собственные алгоритмы, чтобы найти наилучший результат для пользователя.
Если пользователь нажимает на результат поиска, и страница с соответствующей информацией больше не может быть найдена, это плохо не только для пользователя, но и для вас как оператора веб-сайта, а также ставит поисковую систему в плохом свете. В такой ситуации были бы только проигравшие.
С точки зрения поисковой оптимизации (SEO) нам приходится иметь дело с другой проблемой.Каждый веб-сайт со временем создает обратные ссылки. Эти обратные ссылки являются показателем качества и доверия поисковых систем. Вы можете представить это так: каждый URL-адрес вашего веб-сайта содержит оценку, оценивающую качество. Если вызываемый URL-адрес больше не доступен и не перенаправляется должным образом, нарастающее доверие терпит неудачу.
Следовательно, вашей задачей должно быть всегда правильно перенаправлять такие ошибки 404 в правильный источник. Для этого существуют различные коды состояния, которые сообщают поисковым системам, что произошло с соответствующим контентом.
- 301: контент был перенаправлен навсегда: это означает, что контент теперь постоянно находится по другому URL-адресу.
- 307: контент был временно перенаправлен: это означает, что контент временно расположен по другому URL-адресу.
- 410: контент окончательно удален: это означает, что контент был окончательно удален с веб-сайта.
- Есть еще много кодов состояния: их список можно найти в Ryte Wiki: https: // de.ryte.com/wiki/HTTP_Status_Code
Мэтт Каттс (, бывший сотрудник Google ) описал эту проблему в видео на YouTube. Там он объясняет, почему так важно обращать внимание на правильные перенаправления и как с ними обращаться.
Загружая видео, вы соглашаетесь с политикой конфиденциальности YouTube.
Подробнее
Загрузить видео
Всегда разблокировать YouTube
Подсказка: Вы можете найти список 404 ошибок вашего веб-сайта в Search Console в разделе « Index > Coverage > Excluded > Not Found (404) ».
Для правильной пересылки URL-адресов в WordPress вы можете использовать плагины:
Проверить URL-адреса на тег Noindex
Также в Search Console ( Индекс > Покрытие > Исключено > Исключено тегом «noindex» ) вы найдете список всех URL-адресов, содержащих так называемый тег NoIndex. Этот метатег сообщает поисковым системам, что соответствующий URL-адрес не должен включаться в результаты поиска.
Не помешает регулярная проверка всех URL-адресов, чтобы убедиться, что данная страница действительно не должна индексироваться.Тег NoIndex может быть установлен по ошибке, особенно когда над веб-сайтом работают несколько человек или используются плагины.
Проверьте расположение вашего Sitemap.xml
sitemap.xml — это список всех ваших URL-адресов, изображений и содержимого, включая время последнего изменения. Карта сайта особенно выгодна для крупных веб-сайтов, поскольку поисковым системам легче понять структуру вашего веб-сайта. Для поисковых систем карта сайта — это путеводитель по каждому содержанию вашего сайта.
У вас есть возможность сохранить карту вашего сайта в файле robots.txt, а также в Search Console. Таким образом, поисковые системы точно знают, где найти карту сайта.
С помощью плагина «Yoast SEO» вы можете легко редактировать robots.txt:
- Вызвать серверную часть WordPress под «yourdomain.com/wp-admin/».
- Перейдите к « SEO > Инструменты > Редактор файлов ».
- Создать « robots.txt “.
- Добавьте следующую запись: Карта сайта: https://your-website.com/sitemap_index.xml .
- Сохранить robots.txt .
Если вы хотите добавить Sitemap.xml в Search Console, выполните следующие действия:
- Войдите в Search Console по адресу search.google.com/search-console/about?hl=de.
- Перейдите к: « Карты сайта > Добавить новую карту сайта ».
- Введите URL-адрес вашей карты сайта ( https://yourdomain.com/sitemap_index.xml ) в поле ввода и подтвердите ввод.
Примечание: Если вы не используете Yoast SEO для создания карты сайта, вы можете найти карту сайта по адресу « yourdomain.com/sitemap.xml ». Этот путь чаще всего используется для карт сайта.
Проверьте статус вашего robots.txt
robots.txt — это необязательный текстовый файл в папке FTP вашего веб-сайта, который обычно доступен в разделе «yourdomain.ru / robots.txt ». Этот файл актуален только для поисковых роботов и содержит инструкции о том, какие URL-пути вашего домена могут быть прочитаны и какие пути исключены из сканирования.
Примечание для опытных веб-мастеров: « NoIndex Tag » в robots.txt больше не поддерживается с 2019 года. Google рекомендует блокировать сканирование с помощью альтернативных инструкций, таких как « Disallow: yourdomain.de/path/ ». Также рекомендуется использовать метатеги, такие как « NoIndex, NoFollow, DoFollow ».
Любой профессиональный инструмент SEO для аудита SEO должен иметь возможность проверить robots.txt Checker von Ryte. Если нет доступа к профессиональным инструментам SEO, вы также можете использовать бесплатную программу проверки robots.txt от Ryte.
С помощью средства проверки robots.txt от Ryte страницу WordPress можно проверить на наличие ошибок.В лучшем случае ваш robots.txt для WordPress должен быть как можно более минималистичным. В приложении вы найдете оптимальную структуру robots.txt для WordPress.
Агент пользователя: * Запретить: / wp-admin / Разрешить: / wp-admin / admin-ajax.php Карта сайта: https://ihredomain.de/sitemap_index.xml
Вывод: упростите задачу для сканеров!
Находимость — одна из основ успешной поисковой оптимизации. Есть много тегов и проблем, которые могут затруднить сканирование веб-сайта. Мы всегда работаем над сайтами новых клиентов, которые даже не знали, что определенные страницы исключены из индексации.
На этом мы завершаем второй этап нашего SEO-аудита. На третьем этапе нашего SEO-аудита мы проверим время загрузки нашего сайта.
Как проверить индексируемость и сканируемость вашего веб-сайта
Вся суть веб-сайта заключается в том, чтобы иметь возможность подключаться к вашей целевой аудитории и получать трафик, приносящий доход. Все обратные ссылки и отличный контент, которые вы добавляете, ничего не значат, если поисковые системы не могут сканировать и индексировать ваши страницы.
Эта статья поможет вам понять, что такое индексируемость и возможность сканирования, как на них влияют различные факторы, как вы можете упростить сканирование и индексирование вашего веб-сайта для поисковых систем, и мы закроем несколько полезных инструментов для управлять возможностью сканирования и индексирования вашей цифровой собственности.
Что Google говорит об индексируемости и возможности сканирования
Прежде чем мы нырнем в воду, давайте немного промокнем и посмотрим, что Мэтт Каттс, бывший сотрудник Google, говорит о том, как поисковые системы обнаруживают и индексируют страницы.
Согласно Google,
«Сканеры просматривают веб-страницы и переходят по ссылкам на них, как если бы вы просматривали контент в Интернете. Они переходят от ссылки к ссылке и возвращают данные об этих веб-страницах на серверы Google.
Другими словами, если вы заботитесь о поисковой оптимизации и ее важности, неплохо сделать свой веб-сайт максимально индексируемым и сканируемым.
Что такое индексируемость
Индексируемость — это способность поисковых систем добавлять вашу веб-страницу в свой индекс. Есть вероятность, что Google сможет просканировать ваш сайт, но не сможет проиндексировать его из-за нерешенных проблем с индексацией.
Вот скриншот страницы, которую можно проиндексировать, и ссылка на инструмент в Chrome Store
What is Crawlability
Поисковым системам необходимо получить доступ к вашему сайту и сканировать содержимое на ваших страницах, чтобы понять, что ваш сайт около.
Пауки сканируют ваш сайт, переходя по ссылкам между страницами. Вот почему полезны хорошая структура ссылок и карта сайта.
Такие вещи, как неработающие ссылки и тупики, могут помешать поисковой системе сканировать ваш сайт.
Это снимок экрана URL-адреса, прошедшего проверку на возможность сканирования.
RankSider
Что влияет на сканируемость и индексируемость
Независимо от того, являетесь ли вы опытным специалистом по поисковой оптимизации или просто новичком, ищущим руководство по поисковой оптимизации, очень важно следить за следующими факторами.
1. Структура сайта
Слабая структура сайта помешает роботу сканировать и индексировать ваш сайт. Проблемы со структурой включают, например, страницы, на которые не указывают входящие ссылки.
2. Структура внутренних ссылок
Наличие хорошей внутренней структуры ссылок поможет сканерам с легкостью перемещаться по вашему веб-сайту, не упуская никакого содержания и правильно индексируя ваш сайт.
Google Search Console — отличный инструмент для проверки вашей структуры ссылок, как вы можете видеть здесь:
3.Повторяющиеся перенаправления
Перенаправления неработающих страниц приводят к полной остановке поискового робота и немедленному возникновению проблем.
4. Ошибки сервера
Проблемы, связанные с сервером, мешают поисковым роботам правильно выполнять свою работу.
Вот как может выглядеть ошибка сервера. Знакомо?
5. Неподдерживаемые сценарии и другие технологические факторы
Существуют различные технологии и сценарии, которые могут вызывать проблемы. Например, сканеры не могут следить за формами, поэтому при сканировании контента, закрытого за формой, возникнут проблемы.Javascript и Ajax могут привести к аналогичным отрицательным результатам.
6. Блокирование доступа веб-сканера
Есть несколько причин, по которым вы можете заблокировать поисковые роботы намеренно индексировать ваши страницы, в том числе наличие страниц с ограниченным общим доступом.
Однако будьте осторожны, чтобы по ошибке не заблокировать другие страницы.
Это наиболее распространенные факторы, влияющие на возможность сканирования и индексирования, однако существует гораздо больше факторов, которые могут сделать ваш веб-сайт недружественным для роботов.
Как проверить свой веб-сайт на индексируемость
Загрузите полный контрольный список здесь.
Вы знаете важность построения ссылок и других тактик SEO. Но регулярная проверка перечисленных ниже аспектов — хорошая практика, которая поможет вам поддерживать работоспособность вашего сайта.
1. Проверьте свои страницы на наличие тегов Noindex
Важно уделять внимание деталям. Даже будучи опытным оптимизатором поисковых систем, вы можете случайно вставить или забыть удалить тег «noindex, follow».
Это может выглядеть так:
2.Проверьте свой файл Robots.txt
При настройке файла robots.txt вы можете дать сканерам поисковых систем конкретные инструкции относительно того, какие каталоги следует сканировать.
Убедитесь, что вы случайно не исключили важные каталоги и не заблокировали какие-либо свои страницы. Есть большая вероятность, что робот Google найдет ваши страницы по обратным ссылкам, но если вы правильно настроите файл robot.txt, поисковым системам будет легче регулярно сканировать ваш сайт.
3.Проверьте свой файл .htaccess на наличие ошибок
Наиболее распространенные варианты использования файлов .htaccess:
- Перезапись URL-адреса
- Перенаправление старого URL-адреса на новый URL-адрес
- Перенаправление на www-версию страницы
Эти файлы потенциально может помешать вашей странице отображаться в результатах поиска и воспринимать поисковые роботы как несанкционированный доступ. .Htaccess — это управляющий файл, хранящийся в каталоге сервера Apache.
Для того, чтобы ваши правила .htaccess выполнялись, вы всегда должны называть файл одинаково.Например:
Перенаправление или перезапись URL:
RewriteEngine On
Для перезаписи требуется использовать:
RewriteBase /
Определите правило, которое должен выполнять сервер:
Rewrite /
RewriteRule seitea.html seiteb.html [R = 301]
Если файл был назван неправильно, он не сможет переписывать или перенаправлять URL-адреса, в результате чего пользователи и сканеры не смогут получить доступ, сканировать или проиндексируйте страницы.
4. Проверьте свои канонические теги
Канонические теги помогут предотвратить проблемы с дублированием контента, указав «предпочтительную» версию страницы для поисковых роботов.
Это наиболее распространенные ошибки, которые вы можете сделать при установке тегов Canonical:
- Тег Canonical относится к относительному боковому пути
- Тег Canonical относится к URL-адресу, который находится в теге Noindex
- Страница с разбивкой на страницы относится к первой странице нумерации страниц по тегу Canonical.
- Канонический тег относится к URL без косой черты в конце
Так выглядит канонический тег.
5. Отслеживайте доступность сервера и сообщения об ошибках состояния
Если ваш сервер выходит из строя, сканеры не смогут проиндексировать ваши страницы. Так же, как пользователи не смогут получить к нему доступ, поисковые роботы также не смогут это сделать.
Чтобы быть в курсе всех проблем, вам следует регулярно проверять свой сайт на предмет правильной работы 404 страниц и 301 редиректа.
Вот скриншот сообщения об ошибке сервера.
6. Найдите потерянные страницы
Убедитесь, что новые страницы, новые категории и любая новая реструктуризация, которую вы можете добавить на свой сайт, имеют внутренние ссылки и перечислены в sitemap.xml. Самый важный совет относительно потерянных страниц — избегать их, несмотря ни на что.
7. Найдите внешний дублированный контент
Кража контента, грубо говоря. Внешние страницы могут дублировать ваш контент, и это может повысить их рейтинг, чем вы, или, что еще хуже, помешать индексации вашего контента.
Google довольно хорошо знает, какой из них является «оригинальным», но вы можете найти этот украденный контент, выполнив поиск по некоторым из самых ключевых и оригинальных фраз в вашем произведении.
8. Определите внутренние ссылки Nofollow
Если какая-либо из ваших внутренних страниц помечена атрибутом rel = «nofollow» , они не будут сканироваться или индексироваться роботом Googlebot. Убедитесь, что вы проверили и отрегулировали соответственно.
9. Проверьте свой XML-файл Sitemap
Если ваш XML-файл Sitemap не содержит всех URL-адресов, которые нужно проиндексировать, вам придется столкнуться с проблемой, похожей на потерянные страницы.
На снимке экрана ниже показаны файлы Sitemap, отправленные в Google Search Console.
10. Регулярно проверяйте, не были ли ваши страницы взломаны
Чтобы убедиться, что ваши страницы не взломаны, выполните следующие действия:
- Регулярно проверяйте Google Search Console на наличие подсказок.
- Регулярно меняйте пароли к серверу.
- Всегда устанавливайте все предлагаемые обновления.
- Дополнительные советы можно найти в Центральном блоге Google для веб-мастеров.
Как упростить сканирование и индексирование вашего веб-сайта
Загрузите полный контрольный список здесь.
Кроме того, чтобы убедиться, что перечисленные выше проблемы не возникнут с вами, вы также можете предпринять активные действия, чтобы убедиться, что ваш сайт правильно настроен для сканирования и правильного индексирования.
1. Отправьте карту сайта в Google
Карта сайта поможет Google и другим поисковым системам лучше сканировать и индексировать ваш сайт.
Вот так выглядит отправка карты сайта в Google Search Console.
2. Укрепите внутренние ссылки
Сильный профиль взаимосвязанных ссылок, безусловно, упростит поисковым системам сканирование и индексирование вашего сайта. Это также поможет с вашим общим SEO и пользовательским опытом.
3. Регулярно обновляйте и добавляйте новый контент
Обновление и добавление нового контента на ваш сайт — отличный рецепт для улучшения вашего рейтинга и SEO, а также удобства для пользователей. Еще одно преимущество этого заключается в том, что поисковые роботы будут чаще посещать ваш сайт для индексации.
После этого вы можете попросить Google переиндексировать вашу страницу. Это выглядит так:
4. Избегайте дублирования любого контента
Наличие на вашем сайте дублированного контента снизит частоту, с которой поисковые роботы посещают ваш сайт. Это также плохая практика с точки зрения вашего SEO-здоровья.
5. Ускорьте время загрузки страницы
Краулеры имеют бюджет сканирования. И они не могут потратить все это на медленном веб-сайте. Если ваш сайт загружается быстро, у них будет время, чтобы его правильно просканировать.Если загрузка занимает слишком много времени и время сканера (бюджет сканирования) заканчивается, он перейдет на следующий веб-сайт, прежде чем просканирует все ваши страницы.
Снимок экрана выше является частью результатов PageSpeed Insights от Google.
Инструменты для управления возможностью сканирования и индексирования
Интернет наполнен инструментами, которые помогут вам контролировать свой веб-сайт и вовремя обнаруживать любые проблемы с возможностью индексирования и сканирования. У большинства из них есть бесплатные инструменты или бесплатные пробные версии, которые позволят вам проверить свой сайт.
Google также предлагает вам возможность управлять возможностью сканирования и индексирования вашего сайта с помощью таких инструментов, как Google Search Console и Google PageSpeed Insights.
Как только вы попадете на страницу Google PageSpeed Insights, вы увидите следующий экран:
Убедиться, что ваш веб-сайт правильно настроен для индексации и сканирования поисковыми системами, является разумным бизнес-решением. В большинстве случаев веб-сайты являются бизнес-инструментами для привлечения и конвертации. Вот почему выполнение всех необходимых шагов для правильного индексирования и сканирования поисковыми системами должно быть частью вашей общей стратегии SEO и обслуживания.
Контрольный список:
Ссылка на контрольный список: https: //venngage.net/pl/Ezpaq0ARFw
Сколько времени нужно Google, чтобы проиндексировать веб-сайт?
Чтобы проиндексировать ваш контент, его сначала нужно просканировать. Сколько времени потребуется для полного сканирования вашего сайта, зависит от вашего краулингового бюджета — внимания, которое ваш сайт получает от Google.
После того, как он будет полностью просканирован, вы перейдете к следующему этапу — индексации. Здесь на скорость индексации существенно влияют следующие факторы:
- Веб-сайт использует JavaScript, обрабатываемый клиентом.
- Качество вашего контента.
- Размер сайта.
Как правило, мы оцениваем:
- 3–4 недели для веб-сайтов менее 500 страниц.
- 2–3 месяца для веб-сайтов от 500 до 25 000 страниц.
- 4–12 месяцев для веб-сайтов с более чем 25 000 страниц.
Конечно, каждый веб-сайт уникален и обрабатывается Google по-разному, поэтому относитесь к этим оценкам с недоверием. В конце концов, последнее слово по всем вопросам SEO остается за Google.
Проверьте, не блокирует ли что-нибудь Google индексирование
Произошла непредвиденная ошибка. Пожалуйста, свяжитесь с нами. Что-то пошло не так. Пожалуйста, попробуйте позже.Примечание. НЕТ кредитной карты, платежной информации или каких-либо обязательств.
Краткое описание процесса индексирования Google
Чтобы объяснить, сколько времени Google требуется для индексации сайтов, нам нужно коснуться того, что происходит на этапе индексирования и двух этапах перед ним.
Фаза 1: открытие
Поисковая система должна обнаружить ваш сайт.Помните, что вы должны максимально упростить поисковым роботам возможность узнать о вашем веб-сайте и всех ваших URL-адресах. Вы можете сделать это, получая обратные ссылки, используя карту сайта XML и — в случае Google — вручную запрашивая индексацию URL-адресов через Google Search Console.
Фаза 2: сканирование
Google необходимо просканировать ваш сайт. На этом этапе робот Googlebot передает всю найденную информацию процессам индексации. Убедитесь, что нет препятствий, которые могут помешать ему найти важную часть вашего веб-сайта.
Этап 3: индексирование
И, наконец, на этапе индексации Google обрабатывает содержание вашего веб-сайта. На этом этапе следующие факторы могут замедлить индексацию вашего веб-сайта Google: использование JavaScript, низкое качество контента и плохая структура внутренних ссылок.
Помогите Google быстрее обнаружить ваш веб-сайт
Существует множество способов сообщить Google, что у вас есть новый веб-сайт или новые страницы, или что существующие и уже проиндексированные URL-адреса были обновлены.
Отправьте карту сайта в формате XML в Google Search Console
Один из эффективных способов сообщить Google о том, что у вас есть новый веб-сайт или новое содержание, — это использовать карту сайта XML, которую вы отправили в свою учетную запись Google Search Console.
XML-карта сайта содержит список URL-адресов, которые Google должен сканировать и индексировать. Используя его, вы можете предложить Google сканировать и индексировать целые пакеты URL-адресов, а не отправлять каждый URL-адрес вручную.
Ваши XML-карты сайта должны обновляться автоматически после каждого внесенного вами изменения.Таким образом, Google всегда будет в курсе того, где находится ваш веб-сайт, и при необходимости сможет повторно сканировать страницы.
Как отправить карту сайта XML в GSC
- Войдите в Google Search Console (откроется в новой вкладке).
- Выберите недвижимость.
Нажмите кнопку
Sitemaps
в меню правого столбца.Введите URL-адрес карты сайта и нажмите
ОТПРАВИТЬ
.- Проверьте статус обновленных XML-карт сайта.
Сделайте быструю проверку, чтобы убедиться, что ваша XML-карта сайта действительна
Произошла непредвиденная ошибка. Пожалуйста, свяжитесь с нами. Что-то пошло не так. Пожалуйста, попробуйте позже.Примечание. НЕТ кредитной карты, платежной информации или каких-либо обязательств.
Отправьте отдельные URL-адреса в Google Search Console
Помимо указания всех важных URL-адресов с помощью XML-карты сайта, вы также можете отправить отдельные URL-адреса с помощью инструмента проверки URL-адресов консоли поиска Google.
Отправляя свои URL-адреса, вы можете ускорить процесс обнаружения, сканирования и индексации.Но, конечно, как и во всем остальном, что связано с Google, нет никаких гарантий.
Как отправить URL-адрес для повторного сканирования в GSC Inspection Tool
- Войдите в Google Search Console.
- Выберите недвижимость.
- Отправьте URL-адрес веб-сайта, который требуется повторно сканировать.
- Регулярно проверяйте URL-адрес в инструменте проверки. Следите за таблицей сканирования и индексирования, чтобы узнать, когда Google в последний раз повторно сканировал ваш сайт.
Охота за обратными ссылками
Обратные ссылки играют важную роль в SEO.Они помогают поисковым системам находить новый контент и голосуют за него.
Вот почему вам следует потратить некоторое время и ресурсы на создание релевантных ссылок с веб-сайтов, обладающих достаточным авторитетом, чтобы повысить вашу заметность для роботов. Вдохновляйтесь нашими 12 тактиками построения ссылок.
Твердые внутренние ссылки
Хорошо продуманная структура внутренних ссылок может помочь Google быстро просканировать все содержание вашего веб-сайта и понять его иерархию.
Продвигайте свой контент
Хотя Google никогда официально не признавал, что эффективность социальных сетей влияет на видимость веб-сайта в результатах поиска, успешное продвижение вашего контента в социальных сетях оказывает прямое влияние на органическую эффективность этого контента.
Помимо социальных сетей, продвижение вашего контента является жизненно важной частью контент-маркетинга. Уже много лет одного создания высококачественного контента было недостаточно, чтобы сдвинуть с мертвой точки. Вы должны потратить на продвижение своего контента как минимум столько же времени, сколько вы потратили на его создание.
ContentKing Academy
Прочтите всю статью Академии, чтобы узнать все о том, как заставить Google индексировать ваш сайт
Почему индексация веб-сайтов обязательна для маркетологов
Что вы знаете об индексации веб-сайтов?
Если почти ничего, значит, вы не одиноки.
Индексация веб-сайтов — это не то, что вы, , делаете как маркетолог, а процесс, который выполняет поисковая система , когда вы публикуете новый контент в Интернете.Маркетологи должны знать, как правильно настроить для индексации .
Проиндексированный веб-сайт помогает сайту или странице действительно появляться в результатах поисковых систем, что обычно является первым шагом к ранжированию и привлечению трафика.
Теперь, когда мы рассмотрели, почему проиндексированный веб-сайт имеет значение для SEO, давайте теперь рассмотрим, как вы можете подготовиться к индексации своего собственного сайта.
Что значит индексировать ваш сайт?
Вкратце, индексирование веб-сайтов — это процесс, который поисковые системы используют для понимания функций вашего веб-сайта и каждой страницы на этого веб-сайта.Это помогает Google найти ваш веб-сайт, добавить его в свой индекс, связать каждую страницу с искомыми темами, вернуть этот сайт на страницы результатов поисковых систем (SERP) и, в конечном итоге, привлечь к вашему контенту нужных людей.
Подумайте о том, как работает указатель в книгах: это запись полезных слов и информации, которая дает больше контекста по предмету. Это именно то, что делает индексация веб-сайтов в контексте страниц результатов поисковых систем (SERP).
То, что вы видите в поисковой системе, — это не Интернет.Это индекс интернета поисковой системы. Это важно, потому что не каждая страница, которую вы публикуете в Интернете, гарантированно привлечет внимание поисковой системы. Как владельцу веб-сайта вам необходимо сделать несколько вещей, чтобы добавить его в этот индекс.
Google индексирует веб-сайты, состоящие из нескольких ключевых компонентов. Взгляните на них ниже:
- Соответствует популярным поисковым запросам.
- Удобная навигация для создания домашней страницы веб-сайта.
- Ссылка на другие страницы в домене вашего сайта и за его пределами.
- Не «заблокирован» от индексации из-за использования определенных метатегов (подробнее об этом позже).
Это связано с тем, что ключевые слова похожи на пинг для поисковой системы: они в нескольких словах сообщают Google, о чем ваш контент, которые могут быть переданы обратно поисковым запросам.
Наличие ключевых слов — это лишь один из факторов, который Google принимает во внимание перед индексированием веб-сайтов. Другие потребности включают отсутствие «битых» страниц или ссылок или сложный веб-дизайн, который мешает пользователю легко найти страницу или понять вопрос, на который страница отвечает.
В следующем разделе мы рассмотрим, почему Google учитывает определенные факторы при индексировании веб-сайтов и как индексировать ваш веб-сайт.
Индексация веб-сайта
Индексация веб-сайтов — это процесс, с помощью которого поисковая система добавляет веб-контент в свой индекс. Это выполняется путем «сканирования» веб-страниц по ключевым словам, метаданным и связанным сигналам, которые сообщают поисковым системам, где и когда следует ранжировать контент. Проиндексированные веб-сайты должны иметь доступную для навигации, доступную и понятную контент-стратегию.
Наличие проиндексированного веб-сайта гарантирует, что ваш сайт будет отображаться в результатах поисковой системы. Например, если ваш веб-сайт посвящен сетям B2B, такие ключевые слова, как «бизнес для бизнеса» и «сеть», могут помочь Google понять, как ваш контент соотносится с этими поисковыми запросами. Однако имейте в виду, что актуальность содержания (как давно оно было опубликовано), а также то, какие другие страницы ссылаются на него, также играют ключевую роль в способности Google найти и проиндексировать ваш сайт.
Теперь, когда у вас есть более полное представление о том, что такое индексация веб-сайтов, давайте обсудим, сколько времени занимает этот процесс и как заставить Google индексировать ваш сайт.
Сколько времени нужно Google, чтобы проиндексировать веб-сайт?
Google не очень избирательно индексирует веб-сайты. Фактически, он проиндексирует любой сайт, соответствующий критериям.
Хотя это и различается, Google может просканировать веб-сайт от нескольких дней до нескольких недель. Есть несколько факторов, которые незначительно влияют на то, как быстро Google индексирует веб-сайт, например, популярность веб-сайта, правильная оптимизация и общая структура веб-сайта.
Распространенные ошибки могут повлиять на то, индексирует ли Google сайт или нет.
Чтобы подготовиться, наберитесь терпения, проверьте дизайн своего веб-сайта и обновите его, если считаете это необходимым.
Рекомендации по индексации веб-сайтов
Ну, во-первых, мы были бы упущены, если бы не предложили вам провести аудит вашего сайта с помощью бесплатного веб-сайта HubSpot Grader. Используйте этот инструмент, чтобы определить, в чем заключаются самые большие проблемы с поисковой оптимизацией вашего сайта, и как эти проблемы могут повлиять на индексируемость вашего домена.
Далее ознакомьтесь с приведенными ниже советами.
Отслеживайте страницы после их публикации.
В общем, самая частая причина того, что веб-сайт не индексируется, — это то, что он новый. Это может иметь место для вас, особенно если вы охватили свои основы, убедились, что страница не содержит тега «noindex», имеет четкую стратегию создания ссылок и легко связана с другими страницами вашего сайта.
Убедитесь, что вы не блокируете индексацию с помощью «noindex».
Сайт с тегом noindex заблокирует возможность Google индексировать веб-страницу.Одна из причин, по которой веб-страница может иметь этот тег, заключается в том, что он предназначен только для просмотра определенными подписчиками, поэтому Google не найдет его и не представит как результат поиска для публики.
Создавайте страницы для сканирования.
Затем убедитесь, что ваш веб-сайт предназначен для сканирования. Проверьте, не блокирует ли сборка вашего сайта способность индексирования поисковой системы. У Google есть контрольный список о том, как это сделать, на своем веб-сайте поддержки здесь, но несколько общих правил включают создание карты сайта, сообщение Google о дублировании контента и использование специальных тегов, которые понимает Google.
Настройте переадресацию и отслеживайте трафик после миграции сайта.
Наконец, если вы недавно перенесли свой сайт, это может быть причиной того, что Google не сканирует новый домен. Если ваш сайт был временно недоступен в течение определенного времени, возможно, Google обнаружил ошибки сканирования при индексировании вашего сайта и не смог завершить процесс. Вы также должны убедиться, что 301 редирект настроен для направления трафика со старого домена на новый.
Когда ваш веб-сайт будет готов к индексации в Google, вот что вам нужно сделать на вашей стороне:
Как проиндексировать ваш сайт в Google
Во-первых, вам необходимо подтвердить свой веб-сайт в консоли поиска Google.Это означает, что вы подтвердите Google, что являетесь владельцем веб-сайта. Затем вам нужно будет запросить у Google сканирование URL-адресов вашего веб-сайта.
Для решения проблем миграции / индексации убедитесь, что, если ваш сайт недавно был перемещен, вы соблюдаете рекомендации Google по перемещению сайта, чтобы вы могли убедиться, что ваш новый адрес правильно проиндексирован в поисковой системе.
Помните, что поврежденные веб-страницы — очевидно, по коду ошибки «404» или трудные для чтения Google, вероятно, не будут проиндексированы.
Кроме того, оптимизация веб-сайта включает добавление ключевых слов на веб-страницы, сообщения в блогах и URL-адреса, а также архивирование содержимого. Наше руководство по поисковой оптимизации — это отличное глубокое погружение в оптимизацию контента веб-сайта, а также возможность проверить вашу работу перед запросом индексации.
Индексирование веб-сайта требует немного времени и терпения. Выполняя работу по максимальной оптимизации содержимого веб-сайта перед отправкой запроса в Google, процесс будет проходить более гладко.
Полное руководство по индексации SEO
глава 1Индекс Google
Органический трафик — это основа онлайн-бизнеса, но вы не получите его, если Google не проиндексирует ваш контент.
Чтобы понять, что такое индексирование и почему Google неправильно индексирует некоторые веб-сайты, нам нужно точно знать , что такое индексирование Google и как он работает.
У Google есть отличная аналогия:
Индекс Google похож на индекс в библиотеке, который перечисляет информацию обо всех книгах, имеющихся в библиотеке.Однако вместо книг в индексе Google перечислены все веб-страницы, о которых знает Google. Когда Google посещает ваш сайт, он обнаруживает новые и обновленные страницы и обновляет индекс Google.
По сути, индекс Google — это база данных веб-страниц, о которых знает Google. После того, как эти страницы проиндексированы, Google может использовать имеющуюся у него информацию о них и их содержании, чтобы решить отображать их в результатах поиска.
Концепция довольно проста. Но путь к индексации сложен.
Индексатор Google- Discovery
Сначала Google должен обнаружить URL. В процессе работы в сети Google извлекает ссылки с недавно обнаруженных веб-страниц. Эти страницы можно найти разными способами: переходя по ссылкам на других интернет-страницах или в картах сайта или глядя, откуда берутся входящие ссылки. - Сканирование
Затем Google должен посетить страницу.У Google есть сложные алгоритмы, позволяющие им определять, каким URL-адресам следует отдавать приоритет. Затем робот Googlebot посещает страницы, соответствующие пороговому значению приоритета. - Индексирование
Наконец, Google извлекает содержимое страницы. Google оценивает качество и проверяет, является ли контент уникальным. Кроме того, на этом этапе Google обрабатывает страницы, чтобы увидеть весь их контент, оценить их макет и различные другие элементы. Если все в порядке, страница индексируется.
Это довольно упрощенная разбивка — каждый из этих этапов фактически состоит из дополнительных этапов, но это ключевые этапы.
После того, как ваша страница пройдет эти этапы и будет успешно проиндексирована, только тогда ее можно будет ранжировать по релевантным запросам и показывать пользователям, обеспечивая естественный трафик на ваш сайт.
Единственным исключением является случай, когда вы намеренно запрещаете Google посещение вашей страницы с помощью файла robots.txt, что делает невозможным сканирование Google. После этого Google все еще может проиндексировать страницу, используя ссылку, найденную на другой странице. При этом вы вряд ли получите много трафика от Google на эту страницу, потому что он не будет знать, что страница содержит, и не будет знать, актуальна ли она для пользователей.
Вот пример того, что происходит с одним из собственных продуктов Google.
В этом случае Google заблокировал своему собственному роботу Googlebot сканирование всех страниц в субдомене Google Jamboard.
Но робот Googlebot все еще находил ссылки на страницы Jamboard на других веб-сайтах и использовал эти ссылки для индексации.
Этот случай подчеркивает нечто важное.
Обратите внимание, что проиндексированная домашняя страница Google Jamboard не имеет описания внутри фрагмента.Это потому, что робот Googlebot не смог получить к нему доступ и передать эту информацию в индекс.
Как владелец веб-сайта, вы должны убедиться, что робот Googlebot может получить доступ к как можно большему количеству контента на вашем сайте. В противном случае у Google будет ограниченная информация о том, о чем ваша страница, и ваша видимость в поиске пострадает.
Индексирует ли Google все страницы?Ответ очевиден: №
За последние пару лет я несколько раз вычислял числа, используя базу данных с тысячами различных веб-сайтов.
В среднем 16% из ценных, индексируемых страниц популярных веб-сайтов не индексируются. Всегда.
И это не секрет. Google открыто признает, что их цель — не индексировать каждую страницу в Интернете. Джон Мюллер из Google сказал по этой теме следующее:
Что касается индексации, мы не гарантируем, что проиндексируем все страницы веб-сайта. И особенно для крупных веб-сайтов, это нормально, что мы не все индексируем. Возможно, мы просто проиндексируем 1/10 веб-сайта, потому что это действительно большой веб-сайт.Мы действительно не знаем, стоит ли индексировать остальные.
Вы могли бы сказать: «Хорошо, Google просто не все индексирует, поэтому я думаю, что если некоторые из моих ценных страниц не проиндексированы, это не имеет большого значения».
Но я считаю, что это неправильный подход. На самом деле есть много крупных сайтов, которые Google может полностью проиндексировать.
Вы можете делать разные вещи, чтобы помочь Google проиндексировать больше страниц на вашем веб-сайте, и вы должны это делать.
E очень другие усилия по SEO, которые вы делаете на своем веб-сайте, будут иметь меньшую рентабельность инвестиций, если у вас все еще есть неиндексированный контент.
Сколько времени нужно Google, чтобы проиндексировать страницу?Как я уже показал, многие страницы просто не индексируются Google, а еще больше не сканируются.
Что еще хуже, индексирование обычно происходит со значительной задержкой.
Мы отслеживаем индексацию многих популярных сайтов. Это позволяет нам наблюдать, сколько времени в среднем требуется Google для индексации новых страниц (и помните, что мы пропускаем страницы, которые здесь никогда не индексируются).
Эти статистические данные показывают, насколько распространены задержки индексации:
Как видите:
- Google индексирует только 56% индексируемых URL-адресов через 1 день после публикации.
- Через 2 недели индексируется только 87% URL-адресов.
Google имеет сложную систему управления сканированием веб-сайтов.
Некоторые веб-сайты сканируются чаще, а некоторые посещаются реже. В краткосрочной перспективе вы не можете повлиять на это, но есть много вещей, которые вы можете сделать, чтобы улучшить свое положение в долгосрочной перспективе.О них поговорим позже.
Частичная индексацияЕсть еще одна проблема индексирования, которую я тщательно изучал, и ее труднее всего определить и решить. Я называю это частичной индексацией.
Хотя я считаю это проблемой индексации, можно утверждать, что это также проблема ранжирования.
Вот что это такое:
Иногда страница индексируется Google, но часть содержания этой страницы — нет. Мои исследования показывают, что эти неиндексированные фрагменты контента не влияют на рейтинг страницы.
Их нельзя найти, если вы ищете их специально, и, похоже, они не влияют на общий рейтинг страницы.
Иногда эти фрагменты контента менее важны, например, связанные элементы / продукты.
Но довольно часто это основное содержание страницы, как основное описание продукта на странице продукта на сайте электронной коммерции.
Веб-сайт | % проиндексированных страниц с не проиндексированным основным содержанием | Дополнительные примечания |
о вас.de | 37% | На мобильных устройствах сведения о продукте скрыты на вкладках. |
sportsdirect.com | 8% | |
charlotterusse.com | 8% | |
zappos.com | 16% | |
boohoo.com | 14% | |
zulily.com | 70% | |
lidl.de | 3% | |
Уолмарт.com | 45% | На мобильных устройствах сведения о продукте скрыты на вкладках. |
hm.com | 6% | |
samsclub.com | 39% |
На мой взгляд, наиболее частой причиной частичной индексации является дублированный контент.
Веб-сайты, показанные выше, обычно используют описание продукта производителя, и похоже, что Google отфильтровывает его на этапе индексации / ранжирования.
Почему индексация затруднительна?
Итак, почему Google не индексирует все известные ему страницы?
Интернет растетОсновная причина в том, что Интернет слишком велик.И он все еще растет.
По данным WorldWideWebSize, по состоянию на март 2021 года в Интернете более 5 миллиардов страниц.
И большинство из этих страниц не представляют особой ценности для пользователей Google. Интернет полон спама, дублированного контента и вредоносных страниц, содержащих вредоносное ПО и фишинговый контент.
Google научился избегать сканирования этих страниц, не говоря уже об их индексировании.
Веб-сайты становятся тяжелееСредний веб-сайт с каждым годом становится тяжелее.
Веб-сайты все больше зависят от JavaScript и современных медиаформатов, включая изображения и видео с высоким разрешением.
Хотя это открывает новые возможности для пользователей, Google необходимо обработать весь этот тяжелый код и получить доступ к этим тяжелым медиа, чтобы понять, о чем данная страница.
Поскольку все эти проблемы становятся только более серьезными, мы должны ожидать, что Google будет еще более требовательным при индексировании контента в будущем.
Выбор индекса
Поскольку Интернет слишком велик для того, чтобы Google мог его полностью проиндексировать, Google должен выбрать, какие страницы он хочет проиндексировать.
И, очевидно, Google хочет сосредоточиться на качественных страницах. Поэтому инженеры Google разработали механизмы, позволяющие избежать сканирования некачественных страниц.
Это означает, что Google может пропустить сканирование некоторых ваших страниц, потому что, просмотрев другой ваш контент, он предполагает, что это страницы низкого качества.
В этом сценарии ваши страницы выпадают из конвейера индексирования в самом начале.
Мы пытаемся распознавать повторяющийся контент на разных этапах нашего конвейера.С одной стороны, мы стараемся делать это, когда смотрим на контент. Это как после индексации — мы видим, что эти две страницы одинаковы, поэтому мы можем сложить их вместе.Но мы также делаем это, по сути, перед сканированием, когда мы смотрим на URL-адреса, которые мы видим, и на основе информации, которая у нас есть из прошлого, мы думаем: «Что ж, возможно, эти URL-адреса могут оказаться такими же, и затем складываем их вместе.
Данные, доступные благодаря Google Search Console, подтверждают, что это происходит очень часто. «Обнаружено — в настоящее время не проиндексировано» — одна из наиболее распространенных проблем при индексировании, обычно вызванная следующими причинами:
- Низкое качество (Google обнаружил общий шаблон и решил не тратить ресурсы на сканирование некачественного или дублированного контента).
- Недостаточный бюджет сканирования (у Google слишком много URL-адресов для сканирования и обработки их всех).
Подробнее о моем исследовании наиболее распространенных проблем индексации в Google Search Console я рассказал в статье на SearchEngineJournal.
Назначение приоритета URL-адресам
К запрошенным обходам URL-адресов применяются различные критерии. так, что менее важные обходы URL-адресов отклоняются раньше из структуры данных невыполненной работы.
источник: https://patents.google.com/patent/US8676783B1/en
Эта цитата предполагает, что Google назначает приоритет сканирования каждому URL перед сканированием. Но что более важно, в нем говорится, что менее важных URL-адресов отклоняются и могут никогда не просканировать!
Согласно этому патенту приоритет, присвоенный URL-адресам, может определяться двумя факторами:
- Популярность URL,
- Важность сканирования определенного URL для поддержания актуальности индекса Google.
ПатентПриоритет может быть выше на основе популярности контента или IP-адреса / доменного имени и важности поддержания свежести быстро меняющегося контента, такого как последние новости. Поскольку емкость сканирования является ограниченным ресурсом, емкость сканирования сохраняется с учетом оценок приоритета ».
источник: Метод и устройство для управления отложенным сканированием URL-адресов.
Google «Минимизация видимости устаревшего контента при веб-поиске, включая изменение интервалов сканирования документов» рассказывает о факторах, определяющих популярность данного URL: частоте просмотров и PageRank.
Но есть еще один фактор, который может заставить Google отказаться от сканирования ваших URL — ваш сервер. Если он медленно реагирует на сканирование, пороговое значение приоритета, которому должен соответствовать URL, увеличивается:
«Порог приоритета корректируется на основе обновленной оценки вероятности выполнения запрошенных обходов URL.Эта оценка вероятности основана на предполагаемой доле запрошенных обходов URL, которые могут быть удовлетворены.
Доля запрошенных обходов URL, которая может быть удовлетворена, имеет в качестве числителя средний интервал запроса или разницу во времени прибытия между запросами обхода URL.”
источник: Метод и устройство для управления отложенным сканированием URL-адресов.
Итак, что вы можете сделать со всей этой информацией? Как повысить вероятность того, что всем вашим URL-адресам будет присвоен высокий приоритет и они будут сканироваться роботом Googlebot без колебаний?
- Вам нужно максимально использовать внутренние ссылки, чтобы новые страницы имели достаточный PageRank.
- Недостаточно просто иметь карту сайта в формате XML, если вы хотите быстро проиндексировать свои новые страницы.
- Огромное количество некачественного контента может негативно повлиять на другие страницы вашего домена.
Если проблемы с индексированием — это не ваша вина: ошибки индексирования Google
Google Search — это действительно сложный механизм, состоящий из сотен (а может быть, даже больше) взаимосвязанных алгоритмов и систем. Там работают одни из самых умных программистов и математиков.
Однако, как и в любом программном обеспечении, в нем есть некоторые ошибки.
Насколько мне известно, самая известная ошибка индексации произошла 1 октября 2020 года.
В настоящее время мы работаем над решением двух отдельных проблем с индексированием, которые повлияли на некоторые URL-адреса. Один — с индексированием для мобильных устройств. Другой — с канонизацией, как мы обнаруживаем и обрабатываем дублированный контент. В любом случае страницы могут не индексироваться….
— Google SearchLiaison (@searchliaison) 1 октября 2020 г.
Это было действительно грубо, потому что Google удалил функцию индексирования запросов из консоли поиска Google всего за день до этого.
Через 2 недели было объявлено, что каноническая проблема была эффективно решена, и было восстановлено около 99% URL-адресов.
Позвольте мне указать на еще один интересный пример ошибки индексации Google.
Один из самых популярных издательских сайтов в области SEO, Search Engine Land, однажды был полностью деиндексирован Google.
Search Engine Land была деиндексирована, потому что … системы Google ошибочно обнаружили, что сайт был взломан.
Обычно Google информирует владельцев веб-сайтов об обнаружении таких проблем через Google Search Console. Однако команда SEL не получала никаких уведомлений ни в GSC, ни по электронной почте.
Говоря об этих случаях, я пытаюсь сказать, что индексирование — очень сложная система, и ошибки будут возникать время от времени.
Если что-то пойдет не так с большинством функций, которые он должен делать, это каким-то образом проявится ниже по течению. Если планирование идет неправильно, сканирование может замедлиться. Если рендеринг пойдет не так, мы можем неправильно понять страницы. Если создание индекса пойдет не так, это может повлиять на ранжирование и обслуживание
— Гэри 鯨 理 / 경리 Illyes (@methode) 11 августа 2020 г.
Диагностика индексации вашего веб-сайта
В качестве первого шага на пути к индексации вам следует проверить статистику индексирования вашего веб-сайта.
Вы ДОЛЖНЫ знать, сколько страниц не проиндексировано и почему.
Используйте Google Search Console
Лучше всего использовать Google Search Console, потому что в нем самые точные данные.
- Войдите в GSC и выберите недвижимость
- Щелкните Указатель-> Покрытие.
Отчет разделен на интуитивно понятные категории:
- Действует (проиндексированные страницы)
- Действительные (проиндексированные страницы, требующие вашего внимания)
- Исключенные страницы (URL-адреса, которые не проиндексированы).
- Страницы ошибок
Вы быстро заметите, сколько страниц вашего сайта проиндексировано. Вы можете еще больше сузить отчет, чтобы увидеть образец проиндексированных страниц.
Вы можете легко использовать этот отчет для диагностики проблем индексации. Я написал об этом статью.
Вы легко узнаете, сколько всего страниц:
- Индексировано
- Не проиндексировано из-за дублирования контента, проблем с качеством, ошибок сервера и т. Д.
GSC — это сокровище для всех, у кого есть веб-сайт.
Не используйте команду site:
Я не рекомендую использовать команду site: для проверки покрытия индекса.
Некоторые люди используют эту команду, чтобы узнать, сколько страниц их веб-сайтов проиндексировал Google.
Однако это не точный метод. Что еще более важно, он не скажет вам, почему некоторые страницы не могут быть проиндексированы. Консоль поиска Google будет.
Это не означает, что эта команда бесполезна.
Вы можете использовать его, чтобы получить приблизительную оценку того, сколько страниц у ваших конкурентов в индексе Google.Только помните, это не очень точно!
Глава 2Как убедиться, что ваши страницы проиндексированы Google
Теперь вы знаете, что индекс Google — это сложная система взаимосвязанных алгоритмов.
На каждом этапе конвейера индексации что-то может пойти не так, и это может быть даже не ваша вина.
Но есть кое-что, что вы можете сделать, чтобы максимизировать свои шансы на попадание в индекс Google.
1. Убедитесь, что страница индексируется.
Есть три вещи, на которые вам нужно обратить внимание, чтобы проверить, индексируема ли страница.
- На странице не может быть тега noindex
- Страница не может быть заблокирована файлом robots.txt
- На странице не может быть канонического тега, указывающего на другую страницу.
Давай копнем.
Noindex
Робот Googlebot — хороший гражданин Интернета.
Если вы скажете Google: «Эй, не индексируйте эту страницу», страница не будет проиндексирована. И есть много способов сделать это.
Наиболее известной является директива noindex.
Это директива, показывающая, что Google может посещать страницу, но страницу не следует включать в индекс Google.
Существует два способа использования директивы noindex :
- Вы можете поместить его в HTTP-заголовок тега X-Robots
- Вы можете поместить его в исходный код с классическим < meta name = ”robots” content = ”noindex” />
Файл Robots.txt
Файл robots.txt может использоваться для предоставления инструкций различным поисковым роботам, сообщая им, должны ли они получить доступ к вашему веб-сайту или его частям.
Вы можете использовать роботов.txt, чтобы Google не сканировал страницу или несколько страниц вашего сайта с помощью директивы disallow .
Это блокирует Google от посещения страницы и индексации ее содержания.
Канонический тег
Наконец, не следует ожидать, что Google проиндексирует вашу страницу, если в ее исходном коде есть канонический тег , указывающий на другую страницу.
Канонические теги — это способ сообщить Google о предпочитаемой вами версии страницы, когда на вашем веб-сайте много повторяющихся или почти повторяющихся версий одной и той же страницы.
Они пригодятся, когда по какой-либо причине у вас есть дублированный контент на вашем сайте, но вы хотите объединить сигналы ранжирования и позволить Google индексировать и оценивать одну главную версию страницы.
Отсюда следует, что если на странице вашего веб-сайта есть канонический тег, указывающий на другую страницу, Google не проиндексирует ее.
Как сразу проверить noindex, директиву robots.txt и канонический тег
по URL-адресу
Ручная проверка страницы на наличие трех упомянутых выше факторов занимает много времени.Более того, это подвержено ошибкам!
Итак, если вы хотите быстро проверить, индексируется ли страница, используйте плагин SEO Minion. Он доступен для Chrome и Firefox.
SEO Minion сообщит вам о причинах, по которым данная страница не индексируется.
Навалом
Если вы хотите проверить большее количество URL-адресов, лучше всего использовать поисковый робот, например Screaming Frog.
Первый — установите режим «Список».
Во-вторых, вставьте список URL-адресов в инструмент.
Затем нажмите «Пуск».
После завершения проверки проверьте столбец индексируемость . Вы увидите два результата, которые не требуют пояснений: индексируемый / неиндексируемый.
Теперь вы должны знать, индексируются ли ваши страницы. Поздравляю!
Но это только начало.
2. Помогите Google более эффективно сканировать ваш веб-сайт
Google должен уметь находить ссылки на ваши важные страницы, просто сканируя ваш сайт.
Однако все становится сложнее, когда у вас огромный веб-сайт с тысячами страниц. Есть несколько способов помочь Google обнаруживать ваши URL-адреса и быстрее их сканировать.
Sitemap.xml
XML Sitemap — это файл, который должен содержать ссылки на все индексируемые страницы вашего веб-сайта.
Вот что Google говорит о файлах Sitemap:
Поисковые системы, такие как Google, читают этот файл, чтобы более разумно сканировать ваш сайт. Карта сайта сообщает Google, какие страницы и файлы, по вашему мнению, важны для вашего сайта, а также предоставляет ценную информацию об этих файлах: например, для страниц, когда страница была обновлена в последний раз, как часто страница менялась, и любые версии на других языках. страницы.
Таким образом, вы можете использовать карты сайта, чтобы сообщить Google о страницах, которые вы определенно хотите проиндексировать.
Кроме того, вы можете использовать его, чтобы сообщить Google, когда ваши страницы были изменены с помощью параметра
Атрибут Sitemap | Поддерживается ли в Google? |
lastmod | поддерживается |
частота смены | Не поддерживается |
приоритет | Не поддерживается |
Обратите внимание, что если вы чрезмерно используете параметр
Добавляйте в карту сайта только ценные URL!
Как я упоминал ранее, карты сайта помогают Google более разумно сканировать ваш сайт.
Но если вы используете их неправильно, они могут нанести вред вашему сайту.
Позвольте мне показать вам это на примере: GoodReads, очень популярный бренд.
Я проверил их индексирование, просмотрев образец их URL из карты сайта.
Оказалось, что проиндексировано только 35% их товарных страниц. Я был шокирован, так как знаю, что это очень качественный веб-сайт. Я сам им пользуюсь, и мне это нравится.
Затем я заметил, что в проверенной мной выборке книг не было. И я решил — давайте скачаем все их карты сайта.
Результат: на их картах сайта не было страниц с книгами.
Почему это плохой знак?
Google может отдавать приоритет URL-адресам, найденным в картах сайта, и пропускать посещение страниц книг, которые на самом деле являются наиболее ценными.
Рекомендация:
Убедитесь, что в файлах Sitemap перечислены только канонические ценные страницы.
Создайте и отправьте карту сайта
После того, как вы создадите карту сайта, вы должны отправить ее в инструмент Sitemaps в Search Console.
Google может найти его самостоятельно, но это может занять время.
Когда дело доходит до создания карты сайта, это несложно.
Вам не нужно создавать файл Sitemap самостоятельно. Для этого есть много специальных инструментов.
Например, YoastSEO генерирует его автоматически, если вы используете WordPress.Большинство поисковых роботов SEO также предлагают эту функцию.
Конечно, вы также можете создать файл карты сайта самостоятельно, но не забывайте регулярно обновлять его, иначе у вас возникнут проблемы.
Инструмент для отправки URL
Если вы хотите, чтобы Google быстро проиндексировал вашу страницу, вы можете использовать инструмент проверки URL в консоли поиска Google.
Для этого при проверке страницы в инструменте проверки URL-адресов щелкните «Проверить действующий URL-адрес».
Раньше этот инструмент был надежным и быстрым — он работал как шарм.
После того, как вы запросите индексацию, Google проиндексирует страницу в течение 5 минут. Он даже может проиндексировать некоторый некачественный контент, который в противном случае трудно было бы проиндексировать.
Но все изменилось. Теперь индексация требует времени, даже если вы используете функцию отправки URL.
Итак, если вы хотите, чтобы Google действительно быстро проиндексировал ваш сайт, не стоит полагаться на него.
И этой функции просто недостаточно, если у вас есть сотни страниц, которые вы хотите проиндексировать, потому что существует дневной лимит URL-адресов, которые вы можете отправить для каждого ресурса GSC.
Скорее, вы должны следовать нашей структуре индексирования.
В качестве примечания: если вы хотите, чтобы новая страница или просто часть информации была проиндексирована очень быстро , опубликуйте ее в социальных сетях. Твиты обычно индексируются невероятно быстро.
Индексирование API
Как и Bing, у Google есть API индексирования. Вы можете использовать его, чтобы пинговать Google о добавленных, удаленных или измененных URL-адресах и «заставить» Google быстрее обнаруживать ваш контент.
В документации Google говорится, что это быстрее, чем если бы вы использовали другие способы отправки URL.
Indexing API предлагает роботу Googlebot сканировать ваши страницы раньше, чем обновлять карту сайта и проверять связь с Google. Однако мы по-прежнему рекомендуем отправлять карту сайта для покрытия всего вашего сайта.
Звучит слишком хорошо, чтобы быть правдой, правда?
Да, есть загвоздка.
На данный момент вы можете отправлять только два типа страниц.
В настоящее время API индексирования можно использовать только для сканирования страниц сJobPosting
илиBroadcastEvent
, встроенным вVideoObject
.Для веб-сайтов с множеством недолговечных страниц, таких как объявления о вакансиях или видео в прямом эфире, Indexing API сохраняет актуальность контента в результатах поиска, поскольку позволяет отправлять обновления по отдельности.
Будущее индексации?
Google Indexing API ограничен двумя типами страниц.
Однако Google заигрывает с идеей позволить Indexing API работать для всех страниц. Wix и YoastSEO были компаниями, которые помогли Google провести эти тесты.
Будущее инструмента неизвестно. Однако я знаю, что API индексирования Bing позволяет владельцам веб-сайтов отправлять URL-адреса без каких-либо ограничений, и, похоже, для них это работает.
Вот что Кристи Олсон, которая в настоящее время возглавляет отдел поисковой рекламы Microsoft в Bing, сказала об API индексирования. Она (и ее команда) считают, что отправка URL помогает повысить эффективность сканирования.
Внутренняя ссылка
Важным аспектом SEO, который имеет прямое влияние на индексацию, является внутренняя ссылка.
Следует четко указать, что наличия URL-адреса в карте сайта недостаточно, чтобы гарантировать, что Google сможет сканировать и индексировать его.
Когда дело доходит до внутренней перелинковки, я руководствуюсь двумя правилами:
- Избегайте бесконечной прокрутки.
- Нет канонических тегов, указывающих на первую страницу разбивки на страницы.
Конечно, из этих правил есть исключения. Но если вы не уверены, что то, что вы делаете, сработает, придерживайтесь моих правил!
Управляйте внутренней связью
Исходя из моего опыта, широко распространена следующая ситуация: страница есть в карте сайта, но не может быть найдена в структуре вашего сайта.Мы называем такие страницы сиротскими страницами.
Одним из инструментов, которые вы можете использовать для поиска потерянных страниц на своем сайте, является Sitebulb. Sitebulb отлично справляется со своей задачей и использует карту сайта XML в качестве справочной информации и данные из Google Analytics и Google Search Console.
Он предоставит вам список потерянных страниц (тех, которые были обнаружены в карте сайта или где-либо еще, но не могут быть доступны, щелкая по вашему сайту).
Идеи для улучшения вашей внутренней перелинковки
Возможно, вы ищете способы улучшить свои внутренние ссылки и помочь Google более тщательно сканировать и индексировать ваш сайт.
Вот несколько идей, на которые стоит обратить внимание:
- Вкладка сопутствующих товаров
- Самые популярные товары
- сообщений в блоге.
Написание качественного контента идеально соответствует вашей цели улучшения внутренних ссылок, а также дает вам шанс заработать несколько внешних ссылок. Это беспроигрышный вариант!
Проблемы JavaScript — внутренняя ссылка
В течение многих лет у Google были проблемы с индексированием веб-сайтов на JavaScript.
Сначала, когда-то Google вообще не мог иметь дело с веб-сайтами на JavaScript.
Потом стало лучше, но Google использовал для рендеринга крайне устаревший браузер.
По состоянию на 2021 год ситуация резко улучшилась. Google может отображать современный JavaScript без особых усилий (хотя при чрезмерном использовании он может замедлить сканирование, не говоря уже о его влиянии на производительность в Интернете!).
Однако Google по-прежнему работает с JavaScript не идеально, и мы часто виноваты в этом разработчикам.
Самая распространенная проблема — бесконечная прокрутка, неправильно настроенная с помощью JavaScript.
Многие веб-сайты неправильно используют нумерацию страниц, не используя правильную ссылку. Вместо этого они используют разбиение на страницы, которое зависит от действия пользователя — щелчка . Другими словами, робот Googlebot должен будет нажать кнопку ( Просмотреть больше элементов ), чтобы перейти к последовательным страницам.К сожалению, робот Googlebot не прокручивает и не нажимает кнопки. Единственный способ позволить Google увидеть вторую страницу разбивки на страницы — использовать правильные ссылки .
Бартош Горалевич написал о рендеринге SEO и всех опасностях, связанных с неоптимизированным JavaScript и процессом рендеринга в своем Манифесте рендеринга SEO.
Вы должны знать, что JavaScript никуда не денется — все больше и больше элементов на странице создается с использованием этого языка.
Плохая внутренняя ссылка может навредить вашему сайту
Еще в 2019 году мы заглянули на сайт Verizon.
55% страниц их продуктов не были проиндексированы в Google.
Одной из возможностей такого низкого коэффициента индексации было широкое использование JavaScript.
Их веб-сайт в значительной степени полагался на JavaScript для внутренних ссылок.
Мы предположили, что Google не отображал JavaScript на некоторых страницах, потому что не думал, что это существенно изменит содержание страницы.
А веб-сайт Verizon без обработанного JavaScript был совершенно другим веб-сайтом, , что, вероятно, было причиной того, что 55% страниц их продуктов не индексировались.
Сопутствующие товары
Я упомянул связанные элементы как одну из стратегий, которые вы можете использовать для увеличения количества внутренних ссылок.Но есть загвоздка.
Обычно мы видим, что , когда ваши связанные элементы на самом деле не связаны, Google может их не проиндексировать.
Я говорил об этой самой проблеме в прошлом году с Мартином Сплиттом, защитником веб-разработчиков в Google. Мы открыто говорили об образце, который я использовал для своих тестов, и о методологии наших экспериментов.
Мартин был удивлен статистикой и предложил свою теорию (в то время у него не было данных, которыми можно было бы поделиться), что фаза рендеринга в большинстве случаев идеальна, но затем что-то в фоновом режиме мешает ее индексации .
Он привел пример магазина, где продаются аксессуары для кошек, и некоторые из «связанных товаров» предназначены не для кошек, а для собак.
Принимая во внимание эту гипотезу, если Google заметит, что связанные элементы не связаны между собой, они могут быть пропущены при индексировании, а это означает, что Google не увидит эти ссылки.
Если это так, то это имеет серьезные последствия. Если в интернет-магазине плохая система предложений сопутствующих товаров, он проигрывает на двух уровнях:
- Прежде всего, вы теряете возможность рекламировать релевантные товары вашим клиентам.
- Во-вторых, Google может не проиндексировать ваши внутренние ссылки, что снижает ваш рейтинг PageRank и структуру вашего веб-сайта.
Внешняя ссылка
Некоторые люди зацикливаются на получении внешних ссылок неестественными способами, что является важной частью черного SEO.
Даже если вы думаете, что это сработает на короткий срок, Я обещаю: в конце концов вы поймете, что зря теряете время.
По мере того, как Google становится «умнее», эти ссылки становятся все более излишними.
Наш сайт является примером того, как вы можете получить внешние ссылки, ведущие на ваш сайт совершенно естественным образом.
С первого дня мы сосредоточились на написании высококачественного контента, который поможет другим.
Вот и все. Мы пишем и публикуем, а когда все готово, продвигаем в наших социальных сетях.
Если вы хотите увидеть пример, вот мое полное руководство по JavaScript SEO.
Многие другие веб-сайты в нашей отрасли используют ту же стратегию, а некоторые, вероятно, имеют даже лучшие результаты.
Если вы хотите тратить время на создание ссылок помимо простого написания хорошего контента, сосредоточьтесь на следующем:
- PR: обратитесь к людям, которые могут быть заинтересованы в вашем контенте, и попросите их разместить его на своих сайтах.
- Гостевой блог: поделитесь своим опытом на других веб-сайтах. Вы получите ссылки и трафик, но, что более важно, вы создадите свой бренд в долгосрочной перспективе.
Не весь контент следует индексировать
Может показаться удивительным в руководстве по индексации, но не стоит стремиться к тому, чтобы Google проиндексировал весь ваш контент.
Вы должны знать, что индексирование некачественного контента может на самом деле нанести вред вашему сайту.
Некоторое время назад я написал статью, в которой анализировал, почему популярные веб-сайты, такие как Instagram, Giphy или Pinterest, внезапно потеряли 40-50% своей SEO-видимости.
Я случайно обнаружил, что эти сайты сильно потеряли видимость примерно в то же время, когда проходили через один из инструментов SEO.
Это выглядело интересно, поэтому я попытался найти общие закономерности.И я нашел одну.
Многие страницы тегов / поиска с этих сайтов раньше имели высокий рейтинг. А потом их деиндексировали, вот так.
Почему? Я бы назвал это «коллективной ответственностью». Я думаю, что Google решил, что есть много некачественных страниц этой категории, которые занимают индекс, и… деиндексировал ВСЕ из них.
Но когда возникает эта проблема, она не заканчивается на этом.
Это замкнутый круг:
- Google сканирует некачественные страницы.
- Google перестает посещать сайт так часто.
- Многие страницы никогда не сканируются Google, даже если они качественные.
- Есть ценные страницы, которые не проиндексированы.
Это показывает, как ранжирование, сканирование и индексирование взаимосвязаны.
Могут ли сканеры найти ваш контент?
Ваш контент скрыт за формами входа?
Если вы требуете от пользователей входа в систему, заполнения форм или ответов на опросы перед доступом к содержанию, поисковые системы не увидят его. Сканер точно не войдет в систему.
Вы полагаетесь на формы поиска?
Роботы не могут использовать формы поиска. Некоторые люди считают, что если они разместят на своем сайте окно поиска, поисковые системы найдут все, что ищут их посетители. Прошу прощения, этого не произойдет.
Скрыт ли текст в нетекстовом содержимом?
Нетекстовые форматы мультимедиа (изображения, видео, GIF и т. Д.) Не должны использоваться для отображения текста, который вы хотите проиндексировать. Хотя поисковые системы все лучше распознают изображения, нет гарантии, что они прочитают и поймут текст на изображениях.Всегда лучше иметь любой текст, который нужно проиндексировать, в разметке HTML вашей веб-страницы.
Могут ли поисковые системы следить за навигацией по вашему сайту?
Подобно тому, как сканеру необходимо обнаруживать ваш сайт по ссылкам с других сайтов, ему нужен путь ссылок на вашем собственном сайте, чтобы вести его от страницы к странице.
Если у вас есть страница, которую вы хотите найти для поисковых систем, но на нее нет ссылок с других страниц, она почти невидима. Многие сайты совершают критическую ошибку, структурируя свою навигацию способами, недоступными для поисковых систем, что ограничивает их способность индексироваться.
У вас чистая информационная архитектура?
Информационная архитектура — это практика организации и маркировки контента на веб-сайте для повышения эффективности и доступности для пользователей. Хорошая информационная архитектура интуитивно понятна, а это означает, что пользователям не нужно много думать, чтобы пройти через ваш сайт, чтобы что-то найти.
Распространенные ошибки навигации, из-за которых сканеры не могут найти ваш контент:
- Наличие мобильной навигации, результаты которой отличаются от результатов навигации на рабочем столе.
- Любой тип навигации, в которой элементы меню отсутствуют в HTML, например навигация на основе JavaScript.
- Персонализация или отображение уникальной навигации для определенного типа посетителей может рассматриваться Google как маскировка.
Еще кое-что, что вам следует знать об индексировании
Это были основы, которые должен знать практически каждый владелец веб-сайта.
Но поскольку это полное руководство, в этой главе будут рассмотрены некоторые из наиболее сложных аспектов индексирования.
Международный SEO
Ниже вы можете найти несколько примеров международных веб-сайтов, у которых есть проблемы с индексацией.
Сайт | Количество языковых версий | % проиндексированных страниц |
Deezer.com | 36 | 96% |
Victoriassecret.com | 214 | 85% |
Yoox.com | 32 | 50% |
android.com | 31 | 50% |
only.com | 31 | 65% |
Что происходит, когда у вас есть интернет-магазин на нескольких языках?
Например, вы предлагаете свою продукцию людям от:
- США: example.com/us
- Великобритания: example.com/uk
- Австралия: example.com/au
Google видит дублированный контент, доступный по разным URL-адресам.Обычно он выбирает каноническую версию и только ее индексирует.
Вот где появляется тег hreflang.
Вы можете использовать его, чтобы сообщить Google о нескольких языковых версиях вашего сайта.
Если это звучит сбивающе с толку, вы можете больше узнать об этом в моем «Полном руководстве по международному SEO».
Индексирование для мобильных устройств
По состоянию на март 2021 года все веб-сайты подпадают под индексирование Mobile-First.
Если MFI — новое понятие для вас, позвольте мне вкратце объяснить его:
Теперь Google сканирует мобильную версию вашей страницы и использует найденную там информацию для ранжирования.
Итак, ваша мобильная версия сканируется, индексируется и оценивается.
Запретить Google индексировать конфиденциальные данные
До сих пор я в основном обсуждал случаи, когда Google не хочет индексировать контент. Но также может случиться так, что Google проиндексирует больше, чем вы хотите.
Будьте осторожны, когда публикуете такие вещи:
- Телефон
- Адрес
- Эл. Почта
- Прочая конфиденциальная информация
Помните, что файлы PDF, доски Trello, открытые FTP-серверы также могут быть проиндексированы Google.
В Trello, модном решении для управления проектами, есть два типа опций: вы можете сделать проект частным или публичным.
И поскольку многие доски Trello являются общедоступными, многие доски Trello были проиндексированы Google.
В конце концов, Trello позволяет Google легко их находить, помещая их в карты сайта.
Будьте осторожны, публикуя конфиденциальные данные в Интернете, потому что удаление содержания из индекса Google также требует времени.
Это подводит меня к следующему пункту.
Как удалить контент из Google?
Вы можете запросить удаление содержания из Google по юридическим причинам.
Все, что вам нужно сделать, это заполнить форму, как описано в этом видео.
Эта функция может пригодиться, когда кто-то копирует ваш контент и публикует его на своем собственном веб-сайте.
Производительность имеет значение
Web Performance — фактор ранжирования для Google. Но это выходит за рамки данной статьи.
Я хочу здесь поговорить о том, что есть свидетельства того, что Google реже сканирует медленные страницы. И меньше сканирования означает меньше индексации. Простой.
Предел емкости сканирования может увеличиваться или уменьшаться в зависимости от нескольких факторов:
- Состояние сканирования: Если сайт в течение некоторого времени реагирует быстро, предел увеличивается, а это означает, что для сканирования можно использовать больше подключений. Если сайт замедляется или отвечает ошибками сервера, лимит снижается, и робот Googlebot меньше сканирует.
- Ограничение, установленное владельцем сайта в Search Console : Владельцы веб-сайтов могут при желании уменьшить количество сканирований своего сайта роботом Googlebot. Обратите внимание, что установка более высоких лимитов не приведет к автоматическому увеличению сканирования.
- Пределы сканирования Google : У Google много машин, но не бесконечное количество машин. Нам все еще нужно делать выбор, используя имеющиеся у нас ресурсы.
Итак, если вы заметили, что Google сканирует ваш сайт реже или интенсивнее, чем раньше, возможно, виноват ваш сервер.Уменьшение времени отклика сервера должно позволить Google сканировать быстрее.
Глава 4FAQ
А теперь самое время задать вопросы
Надеюсь, я рассмотрел большинство из них, но если вы все еще думаете о чем-то, дайте мне знать!
Что такое индексация в SEO?
Индексирование — это процесс сохранения веб-страниц в индексе — базе данных поисковой системы. Индексирование — это последний этап конвейера, который должна пройти каждая веб-страница, чтобы ее можно было извлечь и отобразить для пользователей поисковых систем, когда их запросы имеют отношение к содержанию данной страницы.
Чтобы проиндексировать в Google, каждая страница (за редкими исключениями) должна быть сначала найдена роботом Googlebot, просканирована и обработана, чтобы Google мог проанализировать ее содержание.
Могу ли я поместить «noindex» в robots.txt?
Это была недокументированная функция робота Googlebot. Пока что не работает.
Как я могу использовать GSC для поиска проблем с индексацией?
- Проверьте количество проиндексированных страниц.
- Проверить, проиндексирована ли данная страница.
- Проверьте, почему страница не проиндексирована.
- Найдите интересную статистику сканирования.
Будет ли команда site: показывать мне все проиндексированные страницы?
В документации Wix (Wix — популярная система управления контентом) я нашел следующий фрагмент:
«Чтобы узнать, был ли ваш сайт проиндексирован поисковыми системами (Bing, Google, Yahoo и т. Д.), Введите URL-адрес вашего домена с« site : »перед ним, то есть« site : mystunningwebsite.com. ” В результатах отображаются все проиндексированные страницы вашего сайта и текущие метатеги, сохраненные в индексе поисковой системы.”
Это неправда. Site: website.com не покажет вам все проиндексированные страницы, и у меня есть гигабайты данных, чтобы это подтвердить.
Показывает вам всего лишь образец страниц с разной точностью.
Могу ли я использовать Google Cache, чтобы проверить, как Google проиндексировал мою страницу?
Это один из моих любимых мифов.
Я не хочу обсуждать это подробно, потому что у нас есть отличная статья по этой теме.
TL; DR: хотя Google Cache очень полезен, не полагайтесь на него в этом контексте.
Некоторые страницы больше не индексируются?
Я заметил, что есть типы веб-сайтов, наиболее подверженные проблемам индексации:
- Большие, быстро меняющиеся веб-сайты.
- Международные сайты.
- магазина электронной коммерции, которые копируют контент от производителя.
- веб-сайтов на JavaScript.
- Новые сайты (!!!).
Однако, как показывает моя статистика, даже небольшие веб-сайты с URL-адресами до 10 тыс. Часто могут иметь проблемы с индексированием.
Достаточно ли карты сайта для сканирования и индексации?
Обычно, особенно в случае больших веб-сайтов, карты сайта недостаточно. Google не может сканировать страницу, если может найти ссылку только в карте сайта. Чтобы помочь вашим страницам достичь порога приоритета сканирования, используйте внутренние ссылки.
Можно ли проиндексировать страницы, заблокированные в robots.txt, в Google?
Да. Google может найти ссылки на эти страницы на других страницах. Просто загуглите «Google Jamboard.”
Можно ли удалить страницу из индекса Google?
Иногда может случиться так, что страница проиндексируется Google, ранжируется по выдающимся ключевым словам, а затем внезапно деиндексируется. Причин тому может быть много:
- Страница возвращает ошибки 4xx или 5xx.
- URL имеют метатег noindex.
- Робот Googlebot не может получить доступ к странице (заблокирован файлом robots.txt или аутентификацией по паролю).
- Google решил, что это дублированный контент.
- Страница больше не соответствует стандартам качества Google (особенно после основных обновлений).
- Google решил, что недостаточно места для его хранения, и освободил место для более важных страниц.
Как я могу узнать, деиндексировал ли Google мою страницу?
Вам следует посетить отчет Просканировано — в настоящее время не проиндексировано в консоли поиска Google.
Однако в этом отчете будут показаны два типа URL-адресов:
- URL-адреса, которые были деиндексированы
- URL ЕЩЕ НЕ проиндексированы (могут быть проиндексированы в будущем).
В чем разница между просканировано — в настоящее время не проиндексировано и обнаружено — в настоящее время не проиндексировано?
Я вижу, что многие задают этот вопрос. Это очень легко; Я объяснил это в таблице ниже:
Google обнаружил это | Google посетил его | Google проиндексировал это | |
Просканировано — в настоящее время не проиндексировано | Есть | Есть | На данный момент — нет. |
Обнаружено — в настоящее время не индексируется | Есть | № | № |
Как часто Google сканирует мой веб-сайт?
Google Search Console предлагает некоторые данные, которые помогут вам ответить на этот вопрос.
- Войдите в Google Search Console.
- Перейдите к «Сканирование» -> «Статистика сканирования».
Вы также можете узнать, как часто Google сканирует ваш веб-сайт, проанализировав файлы журнала вашего веб-сайта, но это требует определенных знаний.
Стоит отметить, что Google определяет, как часто им следует сканировать ваш сайт, используя краулинговый бюджет вашего сайта.
Как проверить, проиндексирован ли образец страниц?
В предыдущей части статьи я объяснил, как проверить, сколько страниц вашего сайта не проиндексировано и почему.
Но как проверить, проиндексирован ли конкретный образец?
Самый простой и точный способ — использовать инструмент проверки URL.
Таким образом, вы можете изучить другие страницы вашего сайта.Однако, проверив около 100 URL-адресов, вы превысите дневную квоту.
Чтобы проверить больше URL, вам необходимо использовать отчет об индексировании в Google Search Console.
Имейте в виду, что в этом отчете доступно до 1000 URL-адресов. Так что если у вас большой веб-сайт, этот метод также не решит вашу проблему полностью.
В одной из моих статей «Диагностика проблем индексации с помощью GSC» я написал об обходном пути, который можно использовать для обхода ограничения в 1000 URL-адресов.
Другой способ — использовать Google Analytics или Google Search Console.
Вы можете экспортировать список страниц, которые получили более 0 посещений из Google.
Если страница получает трафик от Google, она индексируется. Однако вы должны быть осторожны — тот факт, что страница не получает трафика, не обязательно означает, что страница не проиндексирована.
Что означает индексирование Mobile-First?
С этого момента все веб-сайты сканируются, индексируются и ранжируются в первую очередь на основе их мобильных версий.
Мой сайт не проиндексирован. Каковы возможные причины?
- Ваш веб-сайт новый, и у Google еще не было возможности его посетить.
- Нет внешних ссылок с других веб-сайтов — Google может быть не уверен, достаточно ли хорош ваш веб-сайт.
- У вас есть технические проблемы или код, который блокирует доступ робота Googlebot к вашему контенту.
- Ваш сайт оштрафован Google.
- Ваша внутренняя ссылка требует некоторой доработки.
- У вас много некачественного, тонкого контента.
Индексирование ≠ рейтинг
В заключение, я должен подчеркнуть, что индексирование очень важно, но не ранжирование. Страница может быть проиндексирована без ранжирования по каким-либо ключевым словам.
Если у вас большой веб-сайт, у вас, вероятно, есть страницы, которые получают почти ноль кликов и показов — просто поищите их в своей учетной записи Google Search Console!
Ранжирование и получение трафика — последний и самый полезный шаг на пути к поисковой оптимизации. Но помните, что сканирование, индексирование и ранжирование принадлежат одному конвейеру и полностью взаимосвязаны.
- Google не все индексирует .Статистика потрясающая. 16% ценных индексируемых страниц не индексируются.
- В то же время многие крупные веб-сайты полностью проиндексированы; оптимизированный веб-сайт легче проиндексировать Google.
- Индексирование намного сложнее, чем убедиться, что на странице нет тега noindex или она не заблокирована файлом robots.txt.
- Веб-сайты электронной коммерции особенно подвержены проблемам с индексированием.
- веб-сайты на базе JavaScript — не единственные, которые могут страдать от проблем с индексированием.
- Уникальный контент помогает индексировать, в то время как дублированный контент усложняет задачу.
- Google Search Console — важный инструмент для диагностики проблем с индексированием.
- Поскольку Интернет растет, мы должны ожидать, что Google будет еще более требовательным при индексировании контента в будущем.
- Наличие URL-адреса в карте сайта недостаточно для индексации страницы Google.
- Не стоит стремиться к тому, чтобы каждая страница проиндексировалась Google. Индексирование некачественных страниц может нанести вред вашему трафику.
- Ранжирование и индексирование тесно связаны с сканированием и обнаружением новых страниц.
- Google может «судить» о странице, не просматривая ее, просматривая другие страницы вашего сайта.
Вам понравилась эта статья? & nbsp
Как проверить, проиндексирован ли URL в Google с помощью Google Search Console
Использование раздела покрытия в Google Search Console, чтобы узнать, проиндексирован ли ваш URL
[Стенограмма видео]
Всем привет и спасибо, что присоединились ко мне.
Сегодня мы поговорим о том, как увидеть URL-адреса, которые вы отправили и проиндексированы в Google. Итак, если я просто перейду в свою учетную запись в консоли поиска Google, я бы щелкнул по левой стороне в зоне покрытия, под индексом. И тогда вы увидите, что ошибки проверяются по умолчанию, когда я действительно хочу проверить, действительно ли здесь.
Затем я снимал флажок с поля с ошибками, а затем прокручиваю вниз, чтобы отправить индекс, и я вижу 113 страниц, которые были отправлены, и когда они в последний раз сканировались и являются частью индекса.
Хорошо, так что опять же в покрытии я также вижу исключенные, а затем вы можете видеть страницы с перенаправлениями или исключенные. Кроме того, есть определенные типы, на которые я могу нажимать.
Итак, допустим, я хочу увидеть страницы с программным кодом 404. Здесь вы можете увидеть несколько страниц, на которых было установлено программное обеспечение на моем сайте в последний день, когда их пытались сканировать.