Узнать количество проиндексированных страниц в Гугле
Игорь СеровSEO Googlegoogle, Search Console, алгоритм поисковых систем, индексация сайта, поисковая выдачаОт автора
Важно следить за количеством проиндексированных страниц сайта. Резкий рост и резкое снижение страниц в индексе, означает, что на сайте существуют проблемы или ошибки которые решать и исправлять.
Способы узнать количество проиндексированных страниц в Гугле
Способ 1. Search Console
Чтобы следить за всеми показателями сайта в поиске Google, нужно зарегистрировать сайт Search Console, – сервисе для комплексного анализа показателей сайта в поиске Гугле.
После регистрации, подтверждении прав на сайт и выполнении необходимых настроек, сервис должен набрать статистику по сайту, в том числе показать, сколько страниц есть в индексе Гугле.
Посмотреть количество и их список можно на вкладке Индекс Google>>>Статус Индексирования.
На диаграмме страницы сервис покажет динамику индексации страниц за год в двух вариантах: Только основные и Расширенные данные.
Основные данные показывают количество страниц в индексе и график индексации по месяцам за год.
Расширенные данные покажут, сколько страниц закрыты от сканирования в файле robots.txt, и сколько страниц вы сами удалили из индекса за текущий год.
Важно! Резкое снижение и резкое увеличение страниц в индексе Гугле, не связанное с вашими действиями на сайте, может говорить о проблемах.
Например, резкое увеличение может говорить о взломе сайта, автоматическим созданием контента, большим количеством дублей. Резкое снижение, говорит, о невозможности Гугле сканировать часть вашего контента или санкциях наложенных новым алгоритмом.
Как говорит сам Google в своих рекомендациях:
Стремитесь к стабильным показателем роста страниц в индексе. Стабильный рост просканированных и проиндексированных страниц сайта говорит, что Гугле регулярно получает доступ к содержанию и индексирует ваш ресурс.
Информация Search Console доступна только после подтверждения прав на сайт, а значит, не всегда доступна и не может использоваться для анализа сайтов конкурентов.
Как в этом случае узнать количество проиндексированных страниц в Гугле?
Способ 2. Язык запросов
Общее количество (приблизительное) проиндексированных страниц сайта можно получить сразу в выдаче Google, сделав такие запросы:
- site:www.example.ru
- site:example.ru
- site:https://www.example.ru
- site:https://example.ru
- site:http://www.example.ru
- site:http://example.ru
, в которых example.ru нужно поменять на свой домен. Без пробелов.
Нажав на кнопку «настройки» внизу поиска можно посмотреть, какие страницы поисковик проиндексировал за час, 24 часа, неделю, месяц.
Второй способ не очень корректный и дает выдачу со всеми страницами, где есть ваш сайт. Включая соцсети, сервисы проверок и т.д. Более точную информацию по количеству проиндексированных страниц в Гугле может дать одно из специальных расширений браузера.
Способ 3. Расширения для браузера
Приведу один пример такого расширения. Оно дает подробную информацию о состоянии сайта с точки зрения оптимизации и индекса. Это расширений под названием «RDS bar».
- Вот его ссылка для Google: //chrome.google.com/webstore/detail/rds-bar-seo-pagerank-dmoz/jlipcaflaocihnmlhnhcfombgmmfglho
- Вот его ссылка для Mozilla: https://addons.mozilla.org/ru/firefox/addon/rds-bar/
- Вот его ссылка для Opera: https://addons.opera.com/ru/extensions/details/rds-bar/
Это расширение для браузеров, в один клик покажет сколько на любом сайте проиндексировано страниц.
Примечание: расширение RDS я показал для примера. Есть аналогичные, такие же мощные расширения и расширения менее функциональные, которые помогут быстро посмотреть индекс сайта и не только в Гугле. Например, SEO Quake (https://www.seoquake.com/index.html).
Это полезно
Если вам нужно моментально узнать есть ли домен или отдельная страница в индексе, используйте Букмарклеты —Java Script программы, оформленные в виде «javascript:URL», сохраняемая как закладка браузера.
Имея такой букмарклер, вы моментально посмотрите есть открытая страница сайта в Индексе.
Вот “буки” от Netpeak: http://img.netpeak.net/melik/index-check.html?_ga=2.163131836.1475269850.1519456507-549606374.1519456507
Их нужно положить в панель закладок вашего браузера и нажать на открытой странице сайта.
Вывод
Каждый веб мастер выбирает инструменты под себя и для выполнения своих задач. Однако надеюсь, что эта статья была полезна, и вы без труда узнать количество проиндексированных страниц в Гугле вашего сайта и сайта ваших конкурентов.
Похожие записи:
Как проиндексировать сайт в гугл максимально быстро
В этой статье мы расскажем как проиндексировать сайт в гугл за минимально возможное время.
- Что такое индексирование Google и как оно работает?
- Как проверить, проиндексировал ли Google ваш сайт?
- Создайте и отправьте в поисковые системы файл Sitemap
- Удалите теги Nofollow для внутренних ссылок
- Удалите ненужные теги Noindex
- Проверьте Robots. txt на наличие блокировки поискового сканирования
- Блокируйте или перенаправляйте веб-страницы низкого качества
- Убедитесь, что нет дублирования веб-страниц
- Поделитесь своим контентом в социальных сетях
- Получите качественные обратные ссылки
- Создание мощных внутренних ссылок
Индексирование – добавление сайта и его страниц в базу данных Google. Благодаря чему ваш сайт отображается в результатах поиска.
Поисковик обнаруживает новый контент на сайте, переходя по различным гиперссылкам. Найдя новые веб-страницы, Google добавляет их в свою базу данных.
Есть два простых способа узнать, проиндексировал ли сайт в Google:
- Выполнить поиск в Google.
- Используя операторы поиска Google. Например, site:www.example.com. Также можно ввести URL-адрес веб-страницы: site:www.example.com/your-web-page.
Кроме этого можно использовать Google Search Console, чтобы проверить статус индексирования конкретных веб-страниц (инструмент «проверка URL»).
Далее мы рассмотрим несколько простых способов быстрой индексации сайта в Google:
Карта сайта – это список важных страниц сайта, представленный в формате XML.
С помощью Sitemap.xml вы помогаете поисковым роботам перемещаться по сайту, находить новый контент и индексировать веб-страницы. Это повышает видимость сайта в поиске и новых веб-страниц, которые еще не имеют обратных ссылок.
Веб-страницы сайта не будут индексироваться, если на нем есть внутренние ссылки с тегом rel=«nofollow». Этот атрибут запрещает поисковым роботам сканировать ссылку.
В результате этого веб-страница не будет отображаться в результатах поиска. Чтобы преодолеть эту проблему, необходимо проверить внутренние ссылки и удалить теги nofollow.
Теги Noindex сообщают Google об исключении веб-страницы из процесса индексации. В результате поисковая система не сохранит веб-страницу в своей базе данных и не отобразит ее в результатах поиска. Тег noindex расположен в разделе <head> веб-страницы.
Для запрета индексации боту Google атрибут name будет включать googlebot.
Удалите этот тег, чтобы Google мог проиндексировать веб-страницу.
Еще один способ поиска тегов noindex – использование инструмента проверки URL-адреса в Search Console.
Если на веб-странице присутствует тег noindex, в http-заголовке «X-Robots-Tag» появится сообщение «обнаружено «Noindex».
Файл Robots.txt сообщает поисковым роботам, какие веб-страницы они обходить не должны. Вы можете найти файл robots.txt, введя robots.txt в конце URL-адреса сайта (example.com/robots.txt). Теперь найдите следующий фрагмент кода и удалите его.
Этот код не позволяет поисковой системе сканировать сайт. Кроме этого URL-адрес веб-страницы не должен быть заблокирован, особенно для user-agent: googlebot.
Если на сайте тысячи записей, но большинство из них не несет для пользователей никакой пользы, Google сократит количество поисковых сканирований и индексаций площадки.
Если поисковый бот постоянно находит веб-страницы низкого качества, это замедлит обнаружение нового контента, появляющегося на сайте.
Чтобы избежать возникновения подобной проблемы, можно настроить редирект 301 для низкокачественных веб-страниц и перенаправить их на другие более качественные публикации.
Наличие дублированного контента может быть еще одной причиной медленной индексации сайта. Если веб-страница дублируется, Google вряд ли ее проиндексирует.
Чтобы ускорить индексацию сайта, делиться новыми публикациями в социальных сетях. Это повышает шансы на индексацию вашего сайта.
Например, Twitter, отлично подходит для популяризации контента. Google регулярно сканирует Twitter и даже демонстрирует соответствующий сниппет в результатах поиска.
Веб-страницы с высококачественными обратными ссылками будут иметь большее значение для Google, чем те, которые их не имеют. Когда сайт получает обратные ссылки с авторитетных площадок, Google сочтет его заслуживающим доверия и начнет быстрее индексировать контент ресурса.
Если на сайте есть веб-страница, на которой нет внутренних ссылок, Google не сможет найти через нее другой контент. В результате этого для индексации остальных страниц сайта может потребоваться много времени.
На площадке должны быть веб-страницы, которые получают наибольшее количество трафика. Эти веб-страницы могут занимать хорошие позиции в поисковой выдаче Google и должны приносить пользу пользователям. Размещая в них гиперссылки на другие страницы сайта, вы создадите мощные внутренние ссылки.
Если у вас возникли проблемы с индексацией сайта в Google, воспользуйтесь советами, перечисленными в этой статье.
Вадим Дворниковавтор-переводчик статьи «9 Proven Ways to Get Google to Index Your Website Right Away»
Как проверить, какие URL-адреса были проиндексированы, не расстраивая Google: продолжение
Еще в октябре 2016 года я писал о том, как вы можете использовать скрипт Python, чтобы определить, была ли страница проиндексирована Google в поисковой выдаче. Как оказалось, аналитик Google по тенденциям для веб-мастеров Гэри Иллиес был не слишком доволен техникой, которую использовал скрипт, поэтому я не могу одобрить этот метод:.Я просто оставлю это здесь: https://t.co/NO4s6JbSfJ https://t.co/qRhIGXcG7g
— Гэри Иллиес ᕕ( ᐛ )ᕗ (@methode) 5 октября 2016 г.
Вскоре после этого Шон Малсид и его команда из Greenlane SEO создали аналогичный инструмент на основе Google Sheets (среди других замечательных инструментов, таких как InfiniteSuggest) и Googler. Джон Мюллер выразил сомнения:
@greenlaneseo Это черный инструмент или он соответствует рекомендациям для веб-мастеров и файлу robots.txt? (просто любопытно)
— Джон ☆.o(≧▽≦)o.☆ (@JohnMu) 14 декабря 2016 г.
Как узнать, какие страницы не были проиндексированы Google, и сделать это так, чтобы не нарушить правила? Google не указывает, была ли страница проиндексирована в Google Search Console, не позволяет нам очищать результаты поиска, чтобы получить ответ, и не заинтересован в косвенном получении ответа из недокументированного API. (Это было умное решение и обходной путь от Шона Малсида.) Давайте рассмотрим некоторые решения.
Аналитическое решение
Марк Эдмондсон предоставил решение сценария R, которое работает следующим образом:
- Он выполняет аутентификацию с помощью ваших учетных записей Google Analytics.
- Проверяет, есть ли страницы, найденные в XML-карте сайта вашего сайта, но не найденные в Google Analytics для обычных результатов Google за последние 30 (или более) дней.
Методология предполагает, что если URL-адрес не найден в аналитике для результатов обычного поиска Google, то он, вероятно, не был проиндексирован Google.
Интерлюдия: как это сделать без R
Хотя мне лично нравятся скриптовые решения, я знаю, что многим это не нравится. Вам не нужно вычислять R, чтобы сделать этот анализ. Вы можете легко перейти в Google Analytics и выполнить аналогичный анализ или, что еще проще, перейти в Google Analytics Query Explorer и запустить его с этими настройками. Загрузите таблицу в виде файла TSV:
. Затем вы сможете локально загрузить XML-карту сайта и открыть ее в Excel. Затем перетащите его в окно Excel, и вы получите диалоговое окно «Импорт XML». Если вас попросят «Открыть файл без применения таблицы стилей», выберите 9.0041 OK :
Затем выберите открытие файла «Как таблицу XML»:
Вы можете удалить лишние столбцы, оставив только столбец «ns1:loc» (или «loc»):
Затем вам просто нужно выполнить ВПР или другую форму сопоставления Excel и найти URL-адреса в карте сайта, которых нет в данных аналитики.
Я подумал, что это простое, но умное решение, и, хотя это хорошая отправная точка, я боялся, что оно не будет точно показывать, какие страницы были проиндексированы Google. Нередко страницы получают мало или вообще не получают трафика, даже если они проиндексированы. Это может указывать на то, что страница не проиндексирована, но также может просто указывать на то, что на странице есть проблема с тегами, она стала неактуальной, нуждается в некоторой оптимизации для улучшения видимости или просто отсутствует в XML-карте сайта. . (В качестве альтернативы вы можете использовать сканирование, а не карту сайта XML, чтобы сделать эти сравнения.)
Решение для файла журнала
Файлы журнала сервера являются отличным источником данных о вашем веб-сайте, который часто недоступен другими способами. Одна из многих частей информации, которую можно получить из этих файлов журналов, — это доступ определенного бота к вашему веб-сайту. В нашем случае нас интересует бот Googlebot.
Анализ файлов журнала нашего сервера позволяет нам установить, посещал ли робот Google когда-либо определенную страницу на нашем веб-сайте. Если робот Googlebot никогда не посещал определенную страницу, она не может быть проиндексирована Google. Я лично склонен использовать для этой цели KNIME со встроенным узлом Web Log Reader, но не стесняйтесь использовать свое любимое решение.
Пример использования KNIME для обработки лог-файлов сервера
Обязательно проверьте Googlebot, а не просто полагайтесь на сообщенный пользовательский агент. Многие боты будут подделывать пользовательский агент Googlebot, что может сделать ваши выводы недействительными. Чтобы избежать этого, я использую простой фрагмент кода Python в KNIME:
'] = "ошибка"
Чтобы получить достойное руководство по анализу файла журнала, ознакомьтесь с этим руководством от Builtvisible.
Если все это слишком, я рекомендую проверить The Screaming Frog SEO Log File Analyzer — или, для корпоративного решения, Botify.
Анализатор файлов журналов Screaming Frog предоставляет более простое решение для анализа файлов журналов.
Как и решение Google Analytics, анализ файла журнала не является надежным. Робот Googlebot может посетить страницу, но фактически не включить ее в свой индекс (), но это поможет нам сузить наш список, возможно, не проиндексированных интернет страницы.
Объединение ваших данных
Чтобы сузить наш список страниц, которые не могут быть проиндексированы Google, я рекомендую объединить данные, полученные с помощью метода Google Analytics, с методами анализа файла журнала, описанными выше.
Получив список, мы можем провести выборочную проверку, вручную выполнив поиск в Google «info:», что не расстроит Google. Намного проще проверять вручную, потому что мы смогли значительно сузить наш список.
Вывод
Поскольку Google не предоставляет инструмент или данные о том, была ли веб-страница проиндексирована или нет, и нам не разрешено использовать автоматизированное решение, подобное тому, о котором я писал ранее, мы должны полагаться на сужение нашего списка URL-адреса, которые могут быть не проиндексированы.
Мы можем сделать это, изучив данные Google Analytics для страниц, которые находятся на нашем веб-сайте, но не получают органического трафика Google, а также просмотрев файлы журналов сервера. Оттуда мы можем вручную выборочно проверить наш сокращенный список URL-адресов.
Это не идеальное решение, но оно выполняет свою работу. Я надеюсь, что в будущем Google предоставит лучшие средства для оценки того, какие страницы были проиндексированы, а какие нет.
Мнения, высказанные в этой статье, принадлежат приглашенному автору и не обязательно принадлежат Search Engine Land. Штатные авторы перечислены здесь.
Добавьте Search Engine Land в свою ленту новостей Google.
Похожие статьи
Новое в поисковой системе Land
Об авторе
Есть ли мой сайт в Google? Как проверить, есть ли ваш сайт в индексе Google
6 февраля 2019 г. | Маркетинг в поисковых системах | 0 комментариев
Это может показаться простым, но это вопрос, который мне часто задают потенциальные клиенты: «Будет ли мой сайт отображаться в Google?» Краткий ответ — да. Но давайте посмотрим на более длинный ответ.
На самом деле может быть сложнее НЕ индексировать ваш сайт в Google.Я видел, как сайты ранжируются путем простой регистрации домена и размещения на нем сайта. Что могло быть проще этого? Однако есть несколько верных способов защитить свой сайт от Google.
Если ваш сайт противоречит политике Google, например содержит материалы для взрослых или азартные игры, ваш сайт не будет ранжироваться, ИЛИ вы можете специально заблокировать Google. Однако мы говорим не об этом. Мы обсуждаем ваш сайт, который, вероятно, представляет собой малый бизнес, стремящийся привлечь внимание и получить клики. Итак, как вы можете быть уверены, что вас видят в крупнейшей в мире поисковой системе?
Первое, что нужно сделать, это определить, занимаете ли вы уже место в Google. Самый простой способ сделать это — зайти на Google.com и ввести полный URL-адрес в строку поиска. Ваш сайт должен появиться на 1-й, может быть, на 2-й странице. Если это совершенно новый сайт, его появление может занять несколько дней.
Если ваш сайт не отображается в результатах поиска Google, вы можете перейти непосредственно к источнику, чтобы правильно проиндексировать его. Выполните следующие действия, чтобы ваш сайт появился в Google.
Вы можете создать учетную запись Google Search Console на странице google.com/webmaster. Все, что вам нужно сделать, это добавить свой URL-адрес и подтвердить, что вы являетесь владельцем домена. После проверки вы можете добавить карту сайта в свою учетную запись Google Search Console.
Индексация действительно важна для каждого бизнеса, если у вас есть проблемы с ней, могут помочь релевантные текстовые обратные ссылки на других сайтах.
Карта сайта — это список всех страниц веб-сайта. Эта карта позволяет Google лучше сканировать весь ваш сайт и все его страницы.
Если вы не знаете, как создать карту сайта, перейдите на сайт wpbeginner.com и прочитайте Что такое карта сайта в формате XML? Как создать карту сайта в WordPress? Это даст вам быстрое и простое руководство о том, как создать его для себя.
Если у вас есть сайт WordPress, существуют плагины WordPress, которые могут сделать всю работу за вас. Google XML Sitemaps и Yoast SEO — два самых простых и эффективных из тех, что я нашел.
Использование метода веб-мастера также дает дополнительные преимущества. К ним относятся:
- Отслеживание тенденций вашего поискового трафика (откуда он поступает, какие поисковые запросы генерируют ваш трафик и т. д.)
- Кликабельность ваших страниц
- Средняя позиция в результатах поиска для различных поисковых запросов (отлично подходит для просмотра ключевых слов с высоким потенциалом для таргетинга)
- Получать уведомления об ошибках сканирования, если у Google возникают проблемы с индексацией вашего сайта. Решение или НЕ решение этих проблем может оказать огромное влияние на ваш поисковый рейтинг.
Я бы посоветовал каждому новому владельцу веб-сайта предпринять эти шаги для правильной индексации вашего сайта, даже если вы уже появились в Google.