Блог о программировании — Проверка индексации страниц сайта в Google
Проверив индексацию сайта можно сразу же определить есть ли у Google претензии к страницам вашего ресурса. Проверять руками не очень удобно, сторонни сервисы снова платные. Потому сегодня мы рассмотрим как проверить страницы в индексе с помощью Python.
Не будем оттягивать и сразу приступим к делу. Импортируем модули:
import requests import pandas as pd
Присвоим переменной словарь с юзерагентом:
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) \ AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36"}
Создадим словарь в который сохраним результаты и опции. Опции будем добавлять в URL запроса перед отправкой самого запроса:
d = {} options = { 'muteHttpExceptions': True, 'followRedirects': False };
В переменной среде path руками создаем файл и вставим туда все url нашего сайта, каждый с новой строки, у нас он будет называться all-website-url.
with open('all-website-url.txt', encoding="utf-8") as f: response_url = [line.strip() for line in f]
С помощью цикла начнем перебор всех URL нашего сайта из переменной, которую мы создали выше, отправляя запрос Google и проверим ответ с помощью условия, данные сохраним в наш пустой словарь, который мы создали в самом начале:
for i in response_url: resp = f'https://www.google.ru/search?q=site:{i}' response = requests.get(resp, options, headers=headers).text if "не знайдено жодного документа" in response: print("Не в индексе") d.setdefault("URL", []).append(i) d.setdefault("Статус", []).append("Не в индексе") else: print("В индексе") d.setdefault("URL", []).append(i) d.setdefault("Статус", []).append("В индексе")
Создадим табличку с данными с помощью Pandas и сохраним его в таблицу Excel, запускаем и отдыхаем, когда код завершит работу, у нас будет готовая таблица с данными:
df = pd. DataFrame(data=d) df.to_excel('./googlecheckindex.xlsx')
И самое важное, помните, что в Python нужно соблюдать отступы или один таб или 4 пробела, код нужно привести к такому виду как он указан на сайте, если при копировании (такое бывает довольно часто) количество отступов изменилось или они пропали вообще.
Не забудьте подписаться на наш телеграм канал@py4seo, будет еще много интересного
Все бэкслеши в конце строк можно удалить и убрать перенос строки, т.е. грубо говоря бэкслеш говорит питону от том, что тут код очень длинный, делаем перенос строки.
Полная версия кода ниже:
import requests import pandas as pd headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) \ AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36"} d = {} options = { 'muteHttpExceptions': True, 'followRedirects': False } with open('all-website-url.txt', encoding="utf-8") as f: response_url = [line.strip() for line in f] for i in response_url: resp = f'https://www.google.ru/search?q=site:{i}' response = requests.get(resp, options, headers=headers).text if "не знайдено жодного документа" in response: print("Не в индексе") d.setdefault("URL", []).append(i) d.setdefault("Статус", []).append("Не в индексе") else: print("В индексе") d.setdefault("URL", []).append(i) d.setdefault("Статус", []).append("В индексе") df = pd.DataFrame(data=d) df.to_excel('./googlecheckindex.xlsx')
Для чего нужно проводить массовую проверку индексации страниц
Индексация предполагает добавление веб-ресурса в базу поисковых машин (Google, Яндекс и пр.). Только после добавления сайт может быть найден по ключевым словам. Например, если конкретный сайт по какой-то причине не проиндексирован, то пользователи не смогут найти его в поиске. Именно поэтому индексация очень важна. Если ее не будет, то ваш ресурс (интернет-магазин, блог, сайт компании и пр.) окажется не виден для пользователей. Тогда вы потеряете трафик — а значит и не заработаете.
Индексацию страниц можно выполнить с помощью сервиса indexmenow.com. Вам нужно всего лишь зарегистрироваться на сайте, загрузить в специальную форму необходимые URL и отправить на индексацию. Но перед этим нужно проверить, действительно ли конкретная страница не проиндексирована. Для этого нужно провести проверку индексации сайта с помощью другого инструмента данного сервиса — Isindexed.
Как узнать, прошла ли страница индексацию
Есть несколько способов:
- путем использования сервисов, предлагаемых самими поисковыми системами;
- путем ввода поисковых операторов в строку. Необходимо в поисковую строку ввести оператор site:, после чего URL страницы.
Представленные методы подходят только для проверки единичных страниц. А ведь на практике приходится сталкиваться с проверкой десятков и даже сотен URL. Не будете же вы каждый раз прописывать оператор «site:» вручную. Вот как раз для таких случаев и существуют специализированные сервисы для массовой проверки индексации страниц. На сегодняшний день одним из самых эффективных является Isindexed.
Преимущества Isindexed
С помощью этого сервиса проводится массовая проверка индексации страниц. Большинство SEO-специалистов и простых пользователей выбирают именно его, так как он имеет ряд весомых преимуществ:
- возможность получить 200 баллов. За регистрацию в системе вы получаете 200 баллов. 1 балл = бесплатной проверке 1 URL. Полученные баллы остаются навсегда — их срок действия не истекает в конце месяца;
- партнерская программа. Сервис предоставляет своим партнерам льготные условия в отношении проверки индексации страниц;
- экспорт. После проверки вы можете экспортировать результат в файл формата CSV.
Что делать, если найдены непроиндексированные страницы
Такое тоже бывает. Причиной может быть, например, новизна страницы (тогда нужно немного подождать), низкое качество контента или ошибки в коде. В любом случае необходимо постараться ускорить индексацию. Вот основные приемы:
- включите новую страницу в карту сайта — sitemap;
- проверьте все тексты на уникальность и удалите/перепишите неуникальные статьи;
- удалите битые ссылки и редиректы;
- подкорректируйте файл robots.txt;
- ускорьте загрузку страниц;
- оптимизируйте перелинковку.
После этого вы можете отправить страницы на индексирование через сервис indexmenow.com.
Проверять страницы на наличие в базе нужно регулярно — ведь поисковые системы могут выкинуть страницу из индекса. Проводить проверку лучше с помощью сервиса Isindexed: так вы получите быстрый и достоверный результат по доступной цене.
77 просмотров
Статистика просмотров страницы:
- за прошлый месяц (Декабрь 2022) — 1;
- за последние 3 месяца (Октябрь 2022 — Декабрь 2022) — 9;
- за последний год (Январь 2022 — Декабрь 2022) — 77;
Отзывы
Отлично!
Январь 05 Админ
Авторизуйтесь, чтобы оставить отзыв
Как проверить индексацию сайта в Google
8907 3
How-to | – 8 мин чтения |
Читать дальше
Дальнейшее продвижение сайта зависит от индексации сайта. Если вы создадите больше тысячи полноценных уникальных страниц, но пропустите этап индексации, вы не получите должного результата. Анализ индексации сайта необходим в целях SEO и продвижения.
Что такое индексация сайта
Индексация сайта — это процесс, при котором бот поисковой системы добавляет информацию о конкретном ресурсе в базу данных поисковой системы. Проверка индексации страниц нужна, чтобы показать вебмастеру, как роботы сканируют сайт, есть ли ошибки.
Мониторинг количества страниц осуществляется поисковой системой постоянно. Факт увеличения количества страниц в поисковых системах помогает сайту ранжироваться по большему количеству запросов и улучшает его позиции в результатах поиска.
Google Console
Индексация сайта в поисковых системах осуществляется отдельно для каждого поискового сервиса. Поэтому необходимо анализировать его отдельно.
Основным инструментом для работы с индексацией Google является сервис Search Console. Таким образом, вы будете управлять сканированием страниц. Например, можно отправить страницу на повторное сканирование после процесса устранения ошибки. Интерфейс Search Console выглядит так:
Как самостоятельно проверить индексацию сайта
Добавьте сайт в панель и подтвердите доступ.
Следить за индексацией по следующему алгоритму: Google Index > Статус индексации (статус индексации).
Вы получите информацию о страницах, заблокированных файлом robots.txt в расширенных данных (индексация этих страниц невозможна). В то же время новая опция Search Console дает возможность увидеть все страницы, которые были проиндексированы, несмотря на запрет robots.txt.
Внимание: Большинство пользователей сталкиваются с распространенной ошибкой, которая представлена блокировкой индексации в терминах директив robots. txt. Если вы заметили, что сайт не индексируется, начните поиск решения проблемы прямо здесь.
Google Search Console официально заявляет, что информация может «частично соответствовать» результатам поисковой системы (эта информация представлена в разделе Техническая поддержка ресурса). Подробное объяснение доступно здесь. Пройдёмся по основным причинам:
Внимание: Вы получаете всю информацию об ошибке индексации на той же платформе. Они дублируются и с точки зрения электронного письма, поэтому регулярно проверяйте свой почтовый ящик. Все обнаруженные ошибки необходимо устранить, а страницы отправить на переиндексацию.
Как проверить полученную информацию Google Search Console
Полученную информацию легко проверить с помощью операторов:
Пример:
сайт:www.lego.com.us
Описание:
Команда предоставляет поисковой системе список проиндексированных страниц. Стоит заметить, что список содержит только те страницы, которые нашла поисковая система. Процедура оптимальна для пользователей, стремящихся узнать страницы конкурентов. Затем можно было провести анализ полученной информации.
Попробовав вариант «сайт», можно было увидеть следующее:
Плагины и букмарклеты
Некоторые онлайн-сервисы также предлагают массовую регистрацию индексации в нескольких поисковиках сразу. Эти инструменты доступны бесплатно или на платной основе.
Работа со встроенными плагинами сэкономит время веб-мастерам. Например, панель RDS подойдет для самых разных целей. Услуга бесплатно устанавливается через магазин. Встроенный плагин работает прямо в панели Google Chrome.
Нажмите на иконку заметки браузера, и все необходимые данные об интересующем сайте будут доступны (также будет предоставлена информация о количестве страниц в индексе).
Дополнительные услуги для процедуры проверки индексации
Используйте эффективные инструменты с комплексным набором услуг для проведения анализа сайта. Например, комплексный аудит сайта (опция обзора сайта) от a.pr-cy поможет получить информацию о количестве проиндексированных страниц. Взгляните на онлайн-сервис и диапазон его опций, который необходимо учитывать:
Каждый SEO-анализатор в 80% случаев предоставляет информацию об индексации сайта. Такие анализаторы генерируют готовые отчеты, поэтому ручное управление не требуется. Есть ряд инструментов, которые успешно справляются со всеми SEO-задачами и позволяют добавлять в мониторинг разные сайты или компании. Это означает, что вся полученная информация будет сохранена в одном месте. Еще одно преимущество, на которое стоит обратить внимание пользователям.
Чтобы получить информацию по каждой странице, используйте Netpeak Checker. Загрузите все URL, и Netpeak Checker проверит индексацию страниц вашего сайта. Это займет некоторое время, но результат будет точным.
Персональная демонстрация
Наши специалисты свяжутся с вами и обсудят варианты дальнейшей работы. Это может быть личная демонстрация, пробный период, подробные обучающие статьи, записи вебинаров и индивидуальные советы от специалиста Serpstat. Наша цель — сделать так, чтобы вы чувствовали себя комфортно при использовании Serpstat.
Заключение
Все возможные способы проверки индексации сайта:
- с помощью Google Search Console;
- с помощью операторов;
- с помощью плагинов и букмарклетов;
- с помощью дополнительных услуг.
Регулярно отслеживайте индексацию веб-сайта и сообщайте о полученной информации. Составляйте такие таблицы данных вручную или используйте автоматические отчеты в рекомендуемых дополнительных сервисах. Все примеры показаны и описаны выше. Объедините несколько инструментов, чтобы повысить уровень точности информации.
Зачем это нужно? Чтобы всегда быть в курсе событий. Если все страницы уникальны и полноценны, но давно не индексируются, пора искать проблему и как можно быстрее ее выявить. Регулярно собирайте информацию. Важно исследовать соотношение проиндексированных страниц и динамику их индексации, следить за всеми тенденциями.
Такой подход даст вам возможность своевременно внести изменения в SEO-стратегию и сформировать успешную концепцию продвижения.
P.S. Попробуйте на странице SEO-проверку онлайн, чтобы пройти полный курс SEO-специалиста 🙂
Эта статья является частью инструмента Serpstat Checklist. конкретный проект. Инструмент содержит шаблоны с обширным списком параметров разработки проекта, куда вы также можете добавить свои элементы и планы.
Попробуйте контрольный список сейчас |
Ускорьте рост вашего поискового маркетинга с Serpstat!
Возможности ключевых слов и обратных ссылок, онлайн-стратегия конкурентов, ежедневный рейтинг и вопросы, связанные с SEO.
Набор инструментов для сокращения времени на SEO-задачи.
Получить бесплатную пробную версию на 7 дней
Оцените статью по пятибалльной шкале
Статью уже оценили в среднем 0 человек из 5
Нашли ошибку? Выберите его и нажмите Ctrl + Enter, чтобы сообщить нам
Рекомендуемые сообщения
Как сделать
Денис Кондак
Как анализировать поведенческие факторы на сайте
Как сделать
Денис Кондак
Как проводить A/B тестирование с помощью Google Analytics
Как сделать
Денис Кондак
3 и установить систему аналитики 90 для мониторинга электронной коммерции
Кейсы, лайфхаки, исследования и полезные статьи
Нет времени следить за новостями? Не волнуйтесь! Наш редактор подберет статьи, которые обязательно помогут вам в работе. Присоединяйтесь к нашему уютному сообществу 🙂
Нажимая кнопку, вы соглашаетесь с нашей политикой конфиденциальности.
Поделитесь этой статьей с друзьями
Вы уверены?
Спасибо, мы сохранили ваши новые настройки рассылки.
Сообщить об ошибке
Отмена
Массовое извлечение статистики отчета об индексировании из Search Console с помощью Node.js
Node.js. Этот инструмент отлично подходит для сбора индивидуальной информации о конкретных URL-адресах на вашем сайте. Однако Google также предоставляет владельцам сайтов более целостное представление о статусе индексирования их сайтов с помощью отчета о покрытии индексом.
Вы можете проверить собственную документацию Google и видеоучебник, чтобы более подробно понять данные, представленные в этом разделе, но на самом верхнем уровне ключевые точки данных:
- Количество страниц, проиндексированных Google.
- Количество страниц, которые Google нашел, но не проиндексировал (из-за ошибки или намеренно исключил).
- Насколько велик ваш сайт с точки зрения Google (Действительно + Исключено + Ошибки).
На данный момент существует четыре основных категории: Ошибки , Действительны с предупреждением , Действительны и Исключенные подразделяются на 29 подкатегорий. Каждая из этих подкатегорий обеспечивает дополнительный уровень классификации, чтобы помочь владельцам сайтов и SEO-специалистам понять, почему ваши URL относятся к основной категории. Не все подкатегории будут видны, только те, которые относятся к вашему сайту.
К сожалению, параметр экспорта в представлении отчета о покрытии индекса (на рисунке выше) дает вам только цифры верхнего уровня для каждого отчета. Если вы хотите узнать и экспортировать, какие URL-адреса находятся в нескольких отчетах, вам нужно щелкнуть каждый отчет и экспортировать их один за другим.
Этот способ извлечения данных очень ручной и требует много времени. Поэтому я решил автоматизировать его с помощью Node.js и добавить еще несколько функций.
Установка и запуск сценария
Убедитесь, что на вашем компьютере установлен Node.js. На момент написания этого поста я использую версию 14.16.0. В этом скрипте я использую особый синтаксис, который можно использовать только начиная с версии 14, поэтому дважды проверьте, что у вас выше этой версии.
# Проверить версию узла узел -v
Загрузите скрипт с помощью git, интерфейса командной строки Github или просто скачайте код напрямую с Github.
# Гит клон git https://github.com/jlhernando/index-coverage-extractor.git # Интерфейс командной строки Github Клон репозитория gh https://github.com/jlhernando/index-coverage-extractor
Затем установите необходимые модули для запуска скрипта, набрав npm install в терминале
npm install
Чтобы извлечь данные о покрытии с вашего веб-сайта/ресурса, обновите файл credential.js, указав свои учетные данные Search Console.
После этого используйте свой терминал и введите npm start для запуска скрипта.
запуск н/мин
Сценарий регистрирует обработку в консоли, чтобы вы знали, что происходит.
Как и в автомате проверки URL, сценарий использует Playwright и работает в автономном режиме. Если вы хотите увидеть автоматизацию браузера в действии, просто измените параметр запуска на headless: false в файле index.js и сохраните его перед запуском скрипта.
Выходные данные
Сценарий создаст файлы «coverage.csv» и «summary.csv».
Файл «coverage.csv» будет содержать все URL-адреса, извлеченные из каждого отдельного отчета о покрытии.
Файл «summary.csv» будет содержать количество извлеченных URL-адресов на отчет, общее количество, которое GSC сообщает в пользовательском интерфейсе (такое же или выше), и «коэффициент извлечения», который является делением между Извлеченные URL-адреса и общее количество URL-адресов, сообщенных GSC.