SEO анализ текста, проверить тошноту текста, семантический анализ текста онлайн
О сервисе
SEO анализ текста онлайн позволяет увидеть количество определенных слов, установить их частотность и тошноту. Данный инструмент полезен для повышения качества статей и СЕО-оптимизации.
Анализ текста онлайн направлен на выявление ключевых слов, установление их плотности. Это один из основных инструментов, помогающих в продвижении, раскрутке сайта, поскольку правильно написанные статьи имеют хорошую релевантность в поисковых системах.
Тошнота текста
Тошнота текста — важный показатель, отражающий качество предлагаемой информации для поисковых систем. Проверить тошноту текста требуется, чтобы узнать частоту повторения определенного слова в статье. Это касается не только ключевых фраз, но и обычных слов. Если частотность ключевых слов в тексте ниже, чем обычных, то релевантность статьи заданному в поисковике запросу уменьшается, как и ранжирование поисковыми системами.
Есть два вида тошноты:
Академическая, которая отображает повторение самых распространенных слов, фраз.
Классическая — показатель частоты слова в тексте, который не зависит от объема.
Чем отличается обычный текст от оптимизированного?
Семантический анализ текста дает возможность сделать популярной у поисковиков страницу, на которой размещается статья. Неоптимизированный текст, содержащий полезную информацию, но без ключевых слов, с высоким показателем тошноты не соответствует поисковым запросам и, соответственно, не ранжируется высоко поисковыми системами. Алгоритмы не пропустят сайт с некачественным контентом в ТОП.
В процессе SEO оптимизации для раскрутки ресурса нужно соблюдать ряд условий:
В тексте должны
присутствовать ключевые
слова из семантического ядра.Первый абзац
должен содержать
основную ключевую фразу.Распределение ключевых
фраз, слов в статье
происходит равномерно.
Если все выполнить верно, то сайт получит хорошие позиции в выдаче. Проверка текста на СЕО онлайн нужна для создания полезного контента, соответствующего запросу пользователей.
Как снизить тошноту текста?
Анализ текста позволяет увидеть слова, которые чаще всего встречаются в тексте. Для уменьшения тошноты их потребуется заменить. Можно вставить синонимы, фразы, похожие по смыслу, заново переписать предложения, удалить слова. Важно сохранить читабельность и ключевые фразы. Для снижения академической тошноты требуется добавить больше уникальных фраз, разнообразить текст. Классическая уменьшается при замене слов синонимами. Отредактировав статью, нужно еще раз проверить текст на тошноту, чтобы убедиться в результативности.
Ключевые слова в SEO оптимизированной статье
По многочисленным просьбам аудитории, вновь поднимаем любимую тему: ключевые слова!
Начнем, пожалуй, с азов и разберем на примере, откуда взять, те самые, заветные: ключевые слова подобрать яндекс гугл поисковые запросы!
Самый доступный способ подбора ключевых слов
Все очень просто! Правильно подобрать ключевые слова нам поможет Яндекс. Для начала необходимо зарегистрировать аккаунт. Затем под своим логином заходим в wordstat.yandex.ru и приступаем:
Подбор ключевых слов для SEO текста через Wordstat
В верхнее поле вводим запрос, к которому хотим подобрать ключевые слова. Wordstat подберет массив запросов, которые люди вводили в поисковую строку Яндекса за последние 3 месяца. Нужно учитывать, что чаще всего вместе с адекватными запросами, которые можно использовать при поисковой оптимизации, люди ищут массу всего интересного, но совсем не относящегося к заданной теме. Поэтому следует внимательно отминусовать весь ненужный мусор. Делать это можно двумя способами:
- Прямо в Вордстате (тут, правда, есть опасность нарваться на CAPTCHA).
- Скопировать все в Exel и почистить через фильтр.
В первом случае, минус слова вводим прямо в строку запроса со знаком минус перед словом (без пробела между знаком и словом), но оставляя пробел между словами, как на картинке ниже:
Отбираем минус слова при подборе seo keywords
Таким образом, мы соберем статистику наиболее актуальных ключевых слов по заданному запросу. Как их правильно использовать рассмотрим ниже.
Как не переборщить с ключевыми словами при SEO оптимизации текста?
Поиск ключевых слов производится от наиболее популярного запроса к наименее популярному.
Соответственно, для создания текста, удоволетворяющего высокочастотному запросу, отбираем топ 20 запросов из первой страницы выдачи Вордстата. Если задача стоит охватить и низкочастотку, то в ход пойдут все слова до 5 показов включительно.
Как использовать ключевые слова в статьеКак правильно заполнять мета тег keywords, можно почитать тут. Сегодня же мы поговорим о том, как использовать ключевые слова непосредственно в тексте.
Разберем мы это прямо на примере статьи, которую вы сейчас читаете. Для того, чтобы текст получился seo оптимизированным, он должен содержать прямое вхождение запроса, который мы вытащили из Wordstat.
Например, так:
Использование ключевых слов в сео тексте
Размещаем высокочастотные ключевые запросы в начале текста
Разбивать фразу прямого вхождения запроса можно, но желательно оставить ее в одном предложении.
Простые советы по использованию ключевых слов на странице:
- При создании seo оптимизированной статьи для сайта использовать наиболее релевантные запросы лучше в начале текста;
- Не перегружайте текст ключевыми словами, они должны вписываться в контекст органично;
- Не желательно навязчивое использование одной и той же фразы несколько раз, это может быть воспринято ПС как обман и сведут ваши усилия к нулю.
Постарайтесь максимально ответить на запрос, который используете!
Помните, что обнаружив вашу статью в выдаче, человек хочет получить ответ на терзающий его вопрос, дайте ему эту информацию! Решите его проблему и получите лояльного читателя и потенциального клиента!
Творческих успехов!
Получайте бесплатные уроки и фишки по интернет-маркетингу
Вхождение ключевых слов в текст
Содержание статьи:
Что такое ключевые слова? Ключевые слова – слова или словосочетания, которые пользователи вводят в поисковой запрос. Фразы используются для продвижения сайтов и контекстных объявлений. Главная задача ключевиков – привлечь целевую аудиторию.
Seo-оптимизация работает по принципу: тематика контента зависит от ключевых фраз. Пользователи вводят запрос, и если он совпадает с настроенным ключевиком, релевантные тексты отображаются в поисковой выдаче.
Следует учитывать следующие особенности настройки:
Релевантность.
Контент seo-оптимизаторов должен соответствовать требованиям качества поисковых систем. В первую очередь это касается текстов. Уникальность, соответствие пользовательскому запросу и грамотная оптимизация влияет на показатели.Естественность.
Поисковики борются с текстами, написанными для роботов. Нечитабельный текст спровоцируют отказы как со стороны системы, так и целевой аудитории. Важно вписывать ключевые фразы в seo-текст так, чтобы они выглядели органично.Переоптимизация.
Поисковые системы повышают в рейтинге страницы с релевантным содержимым. В идеале, чем больше ключевых слов, тем выше ранжирование страницы и сайта. Однако при избыточном употреблении ключевиков страница окажется в конце списка по запросам. Оптимальное количество ключей – три-четыре фразы на текст из 2000 символов. Также необходимо использовать разные словоформы. Сайт попадет под действие алгоритма, если в тексте будет одно и то же словообразование. Для грамотной seo-оптимизации текста маркетологи используют различные виды ключей. Каждое из вхождений обеспечивает точное попадание под поисковый запрос целевой аудитории.
- Ключевая фраза используется в неизменном виде.
- Сохраняется словоформа и порядок слов.
- Отсутствуют знаки препинания.
Пример:
“Купить диван. У нас вы можете купить диван по специальной цене”. Употребление точных ключевиков не всегда возможно из-за устойчивого словообразования. Такое вхождение обычно используется для заголовков, анкоров и метатегов.Фраза является точным запросом, но не чистым, так как содержит знаки препинания.
Ключевые фразы выглядят более естественно, чем в точном вхождении. Текст читабельный и “человечный”.
Пример: “Купить пуховики.
В нашем шоуруме вы можете купить: пуховики, пальто, куртки”.Пример: “Заказать портрет.
В творческой студии вы можете заказать свой портрет в полный рост”. Ключевики используются только для словосочетаний из двух, трех или более слов. Однословные ключи априори точные, чистые и прямые.- Вид ключевика, при котором слова находятся в разных словоформах. Изменены по падежам, числам, родам и спряжениям.
- Читабельный текст. Не вызывает подозрений на нерелевантный контент у поисковых систем.
- Может быть разбавленным.
Пример: “Оформить подписку.
Оформить и управлять подпиской в “ВКонтакте” стало проще”.Синонимическое вхождение
Ключевая фраза полностью или частично заменяется синонимами. С помощью этого инструмента можно избежать переспама и фильтрации, а также сделать текст привлекательней.
Пример: “Починить машину=починить автомобиль”.
Вхождение с опечаткой
Время от времени пользователи совершают ошибки, вбивая запрос. Общеупотребительные слова система исправляет, заменяя на правильные. Однако существуют заимствованные слова и фразы, написание которых не устоялось. Такие запросы набирают по-разному. Google выдает все виды словоформы, тогда как Яндекс показывает страницы по одному из вариантов. Ресурсы с иным написанием поисковых фраз выпадают.
Пример:
“Блогер и блогер, вконтакте и в контакте”.Пример
: “Настроить seo-оптимизацию — seo-оптимизацию настроить”.Сложное вхождение
Ключевые фразы и словоформы стоят в любом порядке. Регистр букв не имеет значения.
Пример:
“Шоколадные булочки. В кондитерской вы можете приобрести булочки с шоколадной начинкой”.- Поисковик учитывает полное название и аббревиатуру как одно.
- Сокращенное обозначение в тексте помогает избежать переоптимизации.
Пример:
“Автозаправочная станция — АЗС”Продвигаешь свои товары и услуги в интернете? У нас для тебя еще больше инструментов, лайфхаков и вдохновения на Яндекс.Дзен.Подписывайся!
Мы в социальных сетях
Подбор ключевых слов для текстов
Тексты – это основа любого коммерческого сайта, а соответственно к ним необходимо подходить с особой тщательностью. Именно тексты привлекают на сайт пользователей с поисковых систем и именно они могут погубить даже самый хороший сайт, если написаны неправильно.
Начинается написание текстов с подбора ключевых слова, по которым будут продвигаться страницы с данными текстами.
Подбор ключевых слов является одной из наиболее важных составляющих продвижения сайтов, однако он не настолько сложен, как представляют это многие владельцы сайтов.
С чего начать
Для того чтобы правильно подобрать ключевые слова необходимо выяснить для чего собственно создается сайт.
Если нужно продавать товары – необходимо составить каталог всей имеющейся продукции.
Если услуги, то соответственно список услуг.
Для примера мы возьмем сайт сервисного центра по ремонту компьютерной техники (ноутбуки, компьютеры и принтеры).
Создаем для него список оказываемых услуг:
- ремонт компьютеров;
- ремонт ноутбуков;
- ремонт принтеров.
Далее определяем регион, пользователи из которого являются потенциальными клиентами. В нашем случае это Москва и область.
Переходим на сайт wordstat.yandex.ru и начинаем искать поисковые запросы, вводя которые люди хотят найти сайт сервисного центра, который занимается ремонтом компьютеров.
Мыслим, как потенциальные клиенты, думаем, как бы мы искали соответствующие сайты, но сначала указываем регион, чтобы получить реальное количество запросов.
Выбираем Москву и область (у вас может быть другой регион).
Начинаем с самого очевидного запроса «Ремонт компьютеров». Вводим его в поле и нажимаем «Подобрать».
Создаем excel-файл и вносим в него ключевые слова, которые, по вашему мнению, могут вбивать люди, которым нужен ремонт компьютеров в Москве, в том числе непосредственно в вашем регионе.
Допустим, мы выбрали следующие ключевые слова. Анализируем их и явно видим, что их можно разделить на три группы – это ремонт в сервисе, ремонт на дому и поиск сервис-центра. Разделяем!
Итого получаем три группы ключевых слов, соответственно для каждой группы можно создать отдельную страницу и на каждую страницу написать свой текст с соответствующими ключами.
«Запихивать» все ключевые слова в один текст и располагать их на одной странице непрактично, так как будет перенасыщение ключей, что не есть хорошо. Кроме того, мы сделали три страницы, каждая их которых ориентирована на определенный слой людей.
У нас будет страница «Центр ремонта компьютеров в Москве», где мы опишем свой сервис, и как в нем выполняется ремонт.
На странице «Ремонт компьютеров в Москве» мы поместим текст, рассказывающий о ремонте компьютеров и призывающий ремонтировать их именно у нас.
На странице «Ремонт компьютеров на дому в Москве» мы расскажем, что оказываем такую услугу и что она является выгодной, а также очень удобной.
Все для первой услуги мы подобрали ключевые слова и распределили их по разным страницам. Важно, чтобы распределение было осмысленным.
Обратите внимание, что мы не взяли ключ «ремонт компьютеров» и не будем по нему продвигать ни одну из страниц, так как он малоэффективен. Подбирая ключи нужно выбирать те, что люди вбивают в поисковик, желая что-то купить. Использовать же общие ключи, типа «ремонт компьютеров», «ремонт квартир», «дизайн интерьера» и т.д. в большинстве случае финансово не оправдано (в одном из следующих уроков мы рассмотрим разницу между эффективными и неэффективными ключевыми словами подробнее).
Для остальных услуг подбор ключевых слов осуществляется аналогично. Чтобы было понятнее, мы рассмотрим подбор ключевых слов для интернет магазина входных дверей.
Начинаем с создания списка реализуемых товаров, пусть это будут:
- Входные металлические двери.
Распишем ассортимент подробнее.
- Стальные двери с отделкой окрашенным МДФ.
- Стальные двери с отделкой шпонированным МДФ.
- Стальные двери с отделкой порошковым напылением.
Переходим на сайт wordstat.yandex.ru и начинаем подбирать запросы под первую категорию дверей, предварительно указав регион.
Для начала вбиваем в поиск слова «стальные», «двери» и «МДФ» — делаем выборку подходящих.
Далее меняем «стальные» на металлические и делаем выборку.
Самые очевидные ключевые запросы собраны, теперь включаем логику. Двери окрашиваются по RAL, значит может быть и такой запрос. Вбиваем и смотрим.
Запросы есть, копируем их в excel-файл.
Переходим на следующую категорию товаров – это стальные двери с отделкой шпонированным МДФ. Пробуем искать для них подходящие запросы.
Переходим на двери с порошковым напылением. Ищем для них запросы.
После того, как найдены самые очевидные варианты включаем фантазию и догадываемся, что порошковые двери, обладающие отличной стойкостью к вандализму могут называться антивандальными. Проверяем!
Копируем все подходящие запросы в excel-файл.
Мы подобрали ключевые слова для всех трех категорий товаров, представленных в нашем магазине. То есть, мы можем сделать три страницы, содержащие соответствующие товары и текст с нужными ключами.
Необходимо также сделать страницу для всех продаваемых нами дверей, заходя на которую люди смогут выбрать, какую именно входную дверь им купить. Включаем логику. Что объединяет все три вида дверей? Правильно – они стальные, металлические, входные, продаются, на заказ, в Москве. Забиваем данные слова и находим нужные нам поисковые запросы для страницы, которая будет объединять все наши товары. Забивать слова необходимо по два, по три или даже по четыре, перебирая все возможные комбинации. Запросов будет много, нам же нужно выбрать только наиболее подходящие.
Мы выбрали и скопировали в excel-файл следующие запросы.
Теперь мы можем создать главную страницу и еще три страницы с товарами, и на каждой из страниц будут соответствующие поисковые запросы.
Естественно, все подобранные ключевые слова в текст помещать не стоит, нужно выбрать только 3-4 или даже меньше. Но выбирать нужно все подходящие ключи, это поможет писателю во время написания текстов вставить именно те ключи, которые лучше всего вписываются в статью и не портят ее.
Примечание:
Если у вас иностранный сайт, то ключевые слова нужно подбирать не по Яндексу, а по Google, используя следующий сервис.
Не стоит также забывать устанавливать регион, потому что поисковые запросы, вводимые во Владивостоке, могут очень существенно отличаться от запросов, вводимых в Москве. Различия запросов между странами еще более существенное.
Проверить текст на вхождение ключевых слов в режиме онлайн
Частично материал был взят из статьи Сергея Кокшарова про классификацию вхождений ключевых слов, но немного видоизменен.
- Добавляйте ссылку на инструмент в свое ТЗ, чтобы авторы сразу понимали, как их будут проверять.
- Отправьте ссылку на полученный результат, чтобы человек сам увидел каких ключевых фраз еще нет в тексте.
- Высказывайте свои пожелания, чтобы сделать инструмент еще удобнее конкретно для ваших задач: [email protected].
Шаблоны ключевых слов
Существует много сервисов для сбора семантики. Они предоставляют результаты в разных форматах. Чтобы их было удобно использовать мы создали разные шаблоны обработки ключевых слов. В зависимости от выбранного шаблона алгоритм будет по-разному искать ключевые фразы.
Шаблон: ключевая фраза. Пример:
- купить автомобиль
- купить автомобиль
- купить трактор
Инструмент будет искать каждую ключевую фразу минимум один раз, даже если они одинаковые.
Шаблон: ключевая фраза (3). Пример:
- купить автомобиль (2)
- купить трактор
Инструмент будет искать ключевую фразу “купить автомобиль” минимум два раза и “купить трактор” минимум один раз.
Шаблон: ключевая фраза [3]. Пример:
- купить автомобиль [2]
- купить трактор
Отличается от предыдущего только квадратными скобками. Инструмент будет искать ключевую фразу “купить автомобиль” минимум два раза и “купить трактор” минимум один раз.
Шаблон: ключевая фраза — 2*. Пример:
- купить автомобиль — 2
- купить мопед — 2+
- купить трактор — 3 раза
- купить самолет
Звездочка (*) означает, что при наличии тире и цифры “- 2” весь дальнейший текст будет игнорироваться.
Инструмент будет искать ключевую фразу “купить автомобиль” минимум два раза, “купить мопед” минимум два раза, “купить трактор” минимум три раза, “купить самолет” минимум один раз.
Шаблон: ключевая фраза,2*. Пример:
- купить автомобиль,2
- купить трактор,3 раза
- купить самолет
Звездочка (*) означает, что при наличии запятой и цифры “,2” весь дальнейший текст будет игнорироваться.
Инструмент будет искать ключевую фразу “купить автомобиль” минимум два раза, “купить трактор” минимум три раза, “купить самолет” минимум один раз.
Если вам необходим индивидуальный шаблон для обработки ключевых фраз, напишите нам на [email protected].
Точное вхождение
Ключевая фраза встречается в тексте в неизменном виде. Регистр и последовательность слов важны.
Пример для фразы “брачное агентство”:
Готового рецепта счастья не существует, но один из способов найти свое – обратиться в брачное агентство.
Чистое вхождение
То же самое, что и точное. Регистр не важен. Последовательность слов важна.
Пример для фразы “nokia купить”:
У официальных представителей Nokia купить телефон надежнее, чем у других продавцов.
Прямое вхождение
Почти то же самое, что и чистое, за исключением того, что между ключевыми фразами могут встречаться некоторые знаки препинания в рамках одного предложения.
Пример для фразы “nokia купить”:
Телефоны Nokia, купить которые можно у нас, пользуются большим спросом.
Разбавленное вхождение
Фраза может быть разбавлена дополнительными словами и знаками препинания в рамках одного предложения. Регистр не важен. Последовательность слов важна.
Примеры для фразы “пакеты оптом”:
Приобретайте наши пакеты полиэтиленовые оптом и в розницу.
Каждый месяц мы покупаем пакеты для мусора, оптом брать не хотим.
Морфологическое вхождение
Одно или несколько слов из ключевой фразы изменены по форме с помощью склонения или спряжения. Регистр не важен. Последовательность слов важна.
Примеры для фразы “доставка грузов”:
Как доставить груз в пункт назначения как можно быстрее?
Срочная доставка груза позволяет сохранить качество скоропортящейся продукции.
Морфологическое разбавленное вхождение
Говорит само за себя. Означает изменение формы слов (склонение, спряжение) с возможным разбавлением дополнительными словами и знаками препинания в рамках одного предложения.
Пример для фразы “доставка грузов”:
Курьерская служба обеспечит доставку документов и выдачу грузов.
Обратное вхождение
Это прямое вхождение только с проверкой последовательности слов в ключевой фразе от последнего слова к первому в рамках одного предложения. Регистр не важен.
Пример для фразы “смартфон купить”:
Купить смартфон проще, чем вы думаете.
Обратное разбавленное вхождение
Обратное вхождение с возможным разбавлением дополнительными словами и знаками препинания в рамках одного предложения. Регистр не важен.
Пример для фразы “смартфон купить”:
Купить новый смартфон проще, чем вы думаете.
Сложное вхождение
Любое вхождение в любой последовательности. Регистр не важен. Последовательность слов не важна.
Пример для фразы “российская премьер лига чемпион”:
Единственный их шанс – это возможная ничья, стать чемпионом российской премьер-лиги команде вряд ли удастся.
Ключевые слова в тексте: как правильно вставить в статью
Ключевые слова в тексте часто сбивают с толку начинающих авторов. Особенно когда их количество зашкаливает. Эта статья появилась на свет благодаря одной из моих читательниц, которая озадачила меня предметным вопросом. На минуту представьте, что Вам нужно написать небольшую статью. Скажем, на 1 страницу А4 ( ~2 тыс. знаков). И все бы ничего, если бы не запросы. Их слишком много для такого ограниченного объема. В качестве эксперимента предположим, что у нас вот такое “локальное” семантическое ядро (перечень ключевых слов).
Ключевые слова, которые нужно вставить в текст.При этом неважно, пишете Вы статью для себя (своего сайта, блога) или по техническому заданию оптимизатора (вебмастера). Проблема одна: вставить такое количество ключей в столь малый объем текста сложно. Тем более, чтобы все это выглядело естественно, органично, и не было переспама, за который поисковые системы наказывают (или, как говорят seo-специалисты, пессимизируют, накладывают фильтры).
Но это только на первый взгляд. Сейчас я покажу Вам пару хитростей и трюков, благодаря которым ключи можно не считать. Условно, конечно. Чем выше плотность — тем выше риск попадания под фильтры. Поэтому в данной статье мы будем рассматривать крайний, так сказать, академический, случай, который на практике в идеале разбавлять большим объемом информативного текста.
Важный момент: для простоты при демонстрации решения этой задачи я не буду учитывать и подробно описывать тематическое ядро и фактор латентно-семантического индексирования (LSI-фактор). Подробнее о них можно узнать из этого видеоурока.
Итого. Перед нами стоит задача: написать текст заданного объема и вставить ключевые слова из массивного технического задания оптимизатора. Давайте решим ее вместе и по шагам.
Шаг 1: определяем намерение (интент) пользователя и тип текста
Первым делом нужно посмотреть на ключи, определить целевую аудиторию (для кого пишем текст) и выбрать тип статьи. 99% авторов выбирают описательный материал в стиле а-ля “Ландшафтный дизайн для частного дома”. В худшем случае — просто делают рерайт публикаций из интернета. Но мы пойдем другим, более грамотным, путем.
Рассуждаем логически. У нас ключи связаны с визуальным направлением. Аудитория – владельцы частных домов с небольшими участками. С высокой долей вероятности интент пользователя, или причина, по которой человек вводит ключевые слова, – увидеть примеры ландшафтного дизайна, которые можно воссоздать у себя на участке 6-10 соток своими силами. Вот почему в качестве типа статьи я выберу формат ТОП-N с небольшой теоретической вставкой о стилях.
Шаг 2: группируем ключевые слова
Когда я определил целевую аудиторию и ее интент, я группирую ключевые слова, чтобы определиться с будущей структурой текста.
Группируем ключевые слова.Всего у меня получилось четыре группы запросов:
- Основной запрос, который пойдет в заголовок статьи, лид и Title.
- Общие запросы, так сказать, технические ключевые слова, которые я равномерно вставлю в материал.
- Один предметный запрос, который я использую в подзаголовке, тем самым повысив его вес.
- Дополнительные ключевые слова, которые обязательно нужно визуализировать.
Как только группировка завершена, переходим к подготовке тезисов будущей статьи.
Шаг 3: составляем тезисы для структуры текста
Если правильно сгруппировать ключи, структура начинает вырисовываться сама собой. Ее только нужно немного оформить и «причесать». Я выбрал вот такой незамысловатый вариант.
- Заголовок, который включает основной запрос.
- Лид, проблемный абзац, в котором я озвучиваю проблему целевой аудитории и обещаю показать изящное решение.
- Теоретическая вставка о стилях ландшафтного дизайна, актуального для целевой аудитории.
- Примеры ландшафтного дизайна на базе тех ключевых слов, которые нам нужно визуализировать.
- С розами
- С хвойником
- С миксбордерами
- С галькой
- С чем-нибудь еще, чтобы получилось 5 пунктов
Шаг 4: собираем и анализируем необходимую информацию
В статье, которую я хочу написать, мне нужно рассказать читателю о стилях ландшафтного дизайна и показать наглядные примеры. В стилях я ни в зуб ногой, и своих примеров у меня, естественно, нет. Я же копирайтер, а не ландшафтный дизайнер. Поэтому на этом этапе моя задача собрать и обработать недостающую информацию, которую затем можно использовать в тексте.
Этот шаг потребует дополнительных телодвижений и усилий, но и окупится сторицей: я смогу создать мало того что уникальный материал, так его еще будет интересно читать.
Шаг 5: Пишем текст
Ключи есть. Информация есть. Структура есть. Написать статью теперь – дело техники. Более того, на базе этих исходных данных я могу создать огромное множество уникальных текстов. Словом, здесь мы просто идем по пунктам структуры, вставляя ключевые слова органично в тех местах, где они подходят. Если нет, то не вставляем пока вообще. Наша главная задача – получить хороший материал для читателя, т.к. от этого зависят поведенческие факторы. Для роботов адаптируем чуть позже, если будет нужно. В самом конце.
Для большего удобства процесс написания текста и вставки ключевых слов я разобью на несколько этапов в соответствии со структурой. Грубо говоря, каждый функциональный блок или их связка — это этап. Используемые запросы из семантического ядра я буду отмечать красным цветом.
Этап №1: заголовок и первый абзац
Как я уже говорил, в заголовке я использую ключевое слово, но при этом добавляю еще изюминку материала — обещание закрыть интерес пользователя и дать то, что он ищет. Например, так.
Заголовок и первый абзац с ключевыми фразами.Обратите внимание: в заголовке я использовал различные комбинации ключевых слов, но так, чтобы основной запрос имел прямое вхождение (т.е. использовался в точности так, как написано в техническом задании).
Первый абзац (лид) я также начинаю с ключевого запроса, чтобы показать поисковым системам его значимость. Обратите также внимание, что в самой сложной формулировке технического задания от копирайтера могут требовать все запросы использовать в прямом вхождении. И здесь нужно сделать одну оговорку.
ОЧЕНЬ, ОЧЕНЬ, ОЧЕНЬ ВАЖНЫЙ МОМЕНТ
Я использую в этом примере все запросы в прямом вхождении и в рамках ограниченного объема исключительно в демонстративных целях решения сложной задачи. В реальных условиях, если Вы встречаете такие требования, — с Вас спроса не будет. Что требуют — то и получают. Но для своего сайта я настоятельно НЕ рекомендую использовать сплошные прямые формы ключевых слов в таком количестве, особенно если это касается коммерческих запросов а-ля «Купить бензопилу в Москве», потому что это прямой и быстрый путь попадания под фильтры поисковых систем. Это чтобы не было претензий, дескать, Шардаков рекомендует написать спамный текст. Совет: в любой ситуации старайтесь исходить из здравого смысла.
И еще несколько полезных рекомендаций от моего друга, SEO-специалиста, Антона Шабана:
- Вписывать прямые вхождения в большом количестве сейчас опасно. Их стоит вписать только тогда, когда слова из фразы разделять будет не очень уместно.
- Во всех остальных случаях ничего не случится, если слова переставить местами, склонять их либо вообще использовать просто в одном пассаже (делать непрямые вхождения).
- Google больше любит прямые вхождения, ему такой текст может понравиться, но в Яндексе могут быть серьезные проблемы, особенно если вставляются коммерческие ключи (со словом «купить», «цена», «заказать» «в Топоним» и т.д.)
- Чтобы не переспамить, лучше посмотреть у конкурентов, какой объем вхождений оптимален для каждого конктретного запроса (подробнее см. здесь).
Этап №2: информативная вставка о стилях
Если Вы внимательно посмотрите на тезисы, то увидите, что следующий блок после лида — информативная вставка, где мы используем ключевые слова в подзаголовке. В последующем абзаце мы раскрываем суть этого подзаголовка. Например, вот так.
Ключевые слова в подзаголовке и подписи под изображением.И здесь мы используем одну хитрость. Обратите внимание: ключей много, а текста мало. И связать по смыслу все запросы между собой практически невозможно. Поэтому мы где можем — вставляем ключевые слова в текст, а где не можем — используем в подписях под изображениями. Это идеальное место. Более того, изображения делают наш текст лучше, нагляднее и привлекательнее. А еще они классно работают на SEO за счет поиска по картинкам, alt-атрибута и улучшения поведенческих показателей.
К слову, об изображениях. Если хотите все сделать правильно, то в поиске выбирайте изображения с лицензией на использование. Или присмотрите что-нибудь на фотостоках.
Чуть ниже я использую еще один такой же блок, чтобы вставить ключ об участке 6 соток (см. полную версию текста в конце статьи).
Этап №3: последовательные блоки перечисления
Наконец, третий этап. В нем у нас идут пять примеров. Я неслучайно выбрал именно этот формат. На каждый пример я могу привести наглядное изображение, а под картинкой вставить ключевое слово. Выходит просто, быстро, практично и органично. Таких блоков у меня 5 штук.
Блоки перечисления с ключевыми фразами.У подобных перечислений есть еще еще одна сильная черта: при грамотном подходе и форматировании они образуют хорошую логическую структуру текста с иерархическими подзаголовками. Узнайте об этом больше из статьи «Зачем копирайтеру знать HTML«.
Этап №4: выводы и заключение
После перечисления примеров я делаю заключительный абзац, в котором подвожу итог и призываю аудиторию высказаться в комментариях. Посмотрите, как выглядит текст целиком. Чуть ниже — фрагмент на изображении, а вот ссылка на исходник в Google Docs. Только, чур, не копировать текст, хорошо?
Пример текста со вставленными ключевыми словами.Еще раз предупреждаю. Этот текст — демонстрация того как вписывать ключи в ограниченном объеме. Не копируйте и не используйте этот текст, потому что с высокой долей вероятности в том виде, в котором он есть сейчас, материал попадет под фильтр.
Итог всего этого безобразия
Давайте подведем итоги. Общий объем текста при решении задачи составил 1985 символов, без учета заголовка. Как раз вписались в требования (до 2000 знаков).
Ключевые слова (а их у нас 11 штук) использовали все, причем в прямом вхождении. Вписали их равномерно и, можно сказать, решили задачу в самой сложной формулировке. Если их можно разбавлять промежуточными словами или использовать словоформы, то задача заметно упрощается.
Если бы по готовности текста у нас остались неиспользованные ключевые фразы, то я бы использовал дополнительный текстовый блок, изображение или любой другой разделитель, чтобы нужные ключи были на своих местах.
Резонный вопрос: а если бы не было столько изображений, как бы я выкрутился? Очень просто. Использовал вставки (например, выноски), таблицы либо ассоциативную визуализацию. О чем бы Вы ни рассказывали в тексте, всегда есть что показать.
Попробуйте использовать эти приемы при решении собственных задач, и, я твердо убежден, что у Вас все получится! А если возникнут вопросы — задайте их в комментариях.
Искренне Ваш, Даниил Шардаков.
P.S. Понравилась статья? Поделитесь ей в соцсетях, нажав на одну из кнопок ниже.
Keywords — Словарь— PromoPult.ru
Keywords, ключевые слова, ключи, ключевики — это слова и фразы, которые описывают тематику всего сайта и каждой страницы в отдельности и являются частью контента веб-ресурса. По ключевым словам поисковые машины оценивают релевантность страниц поисковому запросу и в зависимости от соответствия ранжируют их выше или ниже в результатах поиска. Анализ ключевых слов на страницах осуществляется при помощи метода пассажей.
Совокупность ключевых слов и фраз на сайте составляет семантическое ядро.
Как найти ключевые слова
Подбор ключевых слов — довольно долгий и кропотливый процесс. Для его ускорения используются парсеры или целые комплексы программ для работы с семантикой. Для начала нужно составить базовый список слов и фраз, которые характеризуют тематику сайта. Это может быть описание деятельности, услуг, список категорий товаров, товарная номенклатура и т. д.
Wordstat
Базовый список необходимо расширить теми запросами, которые вводили пользователи в строке поиска наряду со словами из базового списка. Найти такие слова и фразы можно с помощью сервиса статистики «Яндекс.Вордстат». По каждому отдельному ключевику сервис покажет варианты запросов, связанные с ним. Данная информация доступна в левой колонке Wordstat.
В правой колонке Wordstat будут показаны запросы, похожие на исходное ключевое слово. Многие из них также можно включить в семантическое ядро, если они имеют отношение к тематике сайта.
Обязательно стоит учитывать частотность запросов «Вордстат», применяя специальные поисковые операторы для уточнения статистики. Среди собранных слов и фраз могут быть «нулевые» — с очень низкой частотой запросов в месяц (например, 5 и меньше), которые не способны приводить трафик на сайт.
Поисковые подсказки
При вводе запроса в строке поиска выпадает список из поисковых подсказок — дополнительных вариантов запроса, востребованных на текущий момент. Эти подсказки — ценный источник семантики, их рекомендуется включить в ядро. Они особенно актуальны для тематик с выраженной сезонностью.
Фразы-ассоциации
В результатах поиска «Яндекса» и Google в нижней части страницы можно увидеть блок «С этим запросом также ищут». Это сопряженные тематически фразы (фразы-ассоциации), которые также можно использовать для оптимизации страниц.
Анализ сайтов конкурентов
Сайты успешных конкурентов из топ-10 также могут стать источником ключевых слов. С помощью программ-парсеров можно автоматически собрать заголовки страниц Title, заголовки текстов h2-H6 и метаданные Keywords (перечисление ключевых слов страницы). Если какие-то из найденных слов конкурентов отсутствуют в собранном списке, их можно добавить для расширения ядра.
Счетчики статистики
Если на сайте стоят счетчики «Яндекс.Метрики» или Google Analytics, информацию о поисковых запросах можно почерпнуть из них. Отчет о поисковых запросах покажет, по каким фразам пользователи находили сайт в поиске и переходили на его страницы. Эти запросы также стоит добавить в список ключевых слов для продвижения.
Как использовать ключевые слова в тексте
Собранные ключевые слова необходимо прописать в тексте целевых страниц. Чтобы грамотно скомпоновать слова и фразы (использовать на одной странице группу подходящих запросов), нужно выполнить кластеризацию. Это процедура группировки слов, которые проще и эффективнее продвигать на одной странице. Для выполнения кластеризации применяют программы-кластеризаторы (например, сервис от PromoPult).
Связав подходящие слова в группы, их необходимо грамотно вписать в текст — распределить таким образом, чтобы страница была релевантна поисковому запросу, но при этом на ней не было спама. Вхождение ключей должно быть естественным, чтобы не допустить высоких показателей тошноты. Необходимо использовать не только прямое вхождение ключевиков (точное соответствие), но и прибегать к словоформам и разбавленному вхождению (применять дополнительные слова) для избежания перенасыщения. Проверить плотность вхождения ключевых слов можно с помощью специальных сервисов, например «Адвего».
Ключевые слова и SEO
Чтобы страница была релевантна поисковому запросу, ключевые слова на ней рекомендуется вводить в следующих зонах:
- заголовок страницы Title,
- метатег Description,
- заголовок текста h2 и подзаголовки,
- основной текст страницы,
- внутренние и внешние ссылки на данную страницу,
- подписи к изображениям на странице.
См. также
SS Проведение качественного обзора литературы
ASG026
перейти к содержанию Щиток приборовАвторизоваться
Панель приборов
Календарь
Входящие
История
Помощь
- Мой Dashboard
- ASG026
- Дом
- Тесты
- Модули
- Panopto
В ближайшее время
Просмотр календаря- Ничего на следующую неделю
запросов по ключевому слову
поиск по ключевому словуКаждая запись в каталоге библиотеки содержит конкретную информацию о произведении, такую как название, автор и тема.Вы можете искать в этих полях записи ключевые слова. Поиск по ключевому слову в любом поле просматривает все поля поиска каталога библиотеки, чтобы найти текст ключевого слова. Поиск по другим ключевым словам сужает поиск по ключевому слову только по автору, теме, заголовку или другим конкретным полям. Если ваша библиотека предлагает другие базы данных для поиска, их можно выбрать для поиска по ключевым словам.
Набор текста для поиска — поиск по ключевым словам
Регистр, пробелы, знаки препинания — Регистр букв, несколько пробелов и знаки препинания игнорируются.Пропускайте дефис в числах. Однако вы можете включить следующие символы, если они непосредственно предшествуют или следуют за буквой или цифрой (без пробелов между ними): + #% $
Несколько слов — Если вы введете более одного слова, в результаты могут быть включены материалы со словами в любом порядке. Если вы хотите найти слова в точном порядке, начните фразу с двойных кавычек.
Подстановочные знаки — Вы можете ввести часть слова и использовать подстановочный знак.Подстановочный знак звездочка (*) представляет остальную часть слова. Например, если вы наберете King * , результаты будут включать такие слова, как King , Kingsley и Kingford . Знак вопроса с подстановочным знаком (?) Представляет ровно один символ. Например, женщина находит женщин и женщин . Если вопросительный знак стоит в конце слова, он не действует как подстановочный знак, поэтому вы можете найти такие заголовки, как , какого цвета ваш парашют? Кроме того, если вы вводите символ обратной косой черты (\) перед любым подстановочным знаком, подстановочный знак обрабатывается как текст.
Для поиска по ключевым словам
- Выберите Ключевое слово в меню Поиск .
- Введите текст для поиска в поле Поиск по ключевым словам для . См. Ввод текста для поиска — поиск по ключевым словам.
- Выберите Поиск по символу стрелки и выберите поле поиска из списка:
Если вы видите предлагаемые условия поиска по мере ввода, вы можете проигнорировать предложения и продолжить вводить свой поисковый запрос, или вы можете выбрать вариант для поиска этого термина. Выберите Скрыть предложения , если вы не хотите видеть предложения поиска.Щелкните маленькую стрелку в текстовом поле поиска, чтобы отобразить предложения после того, как они были скрыты.
- Любое поле — Все поля проиндексированной информации
- Заголовок — Поля заголовка
- Автор — Автор полей
- Тема — Поля темы
- Общие примечания — Поля примечаний
- Издатель — Поле издателя
- Жанр — Формы или типы материалов, таких как научная фантастика, романтика, биография, библиография или книги крупного шрифта
- Серия — Серия полей
- ISBN — Международный стандартный номер книги, 13-значный номер, который присваивается конкретной книге или изданию книги при ее публикации.Для достижения наилучших результатов введите подстановочный знак (*) в начале и в конце числа, которое вы вводите.
- ISSN — Международный стандартный серийный номер, 8-значное число с дополнительным буквенным кодом, идентифицирующим серийное название. Для достижения наилучших результатов введите подстановочный знак (*) в начале и в конце введенного числа.
- LCCN — Контрольный номер Библиотеки Конгресса. Для достижения наилучших результатов введите подстановочный знак (*) в начале и в конце числа, которое вы вводите.
- Номер издателя — Номер издателя, уникальный идентификатор, присваиваемый издателям звукозаписей, видеозаписей, печатных нот и других музыкальных произведений
- SuDoc — классификационный номер (идентификатор) управляющего документами, присвоенный правительственным документам. Идентификатор может состоять из букв и цифр.
- CODEN — Идентификатор названий научных и технических периодических изданий.Шестизначный идентификатор может состоять из букв и цифр.
- STRN — Стандартный номер технического отчета (идентификатор), присвоенный в соответствии со стандартами ISO 10444 или NISO Z39.23. Идентификатор может состоять из букв и цифр.
Примечание: Ваша библиотека может предоставлять цифровую коллекцию, в которой вы можете искать и получать к ней доступ в Интернете так же, как вы ищете другие материалы. Материалы в коллекции могут включать изображения, видеоклипы, звуковые и текстовые файлы. Если вы хотите ограничить результаты поиска материалами цифровой коллекции, выберите Цифровая коллекция в поле Ограничить на .
Откроется окно параметров поиска.
Вы также можете исключить элементы из поиска.Выберите их из соответствующего списка и выберите поле Исключить под списком.
Примечание: Подробные типы материалов определяются библиотекой для физических элементов, которыми она владеет. Форматы в поле Ограничить на панели поиска относятся к общим форматам и типам материалов, связанных с записями заголовков в каталоге. Вы можете ограничить поиск форматом или подробным типом материала, но не обоими сразу. Если вы выбрали формат в поле Ограничить при настройке поиска, ваш выбор формата будет отменен при установке типа материала.
Окно параметров поиска закроется, а в строке поиска отобразится выделенное сообщение о том, что параметры были установлены. Чтобы изменить их, выберите ссылку Изменить в выделенном сообщении Параметры установить , установите новые значения и выберите Установить параметры поиска . Затем выполните новый поиск. (Предыдущий поиск, если таковой был, автоматически выполняется снова с использованием новых настроек параметров.)
Чтобы сбросить параметры поиска до их исходных значений, щелкните ссылку Очистить в выделенном сообщении Набор параметров .Поиск выполняется снова с использованием исходных значений.
Важно: Параметры поиска сохраняют свои настройки до тех пор, пока вы не сбросите их или не перейдете на домашнюю страницу. Выделенное сообщение Набор параметров на панели поиска указывает, что параметры поиска установлены на значения, отличные от обычных значений.
Откроется окно «Выбор баз данных» с выбранными базами данных поиска библиотеки по умолчанию (локальная база данных и удаленные базы данных). Если вы не хотите выполнять поиск в локальном каталоге вместе с удаленными базами данных, установите флажок рядом с локальной базой данных, чтобы снять этот флажок.
Ваш выбор останется до тех пор, пока вы его не сбросите. Чтобы сбросить базы данных поиска до баз данных библиотеки по умолчанию, щелкните или коснитесь Очистить .
Если поиск успешен, вы увидите результаты поиска.Если совпадений не найдено, вы увидите сообщение. Вы также можете увидеть предложение Возможно, вы имели в виду предложение . Вы можете выбрать предложение для поиска предложенного термина. Вы можете щелкнуть или коснуться Еще , чтобы увидеть дополнительные предложения.
Если вы выбрали удаленные базы данных для поиска, в строке состояния будет указано, сколько результатов было получено и сколько результатов ожидает. Чтобы загрузить оставшиеся результаты, выберите Добавить ожидающие результаты . Вы можете выбрать Search Status , чтобы увидеть количество результатов для всех выбранных баз данных.Если вы выбрали или ввели параметр поиска Ограничить , который удаленная база данных не может использовать, результаты из этой базы данных возвращаются на основе введенных вами основных условий поиска, и сообщение указывает, что ограничители не использовались при поиске в удаленной базе данных. .
Вы также можете увидеть ссылку на Включить связанные слова . Вы можете щелкнуть или коснуться этой ссылки, чтобы добавить записи, содержащие похожие слова, а также ваш буквальный введенный поисковый запрос в результаты поиска.«Родственные слова» включают слова, образованные от корня (например, правильные формы множественного числа и окончания глаголов, такие как прогулка, прогулки, ходьба, ходьба, ходьба, но не неправильные формы, такие как мышь / мышь или бег / бег) и синонимы. Синонимы включают общие прозвища, варианты имен собственных и варианты написания.
Если вы выбрали Включить связанные слова для результатов поиска, вы можете увидеть два параметра в разделе «Узкий»: Посмотреть, что было добавлено , и Просмотреть исходные результаты .
- Чтобы увидеть только записи связанных слов, выберите только Посмотрите, что было добавлено .
- Чтобы просмотреть только исходные результаты поиска без записей связанных слов, выберите только Просмотреть исходные результаты .
- Чтобы увидеть исходные результаты поиска ПЛЮС записи связанных слов, установите или снимите оба флажка.
Советы по поиску
Советы по поискуВ простейшем случае запрос может быть просто словом или фразой. Но с помощью советов на этой странице вы можете расширить фокус вашего запроса, чтобы получить более полные результаты.
Эти советы помогут вам начать работу с базовым языком запросов, используемым Microsoft Index Server.
Ищите слова с одинаковым префиксом.Например, в форме запроса введите ключ * , чтобы найти ключ , ключ , замочную скважину , клавиатуру и т. Д.
Поиск всех форм слова. Например, в форме введите раковина ** , чтобы найти раковину , тонет , затонул и затонул .
Выполните поиск близких слов по ключевому слову NEAR, , а не AND .Например, оба этих запроса, система и менеджер и система рядом с менеджером , ищут слова система и менеджер на одной странице. Но с NEAR возвращенные страницы ранжируются в порядке близости: чем ближе друг к другу слова, тем выше рейтинг этой страницы.
Уточните свои запросы с помощью ключевых слов , И НЕ , чтобы исключить определенный текст из поиска. Например, если вы хотите найти все экземпляры , просматривающие , но не в сети , напишите следующий запрос:
серфинг, а НЕ Сеть
- Добавьте ключевое слово OR , чтобы найти все вхождения того или иного слова, например:
Abbott OR Costello
Этот запрос находит все страницы, на которых упоминаются Abbott или Costello, или и то, и другое.
Поместите ключевые слова в кавычки, если вы хотите, чтобы сервер индексирования воспринимал их буквально. Например, если вы введете следующий запрос:
«проекты для представления»
Индексный сервер будет буквально искать полную фразу проектов, чтобы представить . Но если вы наберете тот же запрос без кавычек:проектов для представления
Index Server выполнит поиск во всех документах слов проектов и присутствует .
Используйте запросы с произвольным текстом, если вы хотите вводить запросы на естественном языке. Сервер индексации проверит ваш запрос, извлечет существительные и словосочетания существительных и построит для вас запрос. С помощью запросов с произвольным текстом вы можете ввести любой текст, от правильного вопроса до строки слов и фраз, не беспокоясь о языке запроса. Например, если вы введете следующий запрос:
«Как мне использовать функцию отправки предложения?»
Сервер индексации автоматически создаст для вас запрос и начнет поиск.Обратите внимание, что при использовании запросов с произвольным текстом функции обычного языка запросов отключены, а такие ключевые слова, как AND , OR и NEAR , интерпретируются как обычные слова.
Семейство типов ключевых слов | Руководство по Elasticsearch [7.15]
Семейство ключевых слов включает следующие типы полей:
-
ключевое слово
, которое используется для структурированного контента, такого как идентификаторы, электронная почта адреса, имена хостов, коды состояния, почтовые индексы или теги. -
constant_keyword
для полей ключевых слов, которые всегда содержат такое же значение. -
подстановочный знак
для неструктурированного содержимого, созданного машиной. Подстановочный знакТип
оптимизирован для полей с большими или высокими значениями. мощность.
Поля ключевых слов часто используются при сортировке,
агрегации и на уровне терминов
запросы, такие как термин
.
Избегайте использования полей ключевых слов для полнотекстового поиска. Используйте текст
тип поля вместо этого.
Тип поля ключевого словаedit
Ниже приведен пример сопоставления основного поля ключевого слова
:
PUT my-index-000001 { "mappings": { "характеристики": { "теги": { "тип": "ключевое слово" } } } }
Отображение числовых идентификаторов
Не все числовые данные должны отображаться как тип данных числового поля.
Elasticsearch оптимизирует числовые поля, такие как целое число
или длинное
, для диапазон
запрос.Однако ключевое слово
поля
лучше срок
и др.
запросы на уровне терминов.
, такие как ISBN или идентификатор продукта, редко используются в диапазоне
запросы. Однако их часто получают с помощью запросов на уровне терминов.
Рассмотрите возможность сопоставления числового идентификатора с ключевым словом
, если:
- Вы не планируете искать данные идентификатора с помощью
диапазон
запрос. - Быстрый поиск важен.
запрос
поиск поключевому слову
поля часто быстрее, чемтермин
выполняет поиск по числовым полям.
Если вы не знаете, что использовать, вы можете использовать несколько полей для сопоставления
данные как ключевое слово ,
, и как числовой тип данных.
Параметры для основных полей ключевых словправить
Ключевое слово принимает следующие параметры
полей:
| Отображение увеличения времени запроса на уровне поля.Принимает число с плавающей запятой, по умолчанию
к |
| Только для внутреннего использования компанией Elastic. Помечает поле как измерение временного ряда. Принимает Поля измерений имеют следующие ограничения:
|
| Следует ли хранить поле на диске в виде столбцов, чтобы оно
может позже использоваться для сортировки, агрегирования или написания сценариев? Принимает |
| Следует ли с нетерпением загружать глобальные порядковые номера при обновлении? Принимает |
| Множественные поля позволяют индексировать одно и то же строковое значение несколькими способами для разные цели, например одно поле для поиска и несколько полей для сортировка и агрегирование. |
| Не индексируйте строки длиннее этого значения. По умолчанию |
| Должно ли поле быть доступным для поиска? Принимает |
| Какую информацию следует хранить в указателе для целей оценки.
По умолчанию — |
| Следует ли учитывать длину поля при оценке запросов.
Принимает |
| Принимает строковое значение, которое заменяется любым явным |
| Определяет, что делать, если сценарий, определенный параметром |
| Если этот параметр установлен, то поле будет индексировать сгенерированные значения.
этим скриптом, а не считывать значения непосредственно из
источник.Если для этого поля во входном документе задано значение, тогда
документ будет отклонен с ошибкой.
Скрипты имеют тот же формат, что и их
эквивалент времени выполнения. Значения, выдаваемые
скрипт нормализованы как обычно и будут проигнорированы, если они длиннее
что значение установлено на |
| Следует ли сохранять и извлекать значение поля отдельно от
поле |
| Какой алгоритм оценки или подобия следует использовать. По умолчанию
к |
| Как предварительно обработать ключевое слово перед индексированием. По умолчанию |
| Должны ли полнотекстовые запросы разделять ввод на пробелы
при построении запроса для этого поля.Принимает |
| Метаданные о поле. |
Постоянный тип поля ключевого словаправить
Ключевое слово константы — это специализация поля ключевого слова
для
случай, когда все документы в индексе имеют одинаковое значение.
PUT журналы-отладка { "mappings": { "характеристики": { "@timestamp": { "тип": "дата" }, "сообщение": { "тип": "текст" }, "уровень": { "тип": "постоянное_ключевое слово", "значение": "отладка" } } } }
constant_keyword
поддерживает те же запросы и агрегаты, что и ключевое слово
поля есть, но использует тот факт, что все документы имеют одинаковые
значение на индекс для более эффективного выполнения запросов.
Разрешается подавать документы, не имеющие значения для поля или которые имеют значение, равное значению, настроенному в сопоставлениях. Два ниже запросы индексации эквивалентны:
Журналы POST-отладка / _doc { "date": "2019-12-12", "message": "Запуск Elasticsearch", «уровень»: «отладка» } Журналы POST-отладка / _doc { "date": "2019-12-12", "message": "Запуск Elasticsearch" }
Однако предоставление значения, отличного от значения, настроенного в отображение запрещено.
Если в сопоставлениях не указано значение
, поле будет автоматически
настроить себя на основе значения, содержащегося в первом проиндексированном документе.
Хотя такое поведение может быть удобным, обратите внимание, что это означает, что один
ядовитый документ может привести к отклонению всех других документов, если он
Неверное значение.
До того, как значение было предоставлено (либо через сопоставления, либо из
документ), запросы в поле не будут соответствовать никаким документам. Это включает существует
запрос.
Значение
поля нельзя изменить после того, как оно было установлено.
Параметры для постоянных полей ключевых словправить
Допускаются следующие параметры отображения:
| Метаданные о поле. |
| Значение, которое нужно связать со всеми документами в индексе.Если этот параметр не предоставляется, он устанавливается на основе первого индексируемого документа. |
Тип поля подстановочного знака
Подстановочный знак Тип поля
— это специализированное поле ключевого слова для неструктурированных
машинно-сгенерированный контент, который вы планируете искать, используя grep-подобный подстановочный знак
и регулярное выражение
запросы. Подстановочный знак Тип
оптимизирован для полей с большими или высокими значениями.
мощность.
Внутренний подстановочный знак Поле
индексирует все значение поля, используя нграммы, и сохраняет полную строку.Индекс используется как грубый фильтр, чтобы сократить количество значений, которые затем проверяются путем извлечения и проверки полных значений.
Это поле особенно хорошо подходит для выполнения запросов, подобных grep, в строках журнала. Затраты на хранение обычно ниже, чем у ключевого слова
поля, но скорость поиска точных совпадений по полным условиям ниже. Если
значения полей имеют много префиксов, например URL-адреса одного и того же веб-сайта, хранилище
Стоимость для поля с подстановочным знаком может быть выше, чем для эквивалентного поля
ключевого слова .
Вы индексируете и выполняете поиск в поле с подстановочными знаками, как показано ниже.
PUT my-index-000001 { "mappings": { "характеристики": { "my_wildcard": { "тип": "подстановочный знак" } } } } PUT my-index-000001 / _doc / 1 { "my_wildcard": "Эта строка может быть довольно длинной" } ПОЛУЧИТЬ my-index-000001 / _search { "запрос": { "wildcard": { "my_wildcard": { "value": "* довольно * долго" } } } }
Параметры для полей с подстановочными знакамиправить
В полях подстановочных знаков
принимаются следующие параметры:
| Принимает строковое значение, которое заменяется любым явным |
| Не индексируйте строки длиннее этого значения. По умолчанию |
Ограниченияправить
- Подстановочный знак
Поля
не идентифицируются, как поля ключевых слов, поэтому не поддерживают запросы, основанные на позициях слов, такие как запросы фраз. - При запуске
подстановочный знак
запрашивает любой параметрrewrite
игнорируется. Оценка всегда постоянная.
Excel: классифицируйте текст с помощью ключевых слов
По сути, это функция ИНДЕКС и ПОИСКПОЗ.
Внутри функции ПОИСКПОЗ мы используем функцию ПОИСК для поиска ячеек в столбце B для каждого ключевого слова в указанном диапазоне ключевых слов (E5: E14):
Поскольку мы ищем несколько элементов (в именованном диапазоне ключевых слов ), мы получим несколько результатов, например:
{#VALUE!; # VALUE!; # VALUE!; # VALUE!; # VALUE!; # VALUE!; 24; #VALUE!; # VALUE!; # VALUE!}
# ЗНАЧЕНИЕ! ошибка возникает, когда ПОИСК не может найти текст.Когда ПОИСК находит совпадение, он возвращает число, соответствующее положению текста внутри ячейки.
Чтобы преобразовать эти результаты в более удобный формат, мы используем функцию ЕЧИСЛО, которая преобразует все значения в ИСТИНА / ЛОЖЬ следующим образом:
{ЛОЖЬ; ЛОЖЬ; ЛОЖЬ; ЛОЖЬ; ЛОЖЬ; ЛОЖЬ; ИСТИНА; ЛОЖЬ; ЛОЖЬ; ЛОЖЬ}
Этот массив входит в функцию ПОИСКПОЗ как lookup_array с lookup_value , установленным как ИСТИНА. ПОИСКПОЗ возвращает позицию первого значения ИСТИНА, которое он находит в массиве (в данном случае 7), который предоставляется функции ИНДЕКС как row_num :
ИНДЕКС возвращает 7-й элемент в категории , «Авто», в качестве окончательного результата.
С XLOOKUP
С помощью функции XLOOKUP эту формулу можно несколько упростить. XLOOKUP может использовать ту же логику, что и вышеупомянутая функция ПОИСКПОЗ, поэтому эквивалентная формула:
XLOOKUP находит первое значение ИСТИНА в массиве и возвращает соответствующее значение из категорий .
Предотвращение ложных совпадений
Одна из проблем этого подхода заключается в том, что вы можете получить ложные совпадения из подстрок, которые появляются внутри более длинных слов.Например, если вы попытаетесь сопоставить «dr», вы также можете найти «Andrea», «drink», «dry» и т. Д., Поскольку «dr» появляется внутри этих слов. Это происходит потому, что ПОИСК автоматически находит совпадение "содержит".
Для быстрого взлома вы можете добавить пробел вокруг поисковых слов (например, «dr» или «dr»), чтобы не поймать «dr» в другом слове. Но это не сработает, если "dr" появится первым или последним в ячейке, или появится с пунктуацией и т. Д.
Если вам нужно более точное решение, один из вариантов - сначала нормализовать текст во вспомогательном столбце, позаботившись также о добавлении начального и конечного пробелов.Затем вы можете искать слова целиком, окруженные пробелами.
Поиск по ключевым словам - Поиск Овидия: Medline
Поиск по ключевым словам - Поиск Овидия: Medline - LibGuides в Университете Отаго, Медицинская библиотека Перейти к основному содержаниюПохоже, вы используете Internet Explorer 11 или старше. Этот веб-сайт лучше всего работает с современными браузерами, такими как последние версии Chrome, Firefox, Safari и Edge. Если вы продолжите работу в этом браузере, вы можете увидеть неожиданные результаты.
Поиск по ключевым словам
Поиск по ключевым словам - это то, где вы выбираете термины для своих концепций поиска и ищите эти слова в разных полях, таких как заголовок или аннотация.
Хорошая идея - искать каждую из ваших концепций, используя ключевые слова, а также предметные заголовки. Это гарантирует, что вы найдете больше результатов, относящихся к вашему вопросу.
Заметки Scope из выбранных вами предметных заголовков могут быть полезным источником синонимов, а также тезаурусом.Дополнительную информацию и советы по поиску по ключевым словам см. В нашем Руководстве по поиску.
- Начните с ввода вашего слова (слов) или фразы (слов) в поле поиска. Если у вас более одного слова / фразы, разделите их оператором ИЛИ и заключите в квадратные скобки.
Например:- реабилитировать *
- (реабилитация * ИЛИ физиотерапия * ИЛИ «физиотерапия *» ИЛИ «лечебная физкультура *»)
- Вы можете выбрать, как Medline будет искать ваши термины. Вот некоторые из основных вариантов:
- Введите .mp. после вашего поискового запроса, например реабилитация * .mp.
Будет выполнен поиск ссылок, в которых ваши слова появляются в нескольких конкретных полях, включая заголовок, аннотацию, заголовок темы, ключевые слова автора и т. Д. - Введите .tw. после вашего поискового запроса, например реабилитировать * .tw.
Будет произведен поиск ссылок, где ваши слова встречаются только в заголовке или аннотации. - Введите .ti. после вашего поискового запроса, например реабилитация * .ti.
Будет произведен поиск ссылок, в которых ваши слова встречаются только в заголовке.
- Введите .mp. после вашего поискового запроса, например реабилитация * .mp.
- Введите ключевые слова с предпочитаемым параметром поля поиска и нажмите кнопку Search :
- Затем вы вернетесь к экрану поиска.Ваша строка поиска будет указана в истории поиска :
- Завершите этот процесс для каждой концепции поиска.
Если ваш поиск достигает 5 или более строк, вы можете нажать Развернуть справа, чтобы увидеть всю историю поиска:
1.Мир текстового поиска
Слова часто имеют разное значение, и это очевидно даже в краткое описание сфинкса сам. Раньше мы называли это полнотекстовой поисковой системой , что является стандартным термином в области знаний ИТ. Тем не менее, это время от времени создавалось неверное впечатление, будто Сфинкс либо Веб-сервис, конкурирующий с Google, или встраиваемая программная библиотека, которая только закаленные программисты на C ++ когда-нибудь сумеют реализовать и использовать. Поэтому в настоящее время мы склонны называть Сфинкса поисковый сервер , чтобы подчеркнуть, что это набор программ работает на вашем оборудовании, которое вы используете для реализации и поддержки полнотекстового поиск, аналогичный тому, как вы используете сервер базы данных для хранения и обработки ваших данных.Сфинкс может служить вам в множество различных способов и помощь в большом количестве связанных с поиском задачи, а потом еще несколько. Наборы данных варьируются от индексации нескольких сообщений в блогах до веб-масштаба. коллекции, содержащие миллиарды документов; уровни нагрузки варьируются от всего несколько поисков в день на заброшенном личном веб-сайте до примерно 200 миллион запросов в день на Craigslist; и типы запросов колеблются между простые быстрые запросы, которые должны возвращать 10 лучших совпадений по заданному ключевому слову и сложные аналитические запросы используется для задач интеллектуального анализа данных, которые объединяют тысячи ключевых слов в сложный текстовый запрос и добавьте несколько нетекстовых условий сверху.Итак, есть много вещи, которые может делать Сфинкс, и поэтому есть что обсудить. Но прежде чем мы начнем, давайте убедимся, что мы находимся на одной странице в наших словарях, и что слова, которые я использую, означают то же самое для вас, читатель.
Прежде чем исследовать Сфинкс в частности, давайте начнем с небольшого обзор поиска в целом, и убедитесь, что мы разделяем понимание общих терминов.
Поиск в целом можно формально определить как выбор подмножества записи, соответствующие заданным критериям из полного набора данных.Это явно слишком расплывчато для практического использования, поэтому давайте посмотрим на поле, чтобы создать немного более конкретное описание должности.
Мыслить документами или базами данных
Какую бы единицу текста вы ни хотели вернуть, это ваша документ . В газете или журнале могут быть статьи, государственное учреждение может иметь меморандумы и уведомления, управление контентом в системе могут быть блоги и комментарии, а на форуме могут быть темы и Сообщения. Кроме того, в зависимости от того, что люди хотят в своем поиске результаты, доступные для поиска документы могут быть определены по-разному.Может быть желательно найти сообщения в блоге по комментариям, и так документ в блоге будет включать не только текст сообщения, но и комментарии. С другой рука, сопоставление всей книги по ключевым словам бесполезно, и использование подраздел или страница как доступная для поиска единица текста дает гораздо больше смысл. Каждый отдельный элемент, который может появиться в результатах поиска, является документ.
Вместо того, чтобы сохранять индексируемый текст, Sphinx создает полнотекстовый индекс, который позволяет эффективно выполнять поиск по этому тексту.Sphinx также может хранить ограниченное количество прикрепленных строковых данных, если вы прямо сказать это. Такие данные могут содержать автора документа, формат, дата создания и подобная информация. Но по умолчанию сам индексированный текст не сохраняется. При определенных обстоятельствах можно восстановить исходный текст по индексу Сфинкса, но это сложная задача с большими объемами вычислений.
Таким образом, Sphinx хранит специальную структуру данных, которая представляет вещи, которые мы хотим знать о документ в сжатом виде.Например, потому что слово «программист» появляется снова и снова в этом главы, мы бы не хотели хранить каждое вхождение в базе данных. Что не только будет пустой тратой места, но и не сможет записать информация, которая нас больше всего интересует. Вместо этого в нашей базе данных будет храниться слово «программист» вместе с некоторыми полезными статистическими данными, такими как количество раз, когда он встречается в документе или занимаемую позицию каждый раз.
Эти журнальные статьи, сообщения и комментарии в блогах и другие сущности обычно хранятся в базе данных.А на самом деле, терминология реляционных баз данных хорошо коррелирует с понятием документ в системе полнотекстового поиска.
В базе данных ваши данные хранятся в таблицах, в которых вы заранее определяете набор столбцов (ID, автор, содержание, цена и т. д.), а затем вставить, обновить или удалить строки с данными для этих столбцов. Некоторые из данных, которые вы магазин - например, автор, цена или дата публикации - не может быть частью сам текст; эти метаданные называются Атрибут в Сфинксе.Полнотекстовый индекс Sphinx примерно эквивалент вашей таблице данных, полнотекстовый документ - это ваш строка, а доступные для поиска поля документа и прикрепленные атрибуты ваши столбцы.
База данных таблица ≈ Sphinx index |
Строки базы данных ≈ Sphinx документы |
База данных столбцы ≈ Поля и атрибуты Sphinx |
Итак, в этих терминах, как в основном работает поисковый запрос - из действительно высокоуровневая перспектива?
При обработке запроса пользователя Sphinx использует полнотекстовый индекс для быстрого просмотра каждого полнотекстовое совпадение , то есть документ, соответствующий все указанные ключевые слова.Затем он может изучить дополнительные, условия поиска, не основанные на ключевых словах, если таковые имеются, такие как ограничение по году публикации в блоге, ценовому диапазону продукта и и так далее, чтобы узнать, нужно ли его возвращать. Текущий документ рассматривается как документ кандидата . Кандидаты, удовлетворяющие всем критериям поиска, будь то ключевые слова или нет, называются совпадений . (Очевидно, если есть никаких дополнительных ограничений, все полнотекстовые совпадения просто становятся совпадениями.) Тогда совпадения ранжируются в , то есть Sphinx вычисляет и присваивает определенное значение релевантности, упорядочивает совпадения по этому значению, и возвращает вызывающему абоненту первые N лучших совпадений заявление. Те N наиболее релевантных совпадений ( топ 1000 по умолчанию) вместе называются результатом набор .
Зачем нужны полнотекстовые указатели?
Почему бы просто не сохранить данные документа, а затем искать ключевые слова в это при поиске? Ответ очень простой: представление.
Поиск ключевого слова в данных документа похож на чтение всего книга от корки до корки, отслеживая интересующие вас ключевые слова в. Книги с конкордансом намного удобнее: с конкордансом Вы можете искать нужные страницы и предложения по ключевым словам в любом время.
Полнотекстовый индекс по коллекции документов именно такой согласование. Интересно, что это не просто метафора, но довольно точное или даже буквально правильное описание.Самый эффективный подход для поддержки полнотекстовых индексов, называемых инвертированных файлов и используемых в Sphinx, как и большинство других систем, работает точно так же, как указатель книги: для каждого заданного ключевого слова инвертированный файл поддерживает отсортированный список идентификаторы документов, и использует их для сопоставления документов по ключевым словам очень быстро.
Чтобы соответствовать ожиданиям современных пользователей, поисковые системы должны предложить больше, чем просто поиск по строке слов. Они позволяют отношениям быть определенным через язык запросов, синтаксис которого позволяет использовать специальные поисковые операторы.
Например, практически все поисковые системы распознают ключевые слова И
и НЕ
как логические операторы. Другие примеры
синтаксис языка запросов появится по мере прохождения этого
глава.
Не существует стандартного языка запросов, особенно когда речь идет о
более продвинутые функции. Каждый
поисковая система использует собственный синтаксис и значения по умолчанию. Например, Google и
Сфинкс по умолчанию И
как неявный
оператор, то есть они по умолчанию пытаются сопоставить все ключевые слова; Lucene
по умолчанию ИЛИ
и соответствует любому из
отправлены ключевые слова.
Сравнение логических и полнотекстовых условий
Поисковые системы используют два типа критериев для сопоставления документов с поиск пользователя.
Логические условия возвращают логический результат на основе выражение, предоставленное пользователем.
Логические выражения могут быть довольно сложными, что потенциально требует несколько столбцов, математические операции со столбцами, функции и скоро. Примеры включают:
цена <100 ДЛИНА (заголовок)> = 20 (author_id = 123 И ГОД (date_added)> = 2000)
Оба текста, например заголовок
во втором примере и метаданные, такие как date_added
в третьем примере, могут быть
манипулируется логическими выражениями.Третий пример иллюстрирует
сложность, разрешенная логическими выражениями. Он включает AND
Логический оператор, функция YEAROF
, которая предположительно извлекает
год от даты и два математических сравнения.
Необязательные дополнительные условия полнотекстового критерия могут быть
налагается на основании наличия или отсутствия ключевого слова
в ряду ( кошка И собака, НО НЕ
мышь
) или на позициях совпадающих ключевых слов в
соответствующая строка (фраза для поиска «John
Лань »
).
Поскольку логическое выражение принимает логическое значение true или ложный результат, мы можем вычислить этот результат для каждой строки-кандидата, которую мы обработка, а затем либо включить, либо исключить ее из результата установленный.
Полнотекстовый поиск разбивается на несколько подтипы, применимые в разных сценариях. Все они падают под общей категорией ключевое слово поиск .
- Логический поиск
Это своего рода логическое выражение, но полнотекстовое запросы используют более узкий диапазон условий, которые просто проверяют встречается ли ключевое слово в документе.Например,
кошка И собака
, гдеИ
- логический оператор, соответствует каждый документ, в котором упоминается и «кошка», и «собака», независимо от того, где ключевые слова встречаются в документе. Точно так жекошка И НЕ собака
, гдеНЕ
также является оператором, будет соответствовать каждый документ, в котором упоминается «кошка», но не упоминается «собака» в любом месте.- Поиск по фразе
Это помогает, когда вы ищете точное соответствие цитата из нескольких ключевых слов, например «Быть или не быть» вместо просто пытаюсь найти каждое ключевое слово отдельно, без особого порядок.Стандартный синтаксис де-факто для поиска фраз, поддерживается всеми современными поисковыми системами, заключается в том, чтобы поставить кавычки вокруг запроса (например,
“черный кот »
). Обратите внимание, как в этом случае, в отличие от просто Boolean поиск, нам нужно знать не только то, что ключевое слово встречается в документ, но также и где это произошло. В противном случае мы бы не знать, соседствуют ли «черный» и «кот». Итак, для фразы поиск работы, нам нужен наш полнотекстовый индекс, чтобы хранить не только сопоставления ключевых слов и документов, но ключевое слово позиций и внутри документов.- Поиск по близости
Это даже более гибкий, чем поиск по фразе, с использованием позиции для соответствия документам, в которых ключевые слова встречаются на определенном расстоянии друг от друга. Специфический Синтаксис запроса близости в разных системах различается. Например, бесконтактный запрос в Sphinx будет выглядеть так:
"кошка собака" ~ 5
Это означает "найти все документы, в которых встречаются слова" кошка "и" собака ". в рамках тех же пяти ключевых слов.”
- Поиск по полю
Это также известно как поиск по полю. Документы почти всегда имеют более одного поля, и программисты часто хотят для ограничения части поиска заданным полем. Например, вы может захотеть найти все сообщения электронной почты от кого-то по имени Питер которые упоминают MySQL в теме письма. Синтаксисы для этого различаются; фраза Sphinx для этого будет:
@ от Питера @subject MySQL
Большинство поисковых систем позволяют комбинировать эти типы запросов (или типы подзапросов, как их иногда называют) в запросе язык.
Различия между логическим и полнотекстовым поиском
Эти два типа поиска можно представить следующим образом: логический критерии используют целые столбцы как значения, в то время как полнотекстовые критерии неявно разделяют текстовые столбцы в массивы слов, а затем работайте с этими словами и их положение, сопоставив их с текстом запрос.
Это математически неверное определение. Можно было
сразу же утверждаю, что до тех пор, пока наш «логический» критерий определения
позволяет нам использовать функции, мы можем ввести функцию EXPLODE ()
, которая принимает весь столбец как
свой аргумент и возвращает массив пар слово-позиция.Мы могли бы
затем выразите все полнотекстовые условия в терминах теоретико-множественных операций над
результаты EXPLODE ()
, поэтому
показывая, что все «полнотекстовые» критерии на самом деле «логичны». А
совершенно однозначное различие в математическом смысле было бы
10 страниц, но потому что эта книга не докторская. диссертация, я
опускает 10-страничное определение класса функций EXPLODE ()
и просто сохранит
я скрестил пальцы, что разница между логическим и полнотекстовым
условия здесь достаточно ясны.
Обработка естественного языка
Обработка естественного языка (NLP) работает совсем не так, как
поиск по ключевым словам. НЛП пытается уловить , что означает пользовательского запроса и ответьте на вопрос, а не просто сопоставьте
ключевые слова. Например, запрос what POTUS
номер JFK
идеально соответствовал документу, в котором говорилось: «Джон
Фицджеральд Кеннеди, 35 -й президент США »,
даже если в нем нет ни одного ключевого слова запроса.
Поиск на естественном языке - это поле с долгой историей, которое все еще быстро развивается. В конечном итоге все дело в так называемых семантический анализ , что означает создание машины понимать общий смысл документов и запросов, алгоритмически сложная и вычислительно трудная задача. (В самая сложная часть - это общий семантический анализ объемных документов, когда индексируя их, поскольку поисковые запросы обычно довольно короткие, что делает их намного проще обрабатывать.)
НЛП - это область науки, которая сама по себе стоит книжной полки. не тема этой книги. Но общий обзор может помочь блеснуть освещать общие тенденции в поиске. Несмотря на очевидную общую сложность проблемы, ряд различных методов ее решения уже есть был разработан.
Конечно, ИИ общего назначения, который может читать текст и понимать
это очень сложно, но ряд удобных и простых трюков, основанных на
регулярный поиск по ключевым словам и логические условия могут иметь большое значение.Для
Например, мы можем определить запросы типа «что такое X» и переписать их в виде «X is»
форма. Мы также можем захватить хорошо известные синонимы, такие как JFK, и заменить
их с JFK ИЛИ (Джон И Кеннеди)
внутренне. Мы можем сделать еще больше предположений при реализации
конкретный вертикальный поиск. Например, запрос 2br при чтении
на веб-сайте поиска недвижимости выглядит следующим образом:
довольно недвусмысленно: мы можем быть уверены, что «2br» означает двухкомнатный
квартира, и что часть «в чтении» относится к городу под названием Рединг
а не чтение книги, поэтому мы можем скорректировать наш запрос
соответственно - скажем, заменить «2br» логическим условием в ряде
спальни и ограничьте "чтение" полями, связанными с местоположением, чтобы
«Читальный зал» в описание не помешает.
Технически этот вид обработки запросов уже является формой НЛП на уровне запросов, хотя это очень просто.
Поисковые системы разбивают документы и текст запроса на конкретные ключевые слова. Это называется токенизацией , и часть программы, выполняющая это, называется токенизатор (или, иногда, слово выключатель ). На первый взгляд кажется простым, На самом деле токенизация имеет так много нюансов, что, например, Sphinx токенизатор - одна из самых сложных его частей.
Сложность возникает из-за ряда случаев, которые необходимо обработано. Токенизатор не может просто обращать внимание на английские буквы (или буквы на любом языке), а все остальное считайте разделитель. Это было бы слишком наивно для практического использования. Итак, токенизатор также обрабатывает знаки препинания, специальные символы синтаксиса запроса, специальные символы, которые необходимо полностью игнорировать, ограничения длины ключевых слов и таблицы перевода символов для разных языков, среди прочего вещи.
Мы сохраняем обсуждение функций токенизатора Sphinx для позже (некоторые из наиболее распространенных функций описаны в главе 3; полное обсуждение всех дополнительных функции выходят за рамки этой книги), но одна общая функция заслуживает упоминания здесь: токенизация исключения . Это отдельные слова, которые вы можете к предвкушению нужно относиться необычно. Примеры: «C ++» и "C #", который обычно игнорируется, потому что отдельные буквы не распознается как поисковый запрос большинством поисковых систем, а знаки препинания например, знаки плюса и числа игнорируются.Вы хотите, чтобы люди были возможность поиска на C ++ и C #, поэтому вы помечаете их как исключения. Поиск система может позволить или не разрешить вам указывать исключения. Это немало проблема для сайта вакансий, поисковая система которого должна распознавать C ++ вакансии из C # вакансий и из чистого C, или местного бизнеса поисковая система, которая не хочет сопоставлять запрос «AT&T» с документ «Офис T-Mobile НА углу Джексон Роуд. и Джонсон Доктор »
Sphinx в настоящее время поддерживает наиболее распространенные лингвистические требования, например, определение корня (поиск корня в словах) и подстановка ключевых слов словари.В этом разделе мы объясним, что такое языковой процессор например, Sphinx может сделать за вас, чтобы вы поняли, как его настроить и максимально использовать существующие функции, а также расширить их, если нужный.
Одним из важных шагов на пути к лучшей языковой поддержке является обработка морфологии . Мы часто хотим сопоставить не только точная форма ключевого слова, но также и другие формы, связанные с нашим ключевое слово - не только «кот», но и «коты»; не только «мышь», но и "мышей"; не просто «иду», но и «иду», «идет», «идет» и так далее.В совокупность всех словоформ, имеющих одинаковое значение, называется лексема ; каноническая словоформа, которую поиск движок, используемый для представления лексемы, называется лемма . В трех только что перечисленных примерах леммами будут «кот», «мышь» и «иди» соответственно. Все остальные Говорят, что варианты корня «восходят» к этому корню. Процесс преобразование слова в его лемму называется лемматизация (неудивительно).
Лемматизация сама по себе не является тривиальной задачей, потому что естественная языки не следуют строго установленным правилам, а это означает, что они изобилуют исключения («мышей поймали»), как правило, со временем эволюционируют («я ведение блога »), и, наконец, что не менее важно, неоднозначны, иногда требуя от движка анализировать не только само слово, но и окружающий контекст («голубь улетела» против «она нырнула в бассейн"). Таким образом, идеальный лемматизатор должен сочетать части речи теги, ряд правил алгоритмических преобразований и словарь исключений.
Это довольно сложно, поэтому люди часто что-то используют попроще - так называемые стеммеры . В отличие от lemmatizer, стеммер намеренно не стремится нормализовать слово в точно правильную лемму. Вместо этого он нацелен на вывод так называемого основа , что даже не обязательно является правильным словом, но выбран одинаковым для всех слов - и только для тех слов, - которые восходят к данному морфологическому корню. Стеммерс, ради производительность, как правило, применяется лишь небольшое количество правил обработки; иметь только несколько, если таковые имеются, заранее записанных исключений; и в конечном итоге не стремиться к 100-процентной правильной нормализации.
Самый популярный стеммер для английского языка - Porter. стеммер, разработанный Мартином Портером в 1979 году. Хотя довольно эффективный и прост в реализации, он страдает ошибками нормализации. Один печально известный пример - сокращение слова "бизнес" и "занятость" в стеммере к одному и тому же корню. «Биз», хотя они имеют очень разные значения, и мы бы предпочли держите их отдельно. Это, кстати, пример того, как исключения в естественный язык побеждает в борьбе с правилами: многие другие слова образовано от глагола, использующего суффикс «-ность» («осознание», «прощение», и т.п.) и правильно сократить до исходного глагола, но «бизнес» - это исключение. Умный лемматизатор сможет вести «бизнес» как форму самостоятельно.
Еще более умный лемматизатор знал бы, что «голубь улетел» говорит о голубе, а не подводное плавание. И этот, казалось бы, простой образец включает ряд других лингвистические концепции.
Во-первых, «голубь» - это синоним для «голубя». В слова разные, но значение схожее или даже почти идентичны, и это именно то, что есть синонимы.Орнитологи могут придирка, но в популярном использовании эти слова взаимозаменяемы для много таких же птиц. Синонимы могут быть менее точными, например «Больные» и «больные», «приобретения» и «покупки», или они может быть столь же сложным примером, как «выставить белый флаг» и "сдаваться."
Во-вторых, существительное «голубь» также является омонимом для простая форма прошедшего времени глагола «нырять». Омонимы - это слова, которые пишется одинаково, но имеет разные значения.
В-третьих, в этом примере мы не можем определить, является ли это «голубь» существительное или «голубь» глагол самим словом. Для этого нам нужно выполнить часть речи (POS) тегирование . То есть мы нужно проанализировать все предложение и выяснить, был ли «голубь» субъект, сказуемое или что-то еще - все это для нормализации нашего «Голубь» до нужной формы.
Омонимы на самом деле могут быть еще большей проблемой. POS-теги будут не помогает отличить «реку банк »из« сберегательной кассы », потому что оба банка здесь существительные.В процесс отличия одного банка от другого называется словесная неоднозначность (WSD) и is (вы держите пари) еще одна открытая проблема компьютерной лингвистики.
Обработка текста такой глубины, конечно, довольно дорога в с точки зрения затрат на разработку и производительности. Так большинство доступных в настоящее время систем ограничены более простыми такие функции, как стемминг или лемматизация, и не требуют сложных лингвистическая обработка, такая как POS теги или WSD.Основные поисковые системы - одно заметное исключение, так как они стремятся к высочайшему качеству, что подводит нас к теме рейтинг релевантности.
Актуальность с точки зрения космического пространства
Предположим, что мы только что нашли 1 миллион документов, соответствующих нашему запрос. Мы не можем даже взглянуть на все, поэтому нам нужно еще больше сузить как-то вниз по нашему поиску. Нам могут понадобиться документы, соответствующие запрос «лучше» будет отображаться первым. Но как поисковая система знайте, что документ A лучше документа B в отношении запроса Q?
Это делается с помощью рейтинга релевантности , который вычисляет определенное значение релевантности, или вес , для каждого данного документа и данного запроса.Затем этот вес можно использовать для заказа совпадающих документов.
Ранжирование - это открытая проблема, на самом деле довольно сложная. По сути, разные люди могут судить и судят о разных документах как о релевантные или нерелевантные для того же запроса. Это означает, что не может быть единый идеальный костюм для всех, функция актуальности, которая всегда помещает «идеальный» результат на первой позиции. Это также означает, что в целом лучше в конечном итоге может быть достигнуто ранжирование только глядя на множество оценок, выставленных людьми, и пытаясь выучить от них.
На высоком уровне объем данных для обработки может быть огромным, с каждый документ, имеющий сотни или даже тысячи факторов ранжирования, некоторые из них меняются в зависимости от запроса, умноженные на миллионы записано суждений экспертов-оценщиков , дающих миллиарды значений, которые нужно обрабатывать на каждой итерации градиента поиски Святого Грааля на 0,01% лучше. Так, ручная проверка данных об оценке не может работать, и улучшенная Реально вычислить функцию релевантности можно только с помощью современные алгоритмы машинного обучения.Тогда результирующий сама функция должна быть проанализирована с использованием так называемого качества метрики , потому что игра «жарко или нет» через миллион оценки, выставленные каждому документу и запросу, не совсем реалистичны или. Суть в том, что если вы хотите присоединиться к поиску Bing группы качества, выучите математику, желательно много, и привыкните к работает множество лабораторий по человеческому фактору.
На более низких уровнях поиска не всем нужна такая сложность и простой функции релевантности может быть достаточно.Ты все еще хочешь чтобы знать, как это работает в Sphinx, что можно настроить и как оценивать ваши результаты настройки.
Релевантности в целом много, поэтому я выделю отдельную главу, посвященную обсуждению всех вещей, связанных с рейтингом, и всем мельчайшим подробностям подробности о рейтинге сфинксов. В целях обзора здесь позвольте мне ограничиться упоминанием о том, что Sphinx поддерживает несколько функции ранжирования, позволяет выбирать среди них на лету, позволяет настраивать результат и удобен для людей, пытающихся взломать новые такие функции внутрь.О да, в некоторых рейтингах он использует несколько уловок, чтобы качество, поскольку показатели качества ближе к верхнему пределу, чем большинство поисковые системы.
Постобработка набора результатов
Немного преувеличивая, ранжирование по релевантности - единственное, что общие разработчики поисковых систем заботятся о том, чтобы их конечные пользователи нужно всего лишь несколько страниц, которые лучше всего отвечают на их запрос, и все. Никто не сортирует веб-страницы по датам, верно?
Но для приложений, над которыми работает большинство из нас, встроено больше сложные задачи конечного пользователя, дополнительная обработка набора результатов также часто участвует.Вы же не хотите показывать случайный iPhone на своем пользователь поисковой системы по продукту; он ищет самый дешевый в своем районе. Вы не показываете очень релевантную статью, заархивированную до вас родились как результат поиска новостей номер один, по крайней мере, не на титульная страница; конечный пользователь, вероятно, ищет более свежие данные. Когда есть 10000 совпадений с данного сайта, вы можете захотеть сгруппируйте их. Поиск может потребоваться ограничить конкретным подфорум, или автор, или сайт.И так далее.
Все это требует постобработки набора результатов. Находим совпадения
и ранжируйте их, как поисковая система, но нам также нужно фильтровать,
отсортируйте и сгруппируйте их. Или в синтаксисе SQL нам часто нужны дополнительные ГДЕ
, ЗАКАЗАТЬ
BY
и GROUP BY
пункты на
вверху наших результатов поиска.
Поисковые системы часто вырастают из задач индексации веб-страниц и поиск, и может вообще не поддерживать постобработку, может поддерживает только недостаточное подмножество, может работать плохо или может потребляют слишком много ресурсов.Такие поисковые системы ориентированы на оптимизировать для упорядочивания на основе релевантности. Но на практике этого явно недостаточно, чтобы проверить, механизм быстро возвращает первые 10 совпадений, отсортированных по релевантности. Сканирование 10 000 совпадений и их упорядочение, скажем, по цене может привести к потрясающая разница в показателях производительности.
Sphinx, с другой стороны, был разработан для индексации контента, хранящегося в
база данных с первого дня, и теперь она поддерживает арифметические выражения, ГДЕ
, ЗАКАЗАТЬ
BY
и GROUP BY
в полном объеме,
очень качественно.Фактически, Sphinx буквально поддерживает эти функции:
вы можете использовать старый добрый синтаксис SQL для выражения своих запросов (подробное обсуждение см. в главе 4). Кроме того,
Обработка на стороне Sphinx настолько эффективна, что может превзойти базу данных
по некоторым общим (не только полнотекстовым!) типам SQL-запросов.
Поисковая система должна поддерживать особую структуру данных, чтобы быстро обрабатывать поисковые запросы. Такой тип конструкции называется полнотекстовый индекс .Неудивительно, что их больше, чем один из способов реализовать это.
С точки зрения хранилища, индекс может храниться на диске или существовать только в ОЗУ. На диске он обычно хранится в пользовательском формате файла, но иногда движки предпочитают использовать базу данных в качестве серверной части хранилища. В последний обычно работает хуже из-за дополнительной базы данных накладные расходы.
Самая популярная концептуальная структура данных - это так называемая инвертированный файл , который состоит из словаря все ключевые слова, список идентификаторов документов и список позиций в документы для каждого ключевого слова.Все эти данные хранятся в отсортированном и сжатая форма, позволяющая выполнять эффективные запросы.
Причина сохранения должности - выяснить, например, что "Джон" и "Кеннеди" встречаются бок о бок или очень близко друг к другу, и, следовательно, с большой вероятностью удовлетворить поиск по этому имени. Инвертированные файлы, содержащие ключевое слово позиции называются индексами уровня слов , а те, в которых опущены позиции, - это уровня документа индексы .Оба типа могут хранить дополнительные данные вместе с идентификаторы документов - например, сохранение количества вхождений ключевых слов. позволяет нам вычислять статистический рейтинг текста, такой как BM25. Однако чтобы реализовывать фразовые запросы, запросы близости и более продвинутый ранжирование, требуется указатель на уровне слов.
Списки позиций ключевых слов также можно назвать вхождений перечисляет , сообщений перечисляет или попаданий списки . В основном мы будем использовать «списки документов» и «списки совпадений» в следующее описание.
Примечание
Другая структура индекса, в настоящее время больше историческая, чем Практический интерес представляет собой файл подписи , который сохраняет битовый вектор совпадающих документов для каждого ключевого слова. Подпись файлы очень быстро отвечают на логические запросы с частыми ключевые слова. Однако для всех остальных типов запросов инвертированные файлы работать лучше. Кроме того, файлы подписей не могут содержать позиции ключевых слов, это означает, что они не поддерживают фразовые запросы и имеют очень ограниченный поддержка текстового ранжирования (даже простой и классический BM25 вряд ли возможно).Это серьезное ограничение.
В зависимости от используемой схемы сжатия индексы на уровне документа может быть от 7 до 10 процентов от исходного размера текста и индексы на уровне слова от 30 до 40 процент от размера текста. Но в полнотекстовом индексе меньше не обязательно лучше. Во-первых, более сложные схемы сжатия требуют больше Процессорное время для распаковки, что может привести к общему замедлению запросов. несмотря на экономию трафика ввода-вывода. Во-вторых, больший индекс может содержать избыточная информация, которая помогает при определенных типах запросов.Например, Sphinx хранит избыточное поле маска в своих списках документов, которая потребляет дополнительное дисковое пространство и время ввода-вывода, но позволяет запросу с полями быстро отклонять документы, соответствующие ключевому слову в неправильном поле. Таким образом, формат индекса Sphinx не такой компактный, как возможно, потребляя от 60 до 70 процентов от размера текста на момент написания, но это сознательный компромисс для увеличения скорости запросов.
Индексы также могут нести дополнительные полезные данные для каждого ключевого слова, такие как морфологический информационный (e.г., а полезная нагрузка, прикрепленная к корневой форме, может быть идентификатором конкретного конкретная словоформа, сокращенная до этого корня), или ключевое слово контекст , такой как размер, ширина или цвет шрифта. Такие полезные нагрузки обычно используется для повышения рейтинга релевантности.
И последнее, но не менее важное: формат индекса может допускать либо инкрементных обновлений индексированных данных, или Только восстановление инкрементального индекса. Формат инкрементного индекса может принимать частичное обновление данных после создания; неинкрементальный по существу, только для чтения после его создания.Это еще один компромисс, потому что структуры, допускающие инкрементальные обновления, труднее реализовать и поддерживать, и, следовательно, испытывать более низкую производительность во время обоих индексация и поиск.
Sphinx в настоящее время поддерживает два серверных модуля индексирования, которые объединяют несколько функций, которые мы только что обсудили:
Наши наиболее часто используемые «обычные» значения по умолчанию для формата индекса диска в дисковый инвертированный файл без инкремента на уровне слов. Избегать утомительные перестроения, вы можете объединить несколько индексов в один поиск и частое перестроение только для небольшого индекса с недавно изменил ряды.Его настройка подробно обсуждается в главе 5.
Этот формат индекса диска также позволяет вам опускать списки совпадений для любого некоторые или все ключевые слова, приводящие к частичному индексу на уровне слова или указатель на уровне документа, соответственно. По сути, это компромисс между производительностью и качеством.
Другой сервер индексирования Sphinx, называемый RT (что означает «настоящая time ») index, представляет собой гибридное решение, основанное на обычном диске. индексов, но также добавляет поддержку инкрементальных, инкрементных инвертированные файлы на уровне слов.Поэтому мы стараемся объединить лучшее из обоих миров, то есть скорость мгновенного инкрементного обновления в ОЗУ индексы и масштабная поисковая эффективность на диске невозрастающие индексы.
Мы только что сделали обзор на 30 000 футов различных связанных с поиском области. Современная научная дисциплина под названием Информация Retrieval (IR) изучает все упомянутые области и многое другое. Итак, если вам интересно узнать о теории и технологиях современные поисковые системы, включая Sphinx, вплоть до малейшие детали, IR книги и документы - это то, на что вам следует обратиться к.
В этой книге мы уделяем больше внимания практике, чем теории, что есть, как использовать Sphinx в различных сценариях. Так, давайте кратко рассмотрим эти сценарии.
Sphinx - это поисковая машина, а не полноценная база данных, поэтому необработанные данные для индексации обычно хранятся в другом месте. Как правило у вас будет существующая база данных SQL или набор XML-документов что вам нужно проиндексировать. Когда SQL и XML недостаточно эффективны, данные могут храниться в настраиваемом хранилище данных.Во всех этих случаях мы говорим о структурированных данных , которые предварительно идентифицированные текстовые поля и нетекстовые атрибуты. Столбцы в SQL база данных и элементы в XML-документе накладывают определенную структуру. Модель документа Sphinx также структурирована, что позволяет очень легко индексировать и искать такие данные. Например, если ваши документы написаны на языке SQL, вы просто указываете Sphinx, какие строки нужно получить, а какие столбцы - показатель.
В случае неструктурированных данных , вы придется самому наложить какую-то структуру.Когда выдается связка DOC, PDF, Файлы MP3 и AVI, Sphinx не может автоматически определять типы, извлекать текст по типу и индексировать этот текст. Вместо этого Сфинксу нужно вы должны передать текст и назначить поля и имена атрибутов. Так что вы все еще можно использовать его с неструктурированными данными, но извлечение структуры вам решать.
Еще одно дополнительное требование, которое Sphinx предъявляет к данным, заключается в том, что единицы измерения данных должен иметь уникальных целочисленных документов идентификатор , а.к.а. docID . У docID есть быть уникальным целым числом, а не строкой. Строки в базе данных часто поставляются с необходимым идентификатором, если их первичный ключ (PK) является целое число. Когда они этого не делают, это не имеет большого значения; вы можете создать некоторые docID для Sphinx на лету и сохранить вашу строку PK из базы данных (или имя документа XML) в качестве атрибута.
Для разных рабочих процессов лучше всего подходят разные подходы к индексированию. В очень много сценариев, достаточно выполнить пакетную индексацию , то есть время от времени индексировать фрагмент данных.Индексируемые партии могут содержать либо полные данные, которые называются , полная переиндексация , или только недавно измененные данные, то есть дельта Переиндексация .
Хотя пакетирование звучит медленно, на самом деле это не так. Переиндексирование дельты пакет с заданием cron каждую минуту, например, означает, что новые строки станет доступным для поиска в среднем через 30 секунд, но не более чем через 60 секунд. Обычно это нормально даже для такого динамического приложения, как сайт аукциона.
Когда задержка даже в несколько секунд невозможна, и данные должны становятся доступными для поиска мгновенно, вам нужно онлайн индексирование , также известное как индексирование в реальном времени . Иногда это называют инкрементальным индексирование - хотя формально это не совсем правильно.
Sphinx поддерживает оба подхода. Пакетное индексирование обычно больше эффективная, но индексация в реальном времени с меньшей задержкой индексации, и его легче обслуживать.
Когда одного ядра ЦП слишком много данных, индексы должны быть сегментированными или разделил на несколько меньших индексов. Когда слишком много данных для обработки одной машиной, некоторые из данные должны быть перемещены на другие машины, а индекс должен стать распределяет по машинам. Это не полностью автоматический со Sphinx, но его довольно легко настроить.
Наконец, индексация партии не обязательно должна выполняться такая же машина что и на поисках.Его можно переместить в отдельный сервер индексирования - любой, чтобы не повлиять на поиск во время индексирования, или чтобы избежать избыточного индексирования, когда несколько реплик индекса необходимы для отработки отказа.
Полнотекстовые индексы и атрибуты
Sphinx добавляет несколько элементов к обычному словарю СУБД и их важно понимать. Реляционная база данных в основном имеет таблицы, которые состоят из строк, которые, в свою очередь, состоят из столбцов, где у каждого столбца есть определенный тип, и это все.Сфинкса полнотекстовый индекс тоже имеет строки, но они называются документов , и, в отличие от базы данных, они требовал, чтобы имел уникальный целочисленный первичный ключ (он же ID).
Как мы видели, документы часто содержат множество метаданных, например информация об авторе, публикации данные или рейтинг рецензента. Я также объяснил, что с помощью этих метаданных извлекать и упорядочивать документы с пользой - одно из больших преимуществ использования специализированного поиска движок типа сфинкс.Метаданные или «атрибуты», как мы видели, хранятся просто как дополнительные поля рядом с полями, представляющими текст.
Sphinx не хранит точный текст документа, а индексирует его и хранит необходимые данные в сопоставить запросы с ним. Напротив, атрибуты обрабатываются справедливо просто: они хранятся в своих индексных полях дословно, и позже могут быть используется для дополнительных манипуляций с набором результатов, таких как сортировка или группировка.
Таким образом, если вы индексируете таблицу рефератов книг, вы, вероятно, хотите объявить название книги и аннотацию полнотекстовыми полями (чтобы поиск по ним по ключевым словам), при объявлении цены книги год публикации и аналогичные метаданные в качестве атрибутов (для сортировки результатов поиска по ключевым словам по цене или отфильтруйте их по годам).
Способ выполнения поиска тесно связан с индексированием архитектура, и наоборот. В простейшем случае вы бы «просто поиск », то есть выполнить один поисковый запрос на единый локально доступный индекс. Когда нужно несколько индексов поиск, поисковая система должна обрабатывать мультииндексных запрос . Выполнение нескольких поисковых запросов в одном пакете - это мультизапрос .
Поисковые запросы, использующие несколько ядер на одной машине: распараллелено - не путать с простыми запросами работающие параллельно друг с другом.Запросы, к которым нужно обратиться другие машины в сети распределено .
Sphinx может выполнять две основные функциональные группы поисковых запросов. Первый и прежде всего это полнотекстовых запросов , которые соответствуют документы по ключевым словам. Во-вторых, полных сканирований , или проверяет запросы , которые перебирают атрибуты все проиндексированные документы и сопоставить их по атрибутам, а не по ключевым словам. Пример сканирования - поиск только по диапазону дат или автору. идентификатор и без ключевых слов.Когда есть ключевые слова для поиска, Sphinx использует полнотекстовый запрос.
Можно эмулировать сканирование, добавляя специальное ключевое слово к каждой строке и ищем эту строку. Сканирование было введено по запросу пользователя, когда оказалось, что в некоторых случаях даже такой эмулированный подход был более эффективен. эффективнее, чем эквивалентный запрос SQL к серверу базы данных.
Полнотекстовые запросы, в свою очередь, могут быть просто простыми пакетов слов , или используйте запрос синтаксис , предоставляемый Sphinx.
Запросы, которые видит Сфинкс, не обязательно заканчиваются пользователь вводит в поле поиска. И соответственно, как поле поиска и результаты, которые видит конечный пользователь, могут не совпадать с Сфинкс. Вы можете выбрать предварительную обработку необработанных запросов, поступающих с конца пользователи как-то.
Например, если поиск по всем словам не соответствует, приложение может проанализировать запрос, выбрать ключевые слова, которые не совпадают любые документы и повторно запустите переписанный запрос , построенный без них.