Как определить ключевые слова для оптимизации
Идеально красивый сайт, цепляющие текста, полезные статьи – мечта контент-маркетолога, да и не только. Но вот даже такая картина не спасет, если сайт недостаточно SEO оптимизирован. Поисковые системы не будут замечать такой контент, а значит – пользователи не увидят идеально подготовленную картинку. Чтобы ваш контент видели не только вы, а и потенциальные клиенты нужно его оптимизировать. Читайте статью, и мы расскажем, как определить ключевые слова, чтобы трафик рос как на дрожжах.Что такое ключевые слова и Как их определить?
Ключевое слово — фраза или словосочетание в тексте, которое наиболее часто вводят пользователи в поисковых запросах. Насыщение текста ключевыми словами повышает выдачу в поисковиках, а вместе с тем и трафик.Если ваш сайт поднимется в поисковой выдаче, то ваше предложение увидят больше людей, а соответственно — заинтересуются и приобретут вашу услугу или товар. Наиболее популярные сервисы поиска и определения ключевых фраз — это Serpstat и Ahrefs. С их помощью легко узнать ключевые слова сайта, понять, как распределить их или, как выделить ключевые слова в статье так, чтобы достичь топа выдачи поисковой системы с пользой для бизнеса. Мы подготовили для вас краткое руководство по определению ключевых слов с помощью этих сервисов.Как определить ключевые слова в Serpstat? Согласно руководству по использованию Sеrpstat: это первый инструмент, с которого начинается сбор семантики (все ключевые слова для сайта). Он показывает только те фразы, которые содержат в себе ключевик или прочие анализируемые слова. То есть максимально отвечающие на поисковый запрос. Например, вы – сервис СМС рассылок и предоставляете услугу отправки СМС онлайн. Но одного слова SMS online — недостаточно. Нужно собрать группу, семантику. Для этого в строке поиска сервиса Serpstat выбираем Ключевая фраза, пишем наш запрос и выбираем страну, где продвигаемся. И вуаля, сервис находит все релевантные ключевые слова и фразы. Кроме того, что сервис определяет ключевые запросы, он еще показывает детальную информацию о фразе.
- Сложность. Оценка уровня конкуренции по ключевой фразе для продвижения в топ-10.
- Частотность. Среднее количество запросов в месяц за последний год.
- Стоимость. Цена за клик.
- Конкуренция. Показывает сложность продвижения по данному ключу в контексте (макс. 100%).
- Результат. Количество результатов в выдаче по данному ключу.
- Социальные домены. Домены, которые также ранжируются по данной фразе.
- Трендам ключевого слова — динамика изменения частотности ключевой фразы за последний год. Данные могут быть приведены из Google Trends.
- Конкурентам в поисковой выдаче. Это домены из топ-20, которые видимы в поиске по схожей семантике.
Ahrefs – это сервис, который помогает владельцам сайтов и SEO-оптимизаторам определить основных конкурентов, провести анализ продвигаемого сетевого ресурса, или же найти причины низкого рейтинга в выдаче уже существующих сайтов и повысить качество их поискового трафика.
- Поиска новых запросов за последние пару дней.
- Анализа трудности ключевых слов для вашей тематики.
- Поиска подсказок.
- Поиска информационных запросов, сформированных как вопрос.
- Анализа трафика по ключевым запросам и оценки стоимости контекста по ним.
- Возможности оценки по разным странам и поисковым системам.
Пример поиска ключевого запроса SMS online
Подобный инструмент анализа ключевых слов будет незаменим при выборе и анализе потенциальных сайтовов-доноров для вашего траффика. С чего начать?1) Подборать ключевые слова Если у вас уже есть продукт или бизнес, который вы хотите продвигать придумать базовые ключевые слова будет несложно. Просто подумайте о том, что люди могут набирать в Google, при поиске товаров или сервисов, подобных вашим, чтобы найти то, что вы предлагаете.Вот список по запросу кофе и подобные ему ключевые
2) Проверить по каким ключевикам ранжируются ваши конкуренты Это тоже просто, даже для новичка. Просто поищите в Google одно из ваших базовых ключевых слов, которое вы придумали или подобрали, и посмотрите, кто ранжируется на первой странице. Давайте введем несколько ваших базовых ключевых слов и посмотрим, сколько идей получим в результате. Тут важно еще пользоваться здравым смыслом при определении веб-сайтов-конкурентов. Если вы видите в выдаче по вашему базовому ключевому слову бренды-гиганты, Amazon и StarBucks, например, не обязательно брать их как своих конкурентов и анализировать. Просто найдите те веб-сайты, которые максимально напоминают ваш собственный бизнес.3) Проверить запросы в Ahrefs Сайт Эксплорере Когда вы нашли несколько подходящих веб-сайтов, введите их в Ahrefs, и потом проверьте отчет Топ-страницы. Для того чтобы проверить ключевые запросы и сравнить их с интересующими нас сайтами конкурентов, мы проверяем каждый в этом инструменте по нескольким параметрам:- Количество запросов (подходящие нашей теме и странице, на которую хотим ссылку).
- Позиции по таким запросам.
- Трафик страницы, на которые хотим получить ссылку.
Как видите, когда вы введете одного из известных вам конкурентов, сервис предложит другие похожие сайты.
5) Используйте альтернативные варианты Не продвигайтесь только по тем ключам, что и конкуренты. Будьте мудрее. Используйте и дополнительные фразы, собраны с помощью Serpstat или Ahrefs.6) Перейдите в Профессиональный поиск “Профессиональный” инструмент, такой как Анализ ключевых слов Ahrefs, понадобится вам, если вы серьезно подходите к исследованию ключевых слов. Тут вы можете сразу пропускать бесплатный сегмент и использовать разнообразные метрики для профи.Плагин для ВордПресс по Контент Аудиту для профессионального анализа ваших запросов
Заключение Идеально подготовленный контент не принесет плодов, если в нем не маркеров для поисковиков. Этими маркерами служат ключевые слова и фразы. Теперь вы знаете, как определять ключевые слова, а значит ваш контент точно будет в топе выдачи.Анализ ключевых слов с помощью Site Content Analyzer – статьи про интернет-маркетинг
Как известно, при определении позиции сайта в выдаче результатов поиска поисковые системы руководствуются двумя основными критериями: количеством внешних ссылок на сайт и соответствием контента сайта запрашиваемому ключевому слову.
Если с первым параметром все более или менее ясно, то механизм определения поисковиками релевантности страниц тем или иным ключевым словам известен только в общих чертах. Считается, что страница релевантна запросу, если она содержит в своем тексте ключевые слова запроса. При этом имеет значение название самой страницы, заголовки и подзаголовки текста, подписи картинок, а также взаимное расположение запрашиваемых слов в тексте страницы. Поскольку поисковики пока не умеют «читать» содержимое страницы, анализируя ее смысл, то влияние тех или иных факторов на релевантность страницы запросу оценивается с помощью ряда условных числовых параметров.
Site Content Analyzer при анализе страницы оперирует следующими величинами:
- Количество (Count) — число появлений данного слова в тексте анализируемой страницы.
- Плотность (Density) — относительная величина, характеризующая плотность заполнения страницы ключевым словом. Считается как отношение Count к общему числу слов на данной странице. Оптимальное значение лежит в диапазоне 2-15% в зависимости от общего количества слов на странице. Более низкие значения плотности слова приведут к тому, что оно не будет учтено поисковиком как значимое. Завышение же плотности может быть истолковано поисковыми системами как попытка спама со всеми вытекающими последствиями.
- Вес (Weight) — величина, учитывающая месторасположение ключевого слова, а именно: в каких тэгах оно заключено и как близко к началу страницы оно расположено. Весовые коэффициенты тэгов легко настроить по вкусу в диалоге Preferences, там же можно задать зависимость веса ключевых слов от положения на странице. Чем выше вес слова, тем потенциально более важным это слово будет выглядеть в «глазах» поисковика.
Однако в реальности поисковые алгоритмы анализируют не отдельные ключевые слова, а фразы. Site Content Analyzer позволяет оценить степень «оптимизированности» страницы по отношению к тем или иным ключевым фразам.
Рассмотрим эти величины на примере. Возьмем запрос «пластиковые окна» и проанализируем несколько сайтов из Top10.
Сайт www.oknadil.ru, по данным Яндекса, занимает третью позицию по этому запросу, проанализируем его с помощью SCA:
Рассмотрим корневую страницу сайта — index.html. Слово окна имеет плотность 16,76% и встречается на странице 29 раз. Причем видно, что авторы страницы позаботились о том, чтобы данное ключевое слово встречалось в нужных местах, а именно 4 раза в тэге TITLE, 8 раз в тэге A, в ALT картинок, а также в META Description и META Keywords. Слово пластиковые — второе по популярности на данной странице.
Рассмотрим параметры этих слов, перейдя в режим Density.
Как видно, оба ключевых слова имеют не только высокую плотность, но и достаточно высокий вес. В режиме Density удобно оценивать плотность слов как в пределах одной страницы, так и в рамках всего сайта (Sitewide Density). Эти величины представлены графически в виде двух горизонтальных полосок — зеленая показывает относительную плотность слова, красная — абсолютную, по отношению ко всему сайту в целом.
Параметры слов окна и пластиковые по отдельности весьма неплохи, однако что скажет Site Content Analyzer по поводу фразы? В режиме Phrases мы можем наблюдать три наиболее весомых, с точки зрения SCA, фразы: «пластиковые окна«, «окна дилл» и «окна veka«. Проверив эти три фразы в Яндексе, легко убедиться, что www.oknadil.ru по ним занимает 1-2 позицию.
Вернемся, однако, к запросу «пластиковые окна«. На второй позиции в Яндекс находится сайт www.art-okna.ru. Анализ этого сайта на предмет оптимизированности по нашей ключевой фразе приводит к интересным результатам. Оба слова употреблены на корневой странице сайта в сумме всего 6 раз! При этом вес фразы пластиковые окна также весьма невелик. О чем это говорит? Возможно, страница, которую видят посетители, отличается от той, которую «видит» поисковик.
Напоследок, еще один эксперимент. По данным SCA, для корневой страницы сайта www.oknadil.ru вес фразы с обратной последовательностью слов — окна пластиковые — в 3 раза ниже, чем у фразы с нормальной последовательностью слов. Поиском данной фразы в Яндекс мы можем убедиться, что www.oknadil.ru нет на первых пяти страницах выдачи.
В следующей статье мы рассмотрим другие режимы программы, а также работу с черными списками (ignore lists).
Ключевые слова. Правила подготовки статей для публикации — Журнал «Медицинское право: теория и практика»
Ключевые слова являются важным элементом упорядочивания массивов информации, частью которых являются как научные журналы, так и базы данных научных статей. Современные информационно-цифровые технологии обеспечивают различные варианты их использования при поиске, классификации и оценке информации.
В качестве ключевых слов целесообразным является использование тегов (от англ. Tag – метка) – неких ярлыков, характеризующих статью. Их применение позволяет расширить функционал ключевых слов и повысить эффективность поиска. Термин или слово, используемые в качестве тега, могут и не встречаться в тексте работы, однако они в состоянии значительно повысить точность характеристики текста. Например, статья, посвященная какому-либо из специфических аспектов в сфере медицинского права, может быть охарактеризована используемым в качестве ключевого слова тегом «медицинское право», при том, что само это словосочетание в тексте публикации может отсутствовать.
Ключевые слова должны отражать прежде всего терминологическую область статьи:
- какие термины используются в статье?
- с какими терминами может быть логически связана статья?
- с какими названиями организаций, персон, географических областей и т.п. ассоциируется статья?
В качестве ключевых слов могут использоваться термины из:
- названия статьи;
- аннотации к статье;
- текста статьи (прежде всего его вступительной и заключительной частей).
Количество ключевых слов определяется содержанием публикуемого материала и должно позволять наиболее полно отражать пространство имеющихся в статье ключевых терминов.
Ошибочным и вредным является использование в качестве ключевых слов и словосочетаний текстовых конструкция, являющихся фразами или сложными словосочетаниями, приближающимися по своей структуре к предложениям. Словосочетания, в которых используется более двух слов необходимо разбивать на несколько ключевых слов (словосочетаний).
Ключевые слова не должны заключаться в кавычки, даже если они являются обязательными (например, в названиях компаний), поскольку это приводит к техническим ошибкам при индексации.
Ключевые слова и словосочетания должны разделяться между собой только запятыми, поскольку в библиотечных и поисковых системах ключевые слова разделяются именно ими, а не точкой с запятой. Соответственно, в используемых словосочетаниях запятые использоваться не должны.
В качестве источника, содержащего сведения о надлежащей подготовке ключевых слов, издательство рекомендует использовать следующую публикацию: Абрамов Е.Г. Подбор ключевых слов для научной статьи // Научная периодика: проблемы и решения. 2011. №2 (2). С. 35-40. https://cyberleninka.ru/article/n/podbor-klyuchevyh-slov-dlya-nauchnoy-stati
Пример:
- Ключевые слова: медицинское право, права пациента, ответственность, медицинский работник, качество, безопасность
- Keywords: medical law, patient rights, responsibility, health care professional, quality, safety
Что такое ключевые слова в тексте статьи, как найти ключи? Семён Ядрён
Ключевое слово — слово в тексте, способное в совокупности с другими ключевыми словами дать высокоуровневое описание содержания текстового документа, выявить его тематику. В вебе используется главным образом для поиска. Набор ключевых слов близок к аннотации, плану и конспекту, которые тоже представляют документ с меньшей детализацией. Источник: wikipedia
Что отражают keywords?
Ключевые слова на страницах сайта отражают потребность пользователя, которую он формирует через поисковый запрос к Яндексу и Google, а поисковики согласно своим алгоритмам анализируют тексты на сайтах и выдают результаты по падению их релевантности.
Меняются алгоритмы поиска, добавляются новые факторы ранжирования (хостовые, поведенческие, ссылки, социальные сигналы), но текст на странице по прежнему остается одним из самых важных факторов для поиска, по которому он может понять о чем документ.
Разновидности ключей по виду вхождения
- Точное вхождение ключевых слов — это использование ключей в тексте в точной форме, без знаков препинания. Пример: «заказать сбор семантического ядра».
- Неточное вхождение — изменение ключа, использование словоформ: «СОБРАТЬ семантическОЕ ядрО НА ЗАКАЗ».
- Разбавленное вхождение — добавление 2-3 слов в главный ключ, оптимально использовать для разбавления хвост запросов: «собрать качественное семантическое ядро по низкой цене».
Как найти ключевые слова в тексте?
Программисты Семён Ядрён разработали отличный инструмент для поиска и анализа ключей как в своем тексте так и текстах конкурентов – Семанайзер (для использования необходимо зарегистрироваться в нашем сервисе), прочитать о всех возможностях и преимуществах данного инструмента можно здесь.
* мы предоставляем бесплатно 5 проверок в день.
Где используются?
- в тайтле документа (title)
- в заголовках (h2-h6)
- url страницы (ЧПУ)
- в анкоре внешних и внутренних ссылок
- в тексте страницы
Видео
Семантический анализ текста онлайн, seo анализ текста, подсчет символов
Семантический анализ текста Адвего для SEO онлайн — профессиональный инструмент для оценки качества текстов, seo оптимизации статей и поиска ключевых слов в тексте. Проверьте количество символов, тошноту и водность, плотность ключевых слов и фраз онлайн, семантическое ядро текста бесплатно!
Зачем нужен SEO анализ текста
Поисковые системы оценивают качество и релевантность статьи по содержащимся в ней словам и словосочетаниям (коллокациям). Чем больше в тексте тематичных ключевых фраз, тем больше шансов, что он получит высокую оценку.
Соответственно, если в тексте будет мало ключевых слов, но много «воды» — стоп-слов, вставных слов, шаблонных фраз, качество статьи будет низким.
Но и слишком большое количество ключевиков — тоже плохо, такой документ получит отметку «переспам» и вряд ли будет показан в поисковой выдаче.
Оценить эти показатели поможет сервис семантического анализа, который покажет процент ключевых слов и количество стоп-слов в тексте.
SEO анализ текста Адвего определяет:
- плотность ключевых слов, процент ключевых фраз;
- частотность слов;
- количество стоп-слов;
- объем текста: количество символов с пробелами и без пробелов;
- количество слов: уникальных, значимых, всего;
- водность, процент воды;
- тошноту текста, классическую и академическую;
- количество грамматических ошибок.
Наш онлайн сервис показывает семантическое ядро текста страницы — все значимые и ключевые слова, что позволит оценить, по каким запросам она будет показываться выше после того, как проведет поиск ключевых слов в тексте.
Также семантический анализ показывает все стоп-слова и грамматические ошибки.
Пример отчета проверки семантического SEO анализа текста онлайн
Как рассчитывается тошнота текста
Классическая тошнота определяется по самому частотному слову — как квадратный корень из количества его вхождений. Например, слово «текст» встречается на этой странице 16 раз, классическая тошнота будет равна 4.
Важно! Максимально допустимое значение классической тошноты зависит от объема текста — для 20 000 знаков тошнота, равная 5, будет нормальной, а для 1000 знаков — слишком высокой.
Академическая тошнота определяется как отношение самых частотных и значимых слов по специальной формуле. Нормальное значение — в пределах 5-15%.
По тошноте текста можно судить о натуральности текста и его SEO-оптимизации под поисковые запросы. Высокий показатель тошноты онлайн для поисковиков является плохим знаком.
Как рассчитывается водность текста
Процент воды в Адвего определяется как отношение незначимых слов к общему количеству слов. То есть чем больше в статье значимых слов, тем меньше в итоге «воды».
Конечно, невозможно написать сео текст совсем без воды, нормальный показатель — 55%-75%.
Чтобы уменьшить процент водности, необходимо почистить текст от широко распространенных фраз и терминов, вставных слов: «в современном мире», «так сказать», «всем известно» и т. п. Также повышает качество текста употребление специализированных терминов и профессиональной лексики.
Требования к аннотациям и ключевым словам
Композиционно АННОТАЦИЯ может быть построена по принципу IMRAD (INTRODUCTION, METHODS, RESULTS AND DISCUSSION):Предмет (Введение) Topic (Introduction) — актуальность, цели и задачи исследования.
Методы (Methods) — сведения о том, когда, где, как проводилось исследование; какие использовались методы и источники информации.
Результаты (Results) — основные выводы (конкретика), результаты исследования.
Перспективы (Discussion) — информация о том, как полученный результат соотносится с выводами других ученых; каковы перспективы исследования, направления дальнейшей работы, сложности.
Объем АННОТАЦИИ должен быть не менее 200–250 слов. При сжатом, информативном тексте, излагающем понятно и полно основные результаты исследований, допускается объем аннотации 150–190 слов.
Следующие 10 пунктов помогут вам в написании АННОТАЦИИ:
1. Начинайте писать аннотацию после того, как вы полностью завершили работу над текстом статьи.
2. Основные цели/гипотезы и выводы возьмите из разделов «Введение» и «Выводы».
3. Выберите ключевые положения из раздела «Методы», если он есть в статье.
4. Определите главные результаты в разделе «Выводы». Используйте основные термины, отражающие содержание статьи.
5. Скомпонуйте предложения и фразы, выбранные в п. 2–4, в один абзац в следующей последовательности: введение, методы исследования, результаты исследования и выводы.
Удалите все не значащие, общие, вводные слова, которые не влияют на смысл изложения.
6. Убедитесь, что в абзац не включены:
– новая информация, не представленная в статье;
– нерасшифрованные сокращения или названия организаций;
– ссылки на источники в списке литературы или цитаты;
– маловажные детали методов исследования.
7. После того как вы убрали всю лишнюю информацию (п. 6) и правильно скомпоновали предложения, убедитесь, что информация изложена верно (предпочтителен следующий порядок: цель работы, методы исследования, результаты исследования, основные выводы и предположение о дальнейшем развитии исследования).
8. Убедитесь, что информация в аннотации соответствует информации в вашей статье.
9. Попросите коллегу просмотреть вашу аннотацию на предмет верной интерпретации содержания статьи.
10. Проверьте, совпадает ли ваш конечный вариант аннотации с принятым стандартом оформления в журнале.
Теперь проверьте свою аннотацию по всем пунктам, которые перечислены выше.
Ключевые слова в тексте: как органично вписать запросы
Никто не выкладывает текстовый контент на сайт только для того, чтобы он там был. Его задача – привлекать потенциальных клиентов из поисковых систем и мотивировать их к покупке. Поэтому одно из условий эффективного SEO продвижения – правильная оптимизация текста ключевыми словами.
Для начинающих копирайтеров такая работа может показаться довольно сложной. Особенно если в техническом задании указан большой объём ключевых слов при ограниченном количестве знаков в тексте. Но научиться этому можно и нужно, иначе серьёзные дорогостоящие заказы вам останутся недоступны.
В этой статье мы поделимся опытом наших копирайтеров и расскажем, как правильно написать оптимизированный текст.
Содержание:
Что такое ключевые слова в копирайтинге
Ключевые слова – это слова и словосочетания, которые пользователи вводят в Google или Яндекс, когда ищут необходимую им информацию. Сразу после отправки запроса поисковые системы анализируют его и подбирают наиболее подходящие страницы. Чтобы повысить шансы попадания сайта в ТОП выдачи, эти же ключевики используются при написании текста.
Но для этого недостаточно их как попало вписать. Поисковики оценивают не только наличие запросов, но и правильное вхождение, релевантность теме текста и его пользу для людей.
Если пользователи не дочитывают статью до конца, или же процент ключевых слов в ней выше нормы, система посчитает ее бесполезным спамом и может даже наложить санкции на сайт. То есть первоочередная задача копирайтера – вписать запросы в текст максимально гармонично и в нужном количестве.
Основные принципы оптимизации текстов ключевыми словами
Рассмотрим 4 главных правила работы с SEO-текстами:
- В первую очередь все статьи пишутся для людей. Поэтому их нужно делать интересными и легко читаемыми. Избегайте слишком длинных предложений и сложных терминов. Используйте списки, подзаголовки и другие приёмы оформления текста.
- Не разбавляйте статью «водой». Дописывать лишние предложения только для того, чтобы вставить в них побольше ключевых слов, – не лучшая идея. Увеличивать объем текста можно исключительно за счёт полезной информации, примеров и важных по теме фактов.
- Запросы должны быть расставлены равномерно. Самые высокочастотные обязательно нужно вписать в первом и последнем абзаце. Короткие ключевики можно использовать в заголовках и подзаголовках, длинные – вставлять в предложения по всей статье. Нельзя размещать их рядом, чтобы избежать повторов и тавтологий. Например, не стоит писать так:
Также не нужно вставлять одинаковые ключевые слова в стоящих рядом предложениях.
- Чтобы люди не спотыкались о неудачные словесные конструкции, используйте ключевые слова только в естественном виде. Например, трудное для восприятия словосочетание, противоречащее правилам русского языка: «Телевизор купить Киев» следует заменить на более удобочитаемое: «Купить телевизор в Киеве».
Некоторые копирайтеры прибегают к хитростям, и пытаются замаскировать «кривые» ключевики таким образом:
Так вставлять запросы в текст нельзя – словосочетание всё равно режет глаз.
Как писать текст по ключевым словам – на заметку начинающим копирайтерам
Определение ключевых слов и основные правила их размещения в тексте мы описали выше. Но есть несколько вопросов, которые чаще всего волнуют новичков. И в завершение мы хотим дать на них развёрнутые ответы:
- Нужно ли в написанном тексте выделять ключевые слова?
Нет, это будет выглядеть неестественно и некрасиво. Курсивом выделяются в основном цитаты, а жирным шрифтом – наиболее важные по смыслу фразы.В процессе написания текста вы можете выделять ключи цветом, чтобы контролировать их использование, и облегчить проверку. А при публикации на сайте – удалить такую маркировку.
- Нужно ли использовать в статье все ключевые слова из ТЗ?
Если все они подходят по смыслу, и каждый из них может быть использован для поиска данной статьи, то да. Предварительно посоветовавшись с заказчиком, постарайтесь их сгруппировать. Например, набор коротких ключевиков без потери смысла можно легко трансформировать в одну фразу.
- Как вставить ключевые слова в текст наиболее гармонично?
Идеальной с точки зрения SEO-продвижения считается статья, в которой запросы практически незаметны пользователям при прочтении. Чтобы написать такой текст, используйте все 3 вида вхождения запросов:
- Точное (прямое). Если ключевые слова имеют естественный вид, можно вставлять их в текст, не меняя. Например, словосочетание «Купить в Украине солнечную электростанцию» можно написать в таком же виде, а вот «очки мужские солнцезащитные Москва» уже требует изменений, и в прямом вхождении будет смотреться нелепо.
- Неточное. Неудобочитаемые конструкции можно изменить, склоняя слова и меняя их местами. Например, «Доставку заказать Украина» трансформировать в «Заказать доставку по Украине».
- Разбавленное. Между основными ключевыми словами можно вставить дополнительные, подходящие по смыслу. Например, вместо «Приобрести кухонный гарнитур», написать «Приобрести стильный кухонный гарнитур».
- Точное (прямое). Если ключевые слова имеют естественный вид, можно вставлять их в текст, не меняя. Например, словосочетание «Купить в Украине солнечную электростанцию» можно написать в таком же виде, а вот «очки мужские солнцезащитные Москва» уже требует изменений, и в прямом вхождении будет смотреться нелепо.
Надеемся, эти советы помогут вам разобраться, как правильно вставлять ключевые слова в статьи.
P.S. На курсе «Профессия SEO-копирайтер» вы научитесь писать не только оптимизированные под запросы тексты, но и другие типы контента. С первых занятий вы сможете на практике реализовывать полученные знания и работать с реальными заказчиками. Регистрируйтесь по ссылке, и с промо-кодом «Text-03» вас будет ждать дополнительный бонус.
Руководство по поиску ключевых слов в тексте
Извлечение ключевых слов — это автоматизированный процесс извлечения наиболее релевантных слов и выражений из текста.
Но как вы можете использовать его для использования существующих бизнес-данных?
Прочтите это руководство от начала до конца, добавьте его в закладки на будущее или переходите к темам, которые привлекают ваше внимание:
Начните извлекать ключевые слова из текста
- Что такое извлечение ключевых слов?
- Как работает извлечение ключевых слов?
- Примеры использования и приложения для извлечения ключевых слов
- Инструменты, ресурсы и учебные пособия для извлечения ключевых слов
Давайте приступим!
Извлечение ключевого слова (также известное как определение ключевого слова или анализ ключевого слова ) — это метод анализа текста, который автоматически извлекает из текста наиболее часто используемые и наиболее важные слова и выражения.Это помогает обобщить содержание текстов и распознать основные обсуждаемые темы.
Извлечение ключевых слов использует искусственный интеллект (ИИ) машинного обучения с обработкой естественного языка (НЛП), чтобы разбить человеческий язык так, чтобы его могли понимать и анализировать машины. Он используется для поиска ключевых слов в любом тексте: в обычных документах и бизнес-отчетах, комментариях в социальных сетях, онлайн-форумах и обзорах, новостях и многом другом.
Представьте, что вы хотите проанализировать тысячи онлайн-обзоров о вашем продукте.Извлечение ключевых слов помогает вам просеять весь набор данных и получить слова, которые лучше всего описывают каждый отзыв, за считанные секунды. Таким образом, вы можете легко и автоматически видеть, что ваши клиенты упоминают чаще всего, экономя часы вашей команды на часах ручной обработки.
Давайте посмотрим на пример:
Этот инструмент для извлечения ключевых слов легко обнаруживает наиболее упоминаемые атрибуты ( мобильная версия ; веб-версия ) в отзывах клиентов.
Вы можете использовать средство извлечения ключевых слов для извлечения отдельных слов ( ключевых слов, ) или групп из двух или более слов, составляющих фразу ( ключевых фраз, ).
Попробуйте использовать средство извлечения ключевых слов, приведенное ниже, используя свой собственный текст, чтобы выделить отдельные слова ( ключевых слов, ) или группы из двух или более слов, составляющих фразу ( ключевых фраз, ).
Тест с вашим собственным текстом
Илон Маск поделился фотографией скафандра, разработанного SpaceX. Это второе изображение нового дизайна и первое, на котором изображен скафандр в полный рост. Выделить текстВы заметите, что ключевые слова уже присутствуют в исходном тексте.Это основное различие между извлечением ключевых слов и назначением ключевых слов, которое заключается в выборе ключевых слов из списка контролируемого словаря или классификации текста с использованием ключевых слов из заранее определенного списка.
Облака слов или облака тегов — еще один пример извлечения ключевых слов. Они показывают визуализацию наиболее часто используемых слов текста в группах слов. Ниже представлено облако слов, созданное на основе онлайн-обзоров Black:
Чем больше слов или словосочетаний появляется в тексте, тем больше они будут в визуализации облака слов.Попробуйте этот бесплатный генератор облака слов прямо сейчас, чтобы узнать, как извлечь из текста важные ключевые слова.
Другие типы извлечения ключевых слов включают распознавание именованных сущностей, которое включает извлечение сущностей (имен, местоположения, адресов электронной почты) из текста. Например, этот онлайн-инструмент для извлечения имен автоматически извлекает имена из текста.
Изучите другие типы извлечения ключевых слов, когда вы зарегистрируетесь в MonkeyLearn бесплатно.
Почему так важно извлечение ключевых слов?
С извлечением ключевых слов вы можете найти самые важные слова и фразы в массивных наборах данных за считанные секунды.И эти слова и фразы могут дать ценную информацию о темах, о которых говорят ваши клиенты.
Учитывая, что более 80% данных, которые мы генерируем каждый день, являются неструктурированными — это означает, что они не организованы заранее определенным образом, что чрезвычайно затрудняет анализ и обработку — предприятиям необходимо автоматическое извлечение ключевых слов, чтобы помочь им обрабатывать и анализировать данные о клиентах в более эффективным способом.
Какой процент отзывов клиентов говорит что-то, связанное с ценой? Сколько из них говорят о UX? Эти идеи могут помочь вам сформировать бизнес-стратегию на основе данных, определив, что клиенты считают важными, аспекты вашего продукта, которые необходимо улучшить, и что клиенты говорят о ваших конкурентах, среди прочего.
В академическом мире извлечение ключевых слов может быть ключом к поиску релевантных ключевых слов в массивных наборах данных (например, новых статьях, статьях или журналах) без необходимости фактически читать весь контент.
Независимо от области вашей деятельности, инструменты извлечения ключевых слов являются ключом, который поможет вам автоматически индексировать данные, резюмировать текст или создавать облака тегов с наиболее репрезентативными ключевыми словами. Некоторые из основных преимуществ извлечения ключевых слов включают:
Масштабируемость
Автоматическое извлечение ключевых слов позволяет анализировать столько данных, сколько вы хотите.Да, вы можете читать тексты и определять ключевые термины вручную, но это займет очень много времени. Автоматизация этой задачи дает вам возможность сосредоточиться на других частях вашей работы.
Согласованные критерии
Извлечение ключевых слов действует на основе правил и предопределенных параметров. Вам не придется сталкиваться с несоответствиями, которые часто встречаются при ручном анализе текста.
Анализ в реальном времени
Вы можете извлекать ключевые слова из сообщений в социальных сетях, отзывов клиентов, опросов или заявок в службу поддержки в режиме реального времени, а также получать информацию о том, что говорят о вашем продукте, когда они происходят, и следить за ними с течением времени .
Извлечение ключевых слов упрощает задачу поиска релевантных слов и фраз в неструктурированном тексте. Сюда входят электронные письма, сообщения в социальных сетях, чаты и любые другие типы данных, которые не организованы каким-либо заранее определенным образом.
Извлечение ключевых слов может автоматизировать рабочие процессы, такие как пометка входящих ответов на опросы или ответы на срочные запросы клиентов, что позволяет сэкономить огромное количество времени. Он также предоставляет действенную аналитическую информацию на основе данных, которая помогает принимать более обоснованные бизнес-решения.Но самое лучшее в моделях извлечения ключевых слов — это то, что их легко настроить и реализовать.
Существуют различные методы, которые можно использовать для автоматического извлечения ключевых слов. От простых статистических подходов, которые обнаруживают ключевые слова путем подсчета частоты слов, до более продвинутых подходов к машинному обучению, которые создают еще более сложные модели, изучая предыдущие примеры.
В этом разделе мы рассмотрим различные подходы к извлечению ключевых слов, уделяя особое внимание моделям на основе машинного обучения.
Простые статистические подходы
Использование статистики — один из простейших методов определения основных ключевых слов и ключевых фраз в тексте.
Существуют различные типы статистических подходов, в том числе частота слов, словосочетания и совместная встречаемость, TF-IDF (сокращенно частота — обратная частота документа) и RAKE (быстрое автоматическое извлечение ключевых слов).
Эти подходы не требуют обучающих данных для извлечения наиболее важных ключевых слов из текста.Однако, поскольку они полагаются только на статистику, они могут упускать из виду релевантные слова или фразы, которые упоминаются один раз, но все же должны считаться релевантными. Давайте подробно рассмотрим некоторые из этих подходов:
Частота слов
Частота слов состоит из перечисления слов и фраз, которые чаще всего повторяются в тексте. Это может быть полезно для множества целей, от выявления повторяющихся терминов в наборе обзоров продуктов до выяснения наиболее распространенных проблем при взаимодействии со службой поддержки клиентов.
Тем не менее, частотные подходы рассматривают документы как простой «мешок слов», оставляя в стороне важные аспекты, связанные со значением, структурой, грамматикой и последовательностью слов. Синонимы, например, не могут быть обнаружены с помощью этого метода извлечения ключевых слов, что приводит к упущению очень ценной информации.
Словосочетания и совпадения
Также известные как статистика N-грамм, словосочетания и совпадения слов помогают понять семантическую структуру текста и считать отдельные слова одним.
Словосочетания — это слова, которые часто идут вместе. Наиболее распространенными типами словосочетаний являются биграммы (два термина, которые появляются рядом, например, «обслуживание клиентов», «видеозвонки» или «уведомление по электронной почте») и триграммы (группа из трех слов, например, «простой в использовании»). или «каналы социальных сетей»).
Совместимость, с другой стороны, относится к словам, которые имеют тенденцию встречаться в одном и том же корпусе. Они не обязательно должны быть смежными, но у них есть смысловая близость.
TF-IDF
TF-IDF означает термин «частота термина — обратная частота документа» , формула, которая измеряет, насколько важно слово для документа в наборе документов.
Этот показатель вычисляет, сколько раз слово встречается в тексте (частота термина ), и сравнивает его с частотой обратного преобразования документа (насколько редко или часто встречается это слово во всем наборе данных).
Умножение этих двух величин дает оценку TF-IDF для слова в документе. Чем выше оценка, тем более актуально слово для документа.
Алгоритмы TD-IDF находят несколько применений в машинном обучении. Фактически, поисковые системы используют варианты алгоритмов TF-IDF для ранжирования статей на основе их релевантности определенному поисковому запросу.
Когда дело доходит до извлечения ключевых слов, этот показатель может помочь вам определить наиболее релевантные слова в документе (те, которые имеют более высокие оценки) и рассматривать их как ключевых слов . Это может быть особенно полезно для таких задач, как маркировка заявок в службу поддержки или анализ отзывов клиентов.
Во многих из этих случаев слова, которые чаще встречаются в группе документов, не обязательно являются наиболее релевантными. Точно так же слово, которое появляется в одном тексте, но не встречается в остальных документах, может быть очень важно для понимания содержания этого текста.
Допустим, вы анализируете набор данных обзоров Slack:
Такие слова, как , это , , если , , , , это или , то, что , вероятно, будут одними из самых частых. Тогда будет много связанных с контентом слов с высокой частотой, например сообщение , команда , сообщение или продукт . Однако эти слова не дают подробных сведений о содержании каждого отзыва.
Благодаря алгоритму TF-IDF вы можете взвесить важность каждого термина и извлечь ключевые слова, которые лучше всего резюмируют каждый отзыв.В случае Slack они могут извлекать более конкретные слова, такие как многоканальный , пользовательский интерфейс или мобильное приложение .
RAKE
Быстрое автоматическое извлечение ключевых слов (RAKE) — это хорошо известный метод извлечения ключевых слов, который использует список игнорируемых слов и разделителей фраз для обнаружения наиболее релевантных слов или фраз в фрагменте текста.
В качестве примера возьмем следующий текст:
Извлечение ключевого слова не так уж и сложно.Существует множество библиотек, которые могут помочь вам с извлечением ключевых слов. Одно из них — быстрое автоматическое извлечение ключевых слов.
Первое, что делает этот метод, — разбивает текст на список слов и удаляет стоп-слова из этого списка. Это возвращает список так называемых слов содержимого .
Предположим, что наш список стоп-слов и разделителей фраз выглядит следующим образом:
стоп-слов = [ это
, не
, ,
,
там
, это
, может
, вы
, с
, из
, те
, после
, все
, один
]
разделители = [.
, ,
]
Тогда наш список из 8 слов содержания будет выглядеть так:
content_words = [ ключевое слово
, извлечение
, сложное
, много
, библиотеки
, справка
, быстрый
, автоматический
]
Затем алгоритм разбивает текст на разделители фраз и стоп-слова для создания возможных выражений. Итак, возможные ключевые фразы будут следующими:
Извлечение ключевых слов
- это не то, что сложно,
в конце концов.Есть много библиотек
, которые могут помочь
вам с извлечением ключевых слов
. Быстрое автоматическое извлечение ключевых слов
является одним из них.
После разделения текста алгоритм создает матрицу совпадений слов. Каждая строка показывает, сколько раз данное слово содержимого встречается вместе с каждым другим словом содержимого во фразах-кандидатах. В приведенном выше примере матрица выглядит так:
После того, как матрица построена, словам присваивается оценка.Эта оценка может быть вычислена как степень слова в матрице (т. Е. Сумма количества совпадений этого слова с любым другим содержательным словом в тексте), как частота слов (т. Е. Число раз слово появляется в тексте), или как градусов слова, деленное на его частоту .
Если бы мы вычислили оценку степени, разделенную на оценку частоты для каждого слова в нашем примере, они бы выглядели так:
Этим выражениям также присваивается оценка, которая вычисляется как сумма индивидуальных оценок. слов.Если бы мы подсчитали количество фраз, выделенных жирным шрифтом выше, они бы выглядели следующим образом:
Если два ключевых слова или ключевые фразы появляются вместе в одном порядке более двух раз, новая ключевая фраза создается независимо от того, сколько стоп-слов содержит ключевая фраза. в исходном тексте. Оценка этой ключевой фразы вычисляется так же, как и оценка отдельной ключевой фразы.
Ключевое слово или ключевая фраза выбирается, если ее оценка относится к наивысшим T-баллам, где T - количество ключевых слов, которые вы хотите извлечь.Согласно исходной статье, T по умолчанию составляет одну треть слов содержания в документе.
В приведенном выше примере метод вернул бы 3 основных ключевых слова, которые, согласно определенному нами баллу, были бы , быстрое автоматическое извлечение ключевых слов (13,33), извлечение ключевых слов , (5,33) и . много библиотек (4.0).
Лингвистические подходы
Методы извлечения ключевых слов часто используют лингвистическую информацию о текстах и словах, которые они содержат.Иногда морфологическая или синтаксическая информация (например, часть речи слов или отношения между словами в грамматическом представлении предложений зависимостей) используется для определения того, какие ключевые слова следует извлечь. В некоторых случаях определенные PoS получают более высокие оценки (например, существительные и словосочетания), поскольку они обычно содержат больше информации о текстах, чем другие категории.
Некоторые другие методы используют маркеры дискурса (т.г. оттенки значения данного слова). Эта статья может стать хорошим введением в то, как эту информацию можно использовать в методах извлечения ключевых слов.
Но это еще не вся информация, которую можно использовать для извлечения ключевых слов. Также можно использовать совпадение слов, например, слова, которые встречаются вместе с тематическими словами (как показано в этой статье).
Большинство систем, использующих какую-либо лингвистическую информацию, превосходят те, которые этого не делают. Мы настоятельно рекомендуем вам попробовать некоторые из них при извлечении ключевых слов из ваших текстов.
Графические подходы
Самым популярным графическим подходом является модель TextRank, которую мы представим позже в этом посте. Граф можно определить как набор вершин со связями между ними.
Текст можно представить в виде графика по-разному. Слова можно рассматривать как вершины, которые соединены направленным ребром (то есть односторонней связью между вершинами). Эти ребра могут быть помечены, например, как отношение, которое слова имеют в дереве зависимостей.В других представлениях документов могут использоваться неориентированные края, например, при представлении совпадений слов.
Если бы слова были представлены числами, неориентированный граф выглядел бы так:
Ориентированный граф выглядел бы немного иначе:
Основная идея выделения ключевых слов на основе графа всегда одна и та же: измерение важности вершины основан на мерах, которые учитывают некоторую информацию, полученную из структуры графа, для извлечения наиболее важных вершин.
После того, как граф построен, пора определить, как измерить важность вершин. Существует множество различных вариантов, большинство из которых рассматриваются в этой статье. Некоторые методы выбирают для измерения так называемого « градусов » вершины.
Степень вершины равна количеству ребер или соединений, которые попадают в вершину (также известной как входная степень), плюс количество ребер, начинающихся в вершине (также известное как исходной степени ), деленное на максимальная степень (равная количеству вершин в графе минус 1).Это формула для вычисления степени вершины:
D v = (D v in + D v out ) / (N - 1)
Другие методы измерения количество непосредственных вершин в данной вершине (которая известна как размер окрестности ).
Независимо от того, какая мера выбрана, для каждой вершины будет счет, который определит, следует ли ее извлекать как ключевое слово или нет.
В качестве примера возьмем следующий текст:
Автоматически 1 на основе графика 2 ключевое слово 3 извлечение 4 красиво 5 просто 6 .Документ 7 представлен 8 как график 9 , и оценка 10 дается 11 каждой из вершин 12 в графе 13 . В зависимости от 14 от оценки 15 вершины 16 , в качестве ключевого слова 18 может быть выбрано 17 .
Если бы мы должны были измерить размер окрестности для приведенного выше примера в графе зависимостей, который включает только слова содержимого (пронумерованные в тексте от 1 до 18), извлеченная ключевая фраза была бы , автоматическое извлечение ключевых слов на основе графа , поскольку размер соседства заглавного существительного , извлечение (что равно 3/17) является самым высоким.
Подходы к машинному обучению
Системы на основе машинного обучения используются для многих задач анализа текста, включая извлечение ключевых слов. Но что такое машинное обучение? Это подраздел искусственного интеллекта, который создает алгоритмы, способные учиться на примерах и делать собственные прогнозы.
Для обработки неструктурированных текстовых данных системам машинного обучения необходимо разбить их на то, что они могут понять. Но как это делают модели машинного обучения? Преобразуя данные в векторы (набор чисел с закодированными данными), которые содержат различные функции, представляющие текст.
Существуют различные алгоритмы и методы машинного обучения, которые можно использовать для извлечения наиболее релевантных ключевых слов из текста, в том числе вспомогательные векторные машины (SVM) и глубокое обучение.
Ниже приведен один из наиболее распространенных и эффективных подходов к извлечению ключевых слов с помощью машинного обучения:
Условные случайные поля
Условные случайные поля (CRF) - это статистический подход, который изучает закономерности путем взвешивания различных признаков в последовательности слов, присутствующих в текст.Этот подход учитывает контекст и отношения между различными переменными, чтобы делать свои прогнозы.
Использование условных случайных полей позволяет создавать сложные и богатые шаблоны. Еще одним преимуществом этого подхода является его способность к обобщениям: после обучения модели на примерах из определенной области она может легко применить полученные знания к другим областям.
С другой стороны, чтобы использовать условные случайные поля, вам необходимо иметь сильные вычислительные навыки для расчета веса всех характеристик для всех последовательностей слов.
Когда дело доходит до оценки эффективности экстракторов ключевых слов, вы можете использовать некоторые из стандартных показателей в машинном обучении: точность , точность , отзыв и оценка F1 . Однако эти показатели не отражают частичные совпадения; они рассматривают только идеальное соответствие между извлеченным сегментом и правильным прогнозом для этого тега.
К счастью, есть и другие метрики, способные фиксировать частичные совпадения. Примером этого является ROUGE.
ROUGE
ROUGE (вспомогательное исследование, ориентированное на отзыв для оценки сущности) - это семейство показателей, которые сравнивают различные параметры (например, количество перекрывающихся слов) между исходным текстом и извлеченными словами. Параметры включают длину и количество последовательностей и могут быть определены вручную.
Гибридные подходы
Чтобы получить лучшие результаты при извлечении релевантных ключевых слов из текста, вы можете комбинировать два или более подходов, которые мы уже упоминали.
Теперь, когда мы узнали о некоторых доступных вариантах, пришло время узнать обо всех интересных вещах, которые можно сделать с помощью извлечения ключевых слов в самых разных сферах бизнеса, от поддержки клиентов до управления социальными сетями.
Примеры использования и приложения для извлечения ключевых слов
Ежедневно пользователи Интернета создают 2,5 квинтиллиона байтов данных. Комментарии в социальных сетях, обзоры продуктов, электронные письма, сообщения в блогах, поисковые запросы, чаты и т. Д. В нашем распоряжении есть всевозможные неструктурированные текстовые данные.Вопрос в том, как нам разобраться в хаосе, чтобы найти то, что имеет отношение к делу?
Извлечение ключевых слов может помочь вам получить наиболее важные ключевые слова или ключевые фразы из заданного текста без необходимости фактически читать одну строку.
Независимо от того, являетесь ли вы менеджером по продукту, пытающимся проанализировать груду обзоров продуктов, менеджером по обслуживанию клиентов, анализирующим взаимодействие с клиентами, или исследователем, которому нужно просмотреть сотни онлайн-статей по определенной теме, вы можете использовать извлечение ключевых слов для легко понять, о чем идет речь.
Благодаря извлечению ключевых слов команды могут быть более эффективными и в полной мере использовать возможности данных. Вы можете попрощаться с ручными и повторяющимися задачами (сэкономив бесчисленное количество человеческих часов) и получить доступ к интересной информации, которая поможет вам преобразовать неструктурированные данные в ценные знания.
Хотите знать, что можно анализировать при извлечении ключевых слов? Вот несколько распространенных вариантов использования и приложений:
- Мониторинг социальных сетей
- Мониторинг бренда
- Обслуживание клиентов
- Отзывы клиентов
- Бизнес-аналитика
- Оптимизация поисковых систем (SEO)
- Аналитика продуктов
- Управление знаниями
Мониторинг социальных сетей
Люди используют социальные сети, чтобы выражать свои мысли, чувства и мнения на самые разные темы, от спортивного мероприятия до политического кандидата или от последнего шоу на Netflix до последнего обновления программного обеспечения для iPhone.
Для компаний отслеживание разговоров в социальных сетях с использованием извлечения ключевых слов дает уникальную возможность понять свою аудиторию, улучшить свои продукты или принять быстрые меры для предотвращения кризиса PR.
Извлечение ключевых слов может дать конкретные примеры того, что люди говорят о вашем бренде в социальных сетях. Находите ключевые слова, чтобы следить за тенденциями, проводить исследования рынка, отслеживать популярные темы и следить за своими конкурентами.
Во время выборов в США в 2016 году мы проанализировали миллионы твитов, в которых упоминались Дональд Трамп и Хиллари Клинтон, и использовали извлечение ключевых слов, чтобы выделить наиболее релевантные слова и фразы, появившиеся в положительных и отрицательных упоминаниях.
Мониторинг бренда
Мы живем в эпоху репутации. Потребители читают в среднем 10 онлайн-обзоров, прежде чем доверяют местному бизнесу, что доказывает, насколько важно для компаний отслеживать разговоры вокруг своего бренда в онлайн-мире. Интернет-репутация выходит за рамки социальных сетей и включает упоминания и мнения, выраженные в блогах, форумах, сайтах обзоров и новостных агентствах.
Когда вам приходится иметь дело с большими объемами данных, такими как бесконечные комментарии на сайтах обзоров, таких как Capterra или G2 Crowd, важно, чтобы компании нашли способ автоматизировать процесс анализа данных.
Извлечение ключевых слов может быть мощным союзником в этой задаче, позволяя легко определять наиболее важные слова и фразы, упоминаемые пользователями, и получать интересные идеи и ключи для улучшения продукта.
Например, вы можете просмотреть самые негативные отзывы о вашем продукте и извлечь ключевые слова, наиболее часто связанные с ними. Если часто встречаются такие выражения, как медленный ответ или долгое время ожидания , это может указывать на необходимость сократить время отклика службы поддержки клиентов.
Вы также можете объединить извлечение ключевых слов с анализом тональности, чтобы получить более ясную перспективу не только того, о чем говорят люди, но также того, как они говорят об этих вещах.
Например, вы можете обнаружить, что в ваших обзорах продуктов часто упоминается обслуживание клиентов . Анализ настроений поможет вам понять, как люди упоминают эту конкретную тему. Ваши клиенты имеют в виду плохое обслуживание клиентов? Или, наоборот, выражают свое удовлетворение вашей дружной и отзывчивой командой?
Недавно мы объединили различные методы анализа текста для анализа набора обзоров Slack на Capterra.Мы использовали анализ настроений, чтобы классифицировать мнения как положительных , отрицательных или нейтральных . Затем определение тем позволило нам классифицировать каждое из этих мнений по различным темам или аспектам, например Служба поддержки клиентов , Цена , Простота использования и т. Д.
Наконец, мы использовали извлечение ключевых слов, чтобы получить представление о том, что о чем говорят люди, когда они высказывают отрицательное мнение о аспекте Производительность-Качество-Надежность ? ».Это наиболее репрезентативные ключевые слова, которые мы получили с помощью экстрактора ключевых слов MonkeyLearn:
Эти ключевые слова позволяют нам идентифицировать конкретные негативные аспекты, связанные с Производительность-Качество-Надежность , которые могут нуждаться в улучшении, например, время загрузки, или уведомлений. .
Служба поддержки клиентов
Превосходное обслуживание клиентов может дать вашему бренду конкурентное преимущество. В конце концов, 64% покупателей при покупке чего-либо считают качество обслуживания клиентов более важным, чем цена.
При взаимодействии с компанией клиенты ожидают получения нужной информации в нужное время, поэтому быстрое время отклика может быть одним из ваших самых ценных активов. Но как вы можете быть более эффективными и продуктивными, если каждое утро у вас полно тикетов, которые забивают вашу службу поддержки?
Когда дело доходит до рутинных задач, связанных с маркировкой входящих заявок в службу поддержки или извлечением соответствующих данных, машинное обучение может оказать огромную помощь.
С помощью извлечения ключевых слов группы поддержки клиентов могут автоматизировать процесс маркировки тикетов, экономя десятки часов, которые они могут использовать, чтобы сосредоточиться на реальном решении проблем.В конце концов, это ключ к удовлетворению запросов клиентов.
Как это работает? Модель извлечения ключевых слов просто сканирует наиболее релевантные слова в теме и теле входящих заявок в службу поддержки и назначает самые популярные совпадения как теги.
Благодаря автоматической маркировке входящих заявок группы поддержки клиентов могут легко и быстро определить те, которые им необходимо обработать. Кроме того, они могут сократить время ответа, поскольку больше не будут отвечать за теги.
Извлечение ключевых слов также можно использовать для получения релевантной информации из разговоров со службой поддержки клиентов.Клиенты обычно жалуются на цену? Смущают ли они ваш пользовательский интерфейс? Извлечение ключевых слов позволяет получить обзор тем, о которых говорят ваши клиенты.
Вот пример того, как мы использовали машинное обучение для анализа взаимодействия службы поддержки клиентов через Twitter с четырьмя крупными операторами связи. Во-первых, мы классифицировали твиты для каждой компании на основе их настроений ( положительных , отрицательных , нейтральных ). Затем мы извлекли наиболее релевантные ключевые слова, чтобы понять, о чем говорится в этих твитах.Это привело к интересным выводам:
Когда дело доходит до отрицательных комментариев , все компании жалуются на «плохое обслуживание клиентов», , «плохой прием», и «высокие цены», . Однако некоторые ключевые слова были уникальными для каждой компании. Твиты, адресованные T-Mobile, жаловались на качество их «услуги LTE» , в то время как твиты с упоминанием Verizon выражали недовольство их «безлимитным планом» .
При анализе положительных твитов ключевые слова Verizon ссылались на «лучшая сеть» , «качественное обслуживание клиентов» , «спасибо» и т. Д. Наконец, мы были удивлены, обнаружив, что ключевые слова T-Mobile часто были имена представителей службы поддержки клиентов, демонстрирующие высокий уровень взаимодействия с их пользователями.
Отзывы клиентов
Онлайн-опросы - это мощный инструмент, позволяющий понять, что ваши клиенты думают о вашем продукте, найти возможности для улучшения и узнать, какие аспекты они ценят или критикуют больше всего.Если вы правильно обработаете результаты опроса, вы будете вооружены твердой информацией, чтобы принимать бизнес-решения на основе данных.
Да, вы можете анализировать ответы старомодным способом - читая каждый из них и вручную отмечая результаты. Однако давайте посмотрим правде в глаза, ручная маркировка отзывов - это трудоемкая и крайне неэффективная задача, которая часто приводит к человеческим ошибкам; плюс невозможно масштабировать.
Извлечение ключевых слов - отличный способ легко определить наиболее репрезентативные слова и фразы в ответах клиентов, не просматривая каждое из них вручную.
Вы можете использовать извлечение ключевых слов для анализа ответов NPS и других форм опросов клиентов:
Анализ ответов NPS
Net Promoter Score (NPS) - один из самых популярных способов сбора отзывов клиентов и измерения их лояльности. Клиентов просят оценить продукт или услугу от 0 до 10 на основании вопроса: «Какова вероятность, что вы порекомендуете X другу или коллеге?» . Это поможет вам разделить клиентов на промоутеров (9–10 баллов), пассивных (7–8 баллов) и недоброжелателей (баллы 0–6).
Вторая часть опросов NPS - это открытый вопрос, в котором клиентам задается вопрос, почему они выбрали именно такую оценку. Ответ на этот дополнительный вопрос обычно содержит самую важную информацию. Именно здесь мы найдем наиболее интересные и действенные идеи, потому что в нем указаны причины каждой оценки, например, «у вас потрясающий продукт, но невозможность экспортировать данные - убийца!» Эта информация поможет вам понять, что вам нужно улучшить.
Машинное обучение можно использовать для анализа отзывов клиентов различными способами по настроениям, извлечению ключевых слов, определению темы или их комбинации.Вот пример того, как Retently использовали MonkeyLearn для анализа своих ответов NPS. С помощью текстового классификатора они пометили каждый ответ по разным категориям, например Onboarding , Product UI , Ease of Use и Pricing .
Другой пример, однако, показывает, как Promoter.io использовал извлечение ключевых слов для определения релевантных терминов из своих ответов NPS. Разница между классификацией текста и извлечением ключевых слов заключается в том, что вместо классификации текста по заранее определенным тегам извлекаются ключевые слова в тексте.Вот основные ключевые слова, которые они извлекли из своих ответов NPS:
Как видите, более 80% клиентов, помеченных как промоутеры, упомянули ключевые слова, связанные с обслуживанием клиентов: service , quality , great service , обслуживание клиентов , отличное обслуживание и т. Д. Это ясно показывает, что клиенты больше всего любят в продукте, и основные причины их высокой оценки. Напротив, недоброжелатели часто жалуются на phone и цену , что может означать, что их опросы NPS неправильно отображаются на телефонах и что цена на их продукт выше, чем ожидают клиенты.
Анализируйте опросы клиентов
Существует множество различных инструментов, которые вы можете использовать для получения обратной связи от ваших клиентов, от опросов по электронной почте до онлайн-форм.
SurveyMonkey, например, является одним из самых популярных инструментов для создания профессиональных опросов. Вы можете использовать его, чтобы получать информацию от своих клиентов, добавляя открытые вопросы и анализируя ответы SurveyMonkey с помощью ИИ. В этом случае извлечение ключевых слов может быть полезно, чтобы легко понять, что ваши клиенты имеют в виду в своих отрицательных или положительных ответах.Например, такие слова, как ошибка , сохранение данных, и изменения , могут дать вам представление о некоторых технических проблемах, которые необходимо решить.
Еще один инструмент, который поможет вам глубже понять, что думают ваши клиенты, о Typeform. Хотя вы можете использовать различные методы анализа текста для анализа ответов Typeform, извлечение ключевых слов может быть особенно полезным для определения наиболее репрезентативных слов и фраз. Группа слов, таких как стоимость лицензии , дорого, и модель подписки , , может пролить свет, например, на проблемы ценообразования.
Бизнес-аналитика
Извлечение ключевых слов также может быть полезно для целей бизнес-аналитики (BI), например, для исследования рынка и анализа конкуренции.
Вы можете использовать информацию из всех источников, от обзоров продуктов до социальных сетей, и следить за обсуждениями на интересующие темы. Это может быть особенно интересно, если вы готовитесь к запуску нового продукта или маркетинговой кампании.
Извлечение ключевых слов также может помочь вам понять общественное мнение по поводу актуальной проблемы и его эволюцию с течением времени.Примером этого может быть извлечение релевантных ключевых слов из комментариев к видео на YouTube, посвященных изменению климата и проблемам окружающей среды, с целью изучения мнений заинтересованных сторон по этой теме. В этом случае ключевые слова предоставляют контекст того, как проблема сформулирована и воспринимается. В сочетании с анализом настроений можно понять чувства, стоящие за каждым мнением.
Наконец, вы можете использовать извлечение ключевых слов и другие методы анализа текста, чтобы сравнить ваши обзоры продуктов с отзывами о ваших конкурентах.Это позволяет вам получить информацию, которая поможет вам понять болевые точки вашего целевого рынка и принять решения на основе данных для улучшения вашего продукта или услуги.
Посмотрите, как мы проанализировали множество отзывов об отелях на TripAdvisor и использовали извлечение ключевых слов, чтобы найти сходства и различия в словах, используемых для описания отелей в разных городах.
Например, это были 10 основных ключевых слов, взятых из отзывов об отелях Нью-Йорка, с плохим отношением к чистоте :
- Комната
- Ванная комната
- Ковер
- Полотенца
- Постельные клопы
- Кровать
- Отель
- Душ
- Общая ванная комната
- Стены
При сравнении с ключевыми словами из отелей в других городах мы обнаружили, что жалоба около общих туалетов появилось только в Нью-Йорке.Ключевое слово таракан , с другой стороны, было уникальным для отзывов об отелях Бангкока.
Инструменты визуализации бизнес-аналитики, такие как MonkeyLearn Studio, позволяют собрать все ваши инструменты анализа данных и результаты вместе на единой поразительной панели:
Выше представлен аспектно-ориентированный анализ мнений клиентов о Zoom в MonkeyLearn Studio. Визуализация показывает отдельные отзывы, сгруппированные по аспектам (удобство использования, поддержка, надежность и т. Д.), затем анализируются настроения, чтобы показать, какие аспекты считаются положительными, а какие - отрицательными. Облако слов внизу показывает самые важные ключевые слова, извлеченные из обзоров. Вы можете попробовать общедоступную панель управления MonkeyLearn Studio, чтобы увидеть все, что она может предложить.
Поисковая оптимизация (SEO)
Одна из основных задач поисковой оптимизации (SEO) - это определение стратегических ключевых слов, на которые вы должны ориентироваться на своем веб-сайте, чтобы создавать контент.
Существует множество программных инструментов для группировки ключевых слов, доступных для исследования ключевых слов (Moz, SEMrush, Google Trends, Ahrefs и многие другие).Однако вы также можете воспользоваться извлечением ключевых слов, чтобы автоматически отсеивать контент веб-сайта и извлекать наиболее часто встречающиеся ключевые слова. Например, если вы определите наиболее релевантные ключевые слова, используемые вашими конкурентами, вы сможете найти отличные возможности для написания контента. А когда вы используете методы семантической группировки ключевых слов и методы кластеризации ключевых слов, чтобы объединить ключевые слова и фразы, которые часто используются вместе, вы получите преимущество в конкурентной борьбе.
Усовершенствования в NLP, такие как BERT от Google (представления двунаправленного кодировщика от Transformers), помогают лучше понять взаимосвязь слов в поисковых запросах, чтобы пользователи Google Search могли создавать запросы в более разговорной форме.Панду Наяк из Google объясняет, что BERT может обрабатывать, как слова соотносятся со всеми другими словами в предложении, а не просто обрабатывать их по отдельности. Это позволяет машинному обучению лучше понимать контекст и может быть полезно в SEO, чтобы помочь написать текст, который будет более естественным, чем упаковка ключевых слов или использование шаблонных вопросов / ответов в стиле SEO.
Обзоры продуктов и другие типы пользовательского контента могут быть отличными источниками для поиска новых ключевых слов. В этом исследовании, например, анализируются обзоры продуктов ведущих логистических компаний (таких как DHL или FedEx) и выполняется извлечение ключевых слов для определения стратегических ключевых слов, которые могут быть использованы для SEO-оптимизации логистической компании.
Аналитика продуктов
Для менеджеров по продуктам данные являются основным фактором поддержки каждого их решения. Обратная связь с клиентами во всех ее формах - от взаимодействия со службой поддержки до публикаций в социальных сетях и ответов на опросы - является ключом к успешной стратегии продукта, основанной на данных.
Но как лучше всего обрабатывать большие объемы данных обратной связи с клиентами и извлекать то, что имеет отношение к делу? Извлечение ключевых слов можно использовать для автоматического поиска новых возможностей для улучшения, обнаруживая часто используемые термины или фразы, упоминаемые вашими клиентами.
Допустим, вы анализируете взаимодействие клиентов с вашим программным обеспечением и видите резкий рост числа людей, спрашивающих, как использовать функцию X вашего продукта. Это, вероятно, означает, что функция не ясна и вам следует поработать над улучшением документации, пользовательского интерфейса или пользовательского интерфейса для этой функции.
Управление знаниями
В настоящее время в Интернете доступно больше информации, чем когда-либо прежде, и тем не менее 80% этих данных неструктурированы, то есть дезорганизованы, их трудно искать и трудно обрабатывать.Некоторые области, такие как научные исследования и здравоохранение, сталкиваются с огромными объемами неструктурированной информации и, следовательно, пустой тратой своего огромного потенциала.
Извлечение ключевых слов позволяет всем отраслям открывать новые знания, упрощая поиск, управление и доступ к релевантному контенту.
Практикующим врачам и клиницистам, например, необходимо проводить исследования, чтобы найти соответствующие доказательства в поддержку своих медицинских решений. Несмотря на то, что доступно так много данных, трудно найти наиболее актуальные в море медицинской литературы.Автоматическое извлечение наиболее важных ключевых слов и фраз из текста может оказаться большим подспорьем, сэкономив драгоценное время и ресурсы.
Это исследование об использовании извлечения ключевых слов из набора биомедицинских данных, в котором также исследуются возможности обобщения имеющихся данных, чтобы найти наиболее адекватные ответы на сложные вопросы.
Инструменты, ресурсы и руководства для извлечения ключевых слов
Если вам интересно приступить к извлечению ключевых слов, но вы не знаете, с чего начать, здесь вы найдете все необходимые ресурсы для начала.
Во-первых, мы порекомендуем несколько книг и научных статей для более глубокого объяснения методов и алгоритмов извлечения ключевых слов. Затем мы поделимся некоторыми API для извлечения ключевых слов, включая библиотеки с открытым исходным кодом и API SaaS.
Наконец, мы предоставим несколько руководств по извлечению ключевых слов, которые помогут вам начать работу. В некоторых руководствах показано, как запустить извлечение ключевых слов с помощью библиотек с открытым исходным кодом, Python и R. Однако, если вы предпочитаете экономить время и ресурсы, вам может быть полезно попробовать готовое решение.
MonkeyLearn, например, имеет предварительно обученные модели извлечения ключевых слов, в которые вы можете сразу погрузиться. Или узнайте, как создавать свои собственные индивидуальные модели для обнаружения ключевых слов в текстах. Мы проведем вас через этот процесс и поможем построить модель извлечения ключевых слов, адаптированную к вашим потребностям.
Книги и статьи
Если вы ищете более глубокий подход к извлечению ключевых слов, чтение некоторой существующей литературы по этой теме звучит как следующий логический шаг. Все мы знаем, что поиск подходящих книг и статей может быть непосильным.Чтобы помочь вам с этой задачей, мы перечислили некоторые из наиболее интересных материалов, связанных с извлечением ключевых слов. Закладка, чтобы прочитать позже или начать прямо сейчас:
Извлечение ключевых слов: обзор методов и подходов (Слободан Белига, 2004). В этой статье рассматриваются существующие исследования по извлечению ключевых слов и объясняются различные методы решения этой задачи. Это также относится к основанным на графах методам извлечения ключевых слов.
Простое неконтролируемое извлечение ключевой фразы с использованием вложения предложений (Камил Беннани-Смайрес, Клаудиу Мусат и др., 2018).В этой статье описывается новый неконтролируемый метод извлечения ключевой фразы, который использует встраивание предложений и может использоваться для анализа больших наборов данных в режиме реального времени.
Графический подход к автоматическому извлечению ключевых фраз (Ян Инга, Тан Цинпин и др., 2017). С акцентом на графические методы извлечения ключевых слов в этой статье исследуется новый подход к извлечению ключевых фраз, относящихся к основным темам в тексте.
Автоматическое извлечение ключевых фраз на основе НЛП и статистических методов (Мартин Досталь и Карел Джезек, 2010).В этой статье представлен подход к извлечению ключевых слов с использованием статистических методов и оценки шаблонов на основе Wordnet. Этот метод может быть полезен, если автор не предоставил достаточно ключевых слов (или когда ключевых слов нет вообще).
Анализ текста: приложения и теория (Майкл Берри, 2010). Это отличное введение в различные алгоритмы и методы интеллектуального анализа текста. Алгоритм RAKE, используемый для извлечения ключевых слов, описан в этой книге.
API извлечения ключевых слов
Итак, вы готовы сделать первые шаги в извлечении и анализе ключевых слов.Трудный (и более сложный) путь - разработать всю систему с нуля. Однако есть гораздо более удобное решение: реализовать алгоритмы извлечения ключевых слов с помощью существующих сторонних API.
Споры о выборе и покупке, когда дело доходит до создания пользовательских моделей извлечения ключевых слов и анализа текста: используйте библиотеки с открытым исходным кодом для создания модели или подключения к API SaaS.
Использование библиотек с открытым исходным кодом может быть отличным, если у вас есть опыт работы с данными и кодированием
, но они могут быть дорогостоящими и занимать много времени.Инструменты SaaS, с другой стороны, могут быть реализованы сразу, требуют очень мало кода, стоят намного дешевле и полностью масштабируемы.
API-интерфейсы SaaS
Преимущества использования API-интерфейсов SaaS для извлечения ключевых слов:
- Нет настройки. Использование библиотеки с открытым исходным кодом часто включает настройку всего программного интерфейса. Независимо от того, используете ли вы Python или R, вы должны быть знакомы с языками программирования и устанавливать определенные инструменты и зависимости. С другой стороны, API-интерфейсы SaaS делают работу намного быстрее и проще.
- Без кода. SaaS API - это готовые решения: вам не нужно беспокоиться о таких вещах, как производительность или архитектура. Единственные строки кода, которые вам нужно будет написать, - это те, которые будут вызывать API и получать результаты (обычно 10 строк или меньше).
- Простая интеграция. Вы можете легко интегрировать свой SaaS API с такими инструментами, как Zendesk или Google Sheets, что сделает ваше решение для извлечения ключевых слов еще более мощным.
Вот некоторые из самых популярных API SaaS для инструментов извлечения ключевых слов:
- MonkeyLearn
- IBM Watson
- Amazon Comprehend
- Aylien
- Cortical.io
MonkeyLearn
MonkeyLearn предлагает набор инструментов извлечения ключевых слов SaaS, которые можно вызвать с помощью всего нескольких строк кода и которые легко настроить в соответствии с языком и критериями вашего бизнеса. Попробуйте эти предварительно обученные экстракторы прямо сейчас, чтобы увидеть, как они работают:
API MonkeyLearn чрезвычайно прост для распознавания ключевых слов Python (и многого другого), и, что лучше всего, MonkeyLearn Studio позволяет вам объединить все эти анализы вместе и автоматически визуализируйте их для получения поразительных результатов - и все это выполняется в едином удобном интерфейсе.
IBM Watson
IBM Watson был создан для работы в различных отраслях с Watson Studio в качестве универсального инструмента для построения моделей извлечения ключевых слов (и других) на любой облачной платформе. Watson Speech-to-Text - это отраслевой стандарт для преобразования записанных и живых голосовых разговоров в письменный текст.
Amazon Comprehend
Amazon Comprehend предлагает предварительно обученные API извлечения ключевых фраз, которые легко интегрируются в существующие приложения. Поскольку Comprehend внедряется и контролируется Amazon, нет необходимости создавать и обучать модели.
AYLIEN
AYLIEN предлагает три API на семи основных языках программирования: API новостей, API анализа текста и Платформа анализа текста (TAP) с доступом к новостному контенту в реальном времени и возможностью создавать собственные экстракторы ключевых слов для любых нужд.
Cortical.io
Cortical.io - отличный вариант с низким кодом для Java, Python и Javascript. Cortical.io использует «семантические отпечатки пальцев» для создания представления отдельных слов и общего значения текста для оптимальной семантической группировки ключевых слов.
Библиотеки с открытым исходным кодом
Если вы умеете программировать, вы можете использовать библиотеки с открытым исходным кодом для реализации модели извлечения ключевых слов с нуля. Есть несколько библиотек для Python и R, которые могут пригодиться для обнаружения ключевых слов, которые поддерживаются активным сообществом специалистов по науке о данных.
Python
Python - наиболее часто используемый язык программирования в науке о данных, известный своим легко понятным синтаксисом. Широкое распространение Python в сообществе специалистов по науке о данных было вызвано растущим списком библиотек с открытым исходным кодом для математических операций и статистического анализа.У Python есть процветающее сообщество и огромное количество библиотек с открытым исходным кодом для задач анализа текста, включая NLTK, scikit-learn и spaCy.
RAKE
RAKE - старая, но широко используемая библиотека Python для извлечения ключевых слов. Эта библиотека реализует алгоритм быстрого автоматического извлечения ключевых слов (RAKE), как описано в этой статье. Следуйте за реализацией Python.
NLTK
Набор инструментов для естественного языка, также известный как NLTK, является популярной библиотекой с открытым исходным кодом для Python для анализа данных человеческого языка.NLTK предоставляет простые в использовании интерфейсы для построения моделей извлечения ключевых слов, а также полезен для обучения моделей классификации, токенизации, стемминга, синтаксического анализа и других задач анализа текста.
RAKE NLTK
RAKE NLTK - это конкретная реализация Python алгоритма быстрого автоматического извлечения ключевых слов (RAKE), который использует NLTK под капотом. Это упрощает расширение и выполнение других задач анализа текста.
Scikit-Learn
Scikit-Learn - одна из наиболее широко используемых библиотек с открытым исходным кодом для машинного обучения.Эта библиотека предоставляет доступные инструменты для обучения моделей НЛП классификации, извлечению, регрессии и кластеризации. Кроме того, он предоставляет другие полезные возможности, такие как уменьшение размерности, поиск по сетке и перекрестная проверка. Scikit-Learn имеет огромное сообщество и значительное количество руководств, которые помогут вам начать работу.
spaCy
Еще одна отличная библиотека НЛП для Python - spaCy. Эта библиотека немного новее, чем NLTK или Scikit-Learn, и специализируется на предоставлении простого способа использования глубокого обучения для анализа текстовых данных.
R
R - наиболее широко используемый язык программирования для статистического анализа. У него также очень активное и полезное сообщество. Популярность R в науке о данных и машинном обучении неуклонно растет, и у него есть несколько отличных пакетов для извлечения ключевых слов.
RKEA
RKEA - это пакет для извлечения ключевых слов и фраз из текста с помощью R. Внутри RKEA предоставляет интерфейс R для KEA, алгоритма извлечения ключевых слов, который изначально был реализован на Java и не зависит от платформы.
Textrank
Textrank - это пакет R для обобщения текста и извлечения ключевых слов. Алгоритм вычисляет, как слова связаны друг с другом, проверяя, следуют ли слова друг за другом. Затем он использует алгоритм PageRank для ранжирования наиболее важных слов текста.
Учебники
Довольно теории, теперь пора попробовать извлечение ключевых слов для себя! Практика ведет к совершенству, это факт, и особенно когда речь идет о машинном обучении.
Здесь вы найдете несколько простых и полезных руководств по созданию вашей первой модели извлечения ключевых слов. Сначала мы поделимся несколькими инструкциями по извлечению ключевых слов с помощью библиотек с открытым исходным кодом, таких как Python и R. Наконец, для тех, кто не имеет навыков программирования или просто хочет начать прямо сейчас, вы можете узнать, как создать экстрактор ключевых слов с помощью MonkeyLearn.
Учебники с использованием библиотек с открытым исходным кодом
Библиотеки с открытым исходным кодом великолепны благодаря своей гибкости и возможностям, но иногда бывает трудно начать работу.Ниже приводится список руководств, которые помогут вам реализовать систему извлечения ключевых слов с нуля с использованием фреймворков с открытым исходным кодом.
Python
RAKE
Если вы ищете пошаговое руководство по использованию RAKE, вам следует ознакомиться с этим руководством. В этом руководстве объясняется, как извлекать ключевые слова и ключевые фразы с нуля с помощью реализации RAKE в Python.
Scikit-learn
Ознакомьтесь с этим руководством, в котором объясняется, как использовать Scikit-learn для извлечения ключевых слов с TF-IDF.Обязательно ознакомьтесь с документацией scikit-learn, в которой также есть ресурсы, которые помогут вам начать работу с этой библиотекой.
SpaCy
Это руководство покажет вам пошаговый процесс извлечения ключевых слов с помощью spaCy. В этом руководстве рассказывается, как генераторы n-граммов и пропущенных граммов могут помочь вам сгенерировать потенциальные ключевые слова или фразы из текста. Если вы хотите узнать больше о spaCy, ознакомьтесь с spaCy 101, где простыми словами объясняются наиболее важные концепции spaCy.
R
В этом руководстве вы можете узнать, как использовать пакет RKEA в R для извлечения ключевых слов. В нем рассказывается, как загрузить пакет, как создать модель извлечения ключевых слов с нуля и как использовать ее для анализа текста и автоматического получения ключевых слов.
Учебное пособие по извлечению ключевых слов с помощью MonkeyLearn
Погрузитесь в процесс извлечения ключевых слов с помощью предварительно обученного экстрактора MonkeyLearn. Просто вставьте свой собственный текст и посмотрите, насколько легко его использовать.
Тест с вашим собственным текстом
Илон Маск поделился фотографией скафандра, разработанного SpaceX.Это второе изображение нового дизайна и первое, на котором изображен скафандр в полный рост. Извлечь текстДля более подробного анализа, следуйте инструкциям ниже, чтобы обучить свой собственный экстрактор ключевых слов - это бесплатно и легко. Ключевые слова субъективны: слово или фраза могут быть релевантными (или нет) в зависимости от контекста и конкретного варианта использования. Иногда вам может потребоваться настроить ключевые слова для вашей конкретной области или области деятельности, чтобы повысить точность.
Вот как создать свой собственный экстрактор с помощью MonkeyLearn:
1.Создайте новую модель:
На панели управления MonkeyLearn нажмите «Создать модель» и выберите «Экстрактор»:
2. Импортируйте текстовые данные:
. Вы можете загрузить файл Excel или CSV или импортировать данные прямо из приложения, такого как Twitter, Gmail или Zendesk. В этом примере мы собираемся использовать CSV-файл с отзывами об отелях (набор данных с отзывами об отелях, доступный для загрузки в виде CSV-файла в нашей библиотеке данных):
3. Укажите данные для обучения вашей модели:
Выберите столбцы с примерами текста, которые вы хотите использовать для обучения экстрактора ключевых слов:
4.Определите свои теги:
Создайте различные теги для вашего экстрактора ключевых слов в зависимости от типа слов или выражений, которые вам нужно получить из текста. Например, в данном случае мы хотим извлечь два типа ключевых слов из отзывов об отелях:
-
Аспект
: это слова и выражения, которые относятся к функции или теме, о которых идет речь в обзоре отеля. Например, в следующем обзоре «Кровать действительно удобная» ключевым словом аспекта будет «кровать». -
Качество
: это ключевые слова, которые говорят о состоянии или состоянии отеля или одном из его аспектов. В приведенном выше примере «Кровать действительно удобная» ключевым словом качества будет «удобная».
5. Начните обучение экстрактора текста:
Вам нужно пометить несколько слов в тексте, чтобы обучить экстрактор ключевых слов. Как? Установив флажок рядом с соответствующим тегом и выделив соответствующий текст. Таким образом, вы научите свою модель машинного обучения самостоятельно устанавливать связи и делать прогнозы.
После того, как вы отметили несколько примеров, обратите внимание, как экстрактор текста начинает делать прогнозы самостоятельно:
6. Назовите свою модель:
После того, как вы закончите обучение экстрактора ключевых слов, вам нужно будет назвать свою модель:
7. Проверьте свою модель!
Вы можете протестировать свою модель и посмотреть, как она извлекает элементы из невидимых данных. Если вы не удовлетворены результатами, продолжайте тренировку модели с большим количеством данных. Чем больше примеров вы загрузите в свой экстрактор ключевых слов, тем точнее будут ваши результаты.Чтобы проверить производительность вашего экстрактора ключевых слов, нажмите «Сборка» и посмотрите статистику, такую как F1 Score, Precision и Recall для каждого из ваших определенных тегов:
8. Приведите свою модель в действие:
Подобно тому, что мы видели для предварительно обученных моделей, есть несколько способов начать использовать средство извлечения ключевых слов:
- Демо: вам просто нужно вставить текст, и модель автоматически обнаружит и выделит различные Особенности.
- Пакет: если вы хотите проанализировать несколько фрагментов данных, вы можете загрузить файл CSV или Excel. Модель извлечения ключевых слов добавит в документ новый столбец со всеми прогнозируемыми ключевыми словами.
- API: подключитесь к MonkeyLearn API и получите извлеченные ключевые слова в виде файла JSON.
- Интеграции: вы можете использовать Zapier, RapidMiner, Google Sheets или Zendesk в качестве источника данных и подключить их к MonkeyLearn для процесса извлечения ключевых слов.
Заключительные слова
Извлечение ключевых слов - отличный способ найти то, что уместно в больших наборах данных.Это позволяет предприятиям в любой области автоматизировать сложные процессы, которые в противном случае были бы чрезвычайно трудоемкими и гораздо менее эффективными (а в некоторых случаях совершенно невозможно выполнить вручную). Вы ознакомились с возможностями извлечения ключевых слов для поддержки клиентов, управления социальными сетями, исследования рынка и т. Д. Вы можете получить ценную информацию для принятия более эффективных бизнес-решений.
Пришло время перейти на новый уровень и начать использовать извлечение ключевых слов, чтобы максимально использовать ваши текстовые данные.Как вы знаете, сделать первые шаги с MonkeyLearn может быть довольно легко. Хотите попробовать? Просто свяжитесь с нами и запросите персонализированную демонстрацию у одного из наших экспертов! Узнайте, как использовать извлечение ключевых слов и еще более продвинутые методы анализа текста, чтобы получить максимальную отдачу от ваших данных.
Похожие сообщения
6 лучших инструментов для извлечения ключевых слов и способы их использования
Извлечение ключевых слов использует машинное обучение и искусственный интеллект для автоматического «чтения» текстов (новостные статьи, социальные сети, электронные письма, онлайн-чаты и т. Д.)) и извлеките заранее определенные или релевантные слова.
Эта технология помогает предприятиям автоматически просматривать обзоры продуктов, заявки на обслуживание клиентов и опросы, среди других данных, чтобы понять важные ключевые слова и извлечь ключевую информацию (например, имена, адреса электронной почты, значения).
Вы можете вставлять текст в предварительно созданную модель экстрактора, подключать API экстрактора к своим веб-сайтам и приложениям или создавать экстракторы с нуля, используя библиотеки с открытым исходным кодом.
Хотя вы можете бесконечно настраивать инструменты с открытым исходным кодом, вам понадобится значительный опыт в области компьютерных наук, чтобы создать свой собственный экстрактор.Самый простой и эффективный способ начать использовать извлечение ключевых слов - это часто инструменты SaaS, которые вы можете просто подключить и сразу же начать использовать.
Попробуйте этот инструмент для извлечения ключевых слов, чтобы убедиться, насколько это просто:
Тест с вашим собственным текстом
Илон Маск поделился фотографией скафандра, разработанного SpaceX. Это второе изображение нового дизайна и первое, на котором показан скафандр в полный рост. Выдержка текстаНиже приведен пример модели, использованной для анализа обзора приложения Houseparty:
Вы можете видеть, первое В общем, это положительный отзыв, в котором подчеркнуты любимые качества писателя.И, во-вторых, автор сравнивает Houseparty с FaceTime и другими «приложениями для видеозвонков».
Наконец, эта модель экстрактора не требовала настройки и кода - и дала ценную информацию за секунды. Прочтите, чтобы узнать о некоторых из лучших онлайн-инструментов для извлечения ключевых слов.
Инструменты для извлечения ключевых слов
У каждого метода есть свои плюсы и минусы, поэтому стоит узнать больше о каждом, чтобы принять решение. Многие даже предлагают бесплатные пробные версии и модели, так что вы можете подключить свои данные и посмотреть, как они работают.
MonkeyLearn
Подходит для: компаний SaaS, программного обеспечения и электронной коммерции, которые хотят анализировать данные о клиентах для немедленного анализа.
MonkeyLearn - это простая в использовании платформа SaaS, которая позволяет сразу же начать извлечение ключевых слов из любого источника. Вы можете настроить свою собственную или использовать эту предварительно обученную модель, чтобы увидеть, как работает извлечение ключевых слов.
Технология расширенной обработки естественного языка (NLP) обеспечивает глубокое машинное обучение для анализа текста так же, как это сделал бы человек, экономя вашей компании сотни рабочих часов.Программное обеспечение MonkeyLearn можно интегрировать с уже используемыми вами приложениями, такими как Google Таблицы, Excel, Zendesk, Zapier и другими.
API предлагаются на всех основных языках программирования для подключения моделей MonkeyLearn к инструментам и приложениям, которые вы уже используете. Введя несколько простых строк кода, вы можете извлечь практически любой текст, который вам нужен.
IBM Watson
Лучшее для : крупные компании с внутренними инженерными возможностями, которые хотят извлекать ключевые слова из текста и преобразовывать речь в текст из огромных объемов данных.
IBM Watson предлагает ряд инструментов для анализа текста, которые можно масштабировать в разных отраслях. С их классификатором естественного языка вы можете создавать простые модели извлечения, загружая файлы CSV. Их облачная технология предлагает простую реализацию с существующими приложениями, хотя для расширенной интеграции потребуется опыт программирования.
Функция преобразования речи в текст IBM Watson автоматически преобразует звук в текст в реальном времени и идеально подходит для компаний с большими центрами обработки вызовов и записанными звуковыми отзывами.
Amazon Comprehend
Лучшее для : компании, которым требуется управляемое программное обеспечение, не требующее сборки.
Amazon Comprehend - это полностью управляемое программное обеспечение, работающее в облаке Amazon Web Services, поэтому внутренняя установка не требуется. Их предварительно обученные API-интерфейсы интегрируются непосредственно в ваши существующие системы, или они могут создавать собственные экстракторы для конкретных нужд.
Программы машинного обучения Amazon Comprehend ищут в тексте отношения, которые пользователи-люди не могут найти.Comprehend AutoML можно использовать для создания пользовательских моделей и экстракторов, хотя кодирование не требуется.
Amazon Comprehend Medical пользуется популярностью среди медицинских специалистов для выявления и поиска взаимосвязей в медицинской информации, такой как условия, лекарства и дозировки. Comprehend Medical, которую можно использовать для обследований, испытаний и медицинских записей, может улучшить диагностику и спасти жизни.
AYLIEN
Подходит для: компаний, которым требуется простая установка фиксированных API.
AYLIEN предлагает три подключаемых модуля API с простой настройкой на семи основных языках программирования.
API новостей AYLIEN позволяет в реальном времени искать и анализировать тысячи ежедневных источников новостей со всего мира. Их API анализа текста - это готовая программа извлечения ключевых слов для анализа текстовых данных из документов и онлайн-контента. И, наконец, их платформа анализа текста позволяет вам создать свой собственный экстрактор анализа текста (прямо в браузере) для получения сверхнаправленных результатов.
Cortical.io
Подходит для: компаний, которым требуется быстрое внедрение и контроль на низком уровне.
Cortical.io использует основанный на нейробиологии метод для поиска, извлечения и анализа ключевых слов практически из любого неструктурированного текста. Их модели можно быстро обучить с использованием словаря, специфичного для вашей области, без необходимости участия человека.
Их программное обеспечение создает «семантический отпечаток пальца» для представления значения текста в целом. Семантические отпечатки пальцев визуализируют ваши данные, показывая кластеры ключевых слов и то, как они соотносятся друг с другом.
Cortical.io предлагает предварительно упакованный программно-аппаратный комплекс Message Intelligence для обслуживания клиентов и анализа связанных сообщений.Contract Intelligence обычно используется для статистической и бизнес-оценки, а Custom Solutions предоставляет ИИ, адаптированный к вашим требованиям.
Подходит для: предприятий, которым требуется ряд инструментов настройки, например несколько моделей, обученных для различных специализированных поисков.
TextRazor может быть интегрирован в облако или размещен отдельно для дополнительной безопасности. Их методы извлечения ключевых слов работают на 12 языках, причем извлечение построено для отображения словесных отношений, зависимостей типизированных слов и синонимов.
Машинное обучение TextRazor основано на расширенном семантическом синтаксическом анализе и понимает контекст, чтобы читать текст как человек. Используйте настраиваемую логику для конкретной предметной области и создавайте собственные правила классификации для расширенной аналитики. API-интерфейсы можно интегрировать за считанные минуты с помощью всего нескольких строк кода.
Заключительные слова о программном обеспечении для извлечения ключевых слов
Извлечение ключевых слов может помочь вашему бизнесу повысить производительность, улучшить обслуживание клиентов и помочь вам оставаться на связи со своей клиентской базой.
После того, как вы обнаружите ключевые слова, ваши данные могут быть объединены с другими инструментами анализа текста, которые помогут вам классифицировать тексты по тональности, теме, языку и т. Д.
Существует ряд онлайн-инструментов для извлечения данных, которые вы можете использовать, чтобы воспользоваться преимуществами этой революционной технологии.
Хотите попробовать извлечение ключевых слов? Запросите демо у MonkeyLearn.
Извлечение ключевых слов с помощью НЛП: руководство для начинающих
Сбор, анализ и реагирование на отзывы пользователей - краеугольный камень процесса проектирования, ориентированного на пользователя.Отзывы пользователей помогают нам понять потребности и уровень удовлетворенности клиентов, а также определить, на чем лучше всего сосредоточить исследования и разработки, чтобы оказать наибольшее влияние на взаимодействие с пользователем в целом.
Благодаря улучшенным инструментам - и, возможно, усилению давления, чтобы клиенты чувствовали себя «услышанными», - многие организации довольно хорошо умеют собирать отзывы пользователей. Однако я не видел доказательств того, что многие из них так же хороши в , анализируя , и , действуя на эту обратную связь.У организаций могут быть тонны данных - скажем, 8000 обращений за помощью и комментариев клиентов, скомпилированных в одном файле .csv *, - но когда дело доходит до того, в чем заключается суть, слишком часто никто не имеет ни малейшего представления.
(* Реальная история. На самом деле, более одного раза. Гораздо больше.)
Получение информации из многотысячной таблицы комментариев пользователей в произвольной форме может быть непростой задачей. Вы можете просмотреть каждый комментарий (если у вас есть бюджет проекта ... и не заботиться о своем душевном здоровье), или вы можете взять образец и надеяться на лучшее.
Обработка естественного языка на помощь
Третий подход - использовать обработку естественного языка (NLP), чтобы начать понимать общий смысл набора данных на высоком уровне, а затем использовать это понимание для определения более сфокусированных направлений исследования - либо для применения к самим данным, либо для использование для руководства соответствующими исследованиями.
Широкий спектр бесплатных библиотек Python NLP предлагает некоторые относительно простые в развертывании инструменты, которые могут помочь нам раскрыть ключевые особенности больших наборов данных.Инструменты, которые мы рассмотрим в этой статье, позволят нам создавать списки ключевых слов с одним и несколькими терминами (называемые н-граммами) из большого (более 3000 записей) неструктурированного набора данных. Эти списки помогут нам сформировать базовое понимание содержимого набора данных на высоком уровне.
Предварительный просмотр наиболее популярных ключевых слов, извлеченных из выборки набора данныхХотя этот процесс, известный как «интеллектуальный анализ текста», обязательно является редуктивным, он предлагает несколько точек входа в набор данных, которые в противном случае могли бы выглядеть безнадежно непонятными:
Ключевые слова сами по себе могут быть полезны, особенно при формулировании ответа на вопрос «О чем люди чаще всего говорят / спрашивают?»
Ключевые слова могут помочь вам сосредоточиться на небольших наборах отдельных записей, чтобы узнать о них больше и начать отвечать на конкретные вопросы о потребностях и целях пользователей.
Ключевые слова в сочетании с анализом небольших наборов отдельных записей могут помочь вам выявить пробелы в вашем понимании пользователей, что может помочь сосредоточить последующие исследовательские усилия
Предупреждение для менее технических читателей
Если мысль о том, чтобы что-то сделать в коде, заставила вас потянуться к значку «закрыть», сначала выслушайте меня: примерно месяц назад я не знал Python от Boa Constrictor.Эта статья и сопутствующий репозиторий предназначены для того, чтобы обеспечить низкую точку входа для начала работы с анализом текста и интеллектуальным анализом текста, даже если вы новичок в манипулировании файлами данных с помощью кода.
Предпосылки, источники и ресурсы
Большая часть кода, который вы найдете ниже (и в соответствующем репозитории GitHub), была скомпонована из гораздо более знающих первоисточников, чем ваш искренний, - тех, которые я настоятельно рекомендую вам проверить. Внесенные мной изменения были сделаны в духе того, чтобы сделать эти инструменты более доступными для новичков, убедиться, что код работает в автономном репозитории, и предоставить отправную точку, с которой смельчаки из вас могут начать свои собственные исследования. .
Хотите прочитать об истории вопроса и требованиях позже? Перейдите к разделу «Как извлекать ключевые слова с помощью обработки естественного языка» ниже
Источники для блоков кода НЛП
Автоматическое извлечение ключевых слов из статей с использованием NLP , автор Sowmya Vivek, показывает, как извлекать ключевые слова из рефератов научных статей по машинному обучению. Это статья, из которой я больше всего черпаю для этого инструментария. К сожалению (насколько мне известно) г-жаVivek не предоставил общий доступ к хранилищу этих скриптов, поэтому я воссоздал и изменил их здесь.
Извлечение ключевых слов с помощью TF-IDF и Python Scikit-Learn от Кавиты Ганесан, по-видимому, является учебным пособием, которое г-жа Вивек использует больше всего для процесса векторизации TF-IDF (подробнее об этом конкретном словесном салате ниже). Г-жа Ганесан предоставляет более подробную информацию о том, как работают эти конкретные блоки кода, а также дополнительные инструменты в своем репозитории NLP на GitHub - хороший следующий шаг для тех из вас, кто заинтересован в дальнейших исследованиях.
Ресурсы Python
Обработка естественного языка с помощью Python Стивена Берда, Юэна Кляйна и Эдварда Лопера - это бесплатная онлайн-книга, в которой подробно рассказывается об использовании модуля Python Natural Language Toolkit (NLTK) для понимания неструктурированного текста. Это надежный ресурс для получения фундаментальных знаний на основе передового опыта. Я нашел первые три главы хорошим учебником - и, вероятно, вернусь к остальным в качестве справочника по мере расширения моих навыков.
«Научитесь программировать на Python 3: от новичка до продвинутого» , Иван Гомес через Udemy, является отличным введением в Python. Курс не предполагает никаких предварительных знаний о Python (он начинается с подробных модулей о том, как его установить), но продвигается достаточно быстро, чтобы оставаться интересным и поддерживать чувство прогресса. Я очень рекомендую это. Также: обязательно выполняйте упражнения - они веселые и помогают закрепить содержание.
Запуск репозитория
Репозиторий для этого набора операций и функций хранится в виде файла Jupyter Notebook.Jupyter Notebook - это веб-приложение с открытым исходным кодом, которое можно использовать для создания и обмена документами, содержащими живой код Python, уравнения, визуализации и текст. Я обнаружил, что это простой (и прощающий) способ экспериментировать с Python и создавать операции НЛП для выполнения конкретных задач.
Чтобы запустить репозиторий, вам нужно будет настроить несколько вещей на вашем компьютере. Вам понадобится Python 3, Jupyter Notebook и несколько модулей Python. Jupyter Notebook и все модули могут быть установлены с помощью установщика пакета PIP, который поставляется с Python.
Вот что вы хотите установить для модулей:
- pandas для инструмента анализа и обработки данных
- nltk , набор библиотек и программ для символьной и статистической обработки естественного языка английского языка
- matplotlib для построения данных
- seaborn для визуализации данных
- подушка , библиотека изображений
- wordcloud для создания визуализаций облака слов
- sklearn , библиотека машинного обучения
После того, как вы запустите Python, загрузите репозиторий NLP Text Analysis с GitHub и скопируйте образцы текстовых файлов на свой рабочий стол.Запустите «jupyter notebook» из каталога репозитория, а затем просто выполните шаги, перечисленные ниже, чтобы сгенерировать списки и визуализации нормализованных ключевых слов и n-граммов. Как только вы освоитесь, замените свою огромную электронную таблицу неструктурированных комментариев и настраиваемых ключевых слов и насладитесь великолепием проведения анализа текста НЛП в одиночку. 🎉
1. Загрузите набор данных и определите текстовые поля для анализа
Выберите первую ячейку кода в записной книжке «text-analytics.ipynb» и нажмите кнопку «Выполнить».Обязательно перетащите файлы «rfi-data.tsv» и «custom-stopwords.txt» на рабочий стол; вот где сценарий будет их искать.
Следуйте инструкциям по загрузке данных. Выбрав файл .tsv, вы выберете столбец, содержащий данные, которые хотите проанализировать, а затем просмотрите наиболее и наименее распространенные слова в необработанном тексте. Это поможет вам определить любые пользовательские стоп-слова, которые вы, возможно, захотите добавить перед нормализацией текста.
2. Создайте список стоп-слов
Стоп-слова - это часто используемые слова, такие как «the», «a», «an», «in» и т. Д.которые часто встречаются на естественном языке, но не передают важной информации о значении или теме сообщения.
Модуль NLTK предлагает список наиболее распространенных стоп-слов на английском языке, который мы импортируем сюда. На этом этапе мы также добавим список пользовательских стоп-слов на основе анализируемого текста. Вы можете изменить этот список в файле custom-stopwords.txt на рабочем столе.
Импорт библиотек стоп-слов.Список «наиболее часто встречающихся слов», который мы создали выше, предлагает несколько хороших кандидатов для настройки пользовательского списка стоп-слов.Когда вы начнете получать результаты, указанные ниже, вы можете вернуться к этому шагу и добавить дополнительные стоп-слова на основе вашего набора содержимого, чтобы получить более полезные результаты.
3. Предварительно обработайте набор данных, чтобы получить очищенный, нормализованный текстовый корпус.
Предварительная обработка включает удаление знаков препинания, тегов и специальных символов из текста, а затем преобразование того, что осталось, в узнаваемые слова. Процесс нормализации включает в себя «выделение корней», которое удаляет суффиксы и префиксы из корней слов, и «лемматизацию», которая отображает оставшиеся корневые формы (которые не всегда могут быть правильными словами) обратно в реальное слово, встречающееся в естественном языке.
Нормализация, остановка и лемматизация нашего корпуса.Все вместе эти процессы определяют канонического представителя набора родственных словоформ, что позволяет нам оценивать частоту слов независимо от морфологических вариаций (словоформ).
4. Извлеките наиболее часто встречающиеся ключевые слова и н-граммы
Теперь мы, наконец, находимся на этапе, когда мы можем сгенерировать набор основных ключевых слов и n-граммов, в нашем случае двух- и трехсловные словосочетания (биграммы и триграммы). Эти списки и диаграммы, конечно, только намекают на всю информацию, которая может содержаться в этом текстовом корпусе, но они дают представление о том, где нам, возможно, потребуется более внимательно изучить или провести дополнительные исследования.Они также предлагают общий обзор, который легко доводится до сведения сотрудников и заинтересованных сторон.
Популярные ключевые слова по частоте для 3892 полей "Запрос информации" Shoreline College Верхние биграммы по частоте для 3892 полей "Запрос информации" Shoreline College Верхние триграммы по частоте для 3892 полей "Запрос информации" Shoreline CollegeЭти скрипты также будут отправлять CSV-файл с расширением. термины и данные о частоте для каждого из этих представлений на рабочем столе для прямого доступа к скомпилированным результатам.Если вы обнаружите, что некоторые термины являются общими для вашего набора данных - в этом примере «будет», «нравится», «нужно» и «знать» на самом деле не передают уникального значения - вы можете добавить их в свой список стоп-слов и запустить анализ снова.
TF-IDF, сокращение от «Term Frequency – Inverse Document Frequency», представляет собой числовую статистику, которая предназначена для отражения того, насколько важно слово для документа в коллекции. Значение TF-IDF термина увеличивается пропорционально тому, сколько раз слово появляется в документе, а затем компенсируется количеством документов в корпусе, содержащих это слово.Это помогает приспособиться к тому факту, что некоторые слова в целом встречаются чаще. Конечным результатом является то, что мы получаем список слов, ранжированных по тому, насколько они важны для корпуса в целом:
Верхний термин TF-IDF для 3892 полей "Запрос информации" Shoreline CollegeТем не менее, я не собираюсь утверждать, что я полностью осознал, что происходит в процессе векторизации TF-IDF. Для более глубокого анализа извлечения ключевых слов с помощью TF-IDF ознакомьтесь с руководством Кавиты Ганесан по TF-IDF.
Следующие шаги
Если вы раньше уже знакомы с НЛП или машинным обучением, то теперь, когда эти воды очень быстро становятся глубокими. Цель этой статьи - предоставить «неглубокий конец», который те из нас, кто плохо знаком с НЛП, могут использовать, чтобы получить свое основание и все же достичь чего-то полезного. Он написан с точки зрения новичка (меня!), Который разделяет свои позиции в НЛП с другими новичками (вами!) - и, надеюсь, предоставляет вам ценный набор инструментов начального уровня, который вы можете использовать в следующей электронной таблице на 8000 строк.
Результат этого процесса предназначен для предоставления вам набора точек данных, которые вы можете использовать для лучшего понимания отзывов пользователей, содержащихся в больших неструктурированных наборах данных. Это также должно помочь вам легче сосредоточить будущую аналитическую и исследовательскую деятельность. Как только вы освоите базовый процесс, описанный выше, приступайте к настройке переменных и параметров. Когда вы освоитесь со всем, что вы можете здесь делать, вы будете готовы изучить множество других способов использования этих библиотек и инструментов.Пожалуйста, поделитесь тем, что вы узнали!
извлечения ключевых слов с помощью BERT | Навстречу науке о данных
Минимальный метод извлечения ключевых слов и фраз
Created by WokandapixКогда мы хотим понять ключевую информацию из определенных документов, мы обычно обращаемся к извлечению ключевых слов . Извлечение ключевых слов - это автоматизированный процесс извлечения слов и фраз, наиболее релевантных входному тексту.
С помощью таких методов, как Rake и YAKE! у нас уже есть простые в использовании пакеты, которые можно использовать для извлечения ключевых слов и фраз.Однако эти модели обычно работают на основе статистических свойств текста, а не столько на семантическом сходстве.
Входит BERT . BERT - это модель двунаправленного преобразователя, которая позволяет нам преобразовывать фразы и документы в векторы, отражающие их значение.
Что, если бы мы использовали BERT вместо статистических моделей?
Несмотря на то, что существует множество замечательных статей и решений, в которых используются встраивания BERT (например, 1, 2, 3,), я не смог найти простого и удобного в использовании решения на основе BERT.Вместо этого я решил создать KeyBERT - минимальную и простую в использовании технику извлечения ключевых слов, которая использует вложения BERT.
Теперь основной темой этой статьи будет не использование KeyBERT, а учебник о том, как использовать BERT для создания собственной модели извлечения ключевых слов .
В этом руководстве мы собираемся использовать документ о контролируемом машинном обучении :
doc = "" "
контролируемое обучение - это задача машинного обучения
, которая изучает функцию, которая сопоставляет входные данные с выходными на основе
на примере пар ввода-вывода.[1] Он выводит функцию
из помеченных обучающих данных, состоящих из набора из
обучающих примеров. [2] При обучении с учителем каждый пример
представляет собой пару, состоящую из входного объекта
(обычно вектора) и желаемого выходного значения (также
, называемого контрольным сигналом). Алгоритм
с контролируемым обучением анализирует данные обучения и выдает выведенную функцию
, которую можно использовать для отображения новых примеров
. Оптимальный сценарий позволит алгоритму
правильно определять метки классов для невидимых экземпляров
.Это требует, чтобы алгоритм обучения
обобщил данные обучения на невидимые ситуации
«разумным» способом (см. Индуктивное смещение).
"" "
Я считаю, что использование документа по теме, о которой читатели достаточно хорошо знают, помогает понять, являются ли полученные ключевые фразы качественными.
Мы начинаем с создания списка возможных ключевых слов или ключевых фраз из документа Несмотря на то, что многие сосредотачиваются на словосочетаниях с существительными, мы собираемся упростить его, используя Scikit-Learns CountVectorizer
.Это позволяет нам определять длину ключевых слов и превращать их в ключевые фразы. Это также хороший метод для быстрого удаления стоп-слов.
Мы можем использовать n_gram_range
, чтобы изменить размер результирующих кандидатов. Например, если мы установим для него значение (3, 3)
, то в результате получатся фразы, содержащие 3 ключевых слова .
Тогда переменная кандидатов
представляет собой просто список строк, который включает в себя наши кандидаты ключевых слов / ключевых фраз.
ПРИМЕЧАНИЕ : Вы можете поиграть с n_gram_range
, чтобы создать ключевые фразы разной длины. Тогда вы, возможно, не захотите удалять стоп-слова, поскольку они могут связывать вместе более длинные ключевые фразы.
Затем мы конвертируем как документ, так и возможные ключевые слова / ключевые фразы в числовые данные. Для этой цели мы используем BERT , поскольку он показал отличные результаты как для задач подобия, так и для задач перефразирования.
Существует множество методов для создания вложений BERT, таких как Flair, Hugginface Transformers, а теперь даже spaCy с их 3.0 релиз! Однако я предпочитаю использовать пакет предложений-преобразователей
, поскольку он позволяет мне быстро создавать высококачественные вложения, которые достаточно хорошо работают для встраиваний на уровне предложений и документов.
Устанавливаем пакет с пипсом , устанавливаем предложения-трансформеры
. Если у вас возникнут проблемы с установкой этого пакета, возможно, сначала будет полезно установить Pytorch.
Теперь мы собираемся запустить следующий код, чтобы преобразовать наш документ и кандидатов в векторы:
Мы Distilbert , так как он показал отличную производительность в задачах схожести, к чему мы стремимся с извлечением ключевых слов / ключевых фраз. !
Поскольку модели трансформаторов имеют ограничение по токенам, вы можете столкнуться с некоторыми ошибками при вводе больших документов.В этом случае вы можете рассмотреть возможность разделения документа на абзацы и среднего объединения (взяв среднее значение) полученных векторов.
ПРИМЕЧАНИЕ : Существует множество предварительно обученных моделей на основе BERT, которые можно использовать для извлечения ключевых слов. Тем не менее, я бы посоветовал вам использовать либо distilbert - base-nli-stsb-mean-tokens
, либо xlm-r-distilroberta-base-paraphase-v1
, поскольку они показали отличную производительность при семантическом сходстве . и перефразировать идентификацию соответственно.
На последнем этапе мы хотим найти кандидатов, наиболее похожих на документ. Мы предполагаем, что наиболее похожие кандидаты на документ являются хорошими ключевыми словами / фразами для представления документа.
Чтобы вычислить сходство между кандидатами и документом, мы будем использовать косинусное сходство между векторами, так как оно достаточно хорошо работает в высокой размерности:
И… вот и все! В качестве результирующих ключевых слов мы берем 5 наиболее похожих кандидатов на входной документ:
Изображение автора.Результаты выглядят великолепно! Эти термины определенно выглядят так, как будто они описывают документ о контролируемом машинном обучении.
Теперь давайте посмотрим, что произойдет, если мы изменим n_gram_range
на (3,3)
:
Кажется, теперь мы получаем ключевых фраз вместо ключевых слов ! Эти ключевые фразы сами по себе, кажется, хорошо представляют документ. Однако меня не радует, что все ключевые фразы так похожи друг на друга.
Чтобы решить эту проблему, давайте посмотрим на диверсификацию наших результатов.
Есть причина, по которой возвращаются похожие результаты… они лучше всего представляют документ! Если бы мы диверсифицировали ключевые слова / ключевые фразы, то они с меньшей вероятностью представляли бы документ как совокупность .
Таким образом, диверсификация наших результатов требует тонкого баланса между точностью ключевых слов / фраз и их разнообразием.
Есть два алгоритма, которые мы будем использовать для диверсификации наших результатов:
- Максимальное сходство суммы
- Максимальное предельное соответствие
Максимальное сходство суммы
Максимальное суммарное расстояние между парами данных определяется как пары данных для которых расстояние между ними максимально. В нашем случае мы хотим максимизировать сходство кандидата с документом, минимизируя сходство между кандидатами.
Для этого мы выбираем 20 самых популярных ключевых слов / фраз и из этих 20 выбираем 5, которые наименее похожи друг на друга:
Если мы установим low nr_candidates
, то наши результаты кажутся такими быть очень похожим на наш оригинальный метод подобия косинуса:
Однако относительно высокий nr_candidates
создаст более разнообразные ключевые фразы:
Как упоминалось ранее, необходимо иметь в виду компромисс между точностью и разнообразием. Если вы увеличите nr_candidates
, то высока вероятность того, что вы получите очень разные ключевые слова, но это не очень хорошее представление документа.
Я бы посоветовал вам оставить nr_candidates
менее 20% от общего количества уникальных слов в вашем документе.
Максимальная маржинальная релевантность
Последний метод диверсификации наших результатов - Максимальная маржинальная релевантность (MMR). MMR пытается минимизировать избыточность и максимизировать разнообразие результатов в задачах обобщения текста. К счастью, алгоритм извлечения ключевых слов под названием EmbedRank реализовал версию MMR, которая позволяет нам использовать его для диверсификации наших ключевых слов / ключевых фраз.
Мы начинаем с выбора ключевого слова / ключевой фразы, наиболее похожей на документ.Затем мы итеративно выбираем новых кандидатов, которые похожи на документ и не похожи на уже выбранные ключевые слова / ключевые фразы:
Если мы установим относительно низкое разнообразие , то наши результаты будут очень похожи на наше исходное косинусное сходство. метод:
Изображение автора.Однако относительно высокая степень разнообразия баллов создаст очень разнообразные ключевые фразы:
Изображение автора.Если вы, как и я, увлечены искусственным интеллектом, наукой о данных или психологией, пожалуйста, не стесняйтесь добавлять меня в LinkedIn или подписываться на меня в Twitter.
Все примеры и код в этой статье можно найти здесь:
Как извлечь ключевые слова из текста с помощью TF-IDF и Python Scikit-Learn
by Kavita Ganesan
Еще в 2006 году, когда мне пришлось использовать TF-IDF для извлечения ключевых слов в Java, я закончил тем, что написал весь код с нуля. Тогда не существовало ни Data Science, ни GitHub, а библиотеки были ограничены.
Сегодня мир сильно изменился. У вас есть несколько библиотек и репозиториев с открытым исходным кодом на Github, которые обеспечивают достойную реализацию TF-IDF.Если вам не нужен большой контроль над вычислением математики TF-IDF, я настоятельно рекомендую повторно использовать библиотеки из известных пакетов, таких как MLLib от Spark или scikit-learn Python.
Одна проблема , которую я заметил с этими библиотеками, заключается в том, что они предназначены для выполнения других задач, таких как кластеризация, тематическое моделирование и классификация текста. TF-IDF можно использовать для извлечения важных ключевых слов из документа, чтобы понять, что характеризует документ. Например, если вы имеете дело со статьями Википедии, вы можете использовать tf-idf для извлечения слов, уникальных для данной статьи.Эти ключевые слова можно использовать как очень простое резюме документа и для текстовой аналитики, когда мы смотрим на эти ключевые слова в совокупности.
В этой статье я покажу вам, как можно использовать scikit-learn для извлечения ключевых слов из документов с помощью TF-IDF. Мы сделаем это специально для набора данных переполнения стека. Если вам нужен доступ к полной версии Jupyter Notebook , перейдите в мой репозиторий.
Важное примечание: Я предполагаю, что люди, следующие этому руководству, уже знакомы с концепцией TF-IDF.Если нет, пожалуйста, ознакомьтесь с концепцией, прежде чем читать дальше. В сети есть несколько видеороликов, которые интуитивно объясняют, что это такое. Для более академического объяснения я бы порекомендовал объяснение моего научного руководителя.
Dataset
В этом примере мы будем использовать набор данных Stack Overflow, который немного шумный и имитирует то, с чем вы можете иметь дело в реальной жизни. Вы можете найти этот набор данных в моем учебном репозитории.
Обратите внимание, что есть двух файлов .Более крупный файл, stackoverflow-data-idf.json
с 20 000 сообщений, используется для вычисления обратной частоты документов (IDF). Меньший файл, stackoverflow-test.json
с 500 сообщениями, будет использоваться в качестве тестового набора, из которого мы будем извлекать ключевые слова. Этот набор данных основан на общедоступном дампе Stack Overflow из Google Big Query.
Давайте взглянем на наш набор данных. Приведенный ниже код считывает одну строку json на каждую строку из data / stackoverflow-data-idf.json
во фрейм данных pandas и распечатывает его схему и общее количество сообщений.
Здесь строк = Истина
просто означает, что мы обрабатываем каждую строку в текстовом файле как отдельную строку json.
Обратите внимание, что этот набор данных Stack Overflow содержит 19 полей, включая заголовок, текст сообщения, теги, даты и другие метаданные, которые нам не нужны для этого руководства. В этом уроке нас больше всего интересуют тело и заголовок. Они станут нашим источником текста для извлечения ключевых слов.
Теперь мы создадим поле, которое объединяет body
и title
, так что у нас есть два в одном поле. Мы также напечатаем вторую текстовую запись в нашем новом поле, чтобы увидеть, как выглядит текст.
Ой, это выглядит не очень читаемым! Ну, это из-за всей очистки, которая была произведена в pre_process (..)
. Вы можете сделать гораздо больше в pre_process (..)
, например, удалить все разделы кода и нормализовать слова до его корня.Для простоты мы выполним лишь небольшую предварительную обработку.
Создание словаря и подсчета слов для IDF
Теперь нам нужно создать словарь и начать процесс подсчета. Мы можем использовать CountVectorizer для создания словаря из всего текста в нашем df_idf ['text']
, за которым следует количество слов в словаре:
Результат последних двух строк из приведенного выше кода является разреженным. матричное представление отсчетов. Каждый столбец представляет собой слово в словаре.Каждая строка представляет документ в нашем наборе данных, где значениями являются количество слов.
Обратите внимание, , что при таком представлении количество слов может быть равно 0, если слово не появилось в соответствующем документе.
Здесь мы передаем два параметра в CountVectorizer: max_df
и stop_words
. Первый - просто игнорировать все слова, которые встречаются в 85% документов, так как они могут быть несущественными. Последний - это настраиваемый список стоп-слов.Вы также можете использовать стоп-слова, родные для sklearn, установив stop_words = 'english'
. Список стоп-слов, используемый в этом руководстве, можно найти здесь.
Результирующая форма word_count_vector
будет (20000,124901), поскольку в нашем наборе данных (строках) имеется 20 000 документов, а размер словаря составляет 124 901.
В некоторых приложениях интеллектуального анализа текста, таких как кластеризация и классификация текста, мы обычно ограничиваем размер словаря. Это действительно легко сделать, установив max_features = vocab_size
при создании экземпляра CountVectorizer.В этом руководстве давайте ограничим размер словаря до 10 000:
Теперь давайте посмотрим на 10 слов из нашего словаря:
['сериализация', 'частный', 'структура', 'общедоступный', 'класс', 'содержит ',' свойства ',' строка ',' сериализация ',' попытка ']
Прекрасно, это в основном связано с программированием.
TfidfTransformer для вычисления IDF
Пришло время вычислить значения IDF.
В приведенном ниже коде мы, по сути, берем разреженную матрицу из CountVectorizer ( word_count_vector
), чтобы сгенерировать IDF, когда вы вызываете fit (...)
:
Чрезвычайно важный момент : IDF всегда должен основываться на большом корпусе и должен быть репрезентативным для текстов, которые вы будете использовать для извлечения ключевых слов. Я видел в Интернете несколько статей, в которых вычисление IDF выполняется с использованием нескольких документов. Вы проиграете целиком взвешивания IDF, если оно не основано на большом корпусе:
- ваш словарный запас становится слишком маленьким, а
- у вас ограниченная способность наблюдать поведение слов, о которых вы действительно знаете.
Вычисление TF-IDF и извлечение ключевых слов
После того, как мы вычислили наш IDF, мы готовы вычислить TF-IDF, а затем извлечь основные ключевые слова из векторов TF-IDF.
В этом примере мы извлечем основные ключевые слова для вопросов в data / stackoverflow-test.json
. Этот файл данных содержит 500 вопросов с полями, идентичными полям data / stackoverflow-data-idf.json
, как мы видели выше. Мы начнем с чтения нашего тестового файла, извлечения необходимых полей - заголовка и тела - и объединения текстов в список.
Следующим шагом является вычисление значения tf-idf для данного документа в нашем тестовом наборе путем вызова tfidf_transformer.transform (...)
. Это генерирует вектор оценок tf-idf.
Затем мы сортируем слова в векторе в порядке по убыванию значений tf-idf и затем перебираем, чтобы извлечь первые n ключевых слов. В приведенном ниже примере мы извлекаем ключевые слова для первого документа в нашем тестовом наборе.
Метод sort_coo (...)
по существу сортирует значения в векторе, сохраняя индекс столбца.Когда у вас есть индекс столбца, очень легко найти соответствующее значение слова, как вы могли бы видеть в extract_topn_from_vector (...)
, где мы делаем feature_vals.append (feature_names [idx])
.
Некоторые результаты!
В этом разделе вы увидите вопрос о переполнении стека, за которым следуют соответствующие извлеченные ключевые слова.
Вопрос об интеграции подключаемого модуля Eclipse
Фактические извлеченные ключевые слова. Из приведенных выше ключевых слов главные ключевые слова действительно имеют смысл, они говорят о eclipse
, maven
, интегрировать
, war
и tomcat
, которые все уникальны для этого конкретного вопроса.
Есть пара ключевых слов, которые можно было бы исключить, например, , вероятность
и, возможно, даже , проект
. Вы можете сделать это, добавив больше общих слов в свой стоп-лист. Вы даже можете создать свой собственный стоп-лист, очень специфичный для вашего домена.
А теперь давайте посмотрим на другой пример.
Вопрос об импорте SQL
Фактически извлеченные ключевые слова Даже со всеми тегами html, благодаря предварительной обработке, мы можем извлечь здесь несколько довольно хороших ключевых слов.Последнее слово , соответственно,
можно квалифицировать как стоп-слово. Вы можете продолжать запускать разные примеры, чтобы получить представление о том, как улучшить результаты.
Вуаля! Теперь вы можете извлекать важные ключевые слова из любого текста!
Ресурсы
Следите за моим блогом, чтобы узнать больше об интеллектуальном анализе текста, НЛП и машинном обучении с прикладной точки зрения.
Эта статья изначально была опубликована на сайте kavita-ganesan.com.
SEO-ключевых слов: как найти ключевые слова для вашего веб-сайта
Что такое ключевые слова SEO?
Ваши ключевых слов для SEO - это ключевые слова и фразы в вашем веб-контенте, которые позволяют людям находить ваш сайт через поисковые системы.Веб-сайт, который хорошо оптимизирован для поисковых систем, «говорит на том же языке», что и его потенциальная база посетителей, с ключевыми словами для SEO, которые помогают подключать пользователей к вашему сайту. Ключевые слова - один из основных элементов SEO.
Другими словами, вам нужно знать, как люди ищут продукты, услуги или информацию, которые вы предлагаете, чтобы им было проще найти вас - в противном случае они попадут на одну из многих других страниц в результаты Google. Внедрение SEO по ключевым словам поможет вашему сайту занять позицию выше ваших конкурентов.
Вот почему составление списка ключевых слов является одним из первых и наиболее важных шагов в любой инициативе поисковой оптимизации. Ключевые слова и SEO напрямую связаны, когда дело доходит до проведения успешной кампании поискового маркетинга. Поскольку ключевые слова являются основополагающими для всех ваших других усилий по поисковой оптимизации, стоит потратить время и вложить средства, чтобы убедиться, что ваши ключевые слова для поисковой оптимизации актуальны для вашей аудитории и эффективно организованы для действий.
Выбор правильных ключевых слов для SEO - деликатный процесс, требующий как проб, так и ошибок, но основы легко понять.Здесь мы проведем вас через исследование того, что ищут ваши клиенты, обнаружение тех ключевых слов, которые помогут вам занять место на странице результатов поисковой системы (SERP), и их использование в вашем онлайн-контенте.
Поиск лучших ключевых слов для SEO
Большинство начинающих маркетологов в поисковой сети совершают одни и те же ошибки, когда дело доходит до исследования ключевых слов в SEO:
- Провести SEO-исследование ключевых слов только один раз,
- Не беспокоясь об обновлении и расширении своего списка ключевых слов SEO, или
- Таргетинг на слишком популярные ключевые слова, что означает, что они слишком конкурентоспособны.
По сути, SEO-исследование ключевых слов должно быть постоянной и постоянно развивающейся частью вашей работы как маркетолога. Старые ключевые слова необходимо периодически переоценивать, а высокопроизводительные, конкурентоспособные ключевые слова (или «головные» ключевые слова, в отличие от ключевых слов с длинным хвостом) часто могут быть с пользой заменены или дополнены более длинными, более конкретными фразами, разработанными так, чтобы не вводить какие-либо посетитель но ровно правых посетителей. (Кто посещает ваш сайт - особенно если это люди, которые активно ищут ваши услуги, - не менее важно, чем количество посетителей.)
И вам нужно диверсифицировать. Вот скороговорка, которая абсолютно верна: разнообразие - ключевое слово в мире ключевых слов. Вы не будете выделяться, если обнаружите, что используете все те же ключевые слова, что и ваши конкуренты. Вам следует не только пробовать новые инструменты поиска по ключевым словам и отслеживать результаты, но и экспериментировать на основе собственных исследований - кто еще использует ваши ключевые слова? И как ты выделишься? Предоставляя отличный контент, который действительно отвечает на вопросы, которые ваши потенциальные клиенты задают при поиске по ключевым словам.
Использование нашего бесплатного инструмента подсказки ключевых слов
Бесплатные инструменты поиска ключевых слов для SEOWordStream, которые помогут вам найти самые релевантные ключевые слова - ключевые слова, которые будут стимулировать постоянный веб-трафик и конверсии на вашем сайте.
Преимущества использования инструментов подсказки ключевых слов WordStream, включая бесплатный инструмент подсказки ключевых слов, для улучшения SEO:
- Дополнительные ключевые слова для SEO - Получите БЕСПЛАТНЫЙ доступ к тысячам ключевых слов и данным об объеме поиска по ключевым словам, отправленным прямо на ваш почтовый ящик.
- Целевые ключевые слова для SEO - Отфильтруйте результаты ключевых слов по отрасли или стране, чтобы вы могли сосредоточиться на ключевых словах, которые действительно будут работать для вашей учетной записи.
- Группирование ключевых слов для SEO - Узнайте, как организовать новые ключевые слова для SEO в сегменты, требующие действия, с помощью эффективной группировки ключевых слов.
Набор инструментов для работы с ключевыми словами WordStream также очень ценен для PPC-маркетинга - используйте средство поиска ниши по ключевым словам, чтобы определить новые группы объявлений для своих кампаний Google Рекламы (ранее называвшиеся AdWords), а также бесплатный инструмент "Минус-слова", чтобы найти минус-слова, которые уменьшат расточительство. клики и сэкономьте деньги.
Заставьте ваши ключевые слова SEO работать на вас
Теперь, когда вы нашли лучшие ключевые слова, вам нужно заставить их работать, чтобы получить результаты SEO (поисковый трафик, конверсии и все такое хорошее).
Итак: как действовать? С одной стороны, лучшие практики SEO рекомендуют вам включать релевантные ключевые слова в ряд областей вашего сайта, которым уделяется повышенное внимание, везде, от заголовков и основного текста ваших страниц до ваших URL-адресов, метатегов и имен файлов изображений.С другой стороны, успешно оптимизированные веб-сайты, как правило, содержат тысячи или даже миллионы ключевых слов. Вы не можете создать единую уникальную страницу для каждого из ваших ключевых слов; в то же время вы не можете пытаться втиснуть все в несколько страниц с наполнением ключевыми словами и ожидать ранжирования по каждому отдельному ключевому слову. Это просто так не работает.
Так как это работает? Ответ - группировка ключевых слов и организация. Разделив ключевые слова на небольшие управляемые группы связанных ключевых слов, вы значительно (значительно) сократите свою рабочую нагрузку, но при этом по-прежнему будете создавать целевые, конкретные страницы.
Например, предположим, что вы открыли веб-сайт интернет-зоомагазина. Возможно, вам будет разумно создать одну группу ключевых слов для всех ваших продуктов, связанных с собаками, затем одну для всех ваших проектов, связанных с попугаями и т. Д. Следующим шагом будет сегментирование каждой отдельной группы на более мелкие подгруппы (клетки для попугаев, игрушки для попугаев, закуски для попугаев), а затем еще более мелкие группы для каждого типа продуктов (обезжиренные закуски для попугаев, роскошные закуски для попугаев… вы поняли). Теперь ваш зоомагазин может создавать отдельные страницы, оптимизированные для каждой небольшой группы ключевых слов.
Маркетологу, пытающемуся оптимизировать веб-страницу для группы ключевых слов "закуски для гурманов для попугаев", следует подумать о том, чтобы сделать большую часть, если не все из следующих действий:
- Использование ключевого слова в заголовке страницы
- Использование ключевого слова в URL-адресе (например, online-petstore.com/parakeets/snacks/gourmet)
- Использование ключевого слова и его вариантов (например, "изысканные закуски для попугаев") на всем тексте страницы
- Использование ключевого слова в мета-тегах , особенно в мета-описании
- Использование ключевого слова в любых путях к файлам изображений и в альтернативном тексте изображений
- Использование ключевого слова в качестве якорного текста в ссылках на страницу из других мест на сайте
При оптимизации веб-страниц имейте в виду, что релевантность ключевых слов более важна, чем плотность ключевых слов в SEO.
Нужна помощь в поиске ключевых слов для SEO?
Попробуйте наш бесплатный инструмент подсказки ключевых слов сегодня. И, чтобы получить максимальную отдачу от исследования ключевых слов, обязательно ознакомьтесь с нашими ресурсами по группировке ключевых слов и нишам ключевых слов.
предложений по поиску ключевых слов автора с помощью MeSH Tools
Ниже приведены общие предложения для авторов журнальных статей, которые заинтересованы в выборе дескрипторов (терминов) MeSH в качестве ключевых слов для своих статей. Инструкции для авторов различаются для разных журналов; перед выбором ключевых слов следует проконсультироваться с конкретным журналом.NLM не может предоставить индивидуальную помощь в выборе ключевых слов для журнальных статей; За индивидуальной, индивидуальной помощью следует обращаться в вашу местную медицинскую библиотеку.
MeSH Инструменты для поиска ключевых слов
MeSH предоставляет два инструмента, которые помогают авторам выбирать дескрипторы MeSH в качестве ключевых слов для статей.
MeSH по запросу
MeSH on Demand - это инструмент, который может автоматически определять соответствующие термины MeSH из текста, такого как реферат или краткое изложение гранта.Он использует обработку естественного языка (NLP) и индексатор медицинских текстов NLM (MTI) для поиска терминов MeSH. Хотя результаты будут отличаться от индексации, созданной человеком, MeSH on Demand действительно находит соответствующие термины MeSH, которые могут помочь быстро найти термины MeSH в вашей области поиска. Обратите внимание, что эти термины MeSH созданы MTI на компьютере и не отражают никакой оценки со стороны человека. Этот инструмент был разработан в тесном сотрудничестве между MeSH Unit, NLM Index Section и Национальным центром биомедицинских коммуникаций Листера Хилла.
Браузер MeSH
Этот инструмент позволяет пользователям искать непосредственно термины MeSH и выполнять поиск по текстовым словам в полях записей «Аннотация» и «Примечания к области действия». По номеру реестра (RN) и соответствующему номеру реестра (RR) также можно выполнить поиск, чтобы найти химические заголовки. Для поиска в браузере MeSH найдите словарный термин, используя любое слово в выражении или используя полное выражение. Выберите наиболее конкретный заголовок. Например, «обратная связь» может использоваться для поиска «обратная связь, биохимическая» или «обратная связь (психология)», а также других выражений, содержащих слово «обратная связь»."Начните с конкретных слов или коротких выражений. Попробуйте использовать два или три термина, чтобы лучше всего описать основной предмет (ы) вашей статьи. Лучше не вводить предложение или заголовок статьи, поскольку результаты могут быть бесполезными.
Прямой просмотр иерархии MeSH (деревьев) Заголовки также можно найти, просматривая деревья MeSH. Для этого нажмите кнопку «Перейти от вершины дерева» вверху страницы браузера MeSH. «Деревья» или иерархическая структура MeSH, предоставляемая MeSH Tree Numbers, позволяет рассматривать термины в контексте более широких и узких концепций.Чтобы увидеть расположение термина в иерархии, щелкните запись заголовка «Номер дерева» в отображении записи. Символ плюса («+») в иерархическом отображении указывает на то, что при нажатии на ссылку доступны более узкие концепции. Обратите внимание, что предпочтительное выражение обозначается меткой «MeSH Heading», а не «Entry Term». Затем желаемые термины можно скопировать из браузера MeSH.
Для получения дополнительной информации о текущем браузере MeSH и о том, как его использовать, см.