Как работает Преобразование текста—ArcGIS Pro
Преобразование текста — это процесс перевода или преобразования последовательности текста в другую последовательность той же или другой длины. Это достигается с помощью моделей последовательность в последовательность (или Seq2seq) в домене обработки естественного языка (NLP). Группа инструментов Анализ текста в наборе инструментов GeoAI содержит инструменты для обучения моделей преобразования текста, а также для использования моделей для преобразования текста из одной формы в другую.
Инструмент Обучение модели преобразования текста обучает модели NLP задачам преобразования последовательность в последовательность; обученные модели можно использовать с инструментом Преобразовать текст при помощи глубокого обучения для аналогичного преобразования, перевода или суммирования текста.
Возможное применение
Ниже приведены потенциальные варианты применения этого инструмента:
- Неверные адреса с орфографическими ошибками и нестандартным форматированием можно исправить и стандартизировать. Это может повысить точность геокодирования этих адресов.
- Для лучшего понимания и дальнейшей обработки текста на иностранном языке, его можно перевести (в рамках ограничений машинного перевода).
- Допустимые описания границ участков (например, пограничные столбы и знаки) могут быть преобразованы в файлы теодолитного хода и автоматически обработаны для получения геометрии участков.
Модели преобразования текста в ArcGIS основаны на архитектуре Transformer, предложенной Васвани и соавторами в основополагающей статье “Внимание — это все, что вам нужно“. Это позволяет моделям быть более точными и распараллеливаемыми, при этом требуя меньше размеченных данных для обучения.
По сути, модели преобразования текста в ArcGIS являются моделями кодировщик-декодер. Слои рассмотрения кодировщика получают все слова входного текста, но слои рассмотрения декодера могут получить доступ только к словам до того, как они будут обработаны. Затем декодер переводит закодированные представления объектов для создания выходной последовательности токенов. Некоторые известные модели кодировщик-декодер — это BART и T5.
Кодировщик и декодер описываются следующим образом:
- Кодировщик — кодировщик преобразует входной текст в числовое представление в виде признакового описания объекта фиксированной длины. Это числовое представление сохраняет смысловое значение входного текста.
- Декодер — декодер берет закодированные признаковые описания объекта из кодировщика и объединяет их с входной последовательностью для создания выходной последовательности токенов.
Модели NLP могут эффективно использоваться при автоматизации анализа больших объемов неструктурированного текста. Как и в случае с моделями другого типа, убедитесь, что они применяются к соответствующим задачам с надлежащим уровнем человеческого контроля и прозрачности в отношении типа модели и обучающих наборов данных, используемых для обучения модели.
Используйте модели преобразования текста
Инструмент Преобразовать текст при помощи глубокого обучения можно использовать для применения обученной модели преобразования текста к неструктурированному тексту и преобразования его в другой язык или формат. Вы можете использовать предварительно обученные модели преобразования текста из ArcGIS Living Atlas of the World или обучать пользовательские модели с помощью инструмента Обучение модели преобразования текста.
Входными данными для инструмента Преобразовать текст при помощи глубокого обучения является класс пространственных объектов или таблица, содержащая текст, подлежащий преобразованию. Входной моделью может быть файл определения модели Esri JSON (.emd) или пакет модели глубокого обучения (.dlpk). Модель содержит путь к файлу модели глубокого обучения (содержащему веса модели) и другие параметры модели. Некоторые модели могут иметь дополнительные аргументы модели. Инструмент создает во входной таблице поле, содержащее преобразованный текст.
Хотя инструмент может запускаться на центральном процессоре, для обработки рекомендуется использовать графический процессор, поскольку глубокое обучение требует больших вычислительных ресурсов. Чтобы запустить этот инструмент с помощью графического процессора, установите для параметра среды Тип процессора значение GPU. Если у вас более одного графического процессора, вместо этого задайте параметр среды GPU ID.
Обучить модели преобразования текста
Инструмент Обучение модели преобразования текста можно использовать, чтобы обучить модели NLP преобразовывать текст. Этот инструмент использует подход машинного обучения и обучает модель, предоставляя ей обучающие выборки, состоящие из пар входного текста и целевого преобразованного выходного текста. Обучение моделей NLP требует больших вычислительных ресурсов, рекомендуется использовать графический процессор.
Обучающие данные предоставляются в виде входной таблицы, которая содержит текстовое поле, действующее как предикторная переменная, и поле метки, содержащее целевую метку для каждого входного текста в таблице.
При обучении модели преобразования текста вы можете либо обучить модель с нуля, либо настроить обученную модель. В целом, языковые модели, использующие архитектуру преобразования, считаются малопривлекательными для изучения.
Однако если у вас есть доступ к предварительно обученной модели преобразования текста, которая выполняет аналогичную задачу, вы можете точно настроить ее на новых обучающих данных. Точная настройка существующей модели часто выполняется быстрее, чем обучение новой модели, также этот процесс требует меньшего количества обучающих выборок. При точной настройке предварительно обученной модели убедитесь, что вы используете ту же опорную модель, которая использовалась в предварительно обученной модели.
Предварительно обученная модель может быть файлом определения модели Esri или файлом пакета глубокого обучения. Выходная модель также сохраняется в этих форматах в указанной папке Выходная модель.
Обучение моделей глубокого обучения представляет собой итеративный процесс, в котором входные обучающие данные несколько раз пропускаются через нейронную сеть. Каждый обучающий проход по всем обучающим данным известен как эпоха. Параметр Максимальное число эпох указывает максимальное количество раз, когда обучающие данные просматриваются моделью во время ее обучения. Это зависит от обучаемой модели, сложности задачи и количества обучающих выборок. Если у вас много обучающих выборок, вы можете использовать небольшое значение. В общем, это хорошая идея — продолжать обучение в течение нескольких эпох снова и снова, пока потери при проверке продолжают снижаться.
Параметр Опорная модель указывает предварительно сконфигурированную нейронную сеть, которая служит кодировщиком для модели и извлекает представления объектов входного текста. Эта модель поддерживает кодировщики на основе T5, которые основаны на архитектуре преобразования и предварительно обучены для больших объемов текста полуконтролируемым образом и хорошо понимают язык.
Обучение модели происходит пакетами, а параметр Размер пакета указывает количество обучающих выборок, которые обрабатываются для обучения одновременно. Увеличение размера пакета может повысить производительность инструмента. Однако при увеличении размера пакета используется больше памяти. Если во время обучения модели возникает ошибка нехватки памяти, используйте меньший размер пакета.
Параметр Скорость обучения — один из самых важных гиперпараметров. Это скорость, с которой вес модели корректируется во время обучения. Если вы укажете низкую скорость обучения, модель будет улучшаться медленно, и обучение может занять много времени, что приведет к излишней трате времени и ресурсов. Высокая скорость обучения может быть контрпродуктивной, и модель может плохо обучаться. При высоких скоростях обучения веса модели могут резко измениться, что приведет к ошибочным результатам. Часто лучше не указывать значение параметра Скорость обучения, так как инструмент использует автоматический определитель скорости обучения, основанный на статье Лесли Н. Смит «Циклические скорости обучения для обучения нейронных сетей».
Инструмент использует часть обучающих данных (по умолчанию 10 процентов) в качестве проверочного набора. Параметр Процент для проверки позволяет настроить количество обучающих данных, которые будут использоваться для проверки.
По умолчанию инструмент использует метод ранней остановки, который приводит к остановке обучения модели, когда в последующие эпохи обучения модель больше не улучшается. Вы можете отключить это поведение, сняв отметку с параметра Завершить, когда модель перестанет улучшаться.
Вы также можете указать, будут ли закреплены опорные слои в предварительно обученной модели, чтобы веса и смещения оставались такими, как они были изначально разработаны. По умолчанию слои опорной модели не закрепляются, а веса и смещения значения Опорная модель могут изменяться, чтобы соответствовать обучающим выборкам. Это требует больше времени для обработки, но обычно дает лучшие результаты.
Текстовые данные часто содержат шум в виде тегов HTML и URL-адресов. Вы можете использовать параметры Удалить HTML-теги и Удалить URL-адреса для предварительной обработки текста и удаления тегов перед обработкой.
Справочная информация
Васвани, Ашиш, Ноам Шазир, Ники Пармар, Якоб Ушкорейт, Ллион Джонс, Айдан Н. Гомес, Лукаш Кайзер, Илья Полосухин. «Attention Is All You Need.» 6 декабря, 2017. https://arxiv.org/abs/1706.03762.
Раффель, Колин и другие. «Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer.» 20 июля, 2020. https://doi.org/10.48550/arxiv.1910.10683.
«Модели кодировщика.» https://huggingface.co/course/chapter1/5?fw=pt.
Браун, Том Б. и др. «Language Models are Few-Shot Learners». 22 июля, 2020. https://doi.org/10.48550/arxiv.2005.14165.
Смит, Лесли Н. «Cyclical Learning Rates for Training Neural Networks.» 4 апреля, 2017. https://doi.org/10.48550/arxiv.1506.01186.
Отзыв по этому разделу?
Конвертер кодирования и декодирования строк онлайн
Декодировано
Двоичная строка | |
---|---|
Строка Hex | |
HTML Escape | |
Кодирование URL | |
Punycode IDN | |
Base32 | |
Base45 | |
Base45/Zlib/COSE/CBOR | |
Base64 | |
Ascii85 | |
QP-кодировка | |
Unicode Escape | |
Программная строка | |
Азбука Морзе | Вариант Международный (латиница)ЯпонскийРусский |
Unicode NFD | |
Unicode NFKD |
Закодировано
Двоичная строка | Разделитель нетКаждые 4 битаКаждые 8 бит (1 байт)Каждые 16 бит (2 байта)Каждые 24 бит (3 байта)Каждые 32 бит (4 байта)Каждые 64 бит (8 байта)Каждые 128 бит (16 байта) |
---|---|
Строка Hex | Разделитель нетКаждый 1 байтКаждые 2 байтаКаждые 3 байтаКаждые 4 байтаКаждые 8 байтаКаждые 16 байта A-F Строчные (a-f)Заглавные (A-F) |
HTML Escape (Basic) | |
HTML Escape (Fully) | |
Кодирование URL | Пустой %20 (Процентное кодирование)+ (application/x-www-form-urlencoded) |
Punycode IDN | |
Base32 | |
Base45 | |
Base64 | Разрыв строки нетКаждые 64 символа (PEM — RFC 1421)Каждые 76 символов (MIME — RFC 2045) |
Ascii85 | Вариант Z85 (ZeroMQ)Adobebtoa |
QP-кодировка | |
Unicode Escape | Формат \uXXXX\uXXXX или \u{X}\uXXXX или \U00XXXXXX\u{X}\x{X}\X&#xX;%uXXXXU+XXXX0xX\N{name} A-F Заглавные (A-F)Строчные (a-f) |
Программная строка | Кавычки Двойные («)Одиночные (‘)Никто |
Азбука Морзе | Вариант Международный (латиница)ЯпонскийРусский |
UpperCamelCase | |
lowerCamelCase | |
UPPER_SNAKE_CASE | |
lower_snake_case | |
UPPER-KEBAB-CASE | |
lower-kebab-case | |
Половина ширины | |
Полная ширина | |
Прописные | |
Строчные | |
Замена | |
Заглавные | |
Инициалы | |
Обратный | |
Unicode NFC | |
Unicode NFKC | |
Сортировка строк | Приказ По ВозрастаниюПо убываниюОбратный порядок |
Удалятор строк |
Другие конвертеры здесь
Анализ доступа
Этот сайт использует службу анализа доступа (Google Analytics).
Эти службы анализа доступа используют файлы cookie для сбора данных о трафике.
Для получения дополнительной информации, пожалуйста, нажмите ЗДЕСЬ.
Реклама
Этот сайт использует рекламную службу (Google AdSense) для размещения на сайте рекламы, распространяемой третьими сторонами.
Эти рекламные службы используют файлы cookie для показа рекламы продуктов и услуг, которые вас интересуют.
Для получения дополнительной информации, пожалуйста, нажмите ЗДЕСЬ.
Простая архитектура декодера текста с визуальным кодировщиком для мультимодальных задач — Блог Google AI
Авторы: А. Дж. Пьерджованни и Анелия Ангелова, ученые-исследователи, Google ResearchОсновополагающие модели языка видения строятся на предпосылке одного предварительного обучения с последующей адаптацией к нескольким последующим задачам. Популярны два основных и непересекающихся сценария обучения: контрастное обучение в стиле CLIP и предсказание следующего токена. Контрастное обучение обучает модель предсказывать, правильно ли совпадают пары изображение-текст, эффективно создавая визуальные и текстовые представления для соответствующих входных изображений и текста, тогда как прогнозирование следующего токена предсказывает наиболее вероятный следующий текстовый токен в последовательности, таким образом обучаясь генерировать текст. , согласно требуемой задаче. Контрастное обучение позволяет выполнять задачи поиска изображения и текста и текста и изображения, такие как поиск изображения, которое лучше всего соответствует определенному описанию, а обучение с использованием следующего маркера позволяет выполнять задачи по генерации текста, такие как добавление подписей к изображениям и визуальные ответы на вопросы (VQA). Хотя оба подхода продемонстрировали хорошие результаты, когда модель предварительно обучается контрастно, она обычно плохо справляется с задачами генерации текста и наоборот. Кроме того, адаптация к другим задачам часто осуществляется сложными или неэффективными методами. Например, чтобы распространить модель языка видения на видео, некоторые модели должны делать логические выводы для каждого видеокадра отдельно. Это ограничивает размер видео, которые могут быть обработаны, всего несколькими кадрами и не позволяет в полной мере использовать информацию о движении, доступную между кадрами.
Руководствуясь этим, мы представляем «Простую архитектуру для совместного обучения многомодальным задачам», называемую MaMMUT, которая способна совместно обучаться для этих конкурирующих целей и которая обеспечивает основу для многих задач языка видения либо напрямую, либо посредством простой адаптации.
Модель MaMMUT позволяет выполнять широкий спектр задач, таких как поиск изображения-текста/текста-изображения ( вверху слева и вверху справа ), VQA ( в середине слева ), обнаружение открытого словаря ( в середине справа ) и VideoQA ( внизу ). |
Архитектура модели только для декодера
Один удивительный вывод состоит в том, что для всех этих задач достаточно одного языкового декодера, что устраняет необходимость как в сложных конструкциях, так и в обучающих процедурах, представленных ранее. Например, наша модель (представленная слева на рисунке ниже) состоит из одного визуального кодировщика и одного текстового декодера, связанных перекрестным вниманием, и обучается одновременно как на контрастных, так и на текстогенерирующих типах потерь. Для сравнения, предыдущая работа либо не может справиться с задачами поиска изображения-текста, либо применяет только некоторые потери только к некоторым частям модели. Чтобы включить мультимодальные задачи и в полной мере воспользоваться преимуществами модели, состоящей только из декодера, нам необходимо совместно обучать как контрастные потери, так и потери, подобные текстовым субтитрам.
Архитектура MaMMUT ( слева ) представляет собой простую конструкцию, состоящую из одного видеокодера и одного текстового декодера. По сравнению с другими популярными моделями языка зрения — например, PaLI ( middle ) и ALBEF, CoCa ( right ) — он тренируется совместно и эффективно для выполнения нескольких задач языка зрения, как с контрастными, так и с текстогенерирующими потерями, полностью разделяя веса между заданиями. |
Двухпроходное обучение декодера
Модели только для декодера для изучения языка демонстрируют явные преимущества в производительности при меньшем размере модели (почти половина параметров). Основная проблема их применения к мультимодальным настройкам состоит в том, чтобы объединить контрастивное обучение (которое использует безусловное представление на уровне последовательности) с субтитрами (которые оптимизируют вероятность того, что токен будет обусловлен предыдущими токенами). Мы предлагаем двухпроходный подход для совместного изучения этих двух конфликтующих типов представления текста в декодере. Во время первого прохода мы используем перекрестное внимание и причинно-следственную маскировку, чтобы изучить задачу создания подписи — текстовые функции могут учитывать функции изображения и последовательно предсказывать токены. На втором проходе мы отключаем перекрестное внимание и каузальную маскировку, чтобы изучить контрастную задачу. Текстовые функции не будут видеть функции изображения, но могут одновременно обращаться ко всем текстовым токенам в двух направлениях, чтобы создать окончательное текстовое представление. Выполнение этого двухпроходного подхода в одном и том же декодере позволяет приспособить оба типа задач, которые ранее было трудно согласовать. Несмотря на простоту, мы показываем, что эта архитектура модели способна обеспечить основу для нескольких мультимодальных задач.
Двухпроходное обучение только с помощью декодера MaMMUT позволяет использовать как контрастные, так и генеративные пути обучения по одной и той же модели. |
Еще одним преимуществом нашей архитектуры является то, что, поскольку она обучена для этих непересекающихся задач, ее можно беспрепятственно применять к нескольким приложениям, таким как поиск изображения-текста и текста-изображения, VQA и субтитры.
Более того, MaMMUT легко адаптируется к видеоязыковым задачам. Предыдущие подходы использовали видеокодер для обработки каждого кадра по отдельности, что требовало многократного применения. Это медленно и ограничивает количество кадров, которые может обрабатывать модель, обычно до 6–8. С MaMMUT мы используем разреженные видеотрубки для облегченной адаптации непосредственно с помощью пространственно-временной информации из видео. Кроме того, адаптация модели к обнаружению открытого словаря осуществляется путем простого обучения обнаружению ограничивающих рамок с помощью головки обнаружения объектов.
Адаптация архитектуры MaMMUT к видеозадачам ( оставил ) проста и полностью повторно использует модель. Это делается путем создания представления функций видео «труб», аналогично патчам изображения, которые проецируются на токены более низкого измерения и проходят через видеокодер. В отличие от предыдущих подходов ( справа ), которые требовали прогона нескольких отдельных изображений через видеокодер, мы используем его только один раз. |
Результаты
Наша модель достигает отличных нулевых результатов при извлечении изображения-текста и текста-изображения без какой-либо адаптации, превосходя все предыдущие современные модели. Результаты VQA конкурентоспособны с современными результатами, которые достигаются с помощью гораздо более крупных моделей. Модель PaLI (параметры 17B) и модель Flamingo (80B) имеют наилучшую производительность на наборе данных VQA2.0, но MaMMUT (2B) имеет ту же точность, что и PaLI 15B.
MaMMUT превосходит современные (SOTA) технологии Zero-Shot Image-Text (I2T) и Text-Image (T2I) поиск на обоих MS-COCO ( top ) и Flickr ( внизу ). |
Производительность набора данных VQA2.0 конкурентоспособна, но не превосходит большие модели, такие как Flamingo-80B и PalI-17B. Производительность оценивается в более сложных условиях генерации открытого текста. |
MaMMUT также превосходит современные технологии VideoQA, как показано ниже в наборах данных MSRVTT-QA и MSVD-QA. Обратите внимание, что мы превосходим гораздо более крупные модели, такие как Flamingo, которые специально разработаны для предварительного обучения изображения и видео и предварительно обучены как тексту изображения, так и данным видеотекста.
MaMMUT превосходит модели SOTA в задачах VideoQA (MSRVTT -Набор данных QA, сверху , набор данных MSVD-QA, снизу ), превосходя гораздо более крупные модели, например, 5B GIT2 или Flamingo, которые используют параметры 80B и предварительно обучены как для языка изображений, так и для задач языка видения. |
Наши результаты превосходят самые современные результаты тонкой настройки обнаружения открытого словаря, как также показано ниже.
Результаты обнаружения открытого словаря MAMMUT в наборе данных LVIS по сравнению с современными методами. Мы сообщаем среднюю точность для редких классов (APr), как ранее принято в литературе. |
Основные ингредиенты
Мы показываем, что совместное обучение как контрастным, так и текстогенеративным задачам — непростая задача, и в наших абляциях мы обнаруживаем, что эти задачи лучше решаются с помощью различных вариантов дизайна. Мы видим, что меньшее количество перекрестных связей лучше подходит для задач поиска, но большее их количество предпочтительно для задач VQA. Тем не менее, хотя это показывает, что выбор дизайна нашей модели может быть неоптимальным для отдельных задач, наша модель более эффективна, чем более сложные или более крупные модели.
Исследования абляции показывают, что чем меньше перекрестных связей (1-2) лучше для поисковые задачи ( top ), в то время как больше связей отдают предпочтение задачам генерации текста например, VQA ( внизу ). |
Заключение
Мы представили MaMMUT, простую и компактную модель языка-декодера кодировщика зрения, которая совместно обучает ряд противоречивых целей для согласования задач, подобных контрасту, и задач, генерирующих текст. Наша модель также служит основой для многих других задач, связанных с визуальным языком, для достижения самых современных или конкурентоспособных результатов в поиске изображения-текста и текста-изображения, видеоКК, субтитров к видео, обнаружению открытого словаря и ВКК. Мы надеемся, что его можно будет в дальнейшем использовать для более мультимодальных приложений.
Благодарности
Описываемая работа написана в соавторстве с: Weicheng Kuo, AJ Piergiovanni, Dahun Kim, Xiyang Luo, Ben Caine, Wei Li, Abhijit Ogale, Luowei Zhou, Andrew Dai, Zhifeng Chen, Claire Cui и Anelia Angelova. Мы хотели бы поблагодарить Моджтабу Сейедхоссейни, Виджая Васудевана, Прию Гоял, Цзяхуи Ю, Зируи Ванга, Юнхуи Ву, Рунзе Ли, Джи Мэй, Раду Сорикута, Цинцин Хуан, Энди Ли, Нан Ду, Юсинь Ву, Тома Дурига, Пола Нацева, Зубину Гахрамани за помощь и поддержку.
Меньше значит больше: предварительная подготовка сильного сиамского кодировщика для поиска плотного текста с использованием слабого декодера
Шуци Лу, Ди Хе, Ченянь Сюн, Гуолинь Ке, Валид Малик, Чжичэн Доу, Пол Беннет, Те-Ян Лю, Arnold Overwijk
Abstract
Плотный поиск требует высококачественных вложений текстовых последовательностей для поддержки эффективного поиска в пространстве представления. Языковые модели на основе автокодировщика привлекательны для плотного поиска, поскольку они обучают кодировщик выводить высококачественное встраивание, которое может реконструировать входные тексты. Однако в этой статье мы проводим теоретический анализ и эмпирически показываем, что модель языка автокодировщика с низкими потерями при реконструкции может не обеспечивать хороших представлений последовательности, поскольку декодер может использовать ярлыки, используя языковые шаблоны. Чтобы решить эту проблему, мы предлагаем новый метод самообучения, который предварительно обучает автоэнкодер с помощью слабый декодер с ограниченной емкостью и гибкостью внимания, чтобы подтолкнуть кодировщик к лучшему представлению текста. Наши эксперименты с веб-поиском, рекомендацией новостей и ответами на открытые вопросы показывают, что наша предварительно обученная модель значительно повышает эффективность и малочисленность моделей плотного поиска. Наш код доступен по адресу https://github.com/microsoft/SEED-Encoder/.- Антология ID:
- 2021.emnlp-main.220
- Том:
- Материалы конференции 2021 года по эмпирическим методам обработки естественного языка
- Месяц:
- Ноябрь
- Год:
- 2021
- Адрес:
- Онлайн и Пунта-Кана, Доминиканская Республика
- Место проведения:
- EMNLP
- SIG:
- Издатель:
- Ассоциация компьютерной лингвистики
- Примечание:
- Страницы:
- 2780–2791
- Язык: 9023 5
- URL:
- https://aclanthology. org/2021.emnlp-main.220
- DOI:
- 10.18653/v1/2021.emnlp-main.220
- Bibkey:
- Процитируйте (ACL):
- Шуци Лу, Ди Хэ, Ченянь Сюн, Гуолинь Кэ, Валид Малик, Чжичэн Доу, Пол Беннетт, Те-Ян Лю и Арнольд Овервейк. 2021. Чем меньше, тем лучше: предварительная подготовка сильного сиамского кодировщика для поиска плотного текста с использованием слабого декодера. В Материалах конференции 2021 года по эмпирическим методам обработки естественного языка , страницы 2780–2791, Интернет и Пунта-Кана, Доминиканская Республика. Ассоциация компьютерной лингвистики.
- Процитируйте (неофициально):
- Меньше значит больше: предварительная подготовка сильного сиамского кодировщика для поиска плотного текста с использованием слабого декодера (Lu et al., EMNLP 2021)
- Копия цитирования:
- PDF:
- https://aclanthology.org/2021.emnlp-main.220.pdf
- Видео:
- https://aclanthology.org/2021. emnlp-main.220.mp4 9 0234 Код
- microsoft/seed-encoder
- Данные
- КЛЕЙ, УМ, MS MARCO, Естественные вопросы
- BibTeX
- МОДЫ XML
- Конечная сноска
- Предварительно отформатированный
@inproceedings{lu-etal-2021- меньше, title = "Меньше значит больше: предварительная подготовка сильного {S}ямского кодировщика для поиска плотного текста с использованием слабого декодера", автор = "Лу, Шуци и Он, Ди и Сюн, Чэньян и Кэ, Гуолинь и Малик, Валид и Доу, Чжичэн и Беннетт, Пол и Лю, Те-Ян и Овервейк, Арнольд», booktitle = "Материалы конференции 2021 г. по эмпирическим методам обработки естественного языка", месяц = ноябрь, год = "2021", address = "Онлайн и Пунта-Кана, Доминиканская Республика", издатель = "Ассоциация вычислительной лингвистики", url = "https://aclanthology.org/2021.emnlp-main.220", doi = "10. 18653/v1/2021.emnlp-main.220", страницы = "2780--2791", abstract = "Плотный поиск требует высококачественных вложений текстовых последовательностей для поддержки эффективного поиска в пространстве представления. Языковые модели на основе автоэнкодера привлекательны в плотном поиске, поскольку они обучают кодер выводить высококачественные вложения, которые могут реконструировать входные тексты. Однако , в этой статье мы проводим теоретический анализ и эмпирически показываем, что модель языка автоэнкодера с низкими потерями при реконструкции может не обеспечивать хороших представлений последовательности, потому что декодер может использовать ярлыки, используя языковые шаблоны.Чтобы решить эту проблему, мы предлагаем новый самообучающийся метод, который предварительно обучает автокодировщик с помощью декодера \textit{weak} с ограниченной емкостью и гибкостью внимания, чтобы заставить кодировщик обеспечить лучшее представление текста. Наши эксперименты с веб-поиском, рекомендацией новостей и ответами на открытые вопросы показывают, что наши -обученная модель значительно повышает эффективность и малочисленность моделей плотного поиска. Наш код доступен по адресу https://github.com/microsoft/SEED-Encoder/.", }
<моды> <информация о заголовке> Меньше значит больше: предварительная подготовка сильного сиамского кодировщика для поиска плотного текста с использованием слабого декодера <название типа="личное">Шуци Лу <роль>автор роль> имя> <название типа="личное">Di Он <роль>автор роль> имя> <название типа="личное">Чэньян Сюн <роль>автор роль> имя> <название типа="личное">Гуолинь Ке <роль>автор роль> имя> <название типа="личное">Валид Малик <роль>автор роль> имя> <название типа="личное">Чжичэн Доу <роль>автор роль> имя> <название типа="личное">Пол Беннет <роль>автор роль> имя> <название типа="личное">Тие-Ян Лю <роль>автор роль> имя> <название типа="личное">Арнольд Поверх <роль>автор роль> имя> <информация о происхождении>2021-11 текст <информация о заголовке> Материалы конференции 2021 года по эмпирическим методам обработки естественного языка <информация о происхождении>Ассоциация компьютерной лингвистики <место>Онлайн и Пунта-Кана, Доминиканская Республика место>публикация конференции Для плотного поиска требуются высококачественные вложения текстовых последовательностей для поддержки эффективного поиска в пространстве представления. Языковые модели на основе автокодировщика привлекательны для плотного поиска, поскольку они обучают кодировщик выводить высококачественное встраивание, которое может реконструировать входные тексты. Однако в этой статье мы проводим теоретический анализ и эмпирически показываем, что модель языка автокодировщика с низкими потерями при реконструкции может не обеспечивать хороших представлений последовательности, поскольку декодер может использовать ярлыки, используя языковые шаблоны. Чтобы решить эту проблему, мы предлагаем новый метод самообучения, который предварительно обучает автокодировщик, используя слабый декодер с ограниченной емкостью и гибкостью внимания, чтобы подтолкнуть кодировщик к лучшему представлению текста. Наши эксперименты с веб-поиском, рекомендацией новостей и ответами на открытые вопросы показывают, что наша предварительно обученная модель значительно повышает эффективность и малочисленность моделей плотного поиска. Наш код доступен по адресу https://github.com/microsoft/SEED-Encoder/. lu-etal-2021-less 10.18653/v1/2021.emnlp-main.220идентификатор> <местоположение> https://aclanthology.org/2021.emnlp-main.220 <часть> <дата>2021-11дата> <единица экстента="страница">2780 <конец>2791конец> протяженность> часть> моды>
%0 Материалы конференции %T Чем меньше, тем лучше: предварительная подготовка сильного сиамского кодировщика для поиска плотного текста с использованием слабого декодера %А Лу, Шуци %A Он, Ди %А Сюн, Ченьян %A Кэ, Гуолинь %А Малик, Валид %А Доу, Чжичэн % Беннетт, Пол %А Лю, Ти-Ян %A Овервейк, Арнольд %S Материалы конференции 2021 года по эмпирическим методам обработки естественного языка %D 2021 %8 ноябрь %I Ассоциация компьютерной лингвистики %C Online и Пунта-Кана, Доминиканская Республика %F lu-etal-2021-менее %X Плотный поиск требует высококачественных вложений текстовых последовательностей для поддержки эффективного поиска в пространстве представления. Языковые модели на основе автокодировщика привлекательны для плотного поиска, поскольку они обучают кодировщик выводить высококачественное встраивание, которое может реконструировать входные тексты. Однако в этой статье мы проводим теоретический анализ и эмпирически показываем, что модель языка автокодировщика с низкими потерями при реконструкции может не обеспечивать хороших представлений последовательности, поскольку декодер может использовать ярлыки, используя языковые шаблоны. Чтобы решить эту проблему, мы предлагаем новый метод самообучения, который предварительно обучает автокодировщик, используя слабый декодер с ограниченной емкостью и гибкостью внимания, чтобы подтолкнуть кодировщик к лучшему представлению текста. Наши эксперименты с веб-поиском, рекомендацией новостей и ответами на открытые вопросы показывают, что наша предварительно обученная модель значительно повышает эффективность и малочисленность моделей плотного поиска. Наш код доступен по адресу https://github.com/microsoft/SEED-Encoder/.