Перефразирование (компьютерная лингвистика)
Перефраз или перефразирование в компьютерной лингвистике — это задача обработки естественного языка, заключающаяся в обнаружении и создании перефразов . Применение перефразирования разнообразно, включая поиск информации, ответы на вопросы , обобщение текста и обнаружение плагиата . [1] Перефразирование также полезно при оценке машинного перевода . [2] а также семантический анализ [3] и поколение [4] новых образцов для расширения существующих корпусов . [5]
Генерация парафраза
[ редактировать ]Множественное выравнивание последовательностей
[ редактировать ]Барзилай и Ли [5] предложил метод создания перефразирования за счет использования одноязычных параллельных корпусов , а именно новостных статей, освещающих одно и то же событие в один и тот же день. Обучение заключается в использовании многопоследовательного выравнивания для создания перефразов на уровне предложений из неаннотированного корпуса. Это делается
- поиск повторяющихся закономерностей в каждом отдельном корпусе, т.е. « X (раненые/раненые) Y человек, Z серьезно», где X, Y, Z — переменные
- нахождение пар между такими шаблонами представляет собой парафразы, то есть « X (раненые/раненые) Y людей, Z серьезно» и « Y были (ранены/ранены) X , среди них Z находились в тяжелом состоянии»
Это достигается путем группировки похожих предложений вместе с использованием перекрытия n-грамм . Повторяющиеся шаблоны обнаруживаются внутри кластеров с помощью многопоследовательного выравнивания. Затем положение слов-аргументов определяется путем поиска областей высокой вариативности внутри каждого кластера, то есть между словами, общими для более чем 50% предложений кластера. Затем пары между шаблонами находятся путем сравнения аналогичных переменных слов в разных корпусах. Наконец, новые парафразы могут быть созданы путем выбора подходящего кластера для исходного предложения, а затем подстановки аргумента исходного предложения в любое количество шаблонов в кластере.
Машинный перевод на основе фраз
[ редактировать ]Перефраз также можно создать с помощью фразового перевода, как это предложили Баннард и Каллисон-Берч. [6] Основная концепция состоит в выравнивании фраз на основном языке для создания потенциальных перефразов на языке оригинала. Например, фраза «под контролем» в английском предложении совпадает с фразой «под контролем» в немецком аналоге. Фраза «unter kontrolle» затем встречается в другом немецком предложении с соответствующей английской фразой «под контролем», что является парафразом слова «под контролем».
Распределение вероятностей можно смоделировать как , вероятностная фраза это перефраз , что эквивалентно суммировано по всем , потенциальный перевод фразы на основной язык. Кроме того, приговор добавляется перед добавлением контекста в перефраз. Таким образом, оптимальный парафраз, можно смоделировать как:
и можно аппроксимировать, просто взяв их частоты. Добавление априор моделируется путем расчета вероятности формирования когда заменяется на .
Длинная кратковременная память
[ редактировать ]Был достигнут успех в использовании моделей долговременной кратковременной памяти (LSTM) для создания парафразов. [7] Короче говоря, модель состоит из компонента кодера и декодера, оба реализованы с использованием вариантов сложенного остаточного LSTM. Во-первых, кодирование LSTM принимает в качестве входных данных горячее кодирование всех слов в предложении и создает окончательный скрытый вектор, который может представлять входное предложение. Декодирование LSTM принимает скрытый вектор в качестве входных данных и генерирует новое предложение, заканчивающееся токеном конца предложения. Кодер и декодер обучаются брать фразу и воспроизводить прямое распределение соответствующего парафраза, минимизируя недоумение с помощью простого стохастического градиентного спуска . Новые парафразы генерируются путем ввода новой фразы в кодер и передачи вывода в декодер.
Трансформеры
[ редактировать ]С появлением моделей Transformer подходы к созданию парафразов улучшили свою способность генерировать текст за счет масштабирования параметров нейронной сети и интенсивного распараллеливания обучения через слои прямой связи . [8] Эти модели настолько свободно генерируют текст, что эксперты-люди не могут определить, был ли пример написан человеком или сгенерирован машиной. [9] Генерация перефразирования на основе преобразователя основана на методах автокодирования , авторегрессии или последовательности-последовательности . Модели автоэнкодера предсказывают кандидатов на замену слов с горячим распределением по словарю, в то время как модели авторегрессии и модели seq2seq генерируют новый текст на основе источника, предсказывающего по одному слову за раз. [10] [11] Существуют также более продвинутые попытки сделать перефразирование управляемым в соответствии с заранее определенными параметрами качества, такими как сохранение семантики или лексическое разнообразие. [12] Многие методы генерации парафразов на основе Transformer полагаются на обучение без учителя, позволяющее использовать большие объемы обучающих данных и масштабировать свои методы. [13] [14]
Распознавание перефраза
[ редактировать ]Рекурсивные автоэнкодеры
[ редактировать ]Распознавание парафраза было предпринято Socher et al. [1] за счет использования рекурсивных автокодировщиков . Основная концепция заключается в создании векторного представления предложения и его компонентов путем рекурсивного использования автокодировщика. Векторные представления парафраз должны иметь схожие векторные представления; они обрабатываются, а затем подаются в качестве входных данных в нейронную сеть для классификации.
Учитывая предложение с Другими словами, автоэнкодер рассчитан на 2 -мерные вложения слов в качестве входных данных и создают -мерный вектор в качестве вывода. Один и тот же автокодировщик применяется к каждой паре слов в производить векторы. Затем автоэнкодер рекурсивно применяется с новыми векторами в качестве входных данных, пока не будет создан единственный вектор. Учитывая нечетное количество входных данных, первый вектор пересылается как есть на следующий уровень рекурсии. Автоэнкодер обучен воспроизводить каждый вектор в полном рекурсивном дереве, включая начальные вложения слов.
Учитывая два предложения и длиной 4 и 3 соответственно, автокодеры будут создавать 7 и 5 векторных представлений, включая исходные вложения слов. Затем между каждой комбинацией векторов в и создать матрицу сходства . затем подвергается динамическому слою минимального пула для получения фиксированного размера. матрица. С не являются одинаковыми по размеру среди всех потенциальных предложений, разделен на примерно ровные участки. Затем выходные данные нормализуются, чтобы иметь среднее значение 0 и стандартное отклонение 1, и подаются в полностью связный слой с выходным сигналом softmax . Динамическое объединение в модель softmax обучается с использованием пар известных парафраз.
Векторы пропуска мыслей
[ редактировать ]Векторы пропуска мысли — это попытка создать векторное представление семантического значения предложения, аналогично модели пропуска грамм . [15] Векторы пропуска мысли создаются с помощью модели пропуска мысли, которая состоит из трех ключевых компонентов: кодера и двух декодеров. Учитывая корпус документов, модель пропуска мысли обучается принимать предложение в качестве входных данных и кодировать его в вектор пропуска мысли. Вектор пропуска мысли используется в качестве входных данных для обоих декодеров; один пытается воспроизвести предыдущее предложение, а другой — следующее предложение целиком. Кодер и декодер могут быть реализованы с помощью рекурсивной нейронной сети (RNN) или LSTM .
Поскольку парафразы несут одно и то же семантическое значение между собой, они должны иметь схожие векторы пропуска мысли. Таким образом, простую логистическую регрессию можно обучить до хорошей производительности, используя в качестве входных данных абсолютную разницу и покомпонентное произведение двух векторов пропуска мысли.
Трансформеры
[ редактировать ]Подобно тому, как модели Transformer повлияли на создание парафразов, их применение для идентификации парафразов показало большой успех. Такие модели, как BERT, можно адаптировать с помощью уровня двоичной классификации и сквозного обучения задачам идентификации. [16] [17] Трансформаторы достигают хороших результатов при переходе между доменами и методах перефразирования по сравнению с более традиционными методами машинного обучения, такими как логистическая регрессия . Другие успешные методы, основанные на архитектуре Transformer, включают использование состязательного обучения и метаобучения . [18] [19]
Оценка
[ редактировать ]Для оценки перефразов можно использовать несколько методов. Поскольку распознавание перефраза можно рассматривать как проблему классификации, большинство стандартных показателей оценки, таких как точность , показатель f1 или кривая ROC , работают относительно хорошо. Однако подсчет f1-оценок затруднен из-за проблем с составлением полного списка перефразирований для данной фразы и того факта, что хорошие перефразирования зависят от контекста. Метрикой, предназначенной для решения этих проблем, является ParaMetric. [20] Целью ParaMetric является расчет точности и запоминаемости системы автоматического перефразирования путем сравнения автоматического выравнивания перефразирования с выравниванием похожих фраз вручную. Поскольку ParaMetric просто оценивает качество выравнивания фраз, его можно использовать для оценки систем генерации парафразов, при условии, что выравнивание фраз используется как часть процесса генерации. Заметным недостатком ParaMetric является большой и исчерпывающий набор ручных корректировок, которые необходимо изначально создать, прежде чем можно будет составить рейтинг.
Оценка создания перефраза имеет те же трудности, что и оценка машинного перевода . Качество пересказа зависит от его контекста, от того, используется ли он в качестве краткого изложения и от того, как оно создается, а также от других факторов. Кроме того, хороший перефраз обычно лексически отличается от исходной фразы. Самый простой метод, используемый для оценки создания парафраза, — это использование судей-людей. К сожалению, оценка, проводимая судьями-людьми, обычно занимает много времени. Автоматизированные подходы к оценке оказываются сложной задачей, поскольку по сути это такая же сложная задача, как и распознавание перефразирования. Изначально программа двуязычной оценки ( BLEU ) использовалась для оценки машинных переводов, а также успешно использовалась для оценки моделей генерации парафразов. Однако перефразы часто имеют несколько лексически разных, но одинаково допустимых решений, что вредит BLEU и другим аналогичным показателям оценки. [21]
Метрики, специально разработанные для оценки создания парафраза, включают парафраз в изменении n-граммы (PINC). [21] и метрика оценки перефразирования (PEM) [22] наряду с вышеупомянутым ParaMetric. PINC предназначен для использования с BLEU и помогает устранить его недостатки. Поскольку BLEU испытывает трудности с измерением лексического несходства, PINC является измерением отсутствия перекрытия n-грамм между исходным предложением и возможным перефразом. По сути, это расстояние Жаккара между предложениями, за исключением n-грамм, которые появляются в исходном предложении для поддержания некоторой семантической эквивалентности. PEM, с другой стороны, пытается оценить «адекватность, беглость и лексическое несходство» перефразов, возвращая эвристику одного значения, рассчитанную с использованием перекрытия N-грамм на опорном языке. Однако большим недостатком PEM является то, что его необходимо обучать с использованием больших параллельных корпусов внутри предметной области и судей-людей. [21] Это эквивалентно обучению распознавания перефраза для оценки системы генерации перефраза.
Набор данных пар вопросов Quora, содержащий сотни тысяч повторяющихся вопросов, стал общим набором данных для оценки детекторов перефразирования. [23] Для стабильно надежного обнаружения перефразирования использовалась архитектура Transformer, и все они полагались на большой объем предварительной подготовки с использованием более общих данных перед точной настройкой с помощью пар вопросов.
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Перейти обратно: а б Сошер, Ричард; Хуанг, Эрик; Пеннингтон, Джеффри; Нг, Эндрю; Мэннинг, Кристофер (2011), «Достижения в области нейронных систем обработки информации 24» , Динамическое объединение и развертывание рекурсивных автоэнкодеров для обнаружения перефразирования , заархивировано из оригинала 06 января 2018 г. , получено 29 декабря 2017 г.
- ^ Каллисон-Берч, Крис (25–27 октября 2008 г.). Синтаксические ограничения парафраз, извлеченных из Parallel Corpora . EMNLP '08 Материалы конференции по эмпирическим методам обработки естественного языка. Гонолулу, Гавайи. стр. 196–205.
- ^ Берант, Джонатан и Перси Лян. « Семантический анализ через перефразирование ». Материалы 52-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи). Том. 1. 2014.
- ^ Вале, Ян Филип; Руас, Терри; Кирштейн, Фредерик; Гипп, Бела (2022). «Как большие языковые модели преобразуют машинный плагиат». Материалы конференции 2022 года по эмпирическим методам обработки естественного языка . Онлайн и Абу-Даби, Объединенные Арабские Эмираты. стр. 952–963. arXiv : 2210.03568 . doi : 10.18653/v1/2022.emnlp-main.62 .
{{cite book}}
: CS1 maint: отсутствует местоположение издателя ( ссылка ) - ^ Перейти обратно: а б Барзилай, Регина; Ли, Лилиан (май – июнь 2003 г.). Учимся перефразировать: подход без присмотра с использованием множественного выравнивания последовательностей . Материалы HLT-NAACL 2003.
- ^ Баннард, Колин; Каллисон-Берч, Крис (2005). Перефразируя двуязычную параллельную корпорацию . Материалы 43-го ежегодного собрания ACL. Энн-Арбор, Мичиган. стр. 597–604.
- ^ Пракаш, Аадитья; Хасан, Садид А.; Ли, Кэти; Датла, Вивек; Кадир, Ашекуль; Лю, Джоуи; Фарри, Оладимеджи (2016), Генерация нейронных парафразов с помощью распределенных остаточных сетей LSTM , arXiv : 1610.03098 , Bibcode : 2016arXiv161003098P
- ^ Чжоу, Цзянин; Бхат, Сума (2021). «Поколение парафразов: обзор современного состояния» . Материалы конференции 2021 года по эмпирическим методам обработки естественного языка . Онлайн и Пунта-Кана, Доминиканская Республика: Ассоциация компьютерной лингвистики. стр. 5075–5086. doi : 10.18653/v1/2021.emnlp-main.414 . S2CID 243865349 .
- ^ Доу, Яо; Форбс, Максвелл; Кончел-Кедзиорски, Рик; Смит, Ной; Чой, Еджин (2022). «Неотличим ли текст GPT-3 от человеческого текста? Пугало: основа для тщательного изучения машинного текста» . Материалы 60-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) . Дублин, Ирландия: Ассоциация компьютерной лингвистики: 7250–7274. arXiv : 2107.01294 . doi : 10.18653/v1/2022.acl-long.501 . S2CID 247315430 .
- ^ Лю, Сянген; Моу, Лили; Мэн, Фаньдун; Чжоу, Хао; Чжоу, Цзе; Сон, Сен (2020). «Неконтролируемый перефраз с помощью имитации отжига» . Материалы 58-го ежегодного собрания Ассоциации компьютерной лингвистики . Онлайн: Ассоциация компьютерной лингвистики: 302–312. arXiv : 1909.03588 . doi : 10.18653/v1/2020.acl-main.28 . S2CID 202537332 .
- ^ Вале, Ян Филип; Руас, Терри; Меушке, Норман; Гипп, Бела (2021). «Являются ли нейронные языковые модели хорошими плагиаторами? Эталон для обнаружения нейронных парафразов» . Совместная конференция ACM/IEEE по цифровым библиотекам 2021 года (JCDL) . Шампейн, Иллинойс, США: IEEE. стр. 226–229. arXiv : 2103.12450 . дои : 10.1109/JCDL52503.2021.00065 . ISBN 978-1-6654-1770-9 . S2CID 232320374 .
- ^ Бандель, Элрон; Ааронов, Ранит; Шмуэли-Шойер, Михал; Шнайдерман Илья; Слоним, Ноам; Эйн-Дор, Лиат (2022). «Генерация парафразов с контролем качества» . Материалы 60-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) . Дублин, Ирландия: Ассоциация компьютерной лингвистики: 596–609. arXiv : 2203.10940 . doi : 10.18653/v1/2022.acl-long.45 .
- ^ Ли, Джон Си Юэнь; Лим, Хо Хунг; Кэрол Вебстер, Кэрол (2022). «Неконтролируемый прогноз перефразирования для сложных номинаций» . Материалы конференции Североамериканского отделения Ассоциации компьютерной лингвистики 2022 года: технологии человеческого языка . Сиэтл, США: Ассоциация компьютерной лингвистики. стр. 3254–3263. doi : 10.18653/v1/2022.naacl-main.237 . S2CID 250390695 .
- ^ Ню, Тонг; Явуз, Семих; Чжоу, Инбо; Кескар, Нитиш Шириш; Ван, Хуан; Сюн, Цаймин (2021). «Неконтролируемый перефраз с использованием предварительно обученных языковых моделей» . Материалы конференции 2021 года по эмпирическим методам обработки естественного языка . Онлайн и Пунта-Кана, Доминиканская Республика: Ассоциация компьютерной лингвистики. стр. 5136–5150. doi : 10.18653/v1/2021.emnlp-main.417 . S2CID 237497412 .
- ^ Кирос, Райан; Чжу, Юкунь; Салахутдинов Руслан; Земель, Ричард; Торральба, Антонио; Уртасун, Ракель; Фидлер, Саня (2015), Векторы с пропуском мыслей , arXiv : 1506.06726 , Бибкод : 2015arXiv150606726K
- ^ Девлин, Джейкоб; Чанг, Мин-Вэй; Ли, Кентон; Тутанова, Кристина (2019). «Материалы Конференции Севера 2019» . Материалы конференции Севера 2019 года . Миннеаполис, Миннесота: Ассоциация компьютерной лингвистики: 4171–4186. дои : 10.18653/v1/N19-1423 . S2CID 52967399 .
- ^ Вале, Ян Филип; Руас, Терри; Фолтынек, Томаш; Меушке, Норман; Гипп, Бела (2022), Смитс, Малте (ред.), «Выявление машинного перефразирования плагиата» , Информация для лучшего мира: формирование глобального будущего , том. 13192, Чам: Springer International Publishing, стр. 393–413, arXiv : 2103.11909 , doi : 10.1007/978-3-030-96957-8_34 , ISBN 978-3-030-96956-1 , S2CID 232307572 , получено 6 октября 2022 г.
- ^ Нигойкар, Анимеш; Ликато, Джон (2021). «Улучшение обнаружения перефразирования с помощью задачи состязательного перефразирования» . Материалы 59-го ежегодного собрания Ассоциации компьютерной лингвистики и 11-й Международной совместной конференции по обработке естественного языка (Том 1: Длинные статьи) . Онлайн: Ассоциация компьютерной лингвистики. стр. 7106–7116. doi : 10.18653/v1/2021.acl-long.552 . S2CID 235436269 .
- ^ Допьер, Томас; Гравье, Кристоф; Ложере, Вильфрид (2021). «ProtAugment: метаобучение по обнаружению намерений посредством разнообразного перефразирования без присмотра» . Материалы 59-го ежегодного собрания Ассоциации компьютерной лингвистики и 11-й Международной совместной конференции по обработке естественного языка (Том 1: Длинные статьи) . Онлайн: Ассоциация компьютерной лингвистики. стр. 2454–2466. doi : 10.18653/v1/2021.acl-long.191 . S2CID 236460333 .
- ^ Каллисон-Берч, Крис; Кон, Тревор; Лапата, Мирелла (2008). ParaMetric: метрика автоматической оценки для перефразирования . Материалы 22-й Международной конференции по компьютерной лингвистике. Манчестер. стр. 97–104. дои : 10.3115/1599081.1599094 . S2CID 837398 .
- ^ Перейти обратно: а б с Чен, Дэвид; Долан, Уильям (2008). Сбор высокопараллельных данных для оценки перефразирования . Материалы 49-го ежегодного собрания Ассоциации компьютерной лингвистики: технологии человеческого языка. Портленд, Орегон. стр. 190–200.
- ^ Лю, Чанг; Дальмайер, Даниэль; Нг, Хви Тоу (2010). PEM: метрика оценки перефразирования с использованием параллельных текстов . Материалы конференции 2010 г. по эмпритическим методам обработки естественного языка. Массачусетский технологический институт, Массачусетс. стр. 923–932.
- ^ «Идентификация перефраза по парам вопросов Quora» . Документы с кодом .
Внешние ссылки
[ редактировать ]- Microsoft Research Paraphrase Corpus — набор данных, состоящий из 5800 пар предложений, извлеченных из новостных статей с аннотациями, позволяющими определить, отражает ли пара семантическую эквивалентность.
- База данных парафразов (PPDB) — база данных с возможностью поиска, содержащая миллионы парафразов на 16 разных языках.