Перефразирование (компьютерная лингвистика) - Paraphrasing (computational linguistics)
Парафраз или же Перефразируя в компьютерная лингвистика это обработка естественного языка задача обнаружения и генерации перефразировать. Применения перефразирования разнообразны, включая поиск информации, ответ на вопрос, резюме текста, и обнаружение плагиата.[1] Перефразирование также полезно в оценка машинного перевода,[2] а также семантический разбор[3] и поколение новых образцов для расширения существующих корпус.[4]
Генерация парафраза
Множественное выравнивание последовательностей
Барзилай и Ли[4] предложил метод перефразирования с использованием одноязычных параллельные корпуса, а именно новостные статьи, посвященные тому же событию в тот же день. Обучение состоит из использования выравнивание нескольких последовательностей для создания перефразирования на уровне предложения из неаннотированного корпуса. Это делается
- обнаружение повторяющихся закономерностей в каждом отдельном корпусе, т. е. "Икс (раненые / раненые) Y люди, Z серьезно "где X, Y, Z переменные
- нахождение пар между такими образцами представляют собой пересказы, т. е. "Икс (раненые / раненые) Y люди, Z серьезно "и"Y были (ранены / ранены) Икс, среди них Z были в тяжелом состоянии "
Это достигается путем первой кластеризации похожих предложений вместе с использованием н-грамм перекрывать. Повторяющиеся шаблоны обнаруживаются в кластерах с помощью выравнивания нескольких последовательностей. Затем положение слов аргумента определяется путем нахождения областей высокой изменчивости в каждом кластере, например, между словами, которые используются более чем в 50% предложений кластера. Затем пары между образцами находят путем сравнения одинаковых переменных слов в разных корпусах. Наконец, можно сгенерировать новые пересказы, выбрав соответствующий кластер для исходного предложения, а затем подставив аргумент исходного предложения в любое количество шаблонов в кластере.
Машинный перевод на основе фраз
Перефразирование также можно создать с помощью фразовый перевод как было предложено Баннардом и Каллисон-Берч.[5] Основная идея состоит в том, чтобы выровнять фразы в основной язык для создания возможных перефразирований на языке оригинала. Например, фраза «под контролем» в предложении на английском языке совпадает с фразой «unter kontrolle» в ее немецком аналоге. Затем фраза «unter kontrolle» встречается в другом предложении на немецком языке с выровненной английской фразой «in check», перефразируя «под контролем».
Распределение вероятностей можно смоделировать как , вероятностная фраза это пересказ , что эквивалентно суммировал по всем , потенциальный перевод фразы на основной язык. Кроме того, предложение добавляется до добавления контекста к пересказу. Таким образом, оптимальный парафраз, можно смоделировать как:
и можно приблизительно определить, просто взяв их частоты. Добавление как априор моделируется путем расчета вероятности формирования когда заменяется на .
Долговременная кратковременная память
Был успех в использовании долговременная кратковременная память (LSTM) модели для генерации перефразирований.[6] Короче говоря, модель состоит из кодировщика и декодера, которые реализованы с использованием вариаций составного остаточный LSTM. Во-первых, кодирование LSTM принимает горячий кодирование всех слов в предложении в качестве входных и создает окончательный скрытый вектор, который можно рассматривать как представление входного предложения. Затем LSTM декодирования принимает скрытый вектор в качестве входных данных и генерирует новое предложение, заканчивающееся маркером конца предложения. Кодер и декодер обучены брать фразу и воспроизводить быстрое распространение соответствующего парафраза путем минимизации недоумение используя простой стохастический градиентный спуск. Новые перефразировки генерируются путем ввода новой фразы в кодировщик и передачи вывода в декодер.
Распознавание парафраза
Рекурсивные автоэнкодеры
Распознавание парафраза было предпринято Socher et al.[1] за счет использования рекурсивных автокодеры. Основная идея - создать векторное представление предложения вместе с его компонентами рекурсивно с использованием автоэнкодера. Векторные представления перефразирования должны иметь аналогичные векторные представления; они обрабатываются, а затем подаются в качестве входных данных в нейронная сеть для классификации.
Учитывая предложение с словами, автоэнкодер рассчитан на 2 -размерный вложения слов в качестве ввода и произвести -мерный вектор в качестве вывода. Один и тот же автоэнкодер применяется к каждой паре слов в производить векторов. Затем автоэнкодер рекурсивно применяется с новыми векторами в качестве входных данных до тех пор, пока не будет получен единственный вектор. При нечетном количестве входов первый вектор перенаправляется на следующий уровень рекурсии. Затем автоэнкодер обучается воспроизводить каждый вектор в полном дереве рекурсии, включая начальные вложения слов.
Учитывая два предложения и длиной 4 и 3 соответственно, автокодеры будут создавать 7 и 5 векторных представлений, включая начальные вложения слов. В Евклидово расстояние затем берется между каждой комбинацией векторов в и создать матрицу подобия . тогда подвергается динамической минимальнойслой объединения производить фиксированный размер матрица. С не одинаковы по размеру среди всех потенциальных предложений, разделен на примерно ровные разделы. Затем выходной сигнал нормализуется до среднего значения 0 и стандартного отклонения 1 и подается на полностью связанный слой с softmax выход. Динамическое объединение в модель softmax обучается с использованием пар известных парафраз.
Пропускные векторы
Векторы пропуска мыслей - это попытка создать векторное представление семантического значения предложения таким же образом, как и пропустить грамм модель.[7] Векторы пропуска мыслей создаются с помощью модели пропуска мыслей, которая состоит из трех ключевых компонентов, кодировщика и двух декодеров. При наличии корпуса документов модель пропуска мыслей обучается принимать предложение в качестве входных данных и кодировать его в вектор пропуска мыслей. Вектор пропуска мыслей используется в качестве входных данных для обоих декодеров, один из которых пытается воспроизвести предыдущее предложение, а другой - следующее предложение целиком. Кодер и декодер могут быть реализованы с использованием рекурсивная нейронная сеть (RNN) или LSTM.
Поскольку пересказы несут одно и то же семантическое значение друг в друге, они должны иметь одинаковые векторы пропуска мыслей. Таким образом, простой логистическая регрессия можно обучить с хорошей производительностью с абсолютной разницей и покомпонентным произведением двух векторов пропуска мыслей в качестве входных данных.
Оценка
Есть несколько методов, которые можно использовать для оценки перефразирования. Поскольку распознавание перефразирования может быть представлено как проблема классификации, большинство стандартных показателей оценки, таких как точность, счет f1, или Кривая ROC делать относительно хорошо. Однако есть трудности с вычислением f1-score из-за проблем с составлением полного списка перефразирований для данной фразы, а также того факта, что хорошие пересказы зависят от контекста. Метрика, предназначенная для решения этих проблем, - ParaMetric.[8] ParaMetric нацелен на вычисление точности и запоминания автоматической системы перефразирования путем сравнения автоматического выравнивания перефразирования с выравниванием аналогичных фраз вручную. Поскольку ParaMetric просто оценивает качество выравнивания фраз, его можно использовать для оценки систем генерации перефразирования, а также при условии, что выравнивание фраз используется как часть процесса генерации. Отмеченным недостатком ParaMetric является большой и исчерпывающий набор ручных корректировок, которые необходимо сначала создать, прежде чем можно будет произвести оценку.
Оценка генерации перефразирования имеет те же трудности, что и оценка машинный перевод. Часто качество перефразирования зависит от его контекста, от того, используется ли он в качестве резюме и от того, как он создается, среди других факторов. Кроме того, хороший пересказ обычно лексически не похож на исходную фразу. Самый простой метод, используемый для оценки генерации перефразирования, - это использование людей-судей. К сожалению, оценка, проводимая человеческими судьями, обычно занимает много времени. Автоматические подходы к оценке оказываются сложной задачей, поскольку по сути это такая же сложная проблема, как распознавание перефразирования. Первоначально использовавшийся для оценки машинных переводов, дублер двуязычной оценки (BLEU ) также успешно использовался для оценки моделей генерации перефразирования. Однако перефразирование часто имеет несколько лексически различных, но одинаково действенных решений, что вредит BLEU и другим подобным метрикам оценки.[9]
Метрики, специально разработанные для оценки генерации перефразирования, включают перефразирование в изменении н-граммы (PINC)[9] и метрика оценки перефразирования (PEM)[10] вместе с вышеупомянутым ParaMetric. PINC разработан для использования вместе с BLEU и помогает скрыть его недостатки. Поскольку BLEU испытывает трудности с измерением лексического несходства, PINC является мерой отсутствия n-граммового перекрытия между исходным предложением и потенциальным перефразированием. По сути, это Расстояние Жаккара между предложением, исключая n-граммы, которые появляются в исходном предложении, чтобы сохранить некоторую семантическую эквивалентность. PEM, с другой стороны, пытается оценить «адекватность, беглость и лексическое несходство» пересказов, возвращая эвристику с одним значением, вычисленную с использованием N-граммы перекрываются в сводном языке. Однако большой недостаток PEM заключается в том, что его нужно обучать с использованием больших параллельных корпусов в домене, а также людей-судей.[9] Другими словами, это равносильно обучению системы распознавания перефразирования, чтобы оценить систему генерации пересказа.
Смотрите также
Рекомендации
- ^ а б Сохер, Ричард; Хуанг, Эрик; Пеннингтон, Джеффри; Нг, Эндрю; Мэннинг, Кристофер (2011), Рекурсивные автоэнкодеры с динамическим объединением и развертыванием для обнаружения перефразирования
- ^ Каллисон-Берч, Крис (25–27 октября 2008 г.). «Синтаксические ограничения на парафраз, извлеченные из параллельных корпусов». EMNLP '08 Труды конференции по эмпирическим методам обработки естественного языка. Гонолулу, Гавайи. С. 196–205.
- ^ Берант, Джонатан и Перси Лян. "Семантический анализ через перефразирование. "Материалы 52-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи). Том 1. 2014.
- ^ а б Барзилай, Регина; Ли, Лилиан (май – июнь 2003 г.). «Обучение перефразированию: неконтролируемый подход с использованием множественного выравнивания». Материалы HLT-NAACL 2003.
- ^ Баннард, Колин; Каллисон-Берч, Крис (2005). "Перефразирование двуязычных параллельных корпусов". Материалы 43-го ежегодного собрания ACL. Анн-Арбор, Мичиган. С. 597–604.
- ^ Пракаш, Аадитья; Hasan, Sadid A .; Ли, Кэти; Датла, Вивек; Кадир, Ашекул; Лю, Джоуи; Фарри, Оладимеджи (2016), Генерация нейронных парафраз с использованием остаточных сетей LSTM со ставками, arXiv:1610.03098, Bibcode:2016arXiv161003098P
- ^ Кирос, Райан; Чжу, Юкун; Салахутдинов Руслан; Земель, Ричард; Торральба, Антонио; Уртасун, Ракель; Фидлер, Саня (2015), Пропускные векторы, arXiv:1506.06726, Bibcode:2015arXiv150606726K
- ^ Каллисон-Берч, Крис; Кон, Тревор; Лапата, Мирелла (2008). «ParaMetric: метрика автоматической оценки для перефразирования» (PDF). Материалы 22-й Международной конференции по компьютерной лингвистике. Манчестер. С. 97–104. Дои:10.3115/1599081.1599094. S2CID 837398.
- ^ а б c Чен, Дэвид; Долан, Уильям (2008). «Сбор высокопараллельных данных для оценки перефразирования». Труды 49-го ежегодного собрания Ассоциации компьютерной лингвистики: технологии человеческого языка. Портланд, штат Орегон. С. 190–200.
- ^ Лю, Чанг; Дальмайер, Даниэль; Нг, Хви Тоу (2010). «PEM: парафразная метрика оценки с использованием параллельных текстов». Материалы конференции 2010 г. по эмприциальным методам обработки естественного языка. Массачусетский технологический институт, Массачусетс. С. 923–932.
внешняя ссылка
- Корпорация Microsoft Research Paraphrase Corpus - набор данных, состоящий из 5800 пар предложений, извлеченных из новостных статей с аннотациями, чтобы отметить, фиксирует ли пара семантическую эквивалентность
- База данных перефразирования (PPDB) - База данных с возможностью поиска, содержащая миллионы перефразирований на 16 различных языках.