Семантическое сжатие - Semantic compression

В обработка естественного языка, семантическое сжатие это процесс уплотнения лексики, используемой для создания текстового документа (или набора документов) за счет уменьшения языковой неоднородности при сохранении текста семантика. В результате одни и те же идеи могут быть представлены меньшим набором слов.

В большинстве приложений семантическое сжатие - это сжатие с потерями, то есть повышенная многословность не компенсирует лексическое сжатие, и исходный документ не может быть восстановлен в обратном процессе.

По обобщению

Семантическое сжатие в основном достигается в два этапа с использованием частотные словари и семантическая сеть:

  1. определение совокупной частоты терминов для определения целевой лексики,
  2. заменяя менее употребляемые термины их гиперонимами (обобщение ) из целевой лексики.[1]

Шаг 1 требует сборки частот слов и информации о семантических отношениях, в частности гипонимия. Двигаясь вверх по иерархии слов, совокупная частота понятий вычисляется путем прибавления суммы частот гипонимов к частоте их гиперонимов: куда это гипероним Затем выбирается желаемое количество слов с наибольшей совокупной частотой для построения целевого лексикона.

На втором этапе правила сопоставления сжатия определяются для оставшихся слов, чтобы обрабатывать каждое появление менее часто встречающегося гипонима как его гипероним в выходном тексте.

Пример

Приведенный ниже фрагмент текста обработан семантическим сжатием. Слова, выделенные жирным шрифтом, были заменены их гиперонимами.

Они оба гнездо строительство социальные насекомые, но бумажные осы и мед пчелы организовать их колонии

в очень разных способы. В новом исследовании исследователи сообщают, что, несмотря на их различияэти насекомые полагаться на та же сеть генов, чтобы направлять их социальное поведение. Исследование опубликовано в Протоколе Королевское общество B: Биологические науки. Медовый пчелы и бумажные осы разделены более чем 100 миллионами лет

эволюция, и здесь разительные различия в том, как они распределяют работу поддержание а колония.

Процедура выводит следующий текст:

Они оба средство строительство насекомое, но насекомые и мед насекомые договариваться их биологические группы

в очень разных структура. В новом исследовании исследователи сообщают, что, несмотря на их разница во мненияхэти насекомые действовать та же сеть генов управлять их поведение на вечеринке. Исследование фигурирует в производстве институциональные бактерии Биологические науки. Медовый насекомые и насекомое разделены более чем ста миллионами лет

органические процессы, и здесь столкновение с различиями во мнениях в том, как они распределяют работу подтверждая а биологическая группа.

Неявное семантическое сжатие

Естественная тенденция сохранять лаконичность выражений естественного языка может быть воспринята как форма неявного семантического сжатия путем исключения бессмысленных слов или избыточных значимых слов (особенно во избежание плеоназмы ).[2]

Приложения и преимущества

в векторная космическая модель, сжатие словаря приводит к сокращению размерность, что приводит к меньшему вычислительная сложность и положительное влияние на эффективность.

Семантическое сжатие выгодно в поиск информации задач, повышая их эффективность (как с точки зрения точности, так и с точки зрения запоминания).[3] Это связано с более точными дескрипторами (уменьшение эффекта языкового разнообразия - ограниченная языковая избыточность, шаг к управляемому словарю).

Как и в приведенном выше примере, можно отображать вывод как естественный текст (повторное применение перегиба, добавление стоп-слов).

Смотрите также

Рекомендации

  1. ^ Д. Цегларек, К. Ханевич, В. Рутковски, Семантическое сжатие для специализированных систем поиска информации, Достижения в области интеллектуальной информации и систем баз данных, т. 283, стр. 111-121, 2010 г.
  2. ^ Перцова Н. Н. О типах семантической компрессии текста., COLING '82 Труды 9-й конференции по компьютерной лингвистике, вып. 2, стр. 229-231, 1982
  3. ^ Д. Цегларек, К. Ханевич, В. Рутковски, Качество семантической компрессии в классификации Материалы 2-й Международной конференции по вычислительному коллективному разуму: технологии и приложения, т. 1, стр. 162-171, 2010 г.

внешняя ссылка