Явный семантический анализ - Explicit semantic analysis

В обработка естественного языка и поиск информации, явный семантический анализ (ЕКА) это векторный представление текста (отдельные слова или целые документы), который использует корпус документа как база знаний. В частности, в ESA слово представлено как вектор-столбец в tf – idf матрица текстового корпуса и документа (строки слов) представлена ​​в виде центроид векторов, представляющих его слова. Обычно текстовый корпус Английская Википедия, хотя другие корпуса, включая Open Directory Project был использован.[1]

ESA был разработан Евгений Габрилович и Шауль Маркович как средство улучшения категоризация текста[2]и был использован этой парой исследователей для вычисления того, что они называют "семантический родство "посредством косинусное подобие между вышеупомянутыми векторами, коллективно интерпретируемыми как пространство «понятий, явно определенных и описанных людьми», где статьи Википедии (или записи ODP, или иным образом названия документов в корпусе базы знаний) приравниваются к концепциям. Название «явная семантика» анализ "контрастирует с латентно-семантический анализ (LSA), потому что использование базы знаний позволяет присваивать понятные человеку метки для концепций, составляющих векторное пространство.[1][3]

Модель

Чтобы выполнить базовый вариант ESA, нужно начать с набора текстов, скажем, всех статей Википедии; пусть количество документов в коллекции будет N. Все они превратились в "мешки слов ", т. е. гистограммы частоты терминов, хранящиеся в инвертированный индекс. Используя этот инвертированный индекс, для любого слова можно найти набор статей Википедии, содержащих это слово; в словаре Егози, Марковича и Габриловича «каждое слово, появляющееся в корпусе Википедии, можно рассматривать как запускающее каждое из понятий, на которое оно указывает в перевернутом указателе».[1]

Результатом инвертированного индекса для однословного запроса является список проиндексированных документов (статей Википедии), каждому из которых присваивается оценка в зависимости от того, как часто в них встречается данное слово (взвешенное по общему количеству слов в документе). Математически этот список представляет собой N-мерный вектор оценок словесных документов, где документ, не содержащий слова запроса, имеет нулевую оценку. Чтобы вычислить степень родства двух слов, сравнивают векторы (скажем, ты и v) путем вычисления косинусного подобия,

и это дает числовую оценку семантического родства слов. Схема расширяется от отдельных слов до текстов, состоящих из нескольких слов, простым суммированием векторов всех слов в тексте.[3]

Анализ

ESA, как первоначально утверждали Габрилович и Маркович, работает в предположении, что база знаний содержит тематически ортогональный концепции. Однако позже Андерка и Штайн показали, что ESA также улучшает производительность поиск информации системы, когда он основан не на Википедии, а на Рейтер корпус новостных статей, не удовлетворяющий свойству ортогональности; в своих экспериментах Андерка и Штейн использовали новостные ленты как «концепции».[4]Чтобы объяснить это наблюдение, были показаны связи между ЕКА и обобщенная модель векторного пространства.[5]Габрилович и Маркович ответили Андерке и Штейну, указав, что их экспериментальный результат был достигнут с использованием «единственного применения ESA (подобие текста)» и «всего лишь единственного, чрезвычайно маленького и однородного тестового набора из 50 новостных документов».[1]

Приложения

Связь слов

ESA рассматривается его авторами как мера семантического родства (в отличие от семантическое сходство ). На наборах данных, используемых для оценки родства слов, ESA превосходит другие алгоритмы, включая WordNet меры семантического сходства и скип-граммная языковая модель нейронной сети (Word2vec ).[6]

Связь документов

ESA используется в коммерческих пакетах программного обеспечения для вычисления взаимосвязи документов.[7] Ограничения, зависящие от домена, в модели ESA иногда используются для обеспечения более надежного сопоставления документов.[8]

Расширения

Кросс-языковой явный семантический анализ (CL-ESA) - это многоязычное обобщение ESA.[9]CL-ESA использует выровненную по документу многоязычную справочную коллекцию (например, опять же Википедию) для представления документа как независимого от языка концептуального вектора. Связь двух документов на разных языках оценивается по косинусному сходству между соответствующими векторными представлениями.

Смотрите также

Рекомендации

  1. ^ а б c d Егози, Офер; Маркович, Шауль; Габрилович, Евгений (2011). «Концептуальный поиск информации с использованием явного семантического анализа» (PDF). ACM-транзакции в информационных системах. 29 (2): 1–34. Дои:10.1145/1961209.1961211. Получено 3 января, 2015.
  2. ^ Габрилович Евгений; Маркович, Шауль (2006). Преодоление узкого места, связанного с хрупкостью, с помощью Википедии: повышение качества категоризации текста с помощью энциклопедических знаний (PDF). Proc. 21-я Национальная конференция по искусственному интеллекту (AAAI). С. 1301–1306.
  3. ^ а б Габрилович Евгений; Маркович, Шауль (2007). Вычисление семантической взаимосвязи с использованием явного семантического анализа на основе Википедии (PDF). Proc. 20-я Международная совместная конференция. по искусственному интеллекту (IJCAI). С. 1606–1611.
  4. ^ Майк Андерка и Бенно Штайн. Возвращение к модели поиска ESA. Материалы 32-й Международной конференции ACM по исследованиям и разработкам в области информационного поиска (SIGIR), стр. 670-671, 2009.
  5. ^ Томас Готтрон, Майк Андерка и Бенно Штайн. Понимание явного семантического анализа. Материалы 20-й Международной конференции ACM по управлению информацией и знаниями (CIKM), стр. 1961-1964, 2011.
  6. ^ Клигр, Томаш и Ондржей Замазал. Антонимы похожи: К парадигматическому ассоциативному подходу к оценке сходства в SimLex-999 и WordSim-353. Инженерия данных и знаний 115 (2018): 174-193. (источник может быть платным, зеркало )
  7. ^ https://blogs.oracle.com/r/explicit-semantic-analysis-esa-for-text-analytics
  8. ^ Лука Маццола, Патрик Зигфрид, Андреас Вальдис, Майкл Кауфманн, Александр Дензлер. Подход ESA к семантическому описанию документов. Материалы 9-й IEEE Conf. по интеллектуальным системам 2018 (IS), стр. 383-390, 2018.
  9. ^ Мартин Поттхаст, Бенно Штайн и Майк Андерка. Многоязычная модель поиска на основе Википедии. Труды 30-й Европейской конференции по исследованиям в области IR (ECIR), стр. 522-530, 2008 г.

внешняя ссылка