Распределительная семантика - Distributional semantics
Распределительная семантика - это область исследований, которая разрабатывает и изучает теории и методы количественной оценки и категоризации семантического сходства между языковыми элементами на основе их свойств распределения в больших выборках языковых данных. Основную идею распределительной семантики можно свести к так называемому Распространение гипотеза: лингвистические элементы с похожим распределением имеют схожие значения.
Распределительная гипотеза
В распределительная гипотеза в лингвистика происходит из семантическая теория использования языка, то есть слова, которые используются и встречаются в одном и том же контексты имеют тенденцию иметь сходные значения.[1]
Основная идея о том, что "слово характеризует компания, которую оно составляет", была популяризирована Ферт в 1950-е гг.[2]
Гипотеза распределения является основой для статистическая семантика. Хотя гипотеза распределения возникла в лингвистике,[3] сейчас это привлекает внимание в наука о мышлении особенно в отношении контекста использования слова.[4]
В последние годы гипотеза распределения легла в основу теории обобщение на основе сходства в изучении языка: идея о том, что дети могут понять, как использовать слова, с которыми они редко встречались раньше, путем обобщения их использования на основе распределения похожих слов.[5][6]
Гипотеза распределения предполагает, что чем больше семантически схожи два слова, тем более схожими по распределению они будут в свою очередь, и, следовательно, тем больше они будут иметь тенденцию встречаться в схожих лингвистических контекстах.
Независимо от того, выполняется ли это предположение, имеет большое значение как для нехватка данных проблема компьютерного моделирования,[7] и по вопросу о том, как дети могут так быстро изучать язык при относительно скудных знаниях (это также известно как проблема бедность стимула ).
Распределительное семантическое моделирование в векторных пространствах
Распределительная семантика способствует использованию линейной алгебры в качестве вычислительного инструмента и представительной основы. Основной подход заключается в сборе распределительной информации в многомерных векторах и определении распределительного / семантического сходства с точки зрения векторного сходства.[8] В зависимости от того, какой тип распределительной информации используется для сбора векторов, можно выделить различные виды сходства: актуальный сходства могут быть извлечены путем заполнения векторов информацией о том, в каких текстовых областях встречаются языковые элементы; парадигматический сходства могут быть извлечены путем заполнения векторов информацией о том, с какими другими языковыми элементами эти элементы сочетаются. Обратите внимание, что последний тип векторов также может использоваться для извлечения синтагматический сходства, глядя на отдельные компоненты вектора.
Основная идея корреляции между распределительным и семантическим сходством может быть операционализирована множеством различных способов. Существует множество вычислительных моделей, реализующих семантику распределения, в том числе латентно-семантический анализ (LSA),[9][10] Гиперпространственный аналог языка (HAL), модели на основе синтаксиса или зависимостей,[11] случайное индексирование, семантическое сворачивание[12] и различные варианты тематическая модель.[13]
Семантические модели распределения различаются в первую очередь по следующим параметрам:
- Тип контекста (текстовые области или лингвистические элементы)
- Контекстное окно (размер, расширение и т. Д.)
- Частотное взвешивание (например, энтропия, точечная взаимная информация,[14] так далее.)
- Уменьшение размеров (например, случайное индексирование, разложение по сингулярным числам, так далее.)
- Мера сходства (например. косинусное подобие, Расстояние Минковского, так далее.)
Распределительные семантические модели, использующие лингвистические элементы в качестве контекста, также называются пространство слов или векторные модели пространства.[15][16]
За пределами лексической семантики
В то время как распределительная семантика обычно применялась к лексическим элементам - словам и многословным терминам - со значительным успехом, не в последнюю очередь благодаря ее применимости в качестве входного слоя для нейронных моделей глубокого обучения, лексическая семантика, то есть значение слов, будет только несут часть семантики всего высказывания. Значение предложения, например «Тигры любят кроликов»., можно лишь частично понять, изучив значение трех лексических единиц, из которых он состоит. Распределительную семантику можно напрямую расширить, чтобы охватить более крупные лингвистические элементы, такие как конструкции, с элементами, не являющимися экземплярами, и без них, но некоторые из базовых допущений модели необходимо несколько скорректировать. Строительная грамматика и его формулировка лексико-синтаксического континуума предлагает один подход для включения более сложных конструкций в распределительную семантическую модель, и некоторые эксперименты были реализованы с использованием подхода случайного индексирования.[17]
Композиционно-распределительно-семантический модели расширяют семантические модели распределения с помощью явных семантических функций, которые используют синтаксически основанные правила для объединения семантики участвующих лексических единиц в композиционная модель для характеристики семантики целых фраз или предложений. Были изучены различные подходы к композиции, включая нейронные модели, и они обсуждаются на известных семинарах, таких как SemEval.[18]
Приложения
Распределительные семантические модели успешно применяются для решения следующих задач:
- находка семантическое сходство между словами и многословными выражениями;
- кластеризация слов на основе семантического сходства;
- автоматическое создание тезаурусы и двуязычные словари;
- значение смысла слова;
- расширение поисковых запросов с помощью синонимов и ассоциаций;
- определение темы документа;
- кластеризация документов за поиск информации;
- сбор данных и признание названных лиц;
- создание семантические карты разных предметных областей;
- перефразируя;
- анализ настроений;
- моделирование селективных предпочтений слов.
Программного обеспечения
Смотрите также
- Концептуальное пространство
- Совместное появление
- Gensim
- Фраза
- Случайная индексация
- Вложение предложения
- Статистическая семантика
- Word2vec
- Встраивание слов
Люди
- Скотт Дирвестер
- Сьюзан Дюмэ
- Дж. Р. Ферт
- Джордж Фурнас
- Зеллиг Харрис
- Ричард Хиршман
- Томас Ландауэр
- Магнус Сальгрен
- Хинрих Шютце
Рекомендации
- ^ Харрис 1954
- ^ Ферт 1957
- ^ Сальгрен 2008
- ^ Макдональд и Рамскар 2001
- ^ Глейтман 2002
- ^ Ярлетт 2008
- ^ Wishart, Ryder и Prokopis Prokopidis. «Эксперименты по тематическому моделированию на эллинистических корпусах». В Материалы семинара по корпусам в цифровых гуманитарных науках 17, 39–47. Блумингтон, IN: Материалы семинара CEUR, 2017, Интернет: https://pdfs.semanticscholar.org/bd71/ab40960e481006117bafd0ae952d3e8d1f66.pdf.
- ^ Ригер 1991
- ^ Deerwester et al. 1990 г.
- ^ Ландауэр, Томас К .; Дюмэ, Сьюзен Т. (1997). «Решение проблемы Платона: теория скрытого семантического анализа приобретения, индукции и представления знаний». Психологический обзор. 104 (2): 211–240. Дои:10.1037 / 0033-295x.104.2.211. ISSN 1939-1471.
- ^ Падо и Лапата 2007
- ^ Де Соуза Уэббер, Франциско (2015). «Теория семантического сворачивания и ее применение в семантическом снятии отпечатков пальцев». arXiv:1511.08855 [cs.AI ].
- ^ Джордан, Майкл I .; Ng, Andrew Y .; Блей, Дэвид М. (2003). «Скрытое размещение Дирихле». Журнал исследований в области машинного обучения. 3 (Янв): 993–1022. ISSN 1533-7928.
- ^ Церковь, Кеннет Уорд; Хэнкс, Патрик (1989). «Нормы словесных ассоциаций, взаимная информация и лексикография». Труды 27-го Ежегодного собрания Ассоциации компьютерной лингвистики -. Морристаун, Нью-Джерси, США: Ассоциация компьютерной лингвистики: 76–83. Дои:10.3115/981623.981633.
- ^ Schütze 1993
- ^ Сальгрен 2006
- ^ Карлгрен, Юсси; Канерва, Пентти (2019). «Многомерные распределенные семантические пространства для высказываний». Инженерия естественного языка. 25 (4): 503–517. Дои:10.1017 / S1351324919000226. Получено 2020-04-13.
- ^ «СемЭваль-2014, Задание 1».
Источники
- Харрис, З. (1954). «Распределительная структура». Слово. 10 (23): 146–162. Дои:10.1080/00437956.1954.11659520.CS1 maint: ref = harv (связь)
- Ферт, Дж. Р. (1957). «Краткий обзор лингвистической теории 1930-1955 годов». Исследования в области лингвистического анализа: 1–32.CS1 maint: ref = harv (связь) Перепечатано в F.R. Палмер, изд. (1968). Избранные статьи Дж. Р. Ферта 1952–1959 гг.. Лондон: Лонгман.
- Сальгрен, Магнус (2008). "Гипотеза распределения" (PDF). Rivista di Linguistica. 20 (1): 33–53.CS1 maint: ref = harv (связь)
- Макдоналдс.; Рамскар, М. (2001). «Проверка распределительной гипотезы: влияние контекста на суждения о семантическом сходстве». Материалы 23-й ежегодной конференции Общества когнитивных наук. С. 611–616. CiteSeerX 10.1.1.104.7535.CS1 maint: ref = harv (связь)
- Глейтман, Лила Р. (2002). «Глаголы пера стекаются вместе II». Наследие Зеллига Харриса. Актуальные проблемы лингвистической теории. 1. С. 209–229. Дои:10.1075 / cilt.228.17gle. ISBN 978-90-272-4736-0.CS1 maint: ref = harv (связь)
- Ярлетт, Д. (2008). Изучение языка через обобщение на основе сходства (PDF) (Кандидатская диссертация). Стэндфордский Университет. Архивировано из оригинал (PDF) на 2014-04-19. Получено 2012-07-12.CS1 maint: ref = harv (связь)
- Ригер, Бургхард Б. (1991). О распределенных представлениях в семантике слов (PDF) (Отчет). ИКСИ Беркли 12-1991. CiteSeerX 10.1.1.37.7976.CS1 maint: ref = harv (связь)
- Дирвестер, Скотт; Dumais, Susan T .; Фурнас, Джордж В .; Ландауэр, Томас К .; Харшман, Ричард (1990). «Индексирование с помощью скрытого семантического анализа» (PDF). Журнал Американского общества информационных наук. 41 (6): 391–407. CiteSeerX 10.1.1.33.2447. Дои:10.1002 / (SICI) 1097-4571 (199009) 41: 6 <391 :: AID-ASI1> 3.0.CO; 2-9. Архивировано из оригинал (PDF) на 2012-07-17.CS1 maint: ref = harv (связь)
- Падо, Себастьян; Лапата, Мирелла (2007). «Зависимое построение моделей семантического пространства». Компьютерная лингвистика. 33 (2): 161–199. Дои:10.1162 / coli.2007.33.2.161. S2CID 7747235.CS1 maint: ref = harv (связь)
- Шютце, Хинрих (1993). «Пространство слова». Достижения в системах обработки нейронной информации 5. С. 895–902. CiteSeerX 10.1.1.41.8856.CS1 maint: ref = harv (связь)
- Сальгрен, Магнус (2006). Модель пространства слов (PDF) (Кандидатская диссертация). Стокгольмский университет.CS1 maint: ref = harv (связь)
- Томас Ландауэр; Сьюзен Т. Дюмэ. «Решение проблемы Платона: теория скрытого семантического анализа приобретения, индукции и представления знаний». Получено 2007-07-02.CS1 maint: ref = harv (связь)
- Кевин Лунд; Курт Берджесс; Рут Энн Эчли (1995). Семантическое и ассоциативное праймирование в многомерном семантическом пространстве. Когнитивная наука. С. 660–665.CS1 maint: ref = harv (связь)
- Кевин Лунд; Курт Берджесс (1996). «Создание многомерных семантических пространств из лексического совпадения». Методы, инструменты и компьютеры исследования поведения. 28 (2): 203–208. Дои:10.3758 / bf03204766.CS1 maint: ref = harv (связь)