Устранение смысловой неоднозначности - Word-sense disambiguation

В компьютерная лингвистика, словесная неоднозначность (WSD) является открытая проблема озабочены определением того, какие смысл из слово используется в предложение. Решение этой проблемы влияет на другие записи, связанные с компьютером, например дискурс, повышая актуальность поисковые системы, разрешение анафоры, согласованность, и вывод.

В человеческий мозг довольно хорошо разбирается в смысловой неоднозначности. Это естественный язык формируется таким образом, чтобы от него требовалось так много отражения этой неврологической реальности. Другими словами, человеческий язык развивался таким образом, чтобы отражать (а также помогать формировать) врожденные способности, обеспечиваемые мозгом. нейронные сети. В Информатика и информационные технологии что это позволяет, развитие способности компьютеров делать обработка естественного языка и машинное обучение.

Было исследовано множество разнообразных методов, от методов на основе словарей, использующих знания, закодированные в лексических ресурсах, до контролируемое машинное обучение методы, в которых классификатор обучается для каждого отдельного слова в корпусе примеров с ручной смысловой аннотацией, полностью неконтролируемым методам, которые группируют вхождения слов, тем самым вызывая смысловую нагрузку слов. Среди них подходы к обучению с учителем оказались наиболее успешными. алгоритмы назначить свидание.

Трудно заявить о точности существующих алгоритмов без множества оговорок. По английски точность на крупном (омограф ) обычно превышает 90%, а некоторые методы на определенных омографах достигают более 96%. Что касается более тонких различий чувств, максимальная точность от 59,1% до 69,0% была зафиксирована в оценочных упражнениях (SemEval-2007, Senseval-2), где базовая точность простейшего возможного алгоритма выбора всегда наиболее частого смысла составила 51,4%. и 57% соответственно.

Около

Устранение неоднозначности требует двух строгих входов: толковый словарь указать смыслы, которые должны быть устранены, и корпус из язык данные для устранения неоднозначности (в некоторых методах учебный корпус языковых примеров также требуется). Задача WSD имеет два варианта: "лексический образец " и "все слова "задача. Первый включает устранение неоднозначности вхождений небольшой выборки целевых слов, которые были ранее выбраны, в то время как во втором все слова в фрагменте текущего текста необходимо устранить неоднозначность. Последний считается более реалистичной формой оценки, но создание корпуса обходится дороже, потому что аннотаторы-люди должны читать определения для каждого слова в последовательности каждый раз, когда им нужно сделать оценку тегов, а не один раз для блока экземпляров одного и того же целевого слова.

Чтобы понять, как все это работает, рассмотрим три примера различных смыслов, которые существуют для (написанного) слова "бас ":

  1. вид рыбы
  2. тона низкой частоты
  3. тип инструмента

и предложения:

  1. Я пошел ловить морского окуня.
  2. Басовая линия в песне слишком слабая.

Людям, которые понимают английский, в первом предложении используется слово "окунь (рыба) " /бæs/, как и в предыдущем смысле выше и во втором предложении, слово "бас (инструмент) " /ˈбs/ используется как в последнем смысле ниже. Развитие алгоритмы воспроизвести эту человеческую способность часто может быть сложной задачей, что еще раз подтверждается неявной двусмысленностью между "бас (звук) " и "бас (инструмент) ".

История

WSD был впервые сформулирован как отдельная вычислительная задача на заре машинного перевода в 1940-х годах, что сделало его одной из старейших проблем компьютерной лингвистики. Уоррен Уивер в своем знаменитом меморандуме 1949 г. о переводе,[1] впервые представил проблему в вычислительном контексте. Ранние исследователи хорошо понимали важность и сложность WSD. По факту, Бар-Гилель (1960) использовали приведенный выше пример, чтобы аргументировать[2] что WSD не может быть решена «электронным компьютером» из-за необходимости в целом моделировать все мировые знания.

В 1970-х годах WSD была подзадачей систем семантической интерпретации, разработанной в области искусственного интеллекта, начиная с Wilks семантика предпочтений. Однако, поскольку системы WSD в то время в основном основывались на правилах и кодировались вручную, они были склонны к узким местам в получении знаний.

К 1980-м годам крупные лексические ресурсы, такие как Оксфордский словарь современного английского для учащихся продвинутого уровня (OALD), стало доступным: ручное кодирование было заменено знаниями, автоматически извлеченными из этих ресурсов, но устранение неоднозначности по-прежнему основывалось на знаниях или словарях.

В 1990-х годах статистическая революция охватила компьютерную лингвистику, и WSD превратилась в парадигму проблемы, в которой можно было применить методы контролируемого машинного обучения.

В 2000-х годах контролируемые методы достигли плато в точности, и поэтому внимание переключилось на более грубые ощущения, адаптацию к предметной области, полу-контролируемые и неконтролируемые системы на основе корпусов, комбинации различных методов и возвращение систем, основанных на знаниях, через графы. -основанные методы. Тем не менее, контролируемые системы продолжают работать лучше всего.

Сложности

Различия между словарями

Одна из проблем, связанных с устранением неоднозначности смысла слова, состоит в том, чтобы определить, что такое чувства. В таких случаях, как слово бас выше, по крайней мере, некоторые смыслы явно различны. В других случаях, однако, разные чувства могут быть тесно связаны (одно значение - метафорический или метонимический расширение другого), и в таких случаях деление слов на смыслы становится намного труднее. Другой словари и тезаурусы обеспечит различное деление слов на смыслы. Одно из решений, которое использовали некоторые исследователи, - это выбрать конкретный словарь и просто использовать его набор смыслов. Однако в целом результаты исследований с использованием широких различий в чувствах были намного лучше, чем результаты исследований с использованием узких.[3][4] Однако, учитывая отсутствие полноценного грубого чувственного инвентаря, большинство исследователей продолжают работать над мелкозернистый WSD.

Большинство исследований в области WSD выполняется с использованием WordNet как справочник смысла для английского языка. WordNet - это вычислительный лексикон который кодирует концепции как синоним наборы (например, понятие автомобиля кодируется как {автомобиль, авто, автомобиль, машина, автомобиль}). Другие ресурсы, используемые для устранения неоднозначности, включают: Тезаурус Роже[5] и Википедия.[6] В последнее время, BabelNet многоязычный энциклопедический словарь был использован для многоязычного WSD.[7]

Пометка части речи

В любом реальном испытании теги части речи и смысловые теги очень тесно связаны друг с другом, потенциально ограничивая друг друга. И вопрос, должны ли эти задачи быть вместе или разделены, все еще не решен единогласно, но в последнее время ученые склонны тестировать эти вещи по отдельности (например, в Senseval /SemEval соревновательные части речи предоставляются в качестве входных данных для устранения неоднозначности текста).

Поучительно сравнить проблему разрешения неоднозначности смысла слова с проблемой тегирования части речи. Оба включают устранение неоднозначности или пометку слов, будь то чувства или части речи. Однако алгоритмы, используемые для одного, не работают хорошо для другого, в основном потому, что часть речи слова в первую очередь определяется непосредственно соседними от одного до трех слов, тогда как смысл слова может определяться более удаленными словами. . Показатель успеха для алгоритмов тегирования части речи в настоящее время намного выше, чем для WSD, и составляет около 95%.[нужна цитата ] точность или лучше, по сравнению с менее 75%[нужна цитата ] точность в устранении неоднозначности в смысле слова с контролируемое обучение. Эти цифры типичны для английского языка и могут сильно отличаться от данных для других языков.

Разница между судьями

Другая проблема промежуточный судья отклонение. Системы WSD обычно тестируются путем сравнения результатов выполнения задачи с результатами человека. Однако, в то время как связать части речи с текстом относительно легко, научить людей помечать чувства гораздо сложнее.[8] В то время как пользователи могут запоминать все возможные части речи, которые может принимать слово, люди часто не могут запомнить все смыслы, которые может принимать слово. Более того, люди не согласны с поставленной задачей - приведите список смыслов и предложений, и люди не всегда согласятся, какое слово в каком смысле принадлежит.[9]

Поскольку человеческие способности служат стандартом, это верхняя граница для производительности компьютера. Однако человеческая производительность намного лучше крупнозернистый чем мелкозернистый различий, вот почему исследования грубых различий[10][11] был протестирован в недавних оценочных упражнениях WSD.[3][4]

Прагматика

Немного AI исследователи любят Дуглас Ленат утверждать, что нельзя разбирать значения слов без какой-либо формы онтология здравого смысла. Этот лингвистический вопрос называется прагматика Например, сравнивая эти два предложения:

  • «Джилл и Мэри - матери». - (каждый независимо мать).
  • «Джилл и Мэри - сестры». - (они сестры друг друга).

Чтобы правильно определять смысл слов, нужно знать факты здравого смысла.[12] Более того, иногда нужен здравый смысл для устранения неоднозначности таких слов, как местоимения, в случае наличия анафоры или катафоры в тексте.

Смысловой инвентарь и зависимость алгоритмов от задач

Инвентаризация чувств, не зависящая от задачи, не является последовательной концепцией:[13] каждая задача требует отдельного разделения значения слова на значения, соответствующие задаче. Например, двусмысленность "мышь '(животное или устройство) не имеет отношения к англо-французскому машинный перевод, но актуально в поиск информации. Обратное верно для слова «река», которое требует выбора во французском (плавать 'впадает в море', или Ривьер 'впадает в реку').

Кроме того, для разных приложений могут потребоваться совершенно разные алгоритмы. В машинном переводе проблема заключается в выборе целевого слова. Здесь «смыслы» - это слова на целевом языке, которые часто соответствуют значительным различиям значений в исходном языке («банк» может переводиться с французского «банк», то есть «финансовый банк» или «рив»), то есть есть, «край реки»). При поиске информации инвентаризация смысла не обязательно требуется, потому что достаточно знать, что слово используется в одном и том же смысле в запросе и в извлеченном документе; какой это смысл, неважно.

Дискретность чувств

Наконец, само понятие "смысл слова "скользкий и противоречивый. Большинство людей могут согласиться в различиях на крупнозернистый омограф уровень (например, ручка как пишущий инструмент или корпус), но спуститесь на один уровень вниз, чтобы мелкозернистый многозначность, и возникают разногласия. Например, в Senseval-2, в котором использовались тонкие смысловые различия, аннотаторы-люди соглашались только в 85% случаев появления слов.[14] Значение слова в принципе бесконечно вариативно и зависит от контекста. Его нелегко разделить на отдельные или отдельные подзначения.[15] Лексикографы часто обнаруживают в корпусах нечеткие и частично совпадающие значения слов, а также стандартные или общепринятые значения, расширяемые, модулируемые и используемые поразительным разнообразием способов. Искусство лексикографии состоит в том, чтобы делать обобщения от корпуса до определений, которые вызывают и объясняют весь диапазон значений слова, создавая впечатление, что слова имеют хорошее семантическое поведение. Однако совсем не ясно, применимы ли эти же различия значений в вычислительные приложения, поскольку решения лексикографов обычно основываются на других соображениях. В 2009 году задача - названа лексическая замена - было предложено как возможное решение проблемы дискретности смысла.[16] Задача состоит в предоставлении замены для слова в контексте, сохраняющей значение исходного слова (потенциально, замены могут быть выбраны из полного лексикона целевого языка, таким образом преодолевая дискретность).

Подходы и методы

Как и во всех обработка естественного языка, есть два основных подхода к WSD - глубокие подходы и мелкие подходы.

Глубинные подходы предполагают доступ к обширной совокупности мировое знание. Такие знания, как «вы можете ловить рыбу, но не ловить низкочастотные звуки» и «песни содержат низкочастотные звуки в качестве частей, но не типы рыб», затем используются для определения, в каком смысле бас используется. Эти подходы не очень успешны на практике, главным образом потому, что такой объем знаний не существует в машиночитаемом формате за пределами очень ограниченных областей.[17] Однако, если бы такие знания действительно существовали, то глубокие подходы были бы намного точнее, чем поверхностные.[нужна цитата ] Кроме того, существует давняя традиция в компьютерная лингвистика, попробовать такие подходы с точки зрения закодированных знаний, и в некоторых случаях трудно четко сказать, является ли задействованное знание лингвистическим или мировым. Первая попытка была сделана Маргарет Мастерман и ее коллеги в Кембриджский отдел языковых исследований в Англии в 1950-е гг. Эта попытка использовала в качестве данных перфокарточную версию Тезауруса Роджера и пронумерованные «заголовки» в качестве индикатора тем и искала повторы в тексте, используя заданный алгоритм пересечения. Это было не очень удачно,[18] но имел тесные связи с более поздней работой, особенно с оптимизацией тезауруса методом машинного обучения Яровским в 1990-х годах.

Поверхностные подходы не пытаются понять текст. Они просто рассматривают окружающие слова, используя такую ​​информацию, как «если бас есть слова море или рыбная ловля рядом, вероятно, в смысле рыбы; если бас есть слова Музыка или песня рядом, это, вероятно, в музыкальном смысле ". Эти правила могут быть автоматически выведены компьютером, используя тренировочный корпус слов, помеченных их смыслами слов. Этот подход, хотя теоретически не так эффективен, как глубокие подходы, дает превосходные результаты на практике , из-за ограниченных знаний компьютера о мире. Однако его можно спутать с такими предложениями, как Собаки лают на дерево который содержит слово лай рядом с обоими дерево и собаки.

Существует четыре традиционных подхода к WSD:

Почти все эти подходы обычно работают, определяя окно п содержательные слова вокруг каждого слова для устранения неоднозначности в корпусе и статистический анализ этих п окружающие слова. Два неглубоких подхода, используемых для обучения и устранения неоднозначности: Наивные байесовские классификаторы и деревья решений. В недавнем исследовании методы на основе ядра такие как опорные векторные машины показали превосходную производительность в контролируемое обучение. Подходы, основанные на графах, также привлекли большое внимание исследовательского сообщества и в настоящее время достигают производительности, близкой к современной.

Методы, основанные на словарях и знаниях

В Алгоритм Леска[19] это основанный на словарях метод. Он основан на гипотезе о том, что слова, используемые вместе в тексте, связаны друг с другом и что эту связь можно наблюдать в определениях слов и их значений. Два (или более) слова устраняются путем нахождения пары словарных смыслов с наибольшим перекрытием слов в их словарных определениях. Например, при устранении неоднозначности слов в слове «сосновая шишка» определения соответствующих смыслов включают в себя слова «вечнозеленое растение» и «дерево» (по крайней мере, в одном словаре). Аналогичный подход[20] ищет кратчайший путь между двумя словами: второе слово итеративно ищется среди определений каждого семантического варианта первого слова, затем среди определений каждого семантического варианта каждого слова в предыдущих определениях и так далее. Наконец, первое слово устраняется путем выбора семантического варианта, который минимизирует расстояние от первого до второго слова.

Альтернативой использованию определений является рассмотрение общего смысла слова родство и вычислить семантическое сходство каждой пары смысловых слов на основе данной лексической базы знаний, такой как WordNet. На основе графика методы напоминают активация распространения Исследования первых дней исследований ИИ применялись с некоторым успехом. Было показано, что более сложные подходы на основе графов работают почти так же хорошо, как контролируемые методы.[21] или даже превзойти их по определенным доменам.[3][22] Недавно сообщалось, что простой меры связности графа, такие как степень, выполняйте WSD по последнему слову техники при наличии достаточно богатой лексической базы знаний.[23] Также автоматическая передача знания в виде семантические отношения от Википедии до WordNet было показано, что они развивают простые методы, основанные на знаниях, позволяя им конкурировать с лучшими контролируемыми системами и даже превосходить их в параметрах, зависящих от предметной области.[24]

Использование селекционных предпочтений (или ограничения выбора ) также полезно, например, зная, что обычно готовят еду, можно устранить неоднозначность слова бас в слове «Я готовлю басы» (то есть это не музыкальный инструмент).

Контролируемые методы

Под присмотром методы основаны на предположении, что контекст сам по себе может предоставить достаточно свидетельств для устранения неоднозначности слов (следовательно, здравый смысл и рассуждение считаются ненужными). Вероятно, все алгоритмы машинного обучения были применены к WSD, включая связанные методы, такие как выбор функции, оптимизация параметров, и ансамблевое обучение. Машины опорных векторов и обучение на основе памяти были показаны как наиболее успешные подходы на сегодняшний день, вероятно, потому что они могут справиться с высокой размерностью пространства признаков. Однако у этих контролируемых методов возникает новое узкое место в получении знаний, поскольку для обучения они полагаются на значительное количество корпусов, помеченных вручную сенсорными метками, создание которых трудоемко и дорого.

Полу-контролируемые методы

Из-за отсутствия данных для обучения многие алгоритмы устранения неоднозначности используют полу-контролируемое обучение, что позволяет использовать как помеченные, так и немеченые данные. В Алгоритм Яровского был одним из первых примеров такого алгоритма.[25] Он использует свойства человеческих языков «Одно значение на словосочетание» и «Одно значение на дискурс» для устранения неоднозначности слов. По наблюдениям, слова имеют тенденцию проявлять только один смысл в большинстве данных дискурса и в данном словосочетании.[нужна цитата ]

В самонастройка подход начинается с небольшого количества исходные данные для каждого слова: либо примеры тренировок, помеченные вручную, либо небольшое количество правил верного принятия решений (например, «играть» в контексте «бас» почти всегда означает музыкальный инструмент). Семена используются для тренировки начального классификатор любым контролируемым методом. Затем этот классификатор используется в непомеченной части корпуса для извлечения большего обучающего набора, в который включены только наиболее надежные классификации. Процесс повторяется, каждый новый классификатор обучается на последовательно увеличивающемся учебном корпусе, пока не будет израсходован весь корпус или пока не будет достигнуто заданное максимальное количество итераций.

Другие полууправляемые методы используют большое количество немаркированных корпусов для обеспечения совпадение информация, дополняющая помеченные корпуса. Эти методы могут помочь в адаптации контролируемых моделей к различным областям.

Кроме того, неоднозначное слово на одном языке часто переводится на разные слова на другом языке в зависимости от смысла слова. С выравниванием по словам двуязычный корпуса были использованы[кем? ] вывести межъязыковые смысловые различия, своего рода полу-контролируемую систему.

Неконтролируемые методы

Обучение без учителя это самая большая проблема для исследователей WSD. Основное предположение состоит в том, что похожие смыслы возникают в аналогичных контекстах, и, таким образом, чувства могут быть вызваны из текста с помощью кластеризация слова с использованием некоторых мера сходства контекста,[26] задача, называемая индукция смысла слова или дискриминация. Затем новые вхождения слова можно классифицировать по ближайшим индуцированным группам / смыслам. Производительность была ниже, чем у других методов, описанных выше, но сравнения затруднены, поскольку индуцированные чувства должны отображаться в известном словаре значений слов. Если отображение набор словарных смыслов нежелателен, кластерные оценки (включая измерения энтропии и чистоты). В качестве альтернативы, методы индукции смысла слова могут быть протестированы и сравнены в приложении. Например, было показано, что индукция смысла слов улучшает кластеризацию результатов веб-поиска за счет повышения качества кластеров результатов и степени диверсификации списков результатов.[27][28] Есть надежда, что обучение без учителя преодолеет приобретение знаний узкое место, потому что они не зависят от ручного труда.

Представление слов с учетом их контекста через плотные векторы фиксированного размера (вложения слов ) стал одним из самых фундаментальных блоков в нескольких системах НЛП.[29][30][31] Несмотря на то, что большинство традиционных методов встраивания слов объединяют слова с несколькими значениями в единое векторное представление, их все же можно использовать для улучшения WSD.[32] В дополнение к методам встраивания слов, лексические базы данных (например, WordNet, ConceptNet, BabelNet ) также может помочь неконтролируемым системам отображать слова и их значения в качестве словарей. Некоторые методы, сочетающие лексические базы данных и вложения слов, представлены в AutoExtend.[33][34] и наиболее подходящую смысловую аннотацию (MSSA).[35] В AutoExtend[34] они представляют метод, который разделяет входное представление объекта на его свойства, такие как слова и их значения слов. AutoExtend использует структуру графика для сопоставления слов (например, текста) и слов (например, синсеты в WordNet ) объекты как узлы и отношения между узлами как ребра. Отношения (ребра) в AutoExtend могут выражать сложение или сходство между его узлами. Первый отражает интуицию, лежащую в основе расчета смещения,[29] в то время как последний определяет сходство между двумя узлами. В MSSA,[35] неконтролируемая система устранения неоднозначности использует сходство между смыслами слов в фиксированном окне контекста для выбора наиболее подходящего смысла слова с помощью предварительно обученной модели встраивания слов и WordNet. Для каждого контекстного окна MSSA вычисляет центроид определения смысла каждого слова путем усреднения векторов слов его слов в WordNet. блески (т. е. краткое определение блеска и один или несколько примеров использования) с использованием предварительно обученной модели встраивания слов. Эти центроиды позже используются для выбора смысла слова с наибольшим сходством целевого слова с его непосредственно соседними соседями (т. Е. Словами-предшественниками и последователями). После того, как все слова аннотированы и устранены неоднозначности, их можно использовать в качестве учебного корпуса в любой стандартной технике встраивания слов. В своей улучшенной версии MSSA может использовать вложения смысла слова для итеративного повторения процесса устранения неоднозначности.

Другие подходы

Другие подходы могут различаться по своим методам:

Другие языки

  • хинди : Отсутствие лексические ресурсы на хинди мешают работе контролируемых моделей WSD, тогда как неконтролируемые модели страдают из-за обширной морфологии. Возможное решение этой проблемы - создание модели WSD с помощью параллельные корпуса.[45][46] Создание Хинди WordNet проложил путь для нескольких контролируемых методов, которые, как было доказано, обеспечивают более высокую точность в устранении неоднозначности существительных.[47]

Местные препятствия и резюме

Узкое место в получении знаний, возможно, является основным препятствием на пути решения проблемы WSD. Неконтролируемые методы полагаться на знания о значениях слов, которые очень редко сформулированы в словарях и лексических базах данных. Контролируемые методы в решающей степени зависят от наличия вручную аннотированных примеров для каждого смысла слова, что до сих пор[когда? ] быть встреченным только для нескольких слов в целях тестирования, как это сделано в Senseval упражнения.

Одна из самых многообещающих тенденций в исследовании WSD - использование самых больших корпус когда-либо доступный, Всемирная сеть, для автоматического получения лексической информации.[48] WSD традиционно понимается как технология разработки промежуточного языка, которая может улучшить такие приложения, как поиск информации (ИК). Однако в этом случае верно и обратное: поисковые системы реализовать простые и надежные методы IR, которые могут успешно добывать в Интернете информацию для использования в WSD. Историческая нехватка данных для обучения спровоцировала появление некоторых новых алгоритмов и методов, как описано в Автоматическое получение корпусов с метками смысла.

Источники внешних знаний

Знания - фундаментальный компонент WSD. Источники знаний предоставляют данные, которые необходимы для связи смыслов со словами. Они могут варьироваться от корпусов текстов, как без надписей, так и с аннотациями слов, до машиночитаемых словарей, тезаурусов, глоссариев, онтологий и т. Д.[49][50] классифицируются следующим образом:

Структурированный:

  1. Машиночитаемые словари (MRD)
  2. Онтологии
  3. Тезаурусы

Неструктурированный:

  1. Ресурсы для коллокации
  2. Другие ресурсы (например, списки частотности слов, стоп-листы, метки домена,[51] так далее.)
  3. Корпуса: необработанные корпуса и корпуса с смысловыми аннотациями

Оценка

Сравнивать и оценивать разные системы WSD чрезвычайно сложно из-за различных наборов тестов, аналитических обзоров и используемых ресурсов знаний. До организации конкретных оценочных кампаний большинство систем оценивались собственными силами, часто в небольших масштабах, наборы данных. Чтобы проверить свой алгоритм, разработчики должны тратить свое время на аннотирование всех вхождений слов. И сравнение методов даже в одном и том же корпусе недопустимо, если есть разные смысловые инвентаризации.

Для определения общих наборов данных и процедур оценки были организованы общественные оценочные кампании. Senseval (теперь переименован SemEval ) - это международный конкурс по устранению неоднозначности, который проводится каждые три года с 1998 года: Сенсеваль-1 (1998), Сенсеваль-2 (2001), Сенсеваль-3 (2004), и его преемник, SemEval (2007). Целью конкурса является организация различных лекций, подготовка и ручное аннотирование корпуса для тестовых систем, выполнение сравнительной оценки систем WSD в нескольких видах задач, включая полнословный и лексический образец WSD для разных языков, а в последнее время , новые задачи, такие как маркировка семантических ролей, глянец WSD, лексическая замена и т. д. Системы, представленные для оценки на этих соревнованиях, обычно объединяют различные методы и часто сочетают контролируемые и основанные на знаниях методы (особенно для того, чтобы избежать плохих результатов при отсутствии примеров обучения).

За последние годы 2007-2012выбор задач оценки WSD увеличился, а критерий оценки WSD радикально изменился в зависимости от варианта задачи оценки WSD. Ниже перечислено разнообразие задач WSD:

Выбор дизайна задачи

По мере развития технологий задачи устранения неоднозначности слов (WSD) становятся все более разнообразными в разных направлениях исследований и для большего количества языков:

  • Классический одноязычный WSD в задачах оценки используется WordNet в качестве инструментария и в значительной степени основывается на под наблюдением /полууправляемый классификация с аннотированными корпусами вручную:[52]
    • Классический английский WSD использует Princeton WordNet поскольку он определяет инвентаризацию, и ввод первичной классификации обычно основывается на СемКор корпус.
    • Классический WSD для других языков использует соответствующие WordNet в качестве смысловых описей и смысловых аннотированных корпусов, помеченных на их соответствующих языках. Часто исследователи также обращаются к корпусу SemCor и выравнивают битексты с английским языком как его исходный язык
  • Межъязычный WSD задача оценки также сосредоточена на WSD на 2 или более языках одновременно. В отличие от многоязычных задач WSD, вместо предоставления вручную смысловых примеров для каждого смысла многозначного существительного, смысловой перечень строится на основе параллельных корпусов, например Europarl corpus.[53]
  • Многоязычный WSD задачи оценки были сосредоточены на WSD на 2 или более языках одновременно, используя их соответствующие WordNets в качестве своих смысловых инвентаря или BabelNet как многоязычный сенсорный инвентарь.[54] Он возник на основе задач оценки Translation WSD, которые выполнялись в Senseval-2. Популярным подходом является выполнение одноязычного WSD с последующим отображением смыслов исходного языка в соответствующие переводы целевого слова.[55]
  • Задача на определение смысла слов и устранение неоднозначности это комбинированная оценка задачи, в которой сначала проводится инвентаризация чувств. индуцированный из фиксированного Обучающий набор данные, состоящие из многозначных слов и предложения, в котором они встречаются, то WSD выполняется на другом набор данных тестирования.[56]

Программного обеспечения

  • Бабельфы,[57] единая современная система для многоязычного устранения неоднозначности слов и связывания сущностей
  • BabelNet API,[58] Java API для многоязычного устранения неоднозначности слов на 6 различных языках с использованием BabelNet. семантическая сеть
  • WordNet :: SenseRelate,[59] проект, который включает бесплатные системы с открытым исходным кодом для устранения неоднозначности смысла слов и устранения неоднозначности лексических образцов
  • UKB: Graph Base WSD,[60] набор программ для устранения неоднозначности слов и лексического сходства / родства на основе графов с использованием уже существующей базы лексических знаний[61]
  • pyWSD,[62] реализации технологий Word Sense Disambiguation (WSD) на Python

Смотрите также

Заметки

  1. ^ Ткач 1949.
  2. ^ Бар-Гилель 1964 С. 174–179.
  3. ^ а б c Навильи, Литковски и Харгрейвс 2007 С. 30–35.
  4. ^ а б Pradhan et al. 2007 г. С. 87–92.
  5. ^ Яровский 1992 С. 454–460.
  6. ^ Михалча 2007.
  7. ^ А. Моро, А. Раганато, Р. Навильи. Связывание сущностей и устранение многозначности слов: единый подход В архиве 2014-08-08 в Wayback Machine. Сделки Ассоциация компьютерной лингвистики (TACL), 2, стр. 231-244, 2014.
  8. ^ Феллбаум 1997.
  9. ^ Снайдер и Палмер 2004 С. 41–43.
  10. ^ Навильи 2006 С. 105–112.
  11. ^ Snow et al. 2007 г. С. 1005–1014.
  12. ^ Ленат.
  13. ^ Палмер, Бабко-Малая и Данг 2004 С. 49–56.
  14. ^ Эдмондс 2000.
  15. ^ Килгарриф 1997 С. 91–113.
  16. ^ Маккарти и Навильи, 2009 г. С. 139–159.
  17. ^ Ленат и Гуха 1989.
  18. ^ Уилкс, Слатор и Гатри 1996.
  19. ^ Леск 1986 С. 24–26.
  20. ^ Diamantini, C .; Мирколи, А .; Potena, D .; Сторти, Э. (01.06.2015). «Устранение семантической неоднозначности в системе обнаружения социальной информации». 2015 Международная конференция по технологиям и системам совместной работы (CTS): 326–333. Дои:10.1109 / CTS.2015.7210442. ISBN  978-1-4673-7647-1. S2CID  13260353.
  21. ^ Навильи и Веларди 2005 С. 1063–1074.
  22. ^ Агирре, Лопес де Лакаль и Сороа 2009 С. 1501–1506.
  23. ^ Навильи и Лапата 2010 С. 678–692.
  24. ^ Понцетто и Навильи 2010 С. 1522–1531.
  25. ^ Яровский 1995 С. 189–196.
  26. ^ Schütze 1998 С. 97–123.
  27. ^ Navigli & Crisafulli 2010.
  28. ^ DiMarco и Navigli 2013.
  29. ^ а б Миколов, Томас; Чен, Кай; Коррадо, Грег; Дин, Джеффри (16 января 2013 г.). «Эффективное оценивание представлений слов в векторном пространстве». arXiv:1301.3781 [cs.CL ].
  30. ^ Пеннингтон, Джеффри; Сохер, Ричард; Мэннинг, Кристофер (2014). «Перчатка: глобальные векторы для представления слов». Материалы конференции 2014 г. по эмпирическим методам обработки естественного языка (EMNLP). Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 1532–1543. Дои:10.3115 / v1 / d14-1162. S2CID  1957433.
  31. ^ Бояновски, Петр; Могила, Эдуард; Жулен, Арман; Миколов, Томас (декабрь 2017 г.). «Обогащение векторов слов информацией о подсловах». Труды Ассоциации компьютерной лингвистики. 5: 135–146. Дои:10.1162 / tacl_a_00051. ISSN  2307-387X.
  32. ^ Якобаччи, Игнасио; Пилехвар, Мохаммад Тахер; Навильи, Роберто (2016). "Вложения для устранения неоднозначности слов: оценочное исследование". Труды 54-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи). Берлин, Германия: Ассоциация компьютерной лингвистики: 897–907. Дои:10.18653 / v1 / P16-1085.
  33. ^ Роте, Саша; Шютце, Хинрих (2015). «AutoExtend: расширение вложений Word до вложений для синсетов и лексем». Труды 53-го ежегодного собрания Ассоциации компьютерной лингвистики и 7-й совместной международной конференции по обработке естественного языка (Том 1: Длинные статьи). Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 1793–1803. arXiv:1507.01127. Bibcode:2015arXiv150701127R. Дои:10.3115 / v1 / p15-1173. S2CID  15687295.
  34. ^ а б Роте, Саша; Шютце, Хинрих (сентябрь 2017 г.). «AutoExtend: объединение встраиваемых слов с семантическими ресурсами». Компьютерная лингвистика. 43 (3): 593–617. Дои:10.1162 / coli_a_00294. ISSN  0891-2017.
  35. ^ а б Руас, Терри; Гроски, Уильям; Айзава, Акико (декабрь 2019 г.). "Многосмысловые вложения посредством процесса устранения неоднозначности". Экспертные системы с приложениями. 136: 288–303. Дои:10.1016 / j.eswa.2019.06.026. HDL:2027.42/145475.
  36. ^ Галицкий, Борис (2005). «Устранение неоднозначности с помощью правил по умолчанию при ответах на сложные вопросы». Международный журнал по инструментам искусственного интеллекта. 14: 157–175. Дои:10.1142 / S0218213005002041.
  37. ^ Глиоццо, Маньини и Страппарава 2004 С. 380–387.
  38. ^ Buitelaar et al. 2006 г. С. 275–298.
  39. ^ Маккарти и др. 2007 г. С. 553–590.
  40. ^ Мохаммад и Херст 2006 С. 121–128.
  41. ^ Лапата и Келлер 2007 С. 348–355.
  42. ^ Ide, Erjavec & Tufis 2002 С. 54–60.
  43. ^ Чан и Нг 2005 С. 1037–1042.
  44. ^ Стюарт М. Шибер (1992). Грамматические формализмы на основе ограничений: синтаксический анализ и вывод типов для естественных и компьютерных языков. MIT Press. ISBN  978-0-262-19324-5.
  45. ^ Бхаттачарья, Индраджит, Лиз Гетур и Йошуа Бенджио. Автоматическое устранение неоднозначности с использованием двуязычных вероятностных моделей. Труды 42-го Ежегодного собрания Ассоциации компьютерной лингвистики. Ассоциация компьютерной лингвистики, 2004 г.
  46. ^ Диаб, Мона и Филип Резник. Неконтролируемый метод разметки смысла слов с использованием параллельных корпусов. Труды 40-го Ежегодного собрания Ассоциации компьютерной лингвистики. Ассоциация компьютерной лингвистики, 2002.
  47. ^ Маниш Синха, Махеш Кумар, Прабхакар Панде, Лакшми Кашьяп и Пушпак Бхаттачарья. Значение смысла слов на хинди. На Международном симпозиуме по машинному переводу, обработке естественного языка и системам поддержки перевода, Дели, Индия, 2004 г.
  48. ^ Килгарриф и Грефенстетт 2003 С. 333–347.
  49. ^ Литковский 2005 С. 753–761.
  50. ^ Агирре и Стивенсон, 2006 г. С. 217–251.
  51. ^ Magnini & Cavaglià 2000 С. 1413–1418.
  52. ^ Люсия Специя, Мария дас Гракас Вольпе Нуньес, Габриэла Каштелу Бранко Рибейро и Марк Стивенсон. Многоязычный WSD в сравнении с одноязычным В архиве 2012-04-10 в Wayback Machine. В семинаре EACL-2006 по осмыслению смысла: объединение психолингвистики и компьютерной лингвистики, страницы 33–40, Тренто, Италия, апрель 2006 г.
  53. ^ Эльс Лефевер и Вероник Хосте. СемЭваль-2010, задание 3: межъязыковое устранение смысловой неоднозначности. Материалы семинара по семантическим оценкам: последние достижения и будущие направления. 4–4 июня 2009 г., Боулдер, Колорадо
  54. ^ Р. Навильи, Д. А. Юргенс, Д. Ваннелла. SemEval-2013 Задание 12: Устранение многоязычной словесной неоднозначности. Proc. 7-го международного семинара по семантической оценке (SemEval) на Второй совместной конференции по лексической и вычислительной семантике (* SEM 2013), Атланта, США, 14-15 июня 2013 г., стр. 222-231.
  55. ^ Люсия Специя, Мария дас Гракас Вольпе Нуньес, Габриэла Каштелу Бранко Рибейро и Марк Стивенсон. Многоязычный WSD в сравнении с одноязычным В архиве 2012-04-10 в Wayback Machine. В семинаре EACL-2006 по осмыслению смысла: объединение психолингвистики и компьютерной лингвистики, страницы 33–40, Тренто, Италия, апрель 2006 г.
  56. ^ Энеко Агирре и Айтор Сороа. Семевал-2007, задание 02: оценка систем индукции и распознавания смысла слов. Труды 4-го Международного семинара по семантическим оценкам, стр.7-12, 23-24 июня 2007 г., Прага, Чешская Республика
  57. ^ "Бабельфы". Babelfy. Получено 2018-03-22.
  58. ^ «BabelNet API». Babelnet.org. Получено 2018-03-22.
  59. ^ "WordNet :: SenseRelate". Senserelate.sourceforge.net. Получено 2018-03-22.
  60. ^ "UKB: Graph Base WSD". Ixa2.si.ehu.es. Получено 2018-03-22.
  61. ^ «База лексических знаний (ББЗ)». Moin.delph-in.net. 2018-02-05. Получено 2018-03-22.
  62. ^ alvations. "pyWSD". Github.com. Получено 2018-03-22.

Процитированные работы

Внешние ссылки и рекомендуемое чтение