Алгоритм Яровского - Википедия - Yarowsky algorithm

В компьютерная лингвистика то Алгоритм Яровского является обучение без учителя алгоритм за значение смысла слова который использует "одно чувство на словосочетание "и" один смысл на дискурс "свойства человеческие языки для значения смысла слова. По наблюдениям, слова имеют тенденцию проявлять только один смысл в большинстве данных дискурса и в данном словосочетании.

Заявление

Алгоритм начинается с большого немаркированного корпус, в котором он определяет примеры данного многозначный слово, и хранит все соответствующие фразы как линии. Например, Яровский использует слово «растение» в своей статье 1995 года, чтобы продемонстрировать алгоритм. Если предполагается, что существует два возможных смысла слова, следующим шагом будет определение небольшого количества начальных словосочетаний, представляющих каждое значение, присвоение каждому значению метки (то есть смысл A и B), а затем присвоение соответствующей метки для все обучающие примеры, содержащие начальные словосочетания. В этом случае слова «жизнь» и «производство» выбраны в качестве начальных словосочетаний для смыслов A и B соответственно. Остаточные примеры (85–98% по Яровскому) остаются непомеченными.

Первоначально алгоритм должен выбрать репрезентативные начальные словосочетания, которые будут точно и продуктивно различать смыслы A и B. Это можно сделать, выбрав исходные слова из толковый словарь Вход в этом смысле. Словосочетания имеют более сильный эффект, если они расположены рядом с целевым словом, эффект ослабевает с увеличением расстояния. В соответствии с критериями, приведенными в Yarowsky (1993), будут выбраны исходные слова, которые появляются в наиболее надежных коллокационных отношениях с целевым словом. Эффект намного сильнее для слов в предикат -аргументное отношение, чем для произвольных ассоциаций на том же расстоянии от целевого слова, и намного сильнее для словосочетаний с содержательными словами, чем с функциональными словами. При этом словосочетание может иметь несколько коллокационных отношений с целевым словом во всем корпусе. Это может дать слову другой рейтинг или даже другую классификацию. В качестве альтернативы, это можно сделать, указав одно определяющее словосочетание для каждого класса и используя для начальных значений только те контексты, которые содержат одно из этих определяющих слов. Общедоступная база данных WordNet может использоваться как автоматический источник таких определяющих терминов. Кроме того, слова, которые встречаются рядом с целевым словом с большой частотой, могут быть выбраны в качестве репрезентативных начальных словосочетаний. Этот подход не является полностью автоматическим, человек-судья должен решить, какое слово будет выбрано для каждого значения целевого слова, выходные данные будут надежными индикаторами чувств.

А список решений Затем алгоритм используется для определения других надежных сочетаний. Этот обучающий алгоритм вычисляет вероятность Pr (Sense | Collocation), а список решений ранжируется по логарифмическому отношению правдоподобия:

А сглаживание Затем будет использоваться алгоритм, чтобы избежать 0 значений. Алгоритм списка решений решает многие проблемы в большом наборе не независимых источников свидетельств, используя только наиболее надежные свидетельства, а не весь набор совпадающих словосочетаний.

Затем новый результирующий классификатор будет применен ко всему набору выборки. Добавьте эти примеры в остаточный которые помечены как A или B с вероятностью выше разумного порога для начальных наборов. Применяются алгоритм списка решений и шаг добавления выше. итеративно. По мере добавления новых изученных словосочетаний к начальным наборам смысловой A или смысловой набор B будет расти, а исходный остаток будет уменьшаться. Однако эти сочетания остаются в начальных наборах только в том случае, если их вероятность классификации остается выше порога, в противном случае они возвращаются в остаток для последующей классификации. В конце каждой итерации можно использовать свойство «одно чувство на дискурс», чтобы помочь предотвратить изначально ошибочно помеченные словосочетания и, следовательно, улучшить чистоту начальных наборов.

Во избежание того, чтобы сильные словосочетания становились индикаторами неправильного класса, порог включения в класс необходимо изменять случайным образом. Для этой же цели после промежуточной сходимости алгоритму также потребуется увеличить ширину контекстного окна.

Алгоритм будет продолжать повторяться до тех пор, пока не перестанут быть найдены более надежные сочетания. Свойство «Один смысл на дискурс» можно использовать здесь для исправления ошибок. Для целевого слова с бинарным смысловым разделением, если вхождения в большинстве смыслов А превышают второстепенные значения В на определенный порог, меньшинство будут переименованы как А. Согласно Яровски, для любого смысла, чтобы быть ясно доминантный, количество вхождений целевого слова должно быть не менее 4.

Когда алгоритм сходится к стабильному остаточному набору, получается окончательный список решений целевого слова. Наиболее надежные словосочетания находятся в верхней части нового списка вместо исходных исходных слов. Затем исходный непомеченный корпус помечается метками смысла и вероятностями. Список окончательных решений теперь может быть применен к новым данным, совместное размещение с наивысшим рангом в списке используется для классификации новых данных. Например, если наиболее ранжируемое словосочетание целевого слова в новом наборе данных имеет смысл A, то целевое слово классифицируется как значение A.

Смотрите также

Рекомендации

  • Яровски, Д. "Неконтролируемые методы устранения неоднозначности слов, конкурирующие с контролируемыми методами". Труды 33-го ежегодного собрания Ассоциации компьютерной лингвистики. Кембридж, Массачусетс, стр. 189–196, 1995.