Коричневая кластеризация - Brown clustering

Коричневая кластеризация тяжело иерархическая агломеративная кластеризация проблема, основанная на информации о распределении, предложенная Питером Брауном, Уильямом А. Брауном, Винсентом Делла Пьетра, Питер В. де Соуза, Дженнифер Лай и Роберт Мерсер.[1] Обычно он применяется к тексту, группируя слова в кластеры, которые считаются семантически связанными в силу того, что они были встроены в одинаковые контексты.

Вступление

В обработка естественного языка, Коричневая кластеризация[2] или же Кластеризация IBM[3] это форма иерархическая кластеризация слов, основанных на контекстах, в которых они встречаются, предложенных Питером Брауном, Уильямом А. Брауном, Винсентом Делла Пьетра, Питером де Соуза, Дженнифер Лай и Роберт Мерсер из IBM в контексте языковое моделирование.[1] Интуиция, лежащая в основе метода, заключается в том, что языковая модель на основе классов (также называемый кластер п-грамма модель[3]), то есть тот, в котором вероятности слов основаны на классах (кластерах) предыдущих слов, используется для решения разреженность данных проблема, присущая языковому моделированию.

Юрафски и Мартин приводят пример система бронирования рейсов что необходимо оценить вероятность биграммы «в Шанхай», не увидев этого в обучающей выборке.[3] Система может получить хорошую оценку, если она может сгруппировать «Шанхай» с другими названиями городов, а затем сделать свою оценку на основе вероятности таких фраз, как «в Лондон», «в Пекин» и «в Денвер».

Техническое определение

Коричневый группирует элементы (т. Е. типы ) в классы, используя критерий бинарного слияния, основанный на логарифмическая вероятность текста в рамках языковой модели на основе классов, то есть вероятностной модели, учитывающей кластеризацию. Таким образом, средний взаимная информация (AMI) - это функция оптимизации, и слияния выбираются таким образом, чтобы они несли наименьшие потери в глобальном масштабе. взаимная информация.

В результате результат можно рассматривать не только как двоичное дерево но, возможно, более полезно в виде последовательности слияний, заканчивающейся одним большим классом всех слов. Эта модель имеет тот же общий вид, что и скрытая марковская модель, приведенные к вероятностям биграмм в решении задачи Брауна. MI определяется как:

Поиск кластеризации, которая максимизирует вероятность данных, требует больших вычислительных ресурсов. Подход, предложенный Brown et al. это жадный эвристический.

В работе также предлагается использовать кластеризацию Брауна в качестве упрощенной языковой модели на основе классов биграмм. Данные показатели членства в кластере cя за жетоны шя в тексте вероятность появления слова шя с учетом предыдущего слова шя-1 дан кем-то:[3]

Это подверглось критике[нужна цитата ] как имеющий ограниченную полезность, поскольку он всегда предсказывает только наиболее распространенные слова в любом классе, и поэтому ограничен | c | типы слов; это отражается в небольшом относительном снижении недоумения, обнаруженном при использовании этой модели и Брауна.

Вариации

В других работах триграммы исследовались в их подходах к проблеме кластеризации Брауна.[4]

Предлагаемая коричневая кластеризация генерирует фиксированное количество выходных классов. Важно выбрать правильное количество занятий, которое зависит от задачи.[5] Принадлежность слов к кластерам, полученная в результате кластеризации Брауна, может использоваться в качестве функций в различных машинно обученный задачи обработки естественного языка.[2]

Обобщение алгоритма было опубликовано на конференции AAAI в 2016 году, включая краткое формальное определение версии 1992 года, а затем также общую форму.[6] В основе этого лежит концепция, согласно которой классы, рассматриваемые для слияния, не обязательно представляют окончательное количество выходных классов, и что изменение количества классов, рассматриваемых для слияния, напрямую влияет на скорость и качество конечного результата.

Нет никаких известных теоретических гарантий относительно жадной эвристики, предложенной Brown et al. (по состоянию на февраль 2018 г.). Однако проблему кластеризации можно сформулировать как оценку параметров базовой модели языка на основе классов: для этой модели можно разработать непротиворечивую оценку при умеренных предположениях.[7]

Смотрите также

Рекомендации

  1. ^ а б Питер Ф. Браун; Питер В. де Соуза; Роберт Л. Мерсер; Винсент Дж. Делла Пьетра; Дженифер С. Лай (1992). "По классам п-граммы моделей естественного языка » (PDF). Компьютерная лингвистика. 18 (4).
  2. ^ а б Джозеф Туриан; Лев Ратинов; Йошуа Бенжио (2010). Представления слов: простой и общий метод обучения без учителя (PDF). Труды 48-го ежегодного собрания Ассоциации компьютерной лингвистики.
  3. ^ а б c d Даниэль Джурафски; Джеймс Х. Мартин (2009). Обработка речи и языка. Pearson Education International. С. 145–146.
  4. ^ Свен Мартин; Йорг Лиерманн; Герман Ней (1999). «Алгоритмы биграммной и триграммной кластеризации слов». Речевое общение. 24 (1): 19–37. CiteSeerX  10.1.1.53.2354. Дои:10.1016 / S0167-6393 (97) 00062-9.
  5. ^ Леон Дерчинский; Шон Честер; Кеннет С. Бог (2015). Настройте коричневую кластеризацию, пожалуйста (PDF). Труды конференции по последним достижениям в обработке естественного языка.
  6. ^ Леон Дерчинский; Шон Честер (2016). Обобщенная кластеризация Брауна и создание агрегированных функций. Труды тридцатой конференции AAAI по искусственному интеллекту.
  7. ^ Карл Стратос; До-кюм Ким; Майкл Коллинз; Даниэль Сюй (2014). Спектральный алгоритм изучения n-граммных моделей естественного языка на основе классов (PDF). Труды 30-й конференции по неопределенности в искусственном интеллекте.

внешняя ссылка