Модель языка кеширования - Cache language model

А модель языка кеширования это тип статистической языковая модель. Это происходит в обработка естественного языка подполе Информатика и назначить вероятности к заданным последовательностям слов с помощью распределение вероятностей. Статистические языковые модели являются ключевыми компонентами распознавание речи систем и многих машинный перевод системы: они сообщают таким системам, какие возможные последовательности выходных слов вероятны, а какие - маловероятны. Особенностью модели языка кеширования является то, что она содержит компонент кеша и присваивает относительно высокие вероятности словам или последовательностям слов, которые встречаются в другом месте данного текста. Основное, но ни в коем случае не единственное, использование языковых моделей кэширования - это системы распознавания речи.[нужна цитата ]

Чтобы понять, почему статистическая языковая модель должна содержать компонент кеша, можно рассмотреть человека, который диктует письмо о слонах системе распознавания речи. Стандартный (без кеширования) N-грамм языковые модели приписывают очень низкую вероятность слову «слон», потому что это слово очень редко встречается в английский. Если система распознавания речи не содержит компонента кэша, человек, диктующий букву, может быть раздражен: каждый раз, когда произносится слово «слон», может распознаваться другая последовательность слов с более высокой вероятностью согласно языковой модели N-грамма (например, , «расскажи план»). Эти ошибочные последовательности придется удалять вручную и заменять в тексте словом «слон» каждый раз, когда произносится «слон». Если в системе есть модель языка кэширования, «слон», вероятно, все равно будет неправильно распознан при первом разговоре, и его придется вводить в текст вручную; однако с этого момента система знает, что «слон», вероятно, появится снова - оценочная вероятность появления «слона» была увеличена, что повышает вероятность того, что, если он произнесен, он будет распознан правильно. Если слово «слон» встречается несколько раз, система, вероятно, будет правильно распознавать его каждый раз, когда на нем говорят, пока буква не будет полностью продиктована. Это увеличение вероятности появления «слона» является примером последствий машинное обучение и более конкретно распознавание образов.

Существуют варианты модели языка кэширования, в которых не только отдельным словам, но и последовательностям из нескольких слов, которые встречались ранее, назначаются более высокие вероятности (например, если "Сан-Франциско" встречается в начале текста, последующие его экземпляры будут назначены более высокая вероятность).

Модель языка кеширования была впервые предложена в статье, опубликованной в 1990 г.[1] после чего IBM группа распознавания речи экспериментировала с концепцией. Группа обнаружила, что реализация модели языка кеширования привела к снижению на 24% частота ошибок в словах как только были продиктованы первые несколько сотен слов документа.[2] Подробный обзор методов языкового моделирования пришел к выводу, что модель языка кеширования была одним из немногих новых методов языкового моделирования, которые привели к улучшениям по сравнению со стандартным подходом с N-граммами: «Наши результаты кэширования показывают, что кэширование является, безусловно, наиболее полезным методом для уменьшения сложности на малых и средних данные обучения размеры ".[3]

Разработка модели языка кеширования вызвала значительный интерес среди тех, кто занимается компьютерная лингвистика в целом и статистическая обработка естественного языка в частности: в последнее время появился интерес к применению модели языка кэширования в области статистического машинного перевода.[4]

Успех языковой модели кеширования в улучшении предсказание слова основывается на человеческой склонности использовать слова в «взрывной» манере: когда кто-то обсуждает определенную тему в определенном контексте, частота, с которой он использует определенные слова, будет сильно отличаться от их частоты, когда кто-то обсуждает другие темы в других контекстах . Традиционные языковые модели N-граммы, которые полностью полагаются на информацию из очень небольшого числа (четыре, три или два) слов, предшествующих слову, которому должна быть присвоена вероятность, не адекватно моделируют эту «всплеск».

Недавно концепция модели языка кэширования, первоначально задуманная для парадигмы модели статистического языка N-грамм, была адаптирована для использования в нейронной парадигме. Например, недавняя работа над языковыми моделями непрерывного кеширования в рекуррентная нейронная сеть Параметр (RNN) применил концепцию кеширования к гораздо более широким контекстам, чем раньше, что привело к значительному снижению сложности.[5] Другое недавнее направление исследований связано с включением компонента кеширования в прямая связь нейронная языковая модель (FN-LM) для быстрой адаптации предметной области.[6]

Смотрите также

Рекомендации

  1. ^ Kuhn, R .; Де Мори, Р. (Июнь 1990 г.). «Модель естественного языка на основе кэша для распознавания речи» (PDF). IEEE Transactions по анализу шаблонов и машинному анализу. 12 (6): 570–583. Дои:10.1109/34.56193. ISSN  1939-3539. Архивировано из оригинал (PDF) на 2011-09-01. Получено 2011-09-24. (Абстрактный )
  2. ^ Ф. Елинек; Б. Мериальдо; С. Рукос и М. Штраус (1991). «Динамическая языковая модель для распознавания речи» (PDF). Журнал акустического общества Америки. 98 (2): 293–295. Дои:10.3115/112405.112464. S2CID  11601499. Архивировано из оригинал (PDF) 14 июня 2006 г. Конференция «Речь и естественный язык», материалы семинара, проведенного в Пасифик-Гроув, Калифорния, США, 19–22 февраля 1999 г.
  3. ^ Джошуа Т. Гудман (2001). Небольшой прогресс в языковом моделировании: расширенная версия. Редмонд, Вашингтон (США): Microsoft Research. arXiv:cs / 0108005v1. Bibcode:2001cs ........ 8005G. Технический отчет MSR-TR-2001-72.
  4. ^ Тидеманн, Йорг (2010). Адаптация контекста в статистическом машинном переводе с использованием моделей с экспоненциально убывающим кешем (PDF). Материалы семинара 2010 года по адаптации предметной области для обработки естественного языка, ACL 2010. Упсала, Швеция: Ассоциация компьютерной лингвистики. С. 8–15.
  5. ^ Эдуард Грейв; Мустафа Сиссе; Арман Жулен (2017). «Модель неограниченного кэша для онлайн-моделирования языков с открытым словарем». NIPS'17 Труды 31-й Международной конференции по системам обработки нейронной информации. Лонг-Бич, Калифорния: Ассоциация вычислительной техники. С. 6044–6054. ISBN  978-1-5108-6096-4.
  6. ^ Карел Бенеш; Сантош Кесираджу; Лукас Бургет (2018). i-векторы в языковом моделировании: эффективный способ адаптации предметной области для моделей с прямой связью. Interspeech 2018. Хайдарабад, Индия: Interspeech. С. 3383–3387. Дои:10.21437 / Interspeech.2018-1070. S2CID  52192034.

дальнейшее чтение