Модель зашумленного канала - Noisy channel model
В модель зашумленного канала фреймворк, используемый в средства проверки правописания,ответ на вопрос, распознавание речи, и машинный перевод В этой модели цель состоит в том, чтобы найти искомое слово в слове, в котором буквы каким-то образом зашифрованы.
Определение
Учитывая алфавит , позволять - множество всех конечных строк над . Пусть словарь допустимых слов быть некоторым подмножеством , т.е..
В шумный канал это матрица
- ,
куда это предполагаемое слово и это фактически полученное зашифрованное слово.
Пример
Рассмотрим английский алфавит. Некоторое подмножество составляет словарь действительных английских слов.
При наборе текста может произойти несколько ошибок, в том числе:
- Пропущенные буквы, например, письмо вместо письмо
- Случайные добавления букв, например, ошибка вместо ошибка
- Обмен буквами, например, получен вместо получила
- Замена букв, например, фимит вместо конечный
Для построения матрицы зашумленного канала , мы должны учитывать вероятность каждой ошибки при заданном слове ( для всех и). Эти вероятности можно собрать, например, рассматривая Расстояние Левенштейна между и или сравнивая черновик эссе с тем, которое было вручную отредактировано на предмет правописания.
Исправление ошибки
Цель модели зашумленного канала - найти нужное слово с учетом полученного зашифрованного слова. В функция принятия решения это функция, которая по зашифрованному слову возвращает заданное слово.
Методы построения решающей функции включаютправило максимального правдоподобия, топравило апостериорного максимума, аправило минимального расстояния.
В некоторых случаях может быть лучше принять зашифрованное слово как задуманное, чем пытаться найти предполагаемое слово в словаре. Например, слово Schönfinkeling может не быть в словаре, но на самом деле может быть предполагаемым словом.
Смотрите также
Рекомендации
- Брилл, Эрик; Мур, Роберт С. (январь 2000 г.). «Улучшенная модель ошибок для исправления орфографии зашумленного канала». Материалы ACL 2000: 286–293. Дои:10.3115/1075218.1075255.