Расстояние Дамерау – Левенштейна - Damerau–Levenshtein distance

В теория информации и Информатика, то Расстояние Дамерау – Левенштейна (названный в честь Фредерик Дж. Дамерау и Левенштейн Владимир Иванович[1][2][3]) это строковая метрика для измерения редактировать расстояние между двумя последовательностями. Неформально расстояние Дамерау – Левенштейна между двумя словами - это минимальное количество операций (состоящих из вставок, удалений или замен одного символа или транспозиция двух соседних символов) требуется для замены одного слова на другое.

Расстояние Дамерау – Левенштейна отличается от классического Расстояние Левенштейна путем включения транспозиций в допустимые операции в дополнение к трем классическим операциям редактирования одного символа (вставки, удаления и замены).[4][2]

В своей основополагающей статье[5] Дамерау заявил, что при исследовании орфографических ошибок для информационно-поисковой системы более 80% были результатом единственной ошибки одного из четырех типов. В статье Дамерау рассматривались только орфографические ошибки, которые можно исправить не более чем за одну операцию редактирования. Изначально целью было измерить расстояние между человеческими орфографическими ошибками для улучшения таких приложений, как средства проверки правописания Расстояние Дамерау-Левенштейна также нашло применение в биологии для измерения вариации между последовательностями белков.[6]

Определение

Чтобы выразить расстояние Дамерау – Левенштейна между двумя струнами и функция определено, значение которого - расстояние между –Символ префикс (начальная подстрока) строки и –Символьный префикс .

В ограниченное расстояние функция определяется рекурсивно как:,[7]:А: 11

куда это индикаторная функция равно 0, когда и равняется 1 в противном случае.

Каждый рекурсивный вызов соответствует одному из случаев, охватываемых расстоянием Дамерау – Левенштейна:

  • соответствует удалению (от a до b).
  • соответствует вставке (от a до b).
  • соответствует совпадению или несовпадению, в зависимости от того, совпадают ли соответствующие символы.
  • соответствует транспозиция между двумя последовательными символами.

Расстояние Дамерау – Левенштейна между а и б затем задается значением функции для полных строк: куда обозначает длину строки а и это длина б.

Алгоритм

Здесь представлены два алгоритма: первый,[8] более простой, вычисляет то, что известно как оптимальное расстояние выравнивания струны или же ограниченное расстояние редактирования,[7] а второй[9] вычисляет расстояние Дамерау – Левенштейна со смежными транспозициями. Добавление транспозиций добавляет значительную сложность. Разница между двумя алгоритмами состоит в том, что алгоритм оптимального выравнивания строк вычисляет количество операций редактирования, необходимых для уравнивания строк при условии, что ни одна подстрока не редактируется более одного раза, тогда как второй не представляет такого ограничения.

Возьмем, к примеру, расстояние редактирования между CA и ABC. Расстояние Дамерау – Левенштейна LD (CA,ABC) = 2, поскольку CAACABC, но оптимальное расстояние выравнивания строки OSA (CA,ABC) = 3, потому что если операция CAAC используется, невозможно использовать ACABC потому что для этого потребуется отредактировать подстроку более одного раза, что недопустимо в OSA, и поэтому самая короткая последовательность операций CAАABABC. Обратите внимание, что для оптимального расстояния выравнивания струны неравенство треугольника не выполняется: OSA (CA,AC) + OSA (AC,ABC) CA,ABC), поэтому это неверная метрика.

Оптимальное расстояние выравнивания струны

Оптимальное расстояние выравнивания струны можно вычислить, используя прямое расширение Вагнер – Фишер динамическое программирование алгоритм, который вычисляет Расстояние Левенштейна. В псевдокод:

алгоритм OSA-расстояние является    Вход: строки a [1..length (a)], b [1..length (b)] выход: расстояние, целое число позволять d [0..length (a), 0..length (b)] - двумерный массив целых чисел, размеры length (a) +1, length (b) +1 // обратите внимание, что d имеет нулевой индекс, а a и b - единичный.        за я: = 0 к длина (а) включающий делать        d [i, 0]: = i за j: = 0 к длина (б) включающий делать        d [0, j]: = j за я: = 1 к длина (а) включающий делать        за j: = 1 к длина (б) включающий делать            если a [i] = b [j] тогда                Стоимость: = 0 еще                стоимость: = 1 d [i, j]: = минимум (d [i-1, j] + 1, // удаление                               d [i, j-1] + 1, // вставка                               d [i-1, j-1] + стоимость) // подстановка            если i> 1 и j> 1 и a [i] = b [j-1] и a [i-1] = b [j] тогда                d [i, j]: = минимум (d [i, j], d [i-2, j-2] + 1) // транспонирование    возвращаться d [длина (a), длина (b)]

Отличие от алгоритма для расстояния Левенштейна состоит в добавлении одного повторения:

если i> 1 и j> 1 и a [i] = b [j-1] и a [i-1] = b [j] тогда    d [i, j]: = минимум (d [i, j], d [i-2, j-2] + 1) // транспонирование

Расстояние со смежными транспозициями

Следующий алгоритм вычисляет истинное расстояние Дамерау – Левенштейна со смежными транспозициями; этот алгоритм требует в качестве дополнительного параметра размер алфавита Σ, так что все записи массивов находятся в [0, | Σ |):[7]:А: 93

алгоритм DL-расстояние является    Вход: строки a [1..length (a)], b [1..length (b)] выход: расстояние, целое число da: = новый массив | Σ | целые числа за я: = 1 к | Σ | включающий делать        da [i]: = 0 позволять d [−1..length (a), −1..length (b)] - двумерный массив целых чисел, размеры length (a) +2, length (b) +2 // обратите внимание, что d имеет индексы, начинающиеся с -1, а a, b и da - одноиндексные.        maxdist: = длина (a) + длина (b) d [−1, −1]: = maxdist за я: = 0 к длина (а) включающий делать        d [i, −1]: = maxdist d [i, 0]: = i за j: = 0 к длина (б) включающий делать        d [−1, j]: = maxdist d [0, j]: = j за я: = 1 к длина (а) включающий делать        дб: = 0 за j: = 1 к длина (б) включающий делать            k: = da [b [j]] ℓ: = db если a [i] = b [j] тогда                стоимость: = 0 дБ: = j еще                стоимость: = 1 d [i, j]: = минимум (d [i − 1, j − 1] + стоимость, // подстановка                               d [i, j − 1] + 1, // вставка                               d [i − 1, j] + 1, // удаление                               d [k − 1, ℓ − 1] + (i − k − 1) + 1 + (j-ℓ − 1)) // транспонирование        da [a [i]]: = i возвращаться d [длина (a), длина (b)]

Чтобы разработать правильный алгоритм для вычисления неограниченного расстояния Дамерау – Левенштейна, обратите внимание, что всегда существует оптимальная последовательность операций редактирования, при которой однажды транспонированные буквы никогда не изменяются впоследствии. (Это действует до тех пор, пока стоимость перестановки , по крайней мере, средняя стоимость вставки и удаления, т. е. .[9]Таким образом, нам нужно рассмотреть только два симметричных способа изменения подстроки более одного раза: (1) транспонировать буквы и вставлять между ними произвольное количество символов или (2) удалить последовательность символов и транспонировать буквы, которые становятся смежными после удаление. Прямая реализация этой идеи дает алгоритм кубической сложности: , куда M и N - длины строк. Используя идеи Лоуренса и Вагнера,[9] этот наивный алгоритм можно улучшить до в худшем случае, что и делает приведенный выше псевдокод.

Интересно, что битовый алгоритм может быть изменен для обработки транспонирования. См. Раздел поиска информации[1] для примера такой адаптации.

Приложения

Расстояние Дамерау – Левенштейна играет важную роль в обработка естественного языка. В естественных языках строки короткие, а количество ошибок (орфографических ошибок) редко превышает 2. В таких обстоятельствах ограниченное и реальное расстояние редактирования различаются очень редко. Оммен и Локи[8] даже смягчил ограничение на ограниченное расстояние редактирования, введя обобщенные транспозиции. Тем не менее, следует помнить, что ограниченное расстояние редактирования обычно не удовлетворяет неравенство треугольника и поэтому не может использоваться с метрические деревья.

ДНК

С ДНК часто претерпевает вставки, делеции, замены и транспозиции, и каждая из этих операций происходит примерно в одном и том же масштабе времени, расстояние Дамерау-Левенштейна является подходящей метрикой вариации между двумя цепями ДНК. Более распространенным в задачах выравнивания ДНК, белков и других биоинформатических методов является использование тесно связанных алгоритмов, таких как Алгоритм Нидлмана – Вунша или же Алгоритм Смита – Уотермана.

Обнаружение мошенничества

Алгоритм можно использовать с любым набором слов, например с именами поставщиков. Поскольку ввод осуществляется вручную по своей природе, существует риск ввода ложного поставщика. Сотрудник-мошенник может указать одного реального поставщика, такого как "Rich Heir Estate Services", а не ложного поставщика "Rich Hier State Services". Затем мошенник создает фальшивый банковский счет и отправляет чеки компании реальному поставщику и ложному поставщику. Алгоритм Дамерау – Левенштейна обнаружит переставленную и пропущенную букву и привлечет внимание проверяющего на предмет мошенничества.

Экспортный контроль

Правительство США использует расстояние Дамерау – Левенштейна в своем API консолидированного списка проверки.[10]

Смотрите также

  • Ispell предлагает поправки, основанные на расстоянии Дамерау – Левенштейна, равном 1
  • Typosquatting

Рекомендации

  1. ^ Брилл, Эрик; Мур, Роберт С. (2000). Улучшенная модель ошибок для исправления орфографии зашумленного канала (PDF). Труды 38-го Ежегодного собрания Ассоциации компьютерной лингвистики. С. 286–293. Дои:10.3115/1075218.1075255. Архивировано из оригинал (PDF) 21 декабря 2012 г.
  2. ^ а б Бард, Грегори В. (2007), "Устойчивые к орфографическим ошибкам, не зависящие от порядка парольные фразы с помощью метрики расстояния редактирования строки Дамерау – Левенштейна", Труды Пятого Австралазийского симпозиума по границам ACSW: 2007, Балларат, Австралия, 30 января - 2 февраля 2007 г., Конференции по исследованиям и практике в области информационных технологий, 68, Дарлингхерст, Австралия: Австралийское компьютерное общество, Inc., стр. 117–124, ISBN  978-1-920682-49-1.
  3. ^ Ли; и другие. (2006). Изучение моделей на основе распределительного сходства для исправления орфографии запросов (PDF). Материалы 21-й Международной конференции по компьютерной лингвистике и 44-го ежегодного собрания Ассоциации компьютерной лингвистики. С. 1025–1032. Дои:10.3115/1220175.1220304. Архивировано из оригинал (PDF) на 2010-04-01.
  4. ^ Левенштейн, Владимир И. (февраль 1966 г.), «Двоичные коды, способные исправлять удаления, вставки и обращения», Советская физика., 10 (8): 707–710
  5. ^ Дамерау, Фред Дж. (Март 1964 г.), «Техника компьютерного обнаружения и исправления орфографических ошибок», Коммуникации ACM, 7 (3): 171–176, Дои:10.1145/363958.363994, S2CID  7713345
  6. ^ Метод, используемый в: Majorek, Karolina A .; Дунин-Горкавич, Станислав; и другие. (2013), «Суперсемейство РНКазы Н: новые члены, сравнительный структурный анализ и эволюционная классификация», Исследования нуклеиновых кислот, 42 (7): 4160–4179, Дои:10.1093 / nar / gkt1414, ЧВК  3985635, PMID  24464998
  7. ^ а б c Бойцов, Леонид (май 2011). «Методы индексирования для приблизительного словарного поиска». Журнал экспериментальной алгоритмики. 16: 1. Дои:10.1145/1963190.1963191. S2CID  15635688.
  8. ^ а б Oommen, B.J .; Локи, Р. К. С. (1997). «Распознавание образов строк с заменами, вставками, удалениями и обобщенными транспозициями». Распознавание образов. 30 (5): 789–800. CiteSeerX  10.1.1.50.1459. Дои:10.1016 / S0031-3203 (96) 00101-X.
  9. ^ а б c Лоуренс, Рой; Вагнер, Роберт А. (апрель 1975 г.), "Расширение проблемы исправления строки к строке", J ACM, 22 (2): 177–183, Дои:10.1145/321879.321880, S2CID  18892193
  10. ^ http://developer.trade.gov/consolidated-screening-list.html

дальнейшее чтение