Приблизительное соответствие строк - Approximate string matching

Нечеткий поиск Mediawiki по запросу "сердитый смайлик": "Вы имели в виду: Андре эмоции"

В Информатика, приблизительное соответствие строк (часто в просторечии называют поиск нечеткой строки) - это метод нахождения струны что соответствует шаблон приблизительно (а не точно). Проблема приблизительного сопоставления строк обычно делится на две подзадачи: поиск приблизительного подстрока совпадает с заданной строкой и находит словарные строки, примерно соответствующие шаблону.

Обзор

Близость совпадения измеряется количеством примитивных операций, необходимых для преобразования строки в точное совпадение. Этот номер называется редактировать расстояние между строкой и узором. Обычные примитивные операции:^[1]

вставка: детская кроватка → coат
удаление: coат → детская кроватка
замена: coат → cosт

Эти три операции могут быть обобщены как формы подстановки путем добавления символа NULL (здесь обозначается *) везде, где символ был удален или вставлен:

вставка: co*т → coат
удаление: coат → co*т
замена: coат → cosт

Некоторые приближенные сопоставители также относятся к транспозиция, в котором позиции двух букв в строке меняются местами, что является примитивной операцией.^[2]

транспозиция: coул → cots

Различные приближенные сопоставители накладывают разные ограничения. Некоторые сопоставители используют единую глобальную невзвешенную стоимость, то есть общее количество примитивных операций, необходимых для преобразования сопоставления в шаблон. Например, если узор катушка, фольга отличается одной заменой, катушки одной прошивкой, масло одним удалением, и жеребенок двумя заменами. Если все операции считаются одной единицей затрат и установлено ограничение на единицу, фольга, катушки, и масло будет считаться совпадением, пока жеребенок не буду.

Другие сопоставители определяют количество операций каждого типа отдельно, в то время как третьи устанавливают общую стоимость, но позволяют назначать разные веса разным операциям. Некоторые сопоставители позволяют раздельно присваивать пределы и веса отдельным группам в шаблоне.

Постановка проблемы и алгоритмы

Одно из возможных определений проблемы приблизительного сопоставления строк следующее: задана строка шаблона ${displaystyle P = p_ {1} p_ {2} ... p_ {m}}$ и текстовая строка ${displaystyle T = t_ {1} t_ {2} dots t_ {n}}$ , найдите подстроку ${displaystyle T_ {j ', j} = t_ {j'} точки t_ {j}}$ в Т, который из всех подстрок Т, имеет наименьшее расстояние редактирования до шаблона п.

Подход грубой силы заключается в том, чтобы вычислить расстояние редактирования до P для всех подстрок T, а затем выбрать подстроку с минимальным расстоянием. Однако у этого алгоритма время работы О (п³ м).

Лучшее решение, которое предложили Продавцы^[3], полагается на динамическое программирование. Используется альтернативная постановка задачи: для каждой позиции j в тексте Т и каждая позиция я в шаблоне п, вычислим минимальное расстояние редактирования между я первые символы узора, ${displaystyle P_ {i}}$ , и любая подстрока ${displaystyle T_ {j ', j}}$ из Т что заканчивается на позиции j.

На каждую позицию j в тексте Т, и каждая позиция я в шаблоне п, пройдемся по всем подстрокам Т заканчивается в позиции j, и определить, какой из них имеет минимальное расстояние до я первые символы узора п. Запишите это минимальное расстояние как E(я, j). После вычисления E(я, j) для всех я и j, мы легко можем найти решение исходной задачи: это подстрока, для которой E(м, j) минимально (м длина рисунка п.)

Вычисление E(м, j) очень похож на вычисление расстояния редактирования между двумя строками. Фактически, мы можем использовать Алгоритм вычисления расстояния Левенштейна за E(м, j) с той лишь разницей, что мы должны инициализировать первую строку нулями и сохранить путь вычисления, то есть использовали ли мы E(я − 1,j), E (я,j - 1) или E(я − 1,j - 1) в вычислениях E(я, j).

В массиве, содержащем E(Икс, у) значения, затем выбираем минимальное значение в последней строке, пусть это будет E(Икс₂, у₂) и проследуйте по пути вычислений назад, обратно к строке номер 0. Если бы поле, к которому мы пришли, было E(0, у₁), тогда Т[у₁ + 1] ... Т[у₂] - это подстрока T с минимальным расстоянием редактирования до шаблона п.

Вычисление E(Икс, у) массив принимает О (мин) время с алгоритмом динамического программирования, в то время как фаза обратной работы занимает О (п + м) время.

Еще одна недавняя идея - соединение подобия. Когда соответствующая база данных относится к большому объему данных, О (мин) время с алгоритмом динамического программирования не может работать в течение ограниченного времени. Итак, идея состоит в том, чтобы вместо вычисления сходства все пары строк, чтобы уменьшить количество пар-кандидатов. Широко используемые алгоритмы основаны на проверке фильтров, хешировании, Хеширование с учетом местоположения (LSH), Пытается и другие жадные и аппроксимационные алгоритмы. Большинство из них спроектировано так, чтобы соответствовать какой-либо структуре (например, Map-Reduce) для одновременных вычислений.

Он-лайн или оф-лайн

Традиционно алгоритмы приблизительного сопоставления строк подразделяются на две категории: оперативные и автономные. С помощью онлайн-алгоритмов шаблон может быть обработан перед поиском, а текст - нет. Другими словами, онлайн-методы выполняют поиск без индекса. Ранние алгоритмы для приблизительного сопоставления онлайн были предложены Вагнером и Фишером.^[4] и продавцами^[5]. Оба алгоритма основаны на динамическое программирование но решать разные проблемы. Алгоритм Продавца приблизительно ищет подстроку в тексте, в то время как алгоритм Вагнера и Фишера вычисляет Расстояние Левенштейна, подходит только для нечеткого поиска по словарю.

Методики онлайн-поиска неоднократно совершенствовались. Пожалуй, самое известное улучшение - это битовый алгоритм (также известный как алгоритм shift-or и shift-and), который очень эффективен для относительно коротких строк шаблона. Алгоритм Bitap - это сердце Unix поиск полезность соглашаться. Обзор алгоритмов онлайн-поиска был сделан Дж. Наварро.^[6]

Хотя существуют очень быстрые интерактивные методы, их производительность на больших объемах данных неприемлема. Предварительная обработка текста или индексация значительно ускоряет поиск. Сегодня представлены различные алгоритмы индексации. Среди них есть суффиксные деревья^[7], метрические деревья^[8] и н-грамм методы.^[9]^[10] Подробный обзор техник индексирования, позволяющих находить произвольную подстроку в тексте, дал Наварро. и другие.^[11] Вычислительный обзор словарных методов (т.е. методов, позволяющих находить все словарные слова, приблизительно соответствующие поисковому шаблону) дан Бойцовым^[12].

Приложения

Общие приложения приблизительного сопоставления включают: проверка орфографии.^[13] При наличии большого количества данных ДНК сопоставление нуклеотид Последовательности стали важным приложением.^[14] Приближенное соответствие также используется в фильтрация спама.^[15] Запись связи это обычное приложение, в котором сопоставляются записи из двух разных баз данных.

Сопоставление строк нельзя использовать для большинства двоичных данных, таких как изображения и музыка. Для них требуются разные алгоритмы, например акустическая дактилоскопия.

Смотрите также

Поиск концепции
Расстояние Яро – Винклера
Расстояние Левенштейна
Хеширование с учетом местоположения
Метафон
Алгоритм Нидлмана – Вунша
Обнаружение плагиата
Обычные выражения для нечеткого и нечеткого соответствия
Алгоритм Смита – Уотермана
Soundex
Строковая метрика

внешняя ссылка

Фламинго Проект
Проект эффективной обработки запросов на подобие с недавними достижениями в приблизительном сопоставлении строк на основе порогового значения расстояния редактирования.
StringMetric проект а Scala библиотека строковых метрик и фонетических алгоритмов
Природный проект а JavaScript библиотека обработки естественного языка, которая включает реализации популярных строковых показателей

[1]

[3]

[4]

[6]

[7]

[8]

[9]

[10]

[12]

Струны
Строковая метрика	Приблизительное соответствие строк Битап алгоритм Расстояние Дамерау – Левенштейна Изменить расстояние Сопоставление гештальт-паттернов Расстояние Хэмминга Расстояние Яро – Винклера Расстояние Ли Автомат Левенштейна Расстояние Левенштейна Алгоритм Вагнера – Фишера
Алгоритм поиска строки	Алгоритм Апостолико – Джанкарло Алгоритм поиска строки Бойера – Мура Алгоритм Бойера – Мура – Хорспула Алгоритм Кнута – Морриса – Пратта Алгоритм Рабина – Карпа
Поиск по нескольким строкам	Ахо-Корасик Комментарий-алгоритм Вальтера
Регулярное выражение	Сравнение движков регулярных выражений Обычная грамматика Конструкция Томпсона Недетерминированный конечный автомат
Выравнивание последовательности	Алгоритм Хиршберга Алгоритм Нидлмана – Вунша Алгоритм Смита – Уотермана
Структура данных	DAFSA Массив суффиксов Суффикс-автомат Суффиксное дерево Обобщенное суффиксное дерево Веревка Тернарное дерево поиска Трие
Другой	Парсинг Сопоставление с образцом Сжатое сопоставление с образцом Самая длинная общая подпоследовательность Самая длинная общая подстрока Последовательный анализ паттернов Сортировка