Самая длинная общая проблема с подстрокой - Longest common substring problem

В Информатика, то самая длинная общая проблема с подстрокой найти самый длинный нить (или строки), который является подстрока (или являются подстроками) двух или более строк.

Пример

Самая длинная общая подстрока строк «ABABC», «BABCA» и «ABCBA» - это строка «ABC» длины 3. Другие общие подстроки: «A», «AB», «B», «BA», «BC». и «С».

  ABABC ||| BABCA ||| ABCBA

Определение проблемы

Учитывая две строки, ${ displaystyle S}$ длины ${ displaystyle m}$ и ${ displaystyle T}$ длины ${ displaystyle n}$ , найдите самую длинную строку, которая является подстрокой обоих ${ displaystyle S}$ и ${ displaystyle T}$ .

Обобщением является k-общая проблема с подстрокой. Учитывая набор строк ${ Displaystyle S = {S_ {1}, ..., S_ {K} }}$ , куда ${ displaystyle | S_ {i} | = n_ {i}}$ и ${ displaystyle Sigma n_ {i} = N}$ . Найдите для каждого ${ Displaystyle 2 Leq K Leq K}$ , самые длинные строки, которые встречаются как подстроки как минимум ${ displaystyle k}$ струны.

Алгоритмы

Можно найти длины и начальные позиции самых длинных общих подстрок ${ displaystyle S}$ и ${ displaystyle T}$ в ${ Displaystyle Theta (п + м)}$ время с помощью обобщенное суффиксное дерево. Найти их динамическое программирование расходы ${ Displaystyle Theta (нм)}$ . Решения обобщенной задачи принимают ${ displaystyle Theta (n_ {1} + ... + n_ {K})}$ пространство и ${ Displaystyle Theta (п_ {1}}$ ·...· ${ displaystyle n_ {K})}$ время с динамическое программирование и возьми ${ Displaystyle Theta (Н * К)}$ время с обобщенное суффиксное дерево.

Суффиксное дерево

Обобщенное суффиксное дерево для строк «ABAB», «BABA» и «ABBA», пронумерованных 0, 1 и 2.

Самые длинные общие подстроки набора строк можно найти, построив обобщенное суффиксное дерево для строк, а затем находим самые глубокие внутренние узлы, которые имеют листовые узлы из всех строк в поддереве под ним. На рисунке справа показано дерево суффиксов для строк «ABAB», «BABA» и «ABBA», дополненное уникальными ограничителями строки, которые превращаются в «ABAB $ 0», «BABA $ 1» и «ABBA $ 2». Узлы, представляющие «A», «B», «AB» и «BA», имеют дочерние листья из всех строк, пронумерованные 0, 1 и 2.

Построение дерева суффиксов требует ${ Displaystyle Theta (N)}$ время (если размер алфавита постоянный). Если пройти по дереву снизу вверх с битовым вектором, указывающим, какие строки видны под каждым узлом, проблема k-общих подстрок может быть решена в ${ Displaystyle Theta (NK)}$ время. Если суффиксное дерево подготовлено для постоянного времени наименьший общий предок поиск, это может быть решено в ${ Displaystyle Theta (N)}$ время.^[1]

Псевдокод

Следующий псевдокод находит набор самых длинных общих подстрок между двумя строками с помощью динамического программирования:

функция LCSubstr (S [1..r], T [1..n]) L: = множество(1..r, 1..n) z: = 0 ret: = {} за я: = 1..r за j: = 1..n если S [i] = T [j] если я = 1 или же j = 1 L [i, j]: = 1 еще                    L [i, j]: = L [i - 1, j - 1] + 1 если L [i, j]> z z: = L [i, j] ret: = {S [i - z + 1..i]} еще если L [i, j] = z ret: = ret ∪ {S [i - z + 1..i]} еще                L [i, j]: = 0 возвращаться Ret

Этот алгоритм работает в ${ displaystyle O (nr)}$ время. Переменная z используется для хранения длины самой длинной найденной общей подстроки. Набор Ret используется для удержания набора строк, длина которых z. Набор Ret можно эффективно сохранить, просто сохранив индекс я, который является последним символом самой длинной общей подстроки (размера z) вместо S [i-z + 1..i]. Таким образом, все самые длинные общие подстроки будут для каждого i в Ret, S [(ret [i] -z) .. (ret [i])].

Следующие приемы можно использовать для уменьшения использования памяти реализацией:

Оставьте только последнюю и текущую строку таблицы DP для экономии памяти ( ${ Displaystyle О ( мин (г, п))}$ вместо ${ displaystyle O (nr)}$ )
Храните в строках только ненулевые значения. Это можно сделать с помощью хеш-таблиц вместо массивов. Это полезно для больших алфавитов.

Смотрите также

Дедупликация данных
Самая длинная палиндромная подстрока
п-грамма, все возможные подстроки длины п которые содержатся в строке
Обнаружение плагиата

внешняя ссылка

[Gus97-1] Гасфилд, Дэн (1999) [1997]. Алгоритмы на строках, деревьях и последовательностях: информатика и вычислительная биология. США: Издательство Кембриджского университета. ISBN 0-521-58519-8.

[1]

Струны
Строковая метрика	Приблизительное соответствие строк Битап алгоритм Расстояние Дамерау – Левенштейна Изменить расстояние Сопоставление гештальт-паттернов Расстояние Хэмминга Расстояние Яро – Винклера Расстояние Ли Автомат Левенштейна Расстояние Левенштейна Алгоритм Вагнера – Фишера
Алгоритм поиска строки	Алгоритм Апостолико – Джанкарло Алгоритм поиска строки Бойера – Мура Алгоритм Бойера – Мура – Хорспула Алгоритм Кнута – Морриса – Пратта Алгоритм Рабина – Карпа
Поиск по нескольким строкам	Ахо-Корасик Комментарий-алгоритм Вальтера
Регулярное выражение	Сравнение движков регулярных выражений Обычная грамматика Конструкция Томпсона Недетерминированный конечный автомат
Выравнивание последовательности	Алгоритм Хиршберга Алгоритм Нидлмана – Вунша Алгоритм Смита – Уотермана
Структура данных	DAFSA Массив суффиксов Суффикс-автомат Суффиксное дерево Обобщенное суффиксное дерево Веревка Тернарное дерево поиска Trie
Другой	Парсинг Сопоставление с образцом Сжатое сопоставление с образцом Самая длинная общая подпоследовательность Самая длинная общая подстрока Последовательный анализ паттернов Сортировка