Самая длинная общая проблема с подстрокой - Longest common substring problem

В Информатика, то самая длинная общая проблема с подстрокой найти самый длинный нить (или строки), который является подстрока (или являются подстроками) двух или более строк.

Пример

Самая длинная общая подстрока строк «ABABC», «BABCA» и «ABCBA» - это строка «ABC» длины 3. Другие общие подстроки: «A», «AB», «B», «BA», «BC». и «С».

  ABABC ||| BABCA ||| ABCBA

Определение проблемы

Учитывая две строки, длины и длины , найдите самую длинную строку, которая является подстрокой обоих и .

Обобщением является k-общая проблема с подстрокой. Учитывая набор строк , куда и . Найдите для каждого , самые длинные строки, которые встречаются как подстроки как минимум струны.

Алгоритмы

Можно найти длины и начальные позиции самых длинных общих подстрок и в время с помощью обобщенное суффиксное дерево. Найти их динамическое программирование расходы . Решения обобщенной задачи принимают пространство и ·...· время с динамическое программирование и возьми время с обобщенное суффиксное дерево.

Суффиксное дерево

Обобщенное суффиксное дерево для строк «ABAB», «BABA» и «ABBA», пронумерованных 0, 1 и 2.

Самые длинные общие подстроки набора строк можно найти, построив обобщенное суффиксное дерево для строк, а затем находим самые глубокие внутренние узлы, которые имеют листовые узлы из всех строк в поддереве под ним. На рисунке справа показано дерево суффиксов для строк «ABAB», «BABA» и «ABBA», дополненное уникальными ограничителями строки, которые превращаются в «ABAB $ 0», «BABA $ 1» и «ABBA $ 2». Узлы, представляющие «A», «B», «AB» и «BA», имеют дочерние листья из всех строк, пронумерованные 0, 1 и 2.

Построение дерева суффиксов требует время (если размер алфавита постоянный). Если пройти по дереву снизу вверх с битовым вектором, указывающим, какие строки видны под каждым узлом, проблема k-общих подстрок может быть решена в время. Если суффиксное дерево подготовлено для постоянного времени наименьший общий предок поиск, это может быть решено в время.[1]

Псевдокод

Следующий псевдокод находит набор самых длинных общих подстрок между двумя строками с помощью динамического программирования:

функция LCSubstr (S [1..r], T [1..n]) L: = множество(1..r, 1..n) z: = 0 ret: = {} за я: = 1..r за j: = 1..n если S [i] = T [j] если я = 1 или же j = 1 L [i, j]: = 1 еще                    L [i, j]: = L [i - 1, j - 1] + 1 если L [i, j]> z z: = L [i, j] ret: = {S [i - z + 1..i]} еще если L [i, j] = z ret: = ret ∪ {S [i - z + 1..i]} еще                L [i, j]: = 0 возвращаться Ret

Этот алгоритм работает в время. Переменная z используется для хранения длины самой длинной найденной общей подстроки. Набор Ret используется для удержания набора строк, длина которых z. Набор Ret можно эффективно сохранить, просто сохранив индекс я, который является последним символом самой длинной общей подстроки (размера z) вместо S [i-z + 1..i]. Таким образом, все самые длинные общие подстроки будут для каждого i в Ret, S [(ret [i] -z) .. (ret [i])].

Следующие приемы можно использовать для уменьшения использования памяти реализацией:

  • Оставьте только последнюю и текущую строку таблицы DP для экономии памяти ( вместо )
  • Храните в строках только ненулевые значения. Это можно сделать с помощью хеш-таблиц вместо массивов. Это полезно для больших алфавитов.

Смотрите также

Рекомендации

  1. ^ Гасфилд, Дэн (1999) [1997]. Алгоритмы на строках, деревьях и последовательностях: информатика и вычислительная биология. США: Издательство Кембриджского университета. ISBN  0-521-58519-8.

внешняя ссылка