Подпоследовательность - Subsequence

В математика, а подпоследовательность это последовательность который может быть получен из другой последовательности путем удаления некоторых элементов или отсутствия элементов без изменения порядка остальных элементов. Например, последовательность является подпоследовательностью получается после удаления элементов , , и . Отношение одной последовательности, являющейся подпоследовательностью другой, является Предварительный заказ.

Подпоследовательности могут содержать последовательные элементы, которые не были последовательными в исходной последовательности. Подпоследовательность, состоящая из последовательного выполнения элементов исходной последовательности, например из , это подстрока. Подстрока - это уточнение подпоследовательности.

Список всех подпоследовательностей для слова "яблоко" было бы "а", "ap", "аль", "ае", "приложение", "apl", "обезьяна", "эль", "приложение", "Appe", "апл", "яблоко", "п", "pp", "pl", "pe", "человек", "ppe", "Ple", "pple", "л", "ле", "е", "".

Общая подпоследовательность

Учитывая две последовательности Икс и Y, последовательность Z считается общая подпоследовательность из Икс и Y, если Z является подпоследовательностью обоих Икс и Y. Например, если

и
и

тогда называется общей подпоследовательностью Икс и Y.

Это бы нет быть самая длинная общая подпоследовательность, поскольку Z имеет длину только 3, а общая подпоследовательность имеет длину 4. Самая длинная общая подпоследовательность Икс и Y является .

Приложения

Подпоследовательности имеют приложения к Информатика,[1] особенно в дисциплине биоинформатика, где компьютеры используются для сравнения, анализа и хранения ДНК, РНК, и белок последовательности.

Возьмем две последовательности ДНК, содержащие 37 элементов, скажем:

SEQ1 = ACGGTGTCGTGCTATGCTGATGCTGACTTATATGCTA
SEQ2 = CGTTCGGCTATCGTACGTTCTATTCTATGATTTCTAA

Самая длинная общая подпоследовательность последовательностей 1 и 2:

LCS(SEQ1, SEQ2) = CGTTCGGCTATGCTTCTACTTATTCTA

Это можно проиллюстрировать, выделив 27 элементов самой длинной общей подпоследовательности в начальных последовательностях:

SEQ1 = АCGграммТграммTCGТGCTATGCTGAТграммCTграммACTTATАТграммCTA
SEQ2 = CGTTCGGCTATCграммTACграммTTCTATTCTАТграммATTТCTAА

Другой способ показать это - выровнять две последовательности, т.е., чтобы расположить элементы самой длинной общей подпоследовательности в одном столбце (обозначенном вертикальной чертой) и ввести специальный символ (здесь тире) в одной последовательности, когда два элемента в одном столбце различаются:

SEQ1 = ACGGTGTCGTGCTAT-G - C-TGATGCTGA - CT-T-ATATG-CTA-
        | || ||| ||||| |  | |  | || |  || | || |  |||
SEQ2 = -C-GT-TCG-GCTATCGTACGT - T-CT-ATTCTATGAT-T-TCTAA

Подпоследовательности используются для определения сходства двух цепей ДНК с использованием оснований ДНК: аденин, гуанин, цитозин и тимин.

Теоремы

Смотрите также

Примечания

  1. ^ В информатике нить часто используется как синоним последовательность, но важно отметить, что подстрока и подпоследовательность не синонимы. Подстроки последовательный части строки, в то время как подпоследовательности могут не быть. Это означает, что подстрока строки всегда является подпоследовательностью строки, но подпоследовательность строки не всегда является подстрокой строки, см .: Гасфилд, Дэн (1999) [1997]. Алгоритмы на строках, деревьях и последовательностях: информатика и вычислительная биология. США: Издательство Кембриджского университета. п. 4. ISBN  0-521-58519-8.

Эта статья включает материалы из подпоследовательности на PlanetMath, который находится под лицензией Лицензия Creative Commons Attribution / Share-Alike.