FASTA - FASTA

ФАСТА
Разработчики)
Стабильный выпуск
36
Репозиторий Отредактируйте это в Викиданных
Операционная система
ТипБиоинформатика
Лицензияapache2.0
Интернет сайт

FASTA это ДНК и белок выравнивание последовательностей программный пакет, впервые описанный Дэвид Дж. Липман и Уильям Р. Пирсон в 1985 г.[1] Его наследие - это Формат FASTA что теперь повсеместно в биоинформатика.

История

Первоначальная программа FASTP была разработана для поиска сходства последовательностей белков. Из-за экспоненциально расширяющейся генетической информации и ограниченной скорости и памяти компьютеров в 1980-х годах были введены эвристические методы для согласования последовательности запроса со всеми базами данных. FASTA, опубликованная в 1987 году, добавила возможность выполнять поиск ДНК: ДНК, транслированный белок: поиск ДНК, а также предоставила более сложную программу перетасовки для оценки статистической значимости.[2] В этом пакете есть несколько программ, которые позволяют выравнивать белок последовательности и последовательности ДНК. В настоящее время повышенная производительность компьютера позволяет выполнять поиск местный обнаружение выравнивания в базе данных с помощью Алгоритм Смита – Уотермана.

FASTA произносится как «быстрый A» и означает «FAST-All», потому что он работает с любым алфавитом, расширением исходных инструментов выравнивания «FAST-P» (белок) и «FAST-N» (нуклеотид).

Хронология картографов (с 2001 г.). Картографы ДНК нанесены синим цветом, картографы РНК - красным, картографы миРНК - зеленым, а картографы бисульфита - фиолетовым. Серые пунктирные линии соединяют связанные мапперы (расширения или новые версии). Временная шкала включает только составители карт с рецензируемыми публикациями, а дата соответствует самой ранней дате публикации (например, дате предварительной публикации, а не дате публикации)

Использует

Текущий пакет FASTA содержит программы для поиска белок: белок, ДНК: ДНК, белок: транслируемая ДНК (со сдвигом рамки) и упорядоченного или неупорядоченного поиска пептидов. Последние версии пакета FASTA включают специальные переведенные алгоритмы поиска, которые правильно обрабатывают сдвиг рамки ошибки (которые при поиске с трансляцией шести кадров не обрабатываются очень хорошо) при сравнении данных последовательности нуклеотида и белка.

Помимо методов быстрого эвристического поиска, пакет FASTA предоставляет SSEARCH, реализацию оптимального Алгоритм Смита – Уотермана.

Основное внимание в пакете уделяется вычислению точной статистики сходства, чтобы биологи могли судить о том, произошло ли совпадение случайно, или его можно использовать для вывода гомология. Пакет FASTA доступен на сайте Университет Вирджинии[3] и Европейский институт биоинформатики.[4]

В Формат файла FASTA используется в качестве входных данных для этого программного обеспечения, в настоящее время широко используется другими инструментами поиска в базе данных последовательностей (такими как ВЗРЫВ ) и программы выравнивания последовательностей (Clustal, Т-кофе, так далее.).

Метод поиска

FASTA берет данную нуклеотидную или аминокислотную последовательность и выполняет поиск в соответствующей базе данных последовательностей, используя локальное выравнивание последовательностей найти совпадения с похожими последовательностями в базе данных.

Программа FASTA следует в основном эвристический метод, который способствует высокой скорости его выполнения. Первоначально он наблюдает за образцом совпадений слов, дословных совпадений заданной длины и помечает потенциальные совпадения перед выполнением более трудоемкого оптимизированного поиска с использованием Смит – Уотерман тип алгоритма.

Размер слова, задаваемый параметром kmer, контролирует чувствительность и скорость работы программы. Увеличение к-мер value уменьшает количество обнаруженных фоновых совпадений. По возвращаемым совпадениям слов программа ищет сегменты, содержащие кластер ближайших совпадений. Затем он исследует эти сегменты на предмет возможного совпадения.

Есть некоторые различия между fastn и fastp, связанные с типом используемых последовательностей, но оба используют четыре шага и вычисляют три оценки для описания и форматирования результатов сходства последовательностей. Эти:

  • Определите области с наибольшей плотностью при каждом сравнении последовательностей. Принимая k-мер равным 1 или 2.
На этом этапе все или группа идентичностей между двумя последовательностями обнаруживаются с помощью таблицы поиска. Значение k-mer определяет, сколько последовательных идентификаторов требуется для объявления соответствия. Таким образом, чем меньше значение k-mer, тем более чувствителен поиск. k-mer = 2 часто используется пользователями для белковых последовательностей, а kmer = 4 или 6 - для нуклеотидных последовательностей. короткий олигонуклеотиды обычно запускаются с k-mer = 1. Затем программа находит все похожие местные регионы, представленные в виде диагоналей определенной длины на точечной диаграмме, между двумя последовательностями путем подсчета совпадений k-мер и штрафов за промежуточные несовпадения. Сюда, местные регионы совпадений наивысшей плотности по диагонали изолированы от фоновых совпадений. Для белковых последовательностей BLOSUM50 значения используются для оценки совпадений k-mer. Это гарантирует, что группы идентичностей с высокими оценками сходства больше вносят вклад в локальную диагональную оценку, чем в идентичности с низкими оценками сходства. Нуклеотидные последовательности используют единичная матрица с той же целью. Затем сохраняются 10 лучших локальных регионов, выбранных из всех вместе взятых диагоналей.
  • Повторно просканируйте области, взятые с использованием оценочных матриц. обрезка концов области, чтобы включить только те, которые внесли наибольший вклад.
Повторно просканируйте 10 взятых регионов. На этот раз используйте соответствующую матрицу оценок при восстановлении, чтобы разрешить серии идентификаторов короче, чем значение k-mer. Также при восстановлении берутся консервативные замены, которые влияют на оценку сходства. Хотя белковые последовательности используют BLOSUM50 матрица, скоринговые матрицы, основанные на минимальном количестве базовых изменений, необходимых для конкретной замены, только на идентификаторах или на альтернативе мера сходства такие как PAM, также можно использовать с программой. Для каждой из диагональных областей, повторно просканированных таким образом, определяется подобласть с максимальной оценкой. Первоначальные оценки, полученные на этапе 1, используются для ранжирования библиотечных последовательностей. Наивысший балл обозначается как init1 Гол.
  • В выравнивании, если обнаружено несколько начальных областей с оценками, превышающими значение CUTOFF, проверьте, можно ли соединить обрезанные начальные области, чтобы сформировать приблизительное выравнивание с зазорами. Подсчитайте показатель сходства, который представляет собой сумму штрафных баллов для объединенных регионов за каждый разрыв в 20 баллов. Эта начальная оценка сходства (initn) используется для ранжирования библиотечных последовательностей. Сообщается оценка единственного лучшего начального региона, найденного на шаге 2 (init1).
Здесь программа рассчитывает оптимальное выравнивание начальных регионов как комбинацию совместимых регионов с максимальным баллом. Это оптимальное выравнивание начальных областей можно быстро вычислить с помощью алгоритма динамического программирования. Полученная оценка initn используется для ранжирования библиотечных последовательностей. Этот процесс соединения увеличивает чувствительность, но снижает селективность. Таким образом, для контроля того, где будет реализован этот шаг, используется тщательно рассчитанное пороговое значение, которое составляет приблизительно один среднеквадратичное отклонение выше среднего балла, ожидаемого от неродственных последовательностей в библиотеке. Последовательность запроса с 200 остатками с k-mer 2 использует значение 28.
На этом шаге используется полосатая Алгоритм Смита – Уотермана для создания оптимизированной оценки (выбрать) для каждого выравнивания последовательности запроса с последовательностью базы данных (библиотеки). Требуется полоса из 32 остатков с центром в init1 область шага 2 для расчета оптимального выравнивания. После поиска всех последовательностей программа отображает начальные оценки каждой последовательности базы данных в гистограмма, и вычисляет статистическую значимость оценки «opt». Для белковых последовательностей окончательное выравнивание производится с использованием полного Смит – Уотерман выравнивание. Для последовательностей ДНК предусмотрено линейное выравнивание.
Алгоритм Смита-Уотермана-Пример-En.gif

FASTA не может удалить области низкой сложности перед выравниванием последовательностей, как это возможно с BLAST. Это может быть проблематично, поскольку последовательность запроса содержит такие области, например мини- или микросателлиты, часто повторяющие одну и ту же короткую последовательность, это увеличивает количество незнакомых последовательностей в базе данных, которые совпадают только в этих повторах, которые встречаются довольно часто. Поэтому программа PRSS добавлена ​​в дистрибутив FASTA. PRSS перемешивает совпадающие последовательности в базе данных либо на однобуквенном уровне, либо перемешивает короткие сегменты, длину которых может определить пользователь. Перетасованные последовательности теперь снова выровнены, и если оценка все еще выше, чем ожидалось, это вызвано тем, что области с низкой сложностью перемешаны, все еще отображаются в запросе. По количеству баллов перемешанные последовательности все еще достигают. PRSS теперь может предсказать значимость баллов исходных последовательностей. Чем выше оценка перемешанных последовательностей, тем менее значимы совпадения, обнаруженные между исходной базой данных и последовательностью запроса.[5]

Программы FASTA находят области локального или глобального сходства между последовательностями белков или ДНК либо путем поиска в базах данных белков или ДНК, либо путем выявления локальных дубликатов в последовательности. Другие программы предоставляют информацию о статистической значимости выравнивания. Подобно BLAST, FASTA может использоваться для вывода функциональных и эволюционных отношений между последовательностями, а также для помощи в идентификации членов семейств генов.

Смотрите также

использованная литература

  1. ^ Липман, диджей; Пирсон, WR (1985). «Быстрые и чувствительные поиски сходства белков». Наука. 227 (4693): 1435–41. Bibcode:1985Sci ... 227.1435L. Дои:10.1126 / science.2983426. PMID  2983426. закрытый доступ
  2. ^ Пирсон, WR; Липман, DJ (1988). "Улучшенные инструменты для сравнения биологической последовательности". Труды Национальной академии наук Соединенных Штатов Америки. 85 (8): 2444–8. Bibcode:1988ПНАС ... 85.2444П. Дои:10.1073 / пнас.85.8.2444. ЧВК  280013. PMID  3162770.
  3. ^ http://fasta.bioch.virginia.edu
  4. ^ https://www.ebi.ac.uk/Tools/fasta
  5. ^ Дэвид В. Маунт: Последовательность биоинформатики и анализ геномаИздание 1, издательство Cold Spring Harbor Laboratory Press, 2001, стр. 295–297.