Phrap - Википедия - Phrap
Phrap это широко используемая программа для ДНК сборка последовательности. Это часть Фред -Фрап-Consed пакет.
История
Phrap изначально был разработан проф. Фил Грин для сборки космиды в крупномасштабном секвенировании космидного ружья в Проект "Геном человека". Phrap широко используется для множества различных проектов сборки последовательностей, включая сборки бактериального генома и сборки EST.
Phrap был написан как программа командной строки для легкой интеграции в автоматизированные рабочие процессы данных в центрах секвенирования генома. Для пользователей, которые хотят использовать Phrap из графического интерфейса, коммерческие программы MacVector (для Mac OS X только) и CodonCode Aligner (для Mac OS X и Майкрософт Виндоус ) доступны.
Методы
Подробное (хотя и частично устаревшее) описание алгоритмов Phrap можно найти в Документация на phrap. Повторяющийся поток в алгоритмах Phrap - это использование Оценка качества Phred. Phrap использовал показатели качества, чтобы смягчить проблему, с которой другие программы сборки боролись в начале Проект "Геном человека": правильная сборка частых несовершенных повторов, в частности Последовательности Alu. Phrap использует показатели качества, чтобы определить, связаны ли какие-либо наблюдаемые различия в повторяющихся областях со случайной неоднозначностью в процессе секвенирования или, что более вероятно, с последовательностями из разных копий повтора Alu. Обычно у Phrap не было проблем с различением различных копий Alu в космиде и с правильной сборкой космидов (или, позже, БАК ). Логика проста: вызов базы с высокой вероятностью правильности никогда не должен согласовываться с другой высококачественной, но другой базой. Однако Phrap не исключает такие выравнивания полностью, а пробелы в выравнивании cross_match и штрафы за выравнивание, используемые при поиске локальных выравниваний, не всегда оптимальны для типичных ошибок секвенирования и поиска перекрывающихся (смежных) последовательностей. (Аффинные пробелы полезны для поиска гомологии, но обычно не для выравнивания ошибок секвенирования). Phrap пытается классифицировать химеры, векторные последовательности и концевые области низкого качества в одном выравнивании и иногда делает ошибки. Кроме того, Phrap имеет более одного раунда сборки внутри, а последующие раунды менее строгие - алгоритм жадности.
Эти варианты дизайна были полезны в 1990-х годах, когда программа была изначально написана (в Вашингтонском университете в Сент-Луисе, США), но сейчас они менее полезны. Phrap кажется подверженным ошибкам по сравнению с более новыми ассемблерами, такими как Euler, и не может использовать информацию о сопряженных парах напрямую, чтобы направлять сборку и собирать прошедшие идеальные повторы. Phrap не является бесплатным программным обеспечением, поэтому его не расширяли и не улучшали, как менее ограниченное программное обеспечение с открытым исходным кодом. Последовательная сборка.
Консенсусные последовательности, основанные на качестве
Другое использование Оценка качества Phred Phrap, который способствовал успеху программы, было определение согласованных последовательностей с использованием качества последовательностей. Фактически, Phrap автоматизировал этап, который был основным узким местом на ранних этапах разработки. Проект "Геном человека": для определения правильной консенсусной последовательности во всех положениях, где собранные последовательности имели несовпадающие основания. Этот подход был предложен Бонфилдом и Стаденом в 1995 г.[1] и был реализован и оптимизирован в Phrap. По сути, в любой согласованной позиции с несовпадающими основаниями Phrap проверяет оценки качества выровненных последовательностей, чтобы найти последовательность самого высокого качества. При этом Phrap принимает во внимание подтверждение локальной последовательности другими считываниями после рассмотрения направления и химии последовательности.
Математика этого подхода была довольно простой, поскольку Оценка качества Phred логарифмически связаны с вероятностями ошибки. Это означает, что оценки качества подтверждающих чтений можно просто добавить, если распределения ошибок достаточно независимы. Чтобы удовлетворить этому критерию независимости, считывания обычно должны происходить в разном направлении, поскольку шаблоны пиков, которые вызывают ошибки вызова базы, часто идентичны, когда область упорядочена несколько раз в одном и том же направлении.
Если консенсусная основа покрывается как последовательностью высокого качества, так и (несоответствующей) последовательностью низкого качества, выбор Phrap последовательности более высокого качества в большинстве случаев будет правильным. Затем Phrap присваивает подтвержденное качество основания основанию согласованной последовательности. Это позволяет легко (а) найти согласованные области, которые не покрываются высококачественной последовательностью (которая также будет иметь низкое качество), и (б) быстро вычислить достаточно точную оценку частоты ошибок согласованной последовательности. Затем эту информацию можно использовать для направления усилий по отделке, например для изменения последовательности проблемных областей.
Сочетание точных, базовых оценка качества и согласованная последовательность, основанная на качестве, была критическим элементом успеха Проект "Геном человека". Phred и Phrap и аналогичные программы, которые подхватили идеи, заложенные в этих двух программах, позволили собрать большие части человеческого генома (и многих других геномов) с существенно более высокой точностью (менее 1 ошибки на 10000 оснований). ), чем типичная точность тщательно отредактированных вручную последовательностей, которые ранее были отправлены в базу данных GenBank.[2]
использованная литература
- ^ Бонфилд Дж. К., Стаден Р. (1995): Применение численных оценок точности определения оснований для проектов секвенирования ДНК. Nucleic Acids Res. 1995 Апрель 25; 23 (8): 1406-10. PMID 7753633
- ^ Krawetz SA (1989): Ошибки последовательности, описанные в GenBank: средство для определения точности интерпретации последовательности ДНК. Nucleic Acids Res. 1989 25 мая; 17 (10): 3951-7