Строительные леса (биоинформатика) - Scaffolding (bioinformatics)
Строительные леса это техника, используемая в биоинформатика. Это определяется следующим образом:[1]
Свяжите вместе несмежные серии геномных последовательностей в каркас, состоящий из последовательностей, разделенных промежутками известной длины. Связанные последовательности обычно представляют собой смежные последовательности, соответствующие перекрытиям при считывании.
При создании чернового варианта генома отдельные считывания ДНК сначала собираются в контиги, которые по своей конструкции имеют зазоры между собой. Следующим шагом будет устранение пробелов между этими контиги для создания помоста.[2] Это можно сделать с помощью оптическое отображение или секвенирование парной пары.[3]
Программное обеспечение для сборки
Последовательность Haemophilus influenzae геном ознаменовал появление строительных лесов. Этот проект сгенерировал в общей сложности 140 контигов, которые были ориентированы и связаны с помощью парных конечных чтений. Успех этой стратегии побудил к созданию программного обеспечения Grouper, которое было включено в сборщики генома. До 2001 года это было единственное программное обеспечение для строительных лесов.[нужна цитата ] После Проект "Геном человека" и Celera доказали, что можно создать большой проект генома, было создано несколько других подобных программ. Bambus был создан в 2003 году и представлял собой переработанную версию исходного программного обеспечения Grouper, но предоставил исследователям возможность настраивать параметры строительных лесов. Это программное обеспечение также позволяло необязательно использовать другие данные связывания, такие как порядок контигов в эталонном геноме.[4]
Алгоритмы, используемые программным обеспечением сборки, очень разнообразны и могут быть классифицированы как основанные на итеративном порядке маркеров или основанные на графах. Приложения на основе графиков могут упорядочивать и ориентировать более 10 000 маркеров по сравнению с максимальным количеством маркеров 3000, которые можно использовать в итеративных приложениях маркеров.[5] Алгоритмы можно дополнительно классифицировать как жадные, не жадные, консервативные и неконсервативные. Bambus использует жадный алгоритм, определяемый как таковой, потому что он сначала объединяет контиги с наибольшим количеством ссылок. Алгоритм, используемый Bambus 2, удаляет повторяющиеся контиги перед их ориентацией и упорядочиванием в скаффолды. SSPACE также использует жадный алгоритм, который начинает строить свою первую основу с самым длинным контигом, предоставленным данными последовательности. SSPACE - это наиболее часто упоминаемый инструмент сборки в публикациях по биологии, вероятно, из-за того, что он оценивается как значительно более интуитивно понятная программа для установки и запуска, чем другие сборщики.[6]
В последние годы появились новые виды ассемблеров, способных интегрировать данные о связях из различных типов карт связей. ALLMAPS - первая из таких программ, способная комбинировать данные из генетических карт, созданных с использованием SNP или данных рекомбинации, с физическими картами, такими как оптические карты или карты синтении.[7]
Некоторые программы, такие как ABySS и SOAPdenovo, содержат алгоритмы заполнения промежутков, которые, хотя и не создают никаких новых каркасов, служат для уменьшения длины промежутка между контигами отдельных каркасов. Автономная программа GapFiller способна закрывать большее количество пробелов, используя меньше памяти, чем алгоритмы заполнения пробелов, содержащиеся в программах сборки.[8]
Уттуркар и др. исследовали полезность нескольких различных пакетов программного обеспечения для сборки в сочетании с данными гибридных последовательностей. Они пришли к выводу, что алгоритмы ALLPATHS-LG и SPAdes превосходят другие ассемблеры по количеству, максимальной длине и длине N50 контигов и каркасов.[9]
Строительные леса и секвенирование следующего поколения
Самые высокопроизводительные платформы секвенирования нового поколения обеспечивают меньшую длину чтения по сравнению с Секвенирование по Сэнгеру. Эти новые платформы способны генерировать большие объемы данных за короткие периоды времени, но до тех пор, пока не были разработаны методы сборки больших геномов de novo из коротких последовательностей чтения, секвенирование по Сэнгеру оставалось стандартным методом создания эталонного генома.[10] Несмотря на то что Иллюмина платформы теперь могут генерировать считывания пар пар со средней длиной 150 пар оснований, изначально они могли генерировать только считывания 75 пар оснований или меньше, что заставило многих людей в научном сообществе сомневаться в надежности эталонный геном может быть когда-либо создан с использованием технологии короткого чтения. Повышенная сложность сборки контигов и каркасов, связанная с новыми технологиями, создала спрос на новые мощные компьютерные программы и алгоритмы, способные разбираться в данных.[11]
Одной из стратегий, включающих высокопроизводительное секвенирование следующего поколения, является гибридное секвенирование, при котором несколько технологий секвенирования используются на разных уровнях охвата, чтобы они могли дополнять друг друга со своими сильными сторонами. Релиз платформы SMRT, от Тихоокеанские биологические науки, положил начало секвенированию отдельных молекул и долгому чтению Было показано, что 80–100-кратное покрытие с помощью технологии SMRT, которая генерирует среднее считывание с длиной 5456 пар оснований, обычно достаточно для создания законченной сборки de novo для прокариотических организмов. Когда у исследователя нет средств для такого уровня охвата, он может решить использовать гибридный подход.
Goldberg et al. оценили эффективность сочетания высокопроизводительного пиросеквенирования с традиционным секвенированием по Сэнгеру. Они смогли значительно увеличить длину контига N50 и уменьшить длину промежутка и даже закрыть один микробный геном с помощью этого подхода.[12]
Оптическое отображение
Было показано, что интеграция карт сцепления может помочь сборкам de novo с длинными данными рекомбинации в масштабе хромосом, без которых сборки могут быть подвержены ошибкам упорядочивания макросов. Оптическое картирование - это процесс иммобилизации ДНК на предметном стекле и ее переваривания рестрикционными ферментами. Затем концы фрагментов флуоресцентно маркируют и снова сшивают. В течение последних двух десятилетий оптическое картографирование было непомерно дорогим, но последние достижения в области технологий значительно снизили стоимость.[5][13]
Смотрите также
- ^ "EDAM Онтология биоинформатических операций и форматов данных".
- ^ Уотерстон, Роберт (2002). «О секвенировании генома человека». Труды Национальной академии наук Соединенных Штатов Америки. 99 (6): 3712–3716. Bibcode:2002PNAS ... 99,3712 Вт. Дои:10.1073 / pnas.042692499. ЧВК 122589. PMID 11880605.
- ^ Флот, Жан-Франсуа; Мари-Нелли, Эрве; Кошул, Ромен (07.10.2015). «Контактная геномика: каркас и фазирование (мета) геномов с использованием трехмерных физических сигнатур хромосом». Письма FEBS. 589 (20 Pt A): 2966–2974. Дои:10.1016 / j.febslet.2015.04.034. ISSN 1873-3468. PMID 25935414.
- ^ Поп, Михай; Kosack, Daniel S .; Зальцберг, Стивен Л. (2004-01-01). «Иерархические леса с бамбусом». Геномные исследования. 14 (1): 149–159. Дои:10.1101 / гр.1536204. ISSN 1088-9051. ЧВК 314292. PMID 14707177.
- ^ а б Fierst JL (2015) Использование карт сцепления для исправления и создания основы для сборки генома de novo: методы, проблемы и вычислительные инструменты. В кн .: Frontiers in Genetics. http://journal.frontiersin.org/article/10.3389/fgene.2015.00220/full. Доступ 7 апреля 2017 г.
- ^ Хант, М; Ньюболд, С; Берриман, М; Отто, Т.Д. (2014). «Комплексная оценка монтажных инструментов строительных лесов». Геномная биология. 15 (3): R42. Дои:10.1186 / gb-2014-15-3-r42. ЧВК 4053845. PMID 24581555.
- ^ Тан, H; Чжан, X; Miao, C; и другие. (2015). «ALLMAPS: надежное упорядочивание строительных лесов на основе нескольких карт». Геномная биология. 16: 3. Дои:10.1186 / s13059-014-0573-1. ЧВК 4305236. PMID 25583564.
- ^ Бетцер, М; Пировано, W (2012). «К почти закрытым геномам с GapFiller». Геномная биология. 13 (6): R56. Дои:10.1186 / gb-2012-13-6-r56. ЧВК 3446322. PMID 22731987.
- ^ Уттуркар, С.М.; Klingeman, DM; Земля, ML; и другие. (2014). "Оценка и проверка de novo и методы гибридной сборки для получения высококачественных последовательностей генома ". Биоинформатика. 30 (19): 2709–2716. Дои:10.1093 / биоинформатика / btu391. ЧВК 4173024. PMID 24930142.
- ^ Ли, Жуйцян; Чжу, Хунмэй; Руан, Цзюэ; Цянь, Вубин; Фанг, Сяодун; Ши, Чжунбинь; Ли, Инжруй; Ли, Шэнтин; Шан, Гао (2017-02-09). «Сборка de novo человеческих геномов с массовым параллельным секвенированием короткого чтения». Геномные исследования. 20 (2): 265–272. Дои:10.1101 / гр.097261.109. ISSN 1088-9051. ЧВК 2813482. PMID 20019144.
- ^ Парик, Чандра Шекхар; Смочинский, Рафаль; Третьин, Анджей (09.02.2017). «Технологии секвенирования и секвенирование генома». Журнал прикладной генетики. 52 (4): 413–435. Дои:10.1007 / s13353-011-0057-х. ISSN 1234-1983. ЧВК 3189340. PMID 21698376.
- ^ Голдберг, Сюзанна М. Д.; и другие. (2006). «Гибридный подход Сэнгера / пиросеквенирования для создания высококачественных предварительных сборок морских микробных геномов». Труды Национальной академии наук Соединенных Штатов Америки. 103 (30): 11240–11245. Bibcode:2006ПНАС..10311240Г. Дои:10.1073 / pnas.0604351103. JSTOR 30049789. ЧВК 1544072. PMID 16840556.
- ^ Chaisson, Марк; Уилсон, Ричард; Эйхлер, Эван (7 октября 2015 г.). «Генетическая вариация и сборка de novo геномов человека». Природа Обзоры Генетика. 16 (11): 627–640. Дои:10.1038 / nrg3933. ЧВК 4745987. PMID 26442640.