Вызов SNV из данных NGS - SNV calling from NGS data
Вызов SNV из данных NGS это любой из ряда методов определения существования однонуклеотидные варианты (SNV) по результатам секвенирование следующего поколения (NGS) эксперименты. Это вычислительные методы, которые отличаются от специальных экспериментальных методов, основанных на известных популяционных полиморфизмах одиночных нуклеотидов (см. Генотипирование SNP ). В связи с растущим обилием данных NGS эти методы становятся все более популярными для выполнения генотипирования SNP с широким спектром алгоритмов, разработанных для конкретных экспериментальных планов и приложений.[1] В дополнение к обычной области применения генотипирования SNP, эти методы были успешно адаптированы для выявления редких SNP в популяции,[2] а также обнаружение соматический SNV внутри человека с использованием нескольких образцов тканей.[3]
Методы выявления вариантов зародышевой линии
Большинство основанных на NGS методов обнаружения SNV предназначены для обнаружения зародышевый вариации в геноме человека. Это мутации, которые человек биологически наследует от своих родителей, и представляют собой обычный тип вариантов, которые ищут при проведении такого анализа (за исключением некоторых конкретных приложений, где соматические мутации ищутся). Очень часто поиск вариантов происходит с некоторой (возможно, редкой) частотой в популяции, и в этом случае они могут быть названы однонуклеотидный полиморфизм (SNP). Технически термин SNP относится только к этим видам вариаций, однако на практике они часто используются как синонимы SNV в литературе по вызову вариантов. Кроме того, поскольку обнаружение SNV зародышевой линии требует определения индивидуального генотипа в каждом локусе, фраза «генотипирование SNP» также может использоваться для обозначения этого процесса. Однако эта фраза может также относиться к экспериментальным процедурам влажной лаборатории для классификации генотипов в наборе известных местоположений SNP.
Обычный процесс использования таких техник основан на следующем:[1]
- Фильтрация набора чтений NGS для удаления источников ошибок / смещения
- Согласование чтения с эталонным геномом
- Использование алгоритма, основанного либо на статистической модели, либо на некоторой эвристике, для прогнозирования вероятности вариации в каждом локусе на основе оценок качества и количества аллелей выровненных чтений в этом локусе.
- Фильтрация прогнозируемых результатов, часто на основе показателей, относящихся к приложению.
- Аннотации SNP для прогнозирования функционального эффекта каждого варианта.
Обычный результат этих процедур - VCF файл.
Вероятностные методы
В идеальном мире без ошибок с высоким уровнем чтения покрытие, задача вызова варианта по результатам выравнивания данных NGS была бы простой; на каждом локус (положение в геноме) можно подсчитать количество вхождений каждого отдельного нуклеотида среди считываний, выровненных в этом положении, и истинный генотип будет очевиден; либо AA если все нуклеотиды соответствуют аллелю А, BB если они совпадают с аллелем B, или AB если есть смесь. Однако при работе с реальными данными NGS такой наивный подход не используется, так как он не может учитывать шум во входных данных.[4] Подсчет нуклеотидов, используемый для вызова базы, содержит ошибки и смещения, обусловленные как самими секвенированными считываниями, так и процессом выравнивания. Эту проблему можно до некоторой степени смягчить путем секвенирования с большей глубиной охвата чтения, однако это часто дорого, и многие практические исследования требуют делать выводы на основе данных с низким охватом.[1]
Вероятностные методы направлены на преодоление вышеуказанной проблемы путем получения надежных оценок вероятностей каждого из возможных генотипов с учетом шума, а также другой доступной априорной информации, которая может использоваться для улучшения оценок. Затем на основе этих вероятностей можно предсказать генотип, часто в соответствии с КАРТА оценить.
Вероятностные методы вызова вариантов основаны на Теорема Байеса. В контексте вызова вариантов теорема Байеса определяет вероятность того, что каждый генотип является истинным генотипом с учетом наблюдаемых данных, с точки зрения априорных вероятностей каждого возможного генотипа и распределения вероятностей данных с учетом каждого возможного генотипа. Формула:
В приведенном выше уравнении:
- относится к наблюдаемым данным; то есть выровненный читает
- это генотип, вероятность которого вычисляется
- относится к яй возможный генотип, из п возможности
Учитывая приведенную выше структуру, различные программные решения для обнаружения SNV различаются в зависимости от того, как они вычисляют априорные вероятности. , модель ошибки, используемая для моделирования вероятностей , а также разделение общих генотипов на отдельные подгенотипы, вероятность которых может быть оценена индивидуально в этой структуре.[5]
Оценка вероятности предшествующего генотипа
Расчет априорных вероятностей зависит от имеющихся данных по изучаемому геному и типа выполняемого анализа. Для исследований, в которых доступны хорошие справочные данные, содержащие частоты известных мутаций (например, при изучении данных генома человека), эти известные частоты генотипов в популяции могут использоваться для оценки априорных значений. Учитывая частоту аллелей в масштабах всей популяции, вероятности предшествующих генотипов могут быть рассчитаны для каждого локуса в соответствии с Равновесие Харди – Вайнберга.[6] В отсутствие таких данных можно использовать постоянные априорные точки, независимо от локуса. Они могут быть установлены с использованием эвристически выбранных значений, возможно, с учетом того, какие вариации будут искать в исследовании. В качестве альтернативы были исследованы контролируемые процедуры машинного обучения, которые стремятся узнать оптимальные априорные значения для отдельных лиц в выборке, используя предоставленные данные NGS от этих лиц.[4]
Модели ошибок для наблюдений за данными
Модель ошибок, использованная при создании вероятностного метода для вызова вариантов, является основой для расчета термин, используемый в теореме Байеса. Если предположить, что данные не содержат ошибок, то распределение наблюдаемых количеств нуклеотидов в каждом локусе будет следовать Биномиальное распределение, при этом 100% нуклеотидов соответствуют аллелю A или B соответственно в AA и BB случаев и 50% шанс совпадения каждого нуклеотида А или B в AB кейс. Однако при наличии шума в считываемых данных это предположение нарушается, и Значения должны учитывать возможность того, что ошибочные нуклеотиды присутствуют в выровненных чтениях в каждом локусе.
Простая модель ошибки состоит в том, чтобы внести небольшую ошибку в член вероятности данных в гомозиготных случаях, допуская небольшую постоянную вероятность того, что нуклеотиды, которые не соответствуют А аллель наблюдаются в AA случай, и, соответственно, небольшая постоянная вероятность того, что нуклеотиды не соответствуют B аллель наблюдаются в BB кейс. Однако доступны более сложные процедуры, которые пытаются более реалистично воспроизвести фактические шаблоны ошибок, наблюдаемые в реальных данных при вычислении условных вероятностей данных. Например, оценка качества чтения (измеряется как Фред оценки качества) были включены в эти расчеты, принимая во внимание ожидаемую частоту ошибок в каждом отдельном чтении в локусе.[7] Другой метод, который был успешно включен в модели ошибок, - это повторная калибровка базового качества, при которой рассчитываются отдельные коэффициенты ошибок - на основе ранее известной информации о шаблонах ошибок - для каждой возможной замены нуклеотида. Исследования показывают, что каждая возможная нуклеотидная замена не с одинаковой вероятностью будет отображаться как ошибка в данных секвенирования, поэтому была применена повторная калибровка базового качества для улучшения оценок вероятности ошибки.[6]
Разделение генотипа
В приведенном выше обсуждении предполагалось, что вероятности генотипа в каждом локусе рассчитываются независимо; то есть весь генотип делится на независимые генотипы в каждом локусе, вероятности которых вычисляются независимо. Однако из-за нарушение равновесия по сцеплению генотипы близлежащих локусов в целом не являются независимыми. В результате разделение общего генотипа на последовательность перекрывающихся гаплотипы позволяет моделировать эти корреляции, что приводит к более точным оценкам вероятности за счет включения частот гаплотипов для всей популяции в априорную. Использование гаплотипов для повышения точности определения вариантов успешно применяется, например, в Проект 1000 геномов.[8]
Алгоритмы на основе эвристики
В качестве альтернативы вероятностным методам эвристический существуют методы для выполнения вызова вариантов для данных NGS. Вместо моделирования распределения наблюдаемых данных и использования байесовской статистики для расчета вероятностей генотипов, вызовы вариантов выполняются на основе множества эвристических факторов, таких как минимальное количество аллелей, пороговые значения качества считывания, границы глубины считывания и т. Д. они были относительно непопулярны на практике по сравнению с вероятностными методами, на практике из-за использования границ и пороговых значений они могут быть устойчивыми к отдаленным данным, которые нарушают предположения вероятностных моделей.[9]
Контрольный геном, используемый для выравнивания
Важной частью разработки методов вызова вариантов с использованием данных NGS является последовательность ДНК, используемая в качестве ссылки, с которой выравниваются чтения NGS. В исследованиях генетики человека доступны высококачественные ссылки из таких источников, как Проект HapMap,[10] что может существенно повысить точность вариантов вызовов, выполняемых алгоритмами вызова вариантов. В качестве бонуса такие ссылки могут быть источником априорных вероятностей генотипа для байесовского анализа. Однако в отсутствие эталона такого высокого качества экспериментально полученные показания могут быть собранный чтобы создать эталонную последовательность для выравнивания.[1]
Предварительная обработка и фильтрация результатов
Существуют различные методы фильтрации данных в экспериментах по вызову вариантов, чтобы удалить источники ошибок / смещения. Это может включать удаление подозрительных чтений перед выполнением выравнивания и / или фильтрации списка вариантов, возвращаемого алгоритмом вызова вариантов.
В зависимости от используемой платформы секвенирования в наборе секвенированных считываний могут существовать различные смещения. Например, может произойти смещение цепочки, когда существует очень неравное распределение прямого и обратного направлений в считываниях, выровненных в некоторой окрестности. Кроме того, может произойти необычно большое дублирование некоторых операций чтения (например, из-за смещения в ПЦР ). Такие смещения могут привести к вызовам сомнительных вариантов - например, если фрагмент, содержащий ошибку ПЦР в каком-либо локусе, чрезмерно амплифицирован из-за смещения ПЦР, этот локус будет иметь большое количество ложных аллелей и может называться SNV - и поэтому конвейеры анализа часто фильтруют вызовы на основе этих предубеждений.[1]
Методы выявления соматических вариантов
В дополнение к методам, которые сравнивают показания отдельных образцов с эталонным геномом для обнаружения зародышевый генетические варианты, считывания из нескольких образцов ткани в пределах одного человека могут быть сопоставлены и сравнены для обнаружения соматических вариантов. Эти варианты соответствуют мутации что произошло de novo в группах соматические клетки внутри человека (то есть они не присутствуют в клетках зародышевой линии человека). Эта форма анализа часто применялась для изучения рак, где многие исследования направлены на изучение профиля соматических мутаций в раковых тканях. Такие исследования привели к появлению диагностических инструментов, которые нашли клиническое применение и используются для улучшения научного понимания болезни, например, путем открытия новых генов, связанных с раком, идентификации вовлеченных сети регуляции генов и метаболические пути, и путем информирования моделей о том, как опухоли растут и развиваются.[11]
Недавние улучшения
До недавнего времени программные инструменты для проведения этого вида анализа были сильно недоработаны и основывались на тех же алгоритмах, которые использовались для обнаружения вариаций зародышевой линии. Такие процедуры не оптимизированы для этой задачи, потому что они не моделируют адекватно статистическую корреляцию между генотипами, присутствующими в нескольких образцах тканей от одного и того же человека.[3]
Более поздние исследования привели к разработке программных средств, специально оптимизированных для обнаружения соматических мутаций в нескольких образцах тканей. Были разработаны вероятностные методы, которые объединяют подсчеты аллелей из всех образцов ткани в каждом локусе, и с использованием статистических моделей вероятностей совместных генотипов для всех тканей и распределения количества аллелей с учетом генотипа можно рассчитать относительно надежные вероятности соматических мутаций в каждом локусе, используя все доступные данные.[3][12] Кроме того, недавно было проведено расследование в машинное обучение основанные на методах выполнения этого анализа.[13]
Список доступного программного обеспечения
- Freebayes
- SOAPsnp
- realSFS
- SAMtools
- ГАТК
- Бигль
- IMPUTE2
- MaCH
- SNVmix
- ВарСкан
- DeepVariant
- Соматический снайпер
- JointSNVMix
- Геномика больших данных: авокадо
- НГСЭП
- VarDict
- Reveel
- Утконос
- Рыбы
использованная литература
- ^ а б c d е Нильсен, Расмус и Пол, Джошуа С. и Альбрехтсен, Андерс и Сонг, Юн С. (2011). «Вызов генотипа и SNP на основе данных секвенирования следующего поколения». Природа Обзоры Генетика. 12 (6): 443–451. Дои:10.1038 / nrg2986. ЧВК 3593722. PMID 21587300.CS1 maint: несколько имен: список авторов (ссылка на сайт)
- ^ Бансал, Викас (2010). «Статистический метод обнаружения вариантов при повторном секвенировании пулов ДНК следующего поколения». Биоинформатика. 26 (12): i318 – i324. Дои:10.1093 / биоинформатика / btq214. ЧВК 2881398. PMID 20529923.
- ^ а б c Рот, Эндрю и Динг, Джиаруи и Морин, Райан и Крисан, Анамария и Ха, Гэвин и Джулиани, Райан и Башашати, Али и Херст, Мартин и Турашвили, Гулиса и Олуми, Аруша; и другие. (2012). «JointSNVMix: вероятностная модель для точного обнаружения [соматических мутаций в парных данных секвенирования нового поколения в норме / опухоли». Биоинформатика. 28 (7): 907–913. Дои:10.1093 / биоинформатика / bts053. ЧВК 3315723. PMID 22285562.CS1 maint: несколько имен: список авторов (ссылка на сайт)
- ^ а б Мартин, Иден Р. и Киннамон, Д. Д. и Шмидт, Майкл А. и Пауэлл, Э. Х. и Цухнер, С. и Моррис, Р. В. (2010). «SeqEM: адаптивный метод определения генотипа для исследований секвенирования следующего поколения». Биоинформатика. 26 (22): 2803–2810. Дои:10.1093 / биоинформатика / btq526. ЧВК 2971572. PMID 20861027.CS1 maint: несколько имен: список авторов (ссылка на сайт)
- ^ Ю, На и Мурильо, Габриэль и Су, Сяоцюань и Цзэн, Сяовей и Сюй, Цзянь и Нин, Кан и Чжан, Шоудун и Чжу, Цзянькан и Цуй, Синьпин (2012). «Вызов SNP с использованием выбора модели генотипа на данных высокопроизводительного секвенирования». Биоинформатика. 28 (5): 643–650. Дои:10.1093 / биоинформатика / bts001. ЧВК 3338331. PMID 22253293.CS1 maint: несколько имен: список авторов (ссылка на сайт)
- ^ а б Ли, Жуйцян и Ли, Инжуй и Фанг, Сяодун и Ян, Хуанмин и Ван, Цзянь и Кристиансен, Карстен и Ван, Цзюнь (2009). «Обнаружение SNP для массового параллельного ресеквенирования всего генома». Геномные исследования. 19 (6): 1124–1132. Дои:10.1101 / гр.088013.108. ЧВК 2694485. PMID 19420381.CS1 maint: несколько имен: список авторов (ссылка на сайт)
- ^ Ли, Хэн и Руан, Цзюэ и Дурбин, Ричард (2008). «Картирование считываний коротких последовательностей ДНК и вызов вариантов с использованием показателей качества картирования». Геномные исследования. 18 (11): 1851–1858. Дои:10.1101 / гр.078212.108. ЧВК 2577856. PMID 18714091.CS1 maint: несколько имен: список авторов (ссылка на сайт)
- ^ Абекасис, Г. Р. и Альтшулер, Дэвид и Аутон, А. и Брукс, Л. Д. и Дурбин, Р. М. и Гиббс, Ричард А. и Хёрлз, Мэтт Э. и Маквин, Гил А. и Бентли, Д. Р. и Чакраварти, А. и другие. (2010). «Карта вариаций генома человека по результатам популяционного секвенирования». Природа. 467 (7319): 1061–1073. Bibcode:2010 Натур.467.1061Т. Дои:10.1038 / природа09534. ЧВК 3042601. PMID 20981092.CS1 maint: несколько имен: список авторов (ссылка на сайт)
- ^ Кобольдт, Дэниел С. и Чжан, Цюнюань и Ларсон, Дэвид Э и Шен, Донг и Маклеллан, Майкл Д. и Лин, Линг и Миллер, Кристофер А. и Мардис, Элейн Р. и Дин, Ли и Уилсон, Ричард К. (2012). «VarScan 2: открытие соматических мутаций и изменения числа копий при раке путем секвенирования экзома». Геномные исследования. 22 (3): 568–576. Дои:10.1101 / гр.129684.111. ЧВК 3290792. PMID 22300766.CS1 maint: несколько имен: список авторов (ссылка на сайт)
- ^ Гиббс, Ричард А. и Бельмонт, Джон В. и Харденбол, Пол и Уиллис, Томас Д. и Ю, Фули и Ян, Хуанмин и Чанг, Лань-Ян и Хуанг, Вэй и Лю, Бин и Шен, Ян; и другие. (2003). «Международный проект HapMap» (PDF). Природа. 426 (6968): 789–796. Bibcode:2003Натура 426..789Г. Дои:10.1038 / природа02168. HDL:2027.42/62838. PMID 14685227. S2CID 4387110.CS1 maint: несколько имен: список авторов (ссылка на сайт)
- ^ Шир, Дерек; Лю, Ци; и другие. (2013). «Секвенирование нового поколения в исследованиях и клиническом применении рака». Биологические процедуры онлайн. 15 (4): 4. Дои:10.1186/1480-9222-15-4. ЧВК 3599179. PMID 23406336.
- ^ Ларсон, Дэвид Э. и Харрис, Кристофер С. и Чен, Кен и Кобольдт, Дэниел С. и Эбботт, Трэвис Э и Дулинг, Дэвид Дж. И Лей, Тимоти Дж. И Мардис, Элейн Р. и Уилсон, Ричард К. и Динг, Ли (2012) . «SomaticSniper: идентификация соматических точечных мутаций в данных полногеномного секвенирования». Биоинформатика. 28 (3): 311–317. Дои:10.1093 / биоинформатика / btr665. ЧВК 3268238. PMID 22155872.CS1 maint: несколько имен: список авторов (ссылка на сайт)
- ^ Динг, Джиаруи и Башашати, Али и Рот, Эндрю и Олуми, Аруша и Цзе, Кейн и Зенг, Томас и Хаффари, Голамреза и Херст, Мартин и Марра, Марко А. и Кондон, Энн; и другие. (2012). «Классификаторы на основе признаков для обнаружения соматических мутаций в опухоли - данные нормального парного секвенирования». Биоинформатика. 28 (2): 167–175. Дои:10.1093 / биоинформатика / btr629. ЧВК 3259434. PMID 22084253.CS1 maint: несколько имен: список авторов (ссылка на сайт)