Теория слияния - Википедия - Coalescent theory

Коалесцентная теория представляет собой модель того, как варианты генов, отобранные из популяции, могли происходить от общего предка. В простейшем случае теория коалесценции не предполагает рекомбинация, нет естественный отбор, и нет поток генов или популяционная структура, что означает, что каждый вариант с равной вероятностью передавался от одного поколения к другому. Модель смотрит назад во времени, сливаясь аллели в единую предковую копию согласно случайному процессу в событиях слияния. В рамках этой модели ожидаемое время между последовательными событиями слияния увеличивается почти экспоненциально назад во времени (с широким отклонение ). Дисперсия в модели возникает как из-за случайной передачи аллелей от одного поколения к другому, так и из-за случайного появления аллелей. мутации в этих аллелях.

Математическая теория слияния была разработана независимо несколькими группами в начале 1980-х годов как естественное продолжение классической теории. популяционная генетика теория и модели,[1][2][3][4] но в первую очередь можно отнести к Джон Кингман.[5] Достижения в теории слияния включают рекомбинацию, отбор, перекрывающиеся поколения и практически любую произвольно сложную эволюционную или демографическую модель в популяционно-генетическом анализе.

Модель может быть использована для создания множества теоретических генеалогий, а затем сравнения наблюдаемых данных с этими симуляциями, чтобы проверить предположения о демографической истории населения. Теория коалесценции может использоваться, чтобы делать выводы о генетических параметрах популяции, таких как миграция, размер популяции и рекомбинация.

Теория

Время слиться

Рассмотрим один локус гена, взятый из двух гаплоидный особей в популяции. Происхождение этого образца прослеживается назад во времени до точки, где эти две линии объединяться в их самый последний общий предок (MRCA). Теория слияния пытается оценить ожидания этого периода времени и его отклонения.

Вероятность того, что двое родословная слиться в непосредственно предшествующем поколении - это вероятность того, что они разделяют родительский ДНК последовательность. В популяции с постоянным эффективная численность населения с 2Nе копии каждого локуса, есть 2Nе «потенциальные родители» в предыдущем поколении. Под случайная вязка модель, вероятность того, что два аллели происходят из той же родительской копии, таким образом, 1 / (2Nе) и, соответственно, вероятность того, что они нет coalesce равно 1 - 1 / (2Nе).

В каждом последующем предшествующем поколении вероятность слияния равна геометрически распределенный - то есть вероятность неслияние на т - 1 предыдущее поколение, умноженное на вероятность слияния в интересующем поколении:

При достаточно больших значениях Nе, это распределение хорошо аппроксимируется непрерывно определенным экспоненциальное распределение

Это удобно с математической точки зрения, поскольку стандартное экспоненциальное распределение имеет как ожидаемое значение и стандартное отклонение равно 2Nе. Поэтому, хотя ожидал время коалесценции 2Nефактическое время слияния может варьироваться в широком диапазоне. Обратите внимание, что время слияния - это количество предыдущих поколений, в которых произошло слияние, а не календарное время, хотя оценка последнего может быть произведена умножением на 2Nе со средним временем между поколениями. Приведенные выше расчеты в равной степени применимы к диплоид население эффективного размера Nе (другими словами, для нерекомбинирующего сегмента ДНК каждый хромосома можно рассматривать как эквивалент независимого гаплоидный индивидуальный; в отсутствие инбридинга сестринские хромосомы у одного человека не более тесно связаны, чем две хромосомы, случайно выбранные из популяции). Некоторые эффективно гаплоидные элементы ДНК, такие как митохондриальная ДНК однако, переносятся только представителями одного пола и, следовательно, имеют четверть эффективного размера эквивалентной диплоидной популяции (Nе/2)

Нейтральная вариация

Теорию коалесценции также можно использовать для моделирования количества вариаций в ДНК последовательности, ожидаемые от генетического дрейфа и мутации. Это значение называется средним. гетерозиготность, представленный как . Средняя гетерозиготность рассчитывается как вероятность мутации, происходящей в данном поколении, деленная на вероятность любого «события» в этом поколении (либо мутации, либо слияния). Вероятность того, что событие является мутацией, - это вероятность мутации в любой из двух линий: . Таким образом, средняя гетерозиготность равна

За , подавляющее большинство пар аллелей имеют хотя бы одно различие в нуклеотид последовательность.

Графическое представление

Коалесценты можно визуализировать с помощью дендрограммы которые показывают отношение ветвей населения друг к другу. Точка, где встречаются две ветви, указывает на слияние.

Приложения

Картирование генов болезни

Полезность объединенной теории в картировании болезней постепенно получает все большее признание; Хотя применение теории все еще находится в зачаточном состоянии, есть ряд исследователей, которые активно разрабатывают алгоритмы анализа генетических данных человека, основанные на теории объединения.[6][7][8]

Значительное количество болезней человека можно отнести к генетике, начиная с простых Менделевский болезни как серповидноклеточная анемия и кистозный фиброз, к более сложным недугам, таким как рак и психические заболевания. Последние представляют собой полигенные заболевания, контролируемые множеством генов, которые могут возникать на разных хромосомах, но заболевания, вызванные одной аномалией, относительно просто определить и отследить, хотя и не так просто, чтобы это было достигнуто для всех болезней. Для понимания этих заболеваний и их процессов чрезвычайно полезно знать, где они находятся. хромосомы и как они передавались из поколения в поколение в семье, что может быть выполнено с помощью объединенного анализа.[1]

Генетические заболевания передаются от поколения к поколению, как и другие гены. Хотя любой ген может быть перетасован с одной хромосомы на другую во время гомологичная рекомбинация, маловероятно, что будет сдвинут только один ген. Таким образом, другие гены, достаточно близкие к гену болезни, чтобы быть связаны к нему можно использовать, чтобы отследить его.[1]

Полигенные заболевания имеют генетическую основу, даже если они не следуют моделям менделевской наследственности, и они могут иметь относительно высокую частоту в популяциях и иметь серьезные последствия для здоровья. Такие заболевания могут иметь неполные пенетрантность, и, как правило, полигенный, усложняя их изучение. Эти черты могут возникнуть из-за множества мелких мутаций, которые в совокупности оказывают серьезное и пагубное влияние на здоровье человека.[2]

Методы картирования сцепления, включая теорию коалесценции, могут быть применены для работы с этими заболеваниями, поскольку они используют семейные родословные, чтобы выяснить, какие маркеры сопровождают заболевание и как оно передается по наследству. По крайней мере, этот метод помогает сузить часть или части генома, в которых могут произойти вредные мутации. Осложнения этих подходов включают: эпистатический эффекты, полигенный характер мутаций и факторы окружающей среды. Тем не менее, гены, эффекты которых являются аддитивными, несут фиксированный риск развития болезни, и когда они существуют в генотипе болезни, их можно использовать для прогнозирования риска и картирования гена.[2] Как регулярное слияние, так и разрушенное слияние (что позволяет предположить, что в исходном событии могли произойти множественные мутации и что болезнь может иногда быть вызвана факторами окружающей среды) были задействованы в понимании генов болезни.[1]

Были проведены исследования корреляции возникновения заболеваний у разнояйцевых и однояйцевых близнецов, и результаты этих исследований могут быть использованы для информационного моделирования коалесцентного моделирования. Поскольку у однояйцевых близнецов общий геном, а у разнояйцевых близнецов - только половина генома, разницу в корреляции между однояйцевыми и разнояйцевыми близнецами можно использовать для определения того, передается ли болезнь по наследству, и если да, то насколько сильно.[2]

Геномное распределение гетерозиготности

Человек однонуклеотидный полиморфизм (SNP) карта выявила большие региональные различия в гетерозиготности, больше, чем можно объяснить на основе (Распределенный по Пуассону ) случайный шанс.[9] Частично эти вариации можно объяснить на основе методов оценки, наличия геномных последовательностей и, возможно, стандартной генетической модели объединенной популяции. Популяционные генетические влияния могут иметь большое влияние на эту вариацию: некоторые локусы предположительно могли иметь сравнительно недавних общих предков, другие могли иметь гораздо более старые генеалогии, и поэтому региональное накопление SNP с течением времени могло быть совершенно другим. Локальная плотность SNP вдоль хромосом, по-видимому, группируется в соответствии с отклонение от среднего степенного закона и подчиняться Составной твиди распределение Пуассона.[10] В этой модели региональные вариации в карте SNP будут объяснены накоплением множества небольших геномных сегментов посредством рекомбинации, где среднее количество SNP на сегмент будет гамма распределенная пропорционально гамма-распределению времени до самого последнего общего предка для каждого сегмента.[11]

История

Теория слияния является естественным продолжением более классической теории. популяционная генетика идея нейтральная эволюция и является приближением к Фишер-Райт (или модель Райта – Фишера) для больших популяций. Он был независимо открыт несколькими исследователями в 1980-х годах.[12][13][14][15]

Программного обеспечения

Существует большой объем программного обеспечения как для моделирования наборов данных в процессе объединения, так и для определения таких параметров, как размер популяции и скорость миграции, на основе генетических данных.

  • ЗВЕРЬБайесовский пакет вывода через MCMC с широким спектром сливающихся моделей, включая использование последовательностей с временной выборкой.[16]
  • BPP - программный пакет для определения филогении и времени дивергенции популяций в процессе многовидового слияния.
  • CoaSim - программное обеспечение для моделирования генетических данных в рамках коалесцентной модели.
  • DIYABC - удобный подход к ABC для вывода об истории популяции с использованием молекулярных маркеров.[17]
  • DendroPy - библиотека Python для филогенетических вычислений с классами и методами для моделирования чистых (неограниченных) сливающихся деревьев, а также ограниченных сливающихся деревьев в рамках модели слияния нескольких видов (т.е. «генные деревья в деревьях видов»).
  • GeneRecon - программное обеспечение для мелкомасштабного картирования нарушение равновесия по сцеплению картирование генов болезней с использованием теории объединения, основанной на Байесовский MCMC рамки.
  • родословная программное обеспечение для оценки популяционная генетика параметры с помощью теории объединения и моделирования ( р пакет popgen). Смотрите также Оксфордская группа математической генетики и биоинформатики
  • ГЕНОМ - быстрое моделирование всего генома на основе коалесцента[18]
  • IBDSim - компьютерный пакет для моделирования генотипических данных в условиях общей изоляции дистанционными моделями.[19]
  • IMa - IMa реализует ту же модель изоляции с миграцией, но делает это с использованием нового метода, который обеспечивает оценки совместной апостериорной плотности вероятности параметров модели. IMa также позволяет регистрировать тесты отношения правдоподобия вложенных демографических моделей. IMa основан на методе, описанном в Hey and Nielsen (2007 PNAS 104: 2785–2790). IMa быстрее и лучше, чем IM (то есть благодаря предоставлению доступа к совместной апостериорной функции плотности), и его можно использовать для большинства (но не для всех) ситуаций и вариантов, для которых может использоваться IM.
  • Ламарк - программное обеспечение для оценки темпов роста, миграции и рекомбинации населения.
  • Мигрень - программа, реализующая объединяющие алгоритмы для анализа максимального правдоподобия (с использованием Выборка по важности алгоритмы) генетических данных с упором на пространственно структурированные популяции.[20]
  • Мигрироватьмаксимальная вероятность и Байесовский вывод темпов миграции под п-коалесцирующий. Вывод осуществляется с использованием MCMC
  • MaCS - Markovian Coalescent Simulator - пространственно моделирует генеалогию по хромосомам как марковский процесс. Подобен алгоритму SMC Маквина и Кардина, и поддерживает все демографические сценарии, найденные в мс Хадсона.
  • мс и мсХОТ - Оригинальная программа Ричарда Хадсона для создания образцов по нейтральным моделям[21] и расширение, которое позволяет горячие точки рекомбинации.[22]
  • мсмс - расширенная версия ms, включающая выборочные развертки.[23]
  • msprime - быстрый и масштабируемый ms-совместимый симулятор, позволяющий демографическое моделирование, создание компактных выходных файлов для тысяч или миллионов геномов.
  • Рекодон и NetRecodon - программное обеспечение для моделирования кодирующих последовательностей с рекомбинацией между / внутрикодонов, миграцией, скоростью роста и продольной выборкой.[24][25]
  • УгЭвол и SGWE - программное обеспечение для моделирования нуклеотидных, кодирующих и аминокислотных последовательностей в сочетании с демографией, рекомбинацией, популяционной структурой с миграцией и продольной выборкой.[26]
  • SARG - структура Графа рекомбинации предков Магнуса Нордборга
  • simcoal2 - программное обеспечение для моделирования генетических данных в рамках объединенной модели со сложной демографией и рекомбинацией
  • ДеревьяimJ - программное обеспечение для прямого моделирования, позволяющее производить выборку генеалогий и наборов данных в рамках различных выборочных и демографических моделей.

Рекомендации

  1. ^ а б c Моррис А., Уиттакер Дж. И Болдинг Д. (2002). Картирование очагов заболевания в мелкомасштабном масштабе с помощью моделирования генеалогий с разрушенным слиянием. Американский журнал генетики человека, 70(3), 686–707. DOI: 10.1086 / 339271
  2. ^ а б c Раннала, Б. (2001). Поиск генов, влияющих на предрасположенность к сложным заболеваниям в постгеномную эру. Американский журнал фармакогеномики, 1(3), 203–221.

Источники

Статьи

  • ^ Аренас, М. и Посада, Д. (2014) Моделирование общегеномной эволюции в рамках моделей гетерогенного замещения и сложных многовидовых слитных историй. Молекулярная биология и эволюция 31(5): 1295–1301
  • ^ Аренас, М. и Посада, Д. (2007) Рекодон: объединенное моделирование кодирующих последовательностей ДНК с рекомбинацией, миграцией и демографией. BMC Bioinformatics 8: 458
  • ^ Аренас М. и Посада Д. (2010) Коалесцентное моделирование рекомбинации внутрикодонов. Генетика 184(2): 429–437
  • ^ Браунинг, С. (2006) Мультилокусное сопоставление ассоциаций с использованием цепей маркова переменной длины. Американский журнал генетики человека 78:903–913
  • ^ Cornuet J.-M., Pudlo P., Veyssier J., Dehne-Garcia A., Gautier M., Leblois R., Marin J.-M., Estoup A. (2014) DIYABC v2.0: программное обеспечение для Сделайте приблизительные выводы байесовских вычислений об истории популяции с использованием однонуклеотидного полиморфизма, последовательности ДНК и микросателлитных данных. Биоинформатика '30': 1187–1189
  • ^ Дегнан, Дж. Х. и Л. А. Солтер. 2005. Распределение генного дерева в процессе слияния. Эволюция 59 (1): 24–37. pdf с сайта Coaltree.net/
  • ^ Доннелли П., Таваре С. (1995) Слияние и генеалогическая структура при нейтралитете. Ежегодный обзор генетики 29:401–421
  • ^ Драммонд А., Сушард М.А., Се Д., Рамбо А. (2012). "Байесовская филогенетика с BEAUti and the BEAST 1.7". Молекулярная биология и эволюция. 29 (8): 1969–1973. Дои:10.1093 / molbev / mss075. ЧВК  3408070. PMID  22367748.
  • ^ Ewing, G. и Hermisson J. (2010), MSMS: объединенная программа моделирования, включающая рекомбинацию, демографическую структуру и отбор в одном локусе, Биоинформатика 26:15
  • ^ Hellenthal, G., Stephens M. (2006) msHOT: модификация симулятора MS Хадсона для включения горячих точек кроссовера и преобразования генов Биоинформатика АОП
  • ^ Хадсон, Ричард Р. (1983a). «Тестирование модели нейтральных аллелей с постоянной скоростью с данными о последовательности белков». Эволюция. 37 (1): 203–17. Дои:10.2307/2408186. ISSN  1558-5646. JSTOR  2408186. PMID  28568026.
  • ^ Hudson RR (1983b) Свойства модели нейтрального аллеля с внутригенной рекомбинацией. Теоретическая популяционная биология 23:183–201.
  • ^ Хадсон РР (1991) Генеалогия и процесс слияния. Оксфордские исследования по эволюционной биологии 7: 1–44
  • ^ Хадсон Р.Р. (2002) Создание выборок по нейтральной модели Райта – Фишера. Биоинформатика 18:337–338
  • ^ Кендал В.С. (2003) Модель экспоненциальной дисперсии для распределения однонуклеотидных полиморфизмов человека. Мол Биол Эвол 20: 579–590
  • Хайн, Дж., Скируп, М., Вьюф К. (2004) Генеалогия, вариация и эволюция: основы теории слияния Oxford University Press ISBN  978-0-19-852996-5
  • ^ Каплан, Н.Л., Дарден, Т., Хадсон, Р.Р. (1988) Процесс объединения в моделях с отбором. Генетика 120:819–829
  • ^ Кингман, Дж. Ф. С. (1982). «О генеалогии больших популяций». Журнал прикладной теории вероятностей. 19: 27–43. CiteSeerX  10.1.1.552.1429. Дои:10.2307/3213548. ISSN  0021-9002. JSTOR  3213548.
  • ^ Кингман, J.F.C. (2000) Истоки слияния 1974–1982. Генетика 156:1461–1463
  • ^ Леблуа Р., Эступ А. и Руссе Ф. (2009) IBDSim: компьютерная программа для моделирования генотипических данных в условиях изоляции по расстоянию Ресурсы по молекулярной экологии 9:107–109
  • ^ Лян Л., Цёлльнер С., Абекасис Г. (2007) GENOME: симулятор всего генома на основе быстрого слияния. Биоинформатика 23: 1565–1567
  • ^ Майлунд, Т., Скируп, М.Х., Педерсен, C.N.S., Мехленборг, П. Дж. М., Мэдсен, Дж. Н., Шаузер, Л. (2005) CoaSim: гибкая среда для моделирования генетических данных с помощью коалесцентных моделей BMC Bioinformatics 6:252
  • ^ Мёле, М., Загитов, С. (2001) Классификация процессов слияния для гаплоидных моделей сменяемых популяций Анналы вероятности 29:1547–1562
  • ^ Моррис, А.П., Уиттакер, Дж. К., Болдинг, Д. Дж. (2002). Мелкомасштабное картирование локусов болезней посредством разбитого коалесцентного моделирования генеалогий Американский журнал генетики человека 70:686–707
  • ^ Нойхаузер, К., Крона, С. (1997) Генеалогия образцов в моделях с отбором Генетика 145 519–534
  • ^ Питман Дж. (1999) Коалесценты с множественными столкновениями Анналы вероятности 27:1870–1902
  • ^ Хардинг, Розалинд, М. 1998. Новые филогении: вводный взгляд на слияние. стр. 15–22, в Харви, П. Х., Браун, А. Дж. Л., Смит, Дж. М., Ни, С. Новые способы использования новых филогений. Издательство Оксфордского университета (ISBN  0198549849)
  • ^ Розенберг, Н.А., Нордборг, М. (2002) Генеалогические деревья, теория слияния и анализ генетических полиморфизмов. Природа Обзоры Генетика 3:380–390
  • ^ Сагитов, С. (1999) Общее слияние с асинхронным слиянием родовых линий Журнал прикладной теории вероятностей 36:1116–1125
  • ^ Швайнсберг, Дж. (2000) Коалесценты при одновременных множественных столкновениях Электронный журнал вероятностей 5:1–50
  • ^ Слаткин М. (2001) Моделирование генеалогий выбранных аллелей в популяциях переменного размера. Генетические исследования 145:519–534
  • ^ Таджима, Ф. (1983) Эволюционная взаимосвязь последовательностей ДНК в конечных популяциях. Генетика 105:437–460
  • ^ Таваре С., Болдинг Д. Д., Гриффитс Р. К. и Доннелли П. 1997. Вывод времени слияния на основе данных последовательности ДНК. Генетика 145: 505–518.
  • ^ Рабочая группа по международной карте SNP. 2001. Карта вариаций генома человека, содержащая 1,42 миллиона однонуклеотидных полиморфизмов. Природа 409: 928–933.
  • ^ Цёлльнер С. и Причард Дж. К. (2005) Ассоциативное картирование на основе коалесцента и точное картирование сложных локусов признаков Генетика 169:1071–1092
  • ^ Руссе Ф. и Леблуа Р. (2007) Вероятность и приблизительный анализ вероятности генетической структуры в линейной среде обитания: производительность и устойчивость к неправильной спецификации модели Молекулярная биология и эволюция 24:2730–2745

Книги

  • Hein, J; Schierup, M.H., и Wiuf, C. Генеалогия, вариация и эволюция - основы теории слияния. Oxford University Press, 2005. ISBN  0-19-852996-1.
  • Нордборг, М. (2001) Введение в теорию слияния
  • Глава 7 у Болдинга, Д., Бишопа, М., Каннингса, К., редакторов, Справочник по статистической генетике. Wiley ISBN  978-0-471-86094-5
  • Уэйкли Дж. (2006) Введение в теорию слияния Робертс и Ко ISBN  0-9747077-5-9 Сопровождающий веб-сайт с примерами глав
  • ^ Рис Ш. (2004). Эволюционная теория: математические и концептуальные основы. Sinauer Associates: Сандерленд, Массачусетс. См. Особенно гл. 3 для подробных выводов.
  • Берестыцкий Н. "Последние достижения в теории коалесценции" 2009 ENSAIOS Matematicos vol.16
  • Бертуан Дж. "Случайные процессы фрагментации и коагуляции"., 2006. Кембриджские исследования по высшей математике, 102. Издательство Кембриджского университета, Кембридж, 2006. ISBN  978-0-521-86728-3;
  • Питман Дж. "Комбинаторные случайные процессы" Springer (2003)

внешняя ссылка