Вычислительная и статистическая генетика - Википедия - Computational and Statistical Genetics

Область междисциплинарных исследований Вычислительная и статистическая генетика использует новейшие подходы в геномика, количественная генетика, вычислительные науки, биоинформатика и статистика для разработки и применения эффективных с вычислительной точки зрения и статистически надежных методов для сортировки все более богатых и массивных наборов данных по всему геному для выявления сложных генетических паттернов, функций и взаимодействий генов, заболеваний и ассоциаций фенотипов, включающих геномы различных организмов.[1][2] Это поле также часто называют вычислительная геномика. Это важная дисциплина в «зонтичной» области. вычислительная биология.

Фазирование гаплотипа

В течение последних двух десятилетий проявлялся большой интерес к пониманию генетической и геномной структуры различных видов, включая людей, в первую очередь благодаря различным технологиям секвенирования генома для чтения геномов, которые быстро развивались. Однако эти технологии все еще ограничены, и вычислительные и статистические методы необходимы для обнаружения и обработки ошибок и объединения фрагментов частичной информации из технологий секвенирования и генотипирования.

Гаплотип определяется последовательностью нуклеотидов (A, G, T, C) вдоль одной хромосомы. У человека 23 пары хромосом. Другой пример - кукуруза, которая также является диплоидом с 10 парами хромосом. Однако при современных технологиях трудно разделить две хромосомы в паре, и анализы дают комбинированный гаплотип, называемый информацией генотипа на каждом нуклеотиде. Цель фазирования гаплотипа - найти фазу двух гаплотипов с учетом комбинированных информация о генотипе. Знание гаплотипов чрезвычайно важно и не только дает нам полную картину генома индивида, но также помогает другим вычислительным геномным процессам, таким как вменение среди многих важных биологических мотивов.

Для диплоидных организмов, таких как человек и кукуруза, каждый организм имеет две копии хромосомы - по одной от двух родителей. Эти две копии очень похожи друг на друга. Гаплотип - это последовательность нуклеотидов в хромосоме. проблема фазирования гаплотипа сосредоточена на нуклеотидах, где две гомологичные хромосомы различаются. С вычислительной точки зрения, для области генома с K различными нуклеотидными сайтами существует 2 ^ K - 1 возможных гаплотипов, поэтому проблема фазирования фокусируется на эффективном поиске наиболее вероятных гаплотипов с учетом наблюдаемого генотипа. Для получения дополнительной информации см. Гаплотип.

Прогнозирование генотипов SNP путем вменения

Хотя геном высших организмов (эукариот) содержит миллионы однонуклеотидных полиморфизмов (SNP), наборы генотипов заранее определены для обнаружения лишь нескольких таких маркеров. Недостающие маркеры прогнозируются с помощью вмененного анализа. Вменение негенотипированных маркеров стало важной частью генетических и геномных исследований. Он использует информацию о неравновесии сцепления (LD) из гаплотипов в известной контрольной панели (например, HapMap и 1000 Genomes Projects) для прогнозирования генотипов по отсутствующим или негенотипированным маркерам. Этот процесс позволяет ученым точно выполнять анализ как генотипированных полиморфных маркеров, так и негенотипированных маркеров, которые предсказываются с помощью вычислений. Было показано, что последующие исследования [3] извлекают большую пользу из анализа вменения в виде улучшенных возможностей для выявления локусов, связанных с заболеванием. Еще одним важным вкладом вменения является то, что он также способствует объединению генетических и геномных исследований, в которых для своих экспериментов использовались разные платформы генотипирования. Например. Хотя в геноме человека существует 415 миллионов распространенных и редких генетических вариантов, современные массивы генотипов, такие как микроматрицы Affymetrix и Illumina, могут анализировать только до 2,5 миллионов SNP. Таким образом, анализ вменения является важным направлением исследований, и важно определить методы и платформы для вменения высококачественных данных о генотипах с использованием существующих генотипов и справочных панелей из общедоступных ресурсов, таких как Международный проект HapMap и Проект 1000 геномов. Для людей анализ успешно сгенерировал предсказанные генотипы у многих рас, включая европейцев. [4] и афроамериканцы.[5] Для других видов, таких как растения, вмененный анализ - это постоянный процесс с использованием контрольных панелей, таких как кукуруза.[6]

Существует ряд различных методов вменения генотипа. Три наиболее широко используемых метода вменения: Маха,[7] Вменять [8] и Бигль.[9] Все три метода используют скрытые марковские модели в качестве основы для оценки распределения частот гаплотипов. Mach и Impute2 требуют больших вычислительных ресурсов по сравнению с Beagle. И Impute, и Mach основаны на разных реализациях продукта условных выражений или модели PAC. Beagle группирует гаплотипы эталонной панели в кластеры в каждом SNP, чтобы сформировать локализованную модель гаплотипа-кластера, которая позволяет ему динамически изменять количество кластеров в каждом SNP, делая его в вычислительном отношении быстрее, чем Mach и Impute2.

Для получения дополнительной информации см. вменение (генетика).

Полногеномный ассоциативный анализ

За последние несколько лет полногеномные ассоциативные исследования (GWAS) стали мощным инструментом для исследования генетической основы распространенных заболеваний и улучшили наше понимание генетической основы многих заболеваний. сложные черты.[10] Традиционный одиночный SNP (однонуклеотидный полиморфизм) GWAS является наиболее часто используемым методом для поиска вариантов последовательности ДНК, ассоциированных с признаками - ассоциации между вариантами и одним или несколькими интересующими фенотипами исследуются путем изучения лиц с разными фенотипами и изучения их генотипов в позиции каждый SNP индивидуально. SNP, для которых один вариант статистически чаще встречается у лиц, принадлежащих к одной фенотипической группе, затем сообщается как связанный с этим фенотипом. Однако наиболее сложные распространенные заболевания связаны с небольшими вкладами на популяционном уровне нескольких локусов генома. Чтобы обнаружить такие небольшие эффекты, как значимые для всего генома, традиционные GWAS полагаются на увеличенный размер выборки, например Чтобы обнаружить эффект, который составляет 0,1% от общей дисперсии, традиционному GWAS необходимо выбрать почти 30 000 человек. Хотя разработка высокопроизводительных технологий генотипирования SNP снизила стоимость и повысила эффективность генотипирования. Проведение такого масштабного исследования по-прежнему требует значительных денег и времени. Недавно были предложены методы ассоциативного анализа с использованием генных тестов.[11] которые основаны на том факте, что вариации в кодирующих белки и прилегающих регуляторных областях с большей вероятностью имеют функциональное значение. Преимущество этих методов состоит в том, что они могут учитывать несколько независимых функциональных вариантов в пределах гена, что может значительно увеличить возможности для идентификации генов, связанных с заболеванием / признаком. Кроме того, вменение нетипированных маркеров с использованием известных эталонных панелей (например, HapMap и 1000 Genomes Project) позволяет прогнозировать генотипы по отсутствующим или нетипизированным маркерам, что позволяет точно оценить доказательства ассоциации с генетическими маркерами, которые не генотипированы напрямую (в дополнение к типизированные маркеры), и было показано, что он улучшает способность GWAS обнаруживать локусы, связанные с заболеванием.

Для получения дополнительной информации см. Полногеномное исследование ассоциации

Статистический анализ взаимодействия, связанного с заболеванием

В эту эпоху большого количества генетических и геномных данных точное представление и идентификация статистических взаимодействий в биологических / генетических / геномных данных составляет жизненно важную основу для разработки вмешательств и лечебных решений для многих сложных заболеваний. Давно известно, что вариации генома человека делают нас восприимчивыми ко многим заболеваниям. Мы стремительно приближаемся к эре персональной геномики и персонализированной медицины, которая требует точных прогнозов риска заболеваний, связанных с предрасполагающими генетическими факторами. Вычислительные и статистические методы для идентификации этих генетических вариаций и встраивания их в интеллектуальные модели для исследований ассоциаций болезней и анализа взаимодействий в масштабах всего генома являются острой необходимостью во многих областях болезней. Основные проблемы заключаются в следующем: (1) самые сложные заболевания связаны с небольшим или слабым вкладом множества генетических факторов, которые объясняют лишь незначительную часть популяционных вариаций, приписываемых генетическим факторам. (2) Биологические данные по своей природе чрезвычайно зашумлены, поэтому основные сложности биологических систем (такие как неравновесие по сцеплению и генетическая гетерогенность) должны быть включены в статистические модели для исследований ассоциации болезней. Вероятность развития многих распространенных заболеваний, таких как рак, аутоиммунные заболевания и сердечно-сосудистые заболевания, связана со сложными взаимодействиями между множеством генов и несколькими эндогенными и экзогенными факторами окружающей среды или ковариатами. Многие предыдущие исследования ассоциации болезней не могли дать значимых результатов из-за отсутствия включения статистических взаимодействий в их математические модели, объясняющие исход болезни. Следовательно, многие генетические риски, лежащие в основе ряда заболеваний и нарушений, остаются неизвестными. Вычислительные методы, такие как[12][13][14][15][16][17] Моделирование и определение генетических / геномных вариаций, лежащих в основе рисков заболевания, имеет большой потенциал для улучшения прогнозирования исходов заболевания, понимания взаимодействий и разработки более эффективных терапевтических методов на их основе.

Рекомендации

  1. ^ Пельц, Гэри, изд. (2005). Вычислительная генетика и геномика - Springer. Link.springer.com. Дои:10.1007/978-1-59259-930-1. ISBN  978-1-58829-187-5.[страница нужна ]
  2. ^ "Nature Reviews Genetics - Focus on Computational Genetics". Nature.com. Получено 2013-10-20.[страница нужна ]
  3. ^ Хао, Кэ; Чудин, Евгений; Макэлви, Джошуа; Шадт, Эрик Э (2009). «Точность вменения нетипизированных маркеров по всему геному и влияние на статистическую мощность ассоциативных исследований». BMC Genetics. 10: 27. Дои:10.1186/1471-2156-10-27. ЧВК  2709633. PMID  19531258.
  4. ^ Нотнагель, М; Ellinghaus, D; Шрайбер, S; Кравчак, М; Франке, А (2009). «Комплексная оценка вменения генотипа SNP». Генетика человека. 125 (2): 163–71. Дои:10.1007 / s00439-008-0606-5. PMID  19089453. S2CID  6678626.
  5. ^ Chanda, P; Yuhki, N; Ли, М; Бадер, JS; Харц, А; Boerwinkle, E; Као, WH; Аркинг, DE (2012). «Комплексная оценка эффективности условного исчисления афроамериканцев». Журнал генетики человека. 57 (7): 411–21. Дои:10.1038 / jhg.2012.43. ЧВК  3477509. PMID  22648186.
  6. ^ Хики, Джон М .; Кросса, Хосе; Бабу, Раман; Де Лос Кампос, Густаво (2012). «Факторы, влияющие на точность импутации генотипа в популяциях из нескольких программ селекции кукурузы». Растениеводство. 52 (2): 654. Дои:10.2135 / cropci2011.07.0358.
  7. ^ «Мах».
  8. ^ "Impute2".
  9. ^ "Бигль".
  10. ^ Маккарти, Мичиган; Abecasis, GR; Кардон, Л. Р.; Гольдштейн, ДБ; Литтл, Дж; Иоаннидис, JP; Хиршхорн, Дж. Н. (2008). «Общегеномные ассоциации исследований сложных признаков: консенсус, неопределенность и проблемы». Природа Обзоры Генетика. 9 (5): 356–69. Дои:10.1038 / nrg2344. PMID  18398418. S2CID  15032294.
  11. ^ Чанда, Притам; Хуанг, Хайлянь; Аркинг, Дэн Э .; Бадер, Джоэл С. (2013). Veitia, Райнер Альберт (ред.). «Быстрые тесты ассоциации генов с FAST». PLOS ONE. 8 (7): e68585. Bibcode:2013PLoSO ... 868585C. Дои:10.1371 / journal.pone.0068585. ЧВК  3720833. PMID  23935874.
  12. ^ Chanda, P; Чжан, А; Brazeau, D; Sucheston, L; Freudenheim, JL; Амброзон, C; Раманатан, М. (2007). «Теоретико-информационные метрики для визуализации взаимодействий гена и окружающей среды». Американский журнал генетики человека. 81 (5): 939–63. Дои:10.1086/521878. ЧВК  2265645. PMID  17924337.
  13. ^ Чанда, Притам; Сушестон, Лара; Лю, Сун; Чжан, Айдун; Раманатан, Мурали (2009). «Теоретико-информационный анализ взаимодействия генов и генов с количественными признаками». BMC Genomics. 10: 509. Дои:10.1186/1471-2164-10-509. ЧВК  2779196. PMID  19889230.
  14. ^ Chanda, P .; Sucheston, L .; Чжан, А .; Brazeau, D .; Freudenheim, J. L .; Ambrosone, C .; Раманатан, М. (2008). «AMBIENCE: новый подход и эффективный алгоритм для выявления информативных генетических и экологических ассоциаций со сложными фенотипами». Генетика. 180 (2): 1191–210. Дои:10.1534 / genetics.108.088542. ЧВК  2567367. PMID  18780753.
  15. ^ «МДР».
  16. ^ Шан, Цзюньлянь; Чжан, Цзюньин; Вс, Ян; Чжан, Юанке (2013). «EpiMiner: трехэтапный метод на основе совместной информации для обнаружения и визуализации эпистатических взаимодействий». Цифровая обработка сигналов. 24: 1–13. Дои:10.1016 / j.dsp.2013.08.007.
  17. ^ "СПОСОБСТВОВАТЬ РОСТУ".