Взвешенный корреляционный сетевой анализ - Weighted correlation network analysis
Взвешенный корреляционный сетевой анализ, также известный как взвешенная коэкспрессия генов сеть анализ (WGCNA), широко используемый сбор данных метод специально для изучения биологические сети на основе попарного корреляции между переменными. Хотя его можно применить к большинству многомерный наборов данных, он наиболее широко использовался в геномный Приложения. Это позволяет определять модули (кластеры), внутримодульные концентраторы и сетевые узлы с учетом членства в модулях, изучать отношения между модулями совместного выражения и сравнивать топологию сети различных сетей (дифференциальный сетевой анализ). WGCNA может использоваться как техника обработки данных (относится к косой факторный анализ ), как кластеризация метод (нечеткая кластеризация), как особенность метод отбора (например, как метод скрининга генов), как основу для интеграции дополнительных (геномных) данных (на основе взвешенных корреляций между количественными переменными), и как поиск данных техника.[1] Хотя WGCNA включает в себя традиционные методы исследования данных, ее интуитивно понятный сетевой язык и структура анализа превосходят любые стандартные методы анализа. Поскольку он использует сетевую методологию и хорошо подходит для интеграции дополнительных наборов геномных данных, его можно интерпретировать как системы биологические или системный метод анализа генетических данных. Выбирая внутримодульные концентраторы в консенсусных модулях, WGCNA также дает начало сетевым мета анализ техники.[2]
История
Метод WGCNA был разработан Стив Хорват, профессор генетика человека в Медицинской школе Дэвида Геффена в UCLA и из биостатистика на UCLA Филдинга и его коллег из Калифорнийского университета в Лос-Анджелесе и (бывших) сотрудников лаборатории (в частности, Питера Лангфелдера, Бин Чжана, Цзюнь Донга). Большая часть работы возникла в результате сотрудничества с прикладными исследователями. В частности, сети взвешенных корреляций были разработаны в ходе совместных обсуждений с исследователями рака. Пол Мишель, Стэнли Ф. Нельсон и нейробиологи Даниэль Х. Гешвинд, Майкл С. Олдхэм (согласно разделу благодарностей в[1]). Существует обширная литература о сетях зависимостей, сетях без масштабирования и сетях совместного выражения.[нужна цитата ]
Сравнение взвешенных и невзвешенных корреляционных сетей
Взвешенную корреляционную сеть можно интерпретировать как частный случай взвешенная сеть, сеть зависимости или корреляционная сеть. Взвешенный корреляционный сетевой анализ может быть привлекательным по следующим причинам:
- Построение сети (на основе мягкого порога коэффициент корреляции ) сохраняет непрерывный характер лежащей в основе корреляционной информации. Например, сети взвешенной корреляции, построенные на основе корреляций между числовыми переменными, не требуют выбора жесткого порога. Дихотомия информации и (жесткое) определение порога могут привести к потере информации.[3]
- Построение сети дает очень надежные результаты в отношении различных вариантов мягкого порога.[3] Напротив, результаты, основанные на невзвешенных сетях, построенных путем определения порога попарной меры ассоциации, часто сильно зависят от порога.
- Сети взвешенной корреляции облегчают геометрическую интерпретацию, основанную на угловой интерпретации корреляции, глава 6 в.[4]
- Полученная сетевая статистика может использоваться для улучшения стандартных методов интеллектуального анализа данных, таких как кластерный анализ, поскольку показатели (несходства) часто можно преобразовать во взвешенные сети; [5] см. главу 6 в [4].
- WGCNA предоставляет мощную статистику сохранения модулей, которую можно использовать для количественной оценки того, можно ли найти в другом состоянии. Также статистика сохранения модулей позволяет изучать различия в модульной структуре сетей.[6]
- Взвешенные сети и сети корреляции часто могут быть аппроксимированы "факторизуемыми" сетями.[4][7] Такие приближения часто трудно достичь для разреженных невзвешенных сетей. Следовательно, взвешенные (корреляционные) сети допускают экономную параметризацию (с точки зрения модулей и членства в модулях) (главы 2, 6 в [1]) и [8].
Метод
Во-первых, определяется коэкспрессия гена. мера сходства который используется для определения сети. Обозначим меру сходства коэкспрессии генов пары генов i и j через . Многие исследования совместного выражения используют абсолютное значение корреляции в качестве меры сходства беззнакового совместного выражения,
где профили экспрессии генов и состоят из экспрессии генов i и j в нескольких образцах. Однако использование абсолютного значения корреляции может скрыть биологически значимую информацию, поскольку не делается различия между репрессией и активацией генов. Напротив, в подписанных сетях сходство между генами отражает знак корреляции их профилей экспрессии. Для определения подписанной меры коэкспрессии между профилями экспрессии генов и , можно использовать простое преобразование корреляции:
Как беззнаковая мера , подписанное подобие принимает значение от 0 до 1. Обратите внимание, что беззнаковое сходство между двумя противоположно экспрессируемыми генами () равняется 1, в то время как он равен 0 для подобия со знаком. Точно так же, хотя беззнаковая мера коэкспрессии двух генов с нулевой корреляцией остается нулевой, сходство со знаком равно 0,5.
Далее матрица смежности (сеть), , используется для количественной оценки того, насколько сильно гены связаны друг с другом. определяется пороговым значением матрицы сходства ко-выражений . `` Жесткая '' пороговая обработка (дихотомия) меры сходства приводит к невзвешенной сети коэкспрессии генов. В частности, невзвешенная сетевая смежность определяется как 1, если и 0 в противном случае. Поскольку жесткое определение пороговых значений кодирует связи генов двоичным образом, оно может быть чувствительным к выбору порога и приводить к потере информации о коэкспрессии.[3] Непрерывный характер информации о совместном выражении может быть сохранен с помощью мягкого определения порога, что приводит к взвешенной сети. В частности, WGCNA использует следующую степенную функцию для оценки силы их соединения:
,
где сила - параметр мягкого порогового значения. Значения по умолчанию и используются для неподписанных и подписанных сетей соответственно. В качестве альтернативы, можно выбрать с помощью безмасштабная топология критерий, сводящийся к выбору наименьшего значения такая, что достигается приблизительная безмасштабная топология.[3]
С , взвешенная сетевая смежность линейно связана с подобием совместного выражения в логарифмической шкале. Обратите внимание, что высокая мощность преобразует высокое сходство в высокую степень смежности, при этом приближая низкое сходство к нулю. Поскольку эта процедура мягкого определения порога, применяемая к матрице парной корреляции, приводит к взвешенной матрице смежности, последующий анализ называется сетевым анализом взвешенной коэкспрессии генов.
Важным шагом в модульно-ориентированном анализе является объединение генов в сетевые модули с использованием меры сетевой близости. Грубо говоря, пара генов имеет высокую степень близости, если они тесно связаны между собой. По соглашению, максимальная близость между двумя генами равна 1, а минимальная близость равна 0. Обычно WGCNA использует меру топологического перекрытия (TOM) как близость.[9][10] который также может быть определен для взвешенных сетей.[3] TOM сочетает в себе соседство двух генов и силу связи, которую эти два гена разделяют с другими генами «третьей стороны». TOM - это очень надежный показатель взаимосвязанности (близости) сети. Эта близость используется в качестве входных данных для иерархической кластеризации средней связи. Модули определяются как ветви результирующего дерева кластеров с использованием подхода динамического разделения ветвей.[11]Затем гены внутри данного модуля суммируются с модулем собственный ген, который можно рассматривать как лучшее обобщение данных стандартизованного выражения модуля.[4] Собственный ген модуля данного модуля определяется как первый главный компонент стандартизованных профилей выражений. Eigengenes определяет надежные биомаркеры,[12] и могут использоваться как функции в сложных машинное обучение такие модели как Байесовские сети.[13] Чтобы найти модули, которые относятся к интересующему клиническому признаку, собственные гены модулей коррелируют с представляющим интерес клиническим признаком, что приводит к измерению значимости собственных генов. Собственные гены можно использовать в качестве функций в более сложных прогнозных моделях, включая деревья решений и байесовские сети.[12] Можно также построить сети коэкспрессии между собственными генами модулей (сетями собственных генов), то есть сетями, узлы которых являются модулями.[14]Чтобы идентифицировать внутримодульные хаб-гены внутри данного модуля, можно использовать два типа мер связности. Первый, именуемый , определяется на основе корреляции каждого гена с соответствующим собственным геном модуля. Второй, называемый kIN, определяется как сумма смежностей по отношению к генам модуля. На практике эти две меры эквивалентны.[4]Чтобы проверить, сохраняется ли модуль в другом наборе данных, можно использовать различную сетевую статистику, например .[6]
Приложения
WGCNA широко используется для анализа данных экспрессии генов (т.е. данных транскрипции), например найти внутримодульные хаб-гены.[2][15] Например, исследование WGCNA показывает, что новые факторы транскрипции связаны с Бисфенол А (BPA) доза-реакция.[16]
Он часто используется в качестве этапа обработки данных в системных генетических приложениях, где модули представлены «собственными генами модулей», например[17][18] Собственные гены модулей можно использовать для корреляции модулей с клиническими признаками. Сети собственных генов - это сети коэкспрессии между собственными генами модулей (то есть сетями, узлы которых являются модулями) .WGCNA широко используется в нейробиологических приложениях, например[19][20] и для анализа геномных данных, включая микрочип данные,[21] одиночная ячейка РНК-Seq данные[22][23] Метилирование ДНК данные,[24] данные miRNA, количество пептидов[25] и микробиота данные (секвенирование гена 16S рРНК).[26] Другие приложения включают данные изображений мозга, например функциональная МРТ данные.[27]
Программный пакет R
ВГКНА Программное обеспечение R упаковка[28]предоставляет функции для выполнения всех аспектов взвешенного сетевого анализа (построение модуля, выбор гена концентратора, статистика сохранения модуля, дифференциальный сетевой анализ, сетевая статистика). Пакет WGCNA доступен в Комплексном р Archive Network (CRAN), стандартный репозиторий для дополнительных пакетов R.
Рекомендации
- ^ а б c Хорват С. (2011). Взвешенный сетевой анализ: применение в геномике и системной биологии. Нью-Йорк, штат Нью-Йорк: Спрингер. ISBN 978-1-4419-8818-8.
- ^ а б Лангфельдер П., Мишель П.С., Хорват С., Раваси Т. (17 апреля 2013 г.). «Когда выбор гена-концентратора лучше стандартного метаанализа?». PLOS ONE. 8 (4): e61505. Bibcode:2013PLoSO ... 861505L. Дои:10.1371 / journal.pone.0061505. ЧВК 3629234. PMID 23613865.
- ^ а б c d е Чжан Б., Хорват С. (2005). «Общая основа для сетевого анализа взвешенной коэкспрессии генов» (PDF). Статистические приложения в генетике и молекулярной биологии. 4: 17. CiteSeerX 10.1.1.471.9599. Дои:10.2202/1544-6115.1128. PMID 16646834. S2CID 7756201.
- ^ а б c d е Хорват С., Донг Дж. (2008). "Геометрическая интерпретация сетевого анализа коэкспрессии генов". PLOS вычислительная биология. 4 (8): e1000117. Bibcode:2008PLSCB ... 4E0117H. Дои:10.1371 / journal.pcbi.1000117. ЧВК 2446438. PMID 18704157.
- ^ Олдхэм М.С., Лангфельдер П., Хорват С. (12 июня 2012 г.). «Сетевые методы для описания взаимосвязей образцов в наборах геномных данных: применение к болезни Хантингтона». BMC Systems Biology. 6: 63. Дои:10.1186/1752-0509-6-63. ЧВК 3441531. PMID 22691535.
- ^ а б Лангфельдер П., Луо Р., Олдхэм М.С., Хорват С. (20 января 2011 г.). «Сохраняется ли и воспроизводится ли мой сетевой модуль?». PLOS вычислительная биология. 7 (1): e1001057. Bibcode:2011PLSCB ... 7E1057L. Дои:10.1371 / journal.pcbi.1001057. ЧВК 3024255. PMID 21283776.
- ^ Донг Дж., Хорват С. (4 июня 2007 г.). «Понимание сетевых концепций в модулях». BMC Systems Biology. 1: 24. Дои:10.1186/1752-0509-1-24. ЧВК 3238286. PMID 17547772.
- ^ Ранола Дж. М., Лангфельдер П., Ланге К., Хорват С. (14 марта 2013 г.). «Аппроксимация сети на основе кластеров и склонностей». BMC Systems Biology. 7: 21. Дои:10.1186/1752-0509-7-21. ЧВК 3663730. PMID 23497424.
- ^ Ravasz E, Somera AL, Mongru DA, Oltvai ZN, Barabasi AL (2002). «Иерархическая организация модульности в метаболических сетях». Наука. 297 (5586): 1551–1555. arXiv:cond-mat / 0209244. Bibcode:2002Научный ... 297.1551R. Дои:10.1126 / science.1073374. PMID 12202830. S2CID 14452443.
- ^ Ип А.М., Хорват С. (24 января 2007 г.). «Взаимосвязанность генных сетей и обобщенная мера топологического перекрытия» (PDF). BMC Bioinformatics. 8: 22. Дои:10.1186/1471-2105-8-22. ЧВК 1797055. PMID 17250769.
- ^ Лангфельдер П., Чжан Б., Хорват С. (2007). «Определение кластеров из иерархического дерева кластеров: библиотека Dynamic Tree Cut для R». Биоинформатика. 24 (5): 719–20. Дои:10.1093 / биоинформатика / btm563. PMID 18024473. S2CID 1095190.
- ^ а б Форушани А., Аграхари Р., Док-Р., Чанг Л., Дунс Г., Худоба М., Карсан А., Заре Х. (16 марта 2017 г.). «Масштабный анализ генной сети показывает важность пути внеклеточного матрикса и генов гомеобокса при остром миелоидном лейкозе: введение в пакет Pigengene и его приложения». BMC Medical Genomics. 10 (1): 16. Дои:10.1186 / s12920-017-0253-6. ЧВК 5353782. PMID 28298217.
- ^ Аграхари, Рупеш; Форушани, Амир; Док, Т. Родерик; Чанг, Линда; Дунс, Гербен; Худоба, Моника; Карсан, Али; Заре, Хабил (3 мая 2018 г.). «Применение байесовских сетевых моделей в прогнозировании типов гематологических злокачественных новообразований». Научные отчеты. 8 (1): 6951. Bibcode:2018НатСР ... 8.6951A. Дои:10.1038 / s41598-018-24758-5. ISSN 2045-2322. ЧВК 5934387. PMID 29725024.
- ^ Лангфельдер П., Хорват С. (2007). «Сети собственных генов для изучения взаимосвязей между модулями коэкспрессии». BMC Systems Biology. 2007 (1): 54. Дои:10.1186/1752-0509-1-54. ЧВК 2267703. PMID 18031580.
- ^ Хорват С., Чжан Б., Карлсон М., Лу К. В., Чжу С., Фелчиано Р. М., Лоранс М. Ф., Чжао В., Шу К., Ли Ю., Шек А. С., Ляу Л. М., Ву Х., Гешвинд Д.Х., Феббо П.Г., Корнблюм Х.И., Cloughesy TF, Нельсон С.Ф., Мишель П.С. (2006). «Анализ онкогенных сигнальных сетей в глиобластоме определяет ASPM как новую молекулярную мишень». PNAS. 103 (46): 17402–17407. Bibcode:2006PNAS..10317402H. Дои:10.1073 / pnas.0608396103. ЧВК 1635024. PMID 17090670.
- ^ Хартунг, Томас; Кленсанг, Андре; Tran, Vy; Мартенс, Александра (2018). «Сетевой анализ взвешенной корреляции генов (WGCNA) выявляет новые факторы транскрипции, связанные с дозой-ответом бисфенола А». Границы генетики. 9: 508. Дои:10.3389 / fgene.2018.00508. ISSN 1664-8021. ЧВК 6240694. PMID 30483308.
- ^ Chen Y, Zhu J, Lum PY, Yang X, Pinto S, MacNeil DJ, Zhang C, Lamb J, Edwards S, Sieberts SK, Leonardson A, Castellini LW, Wang S, Champy MF, Zhang B, Emilsson V, Doss S , Газалпур А., Хорват С., Дрейк Т.А., Лусис А.Дж., Шадт Э.Е. (27 марта 2008 г.). «Изменения в ДНК выясняют молекулярные сети, вызывающие заболевания». Природа. 452 (7186): 429–35. Bibcode:2008Натура.452..429C. Дои:10.1038 / природа06757. ЧВК 2841398. PMID 18344982.
- ^ Plaisier CL, Horvath S, Huertas-Vazquez A, Cruz-Bautista I, Herrera MF, Tusie-Luna T, Aguilar-Salinas C, Pajukanta P, Storey JD (11 сентября 2009 г.). «Подход системной генетики предполагает использование USF1, FADS3 и других причинных генов-кандидатов для семейной комбинированной гиперлипидемии». PLOS Genetics. 5 (9): e1000642. Дои:10.1371 / journal.pgen.1000642. ЧВК 2730565. PMID 19750004.
- ^ Войнягу И., Ван Х, Джонстон П., Лоу Дж. К., Тиан Й., Хорват С., Милл Дж., Кантор Р. М., Бленкоу Б. Дж., Гешвинд Д.Х. (25 мая 2011 г.). «Транскриптомный анализ мозга аутистов показывает конвергентную молекулярную патологию». Природа. 474 (7351): 380–4. Дои:10.1038 / природа10110. ЧВК 3607626. PMID 21614001.
- ^ Hawrylycz MJ, Lein ES, Guillozet-Bongaarts AL, Shen EH, Ng L, Miller JA, van de Lagemaat LN, Smith KA, Ebbert A, Riley ZL, Abajian C, Beckmann CF, Bernard A, Bertagnolli D, Boe AF, Cartagena ПМ, Чакраварти М.М., Чапин М, Чонг Дж., Далли Р.А., Дэвид Дейли Б., Данг С., Датта С., Ди Н., Долбер Т.А., Фабер В., Фэн Д., Фаулер Д.Р., Голди Дж., Грегор Б.В., Харадон З., Хайнор Д.Р. , Hohmann JG, Horvath S, Howard RE, Jeromin A, Jochim JM, Kinnunen M, Lau C, Lazarz ET, Lee C, Lemon TA, Li L, Li Y, Morris JA, Overly CC, Parker PD, Parry SE, Reding М., Роял Дж. Дж., Шулкин Дж., Секейра П. А., Слотербек К. Р., Смит С. К., Содт А. Дж., Санкин С. М., Суонсон Б. Э., Фоутер М. П., Уильямс Д., Вонутка П., Зильке Р. Р., Гешвинд Д. Д., Хоф ПР, Смит С. М., Кох С. Грант С., Джонс АР (20 сентября 2012 г.). «Анатомически исчерпывающий атлас транскриптома мозга взрослого человека». Природа. 489 (7416): 391–399. Bibcode:2012Натура 489..391H. Дои:10.1038 / природа11405. ЧВК 4243026. PMID 22996553.
- ^ Кадармидин Х.Н., Уотсон-Хей Н.С., Андроникос Н.М. (2011). «Системная биология устойчивости кишечных паразитов овец: генные модули и биомаркеры болезней». Молекулярные биосистемы. 7 (1): 235–246. Дои:10.1039 / C0MB00190B. PMID 21072409.
- ^ Когельман Л.Дж., Цирера С., Жернакова Д.В., Фредхольм М., Франке Л., Кадармидин Х.Н. (30 сентября 2014 г.). «Идентификация сетей генов коэкспрессии, регуляторных генов и путей ожирения на основе секвенирования РНК жировой ткани на модели свиней». BMC Medical Genomics. 7 (1): 57. Дои:10.1186/1755-8794-7-57. ЧВК 4183073. PMID 25270054.
- ^ Сюэ З., Хуанг К., Цай Ц., Цай Л., Цзян Ц.Й., Фэн Й., Лю Цз., Цзэн Ц., Ченг Л., Сунь Й.Е., Лю Ц. Ю., Хорват С., Фан Г (29 августа 2013 г.). «Генетические программы ранних эмбрионов человека и мыши, выявленные с помощью секвенирования одноклеточной РНК». Природа. 500 (7464): 593–7. Bibcode:2013Натура.500..593X. Дои:10.1038 / природа12364. ЧВК 4950944. PMID 23892778.
- ^ Хорват С., Чжан И., Лангфельдер П., Кан Р.С., Бокс М.П., ван Эйк К., ван ден Берг Л.Х., Офофф Р.А. (3 октября 2012 г.). «Влияние старения на модули метилирования ДНК в мозге и ткани крови человека». Геномная биология. 13 (10): R97. Дои:10.1186 / gb-2012-13-10-r97. ЧВК 4053733. PMID 23034122.
- ^ Ширасаки Д.И., Грейнер Э.Р., Аль-Рамахи И., Грей М., Бунтхунг П., Гешвинд Д.Х., Ботас Дж., Коппола Г., Хорват С., Лу Дж.А., Ян XW (12 июля 2012 г.). «Сетевая организация протеомного интерактома хантингтина в мозге млекопитающих». Нейрон. 75 (1): 41–57. Дои:10.1016 / j.neuron.2012.05.024. ЧВК 3432264. PMID 22794259.
- ^ Тонг М., Ли Х, Вегенер Парфри Л., Рот Б., Ипполити А, Вей Б., Борнеман Дж., Макговерн Д. П., Фрэнк Д. Н., Ли Э, Хорват С., Найт Р., Браун Дж. (2013). «Модульная организация микробиоты слизистой оболочки кишечника человека и ее связь с воспалительным заболеванием кишечника». PLOS ONE. 8 (11): e80702. Bibcode:2013PLoSO ... 880702T. Дои:10.1371 / journal.pone.0080702. ЧВК 3834335. PMID 24260458.
- ^ Мамфорд Дж. А., Хорват С., Олдхэм М. С., Лангфельдер П., Гешвинд Д. Х., Полдрак Р. А. (1 октября 2010 г.). «Обнаружение сетевых модулей во временных рядах фМРТ: подход к взвешенному сетевому анализу». NeuroImage. 52 (4): 1465–76. Дои:10.1016 / j.neuroimage.2010.05.047. ЧВК 3632300. PMID 20553896.
- ^ Лангфельдер П., Хорват С. (29 декабря 2008 г.). «WGCNA: пакет R для взвешенного корреляционного сетевого анализа». BMC Bioinformatics. 9: 559. Дои:10.1186/1471-2105-9-559. ЧВК 2631488. PMID 19114008.