График вулкана (статистика) - Википедия - Volcano plot (statistics)
В статистике сюжет вулкана это тип диаграмма рассеяния который используется для быстрого выявления изменений в больших наборах данных, состоящих из реплицируемых данных.[1] Он отображает значимость по сравнению с складка по осям y и x соответственно. Эти сюжеты все чаще встречаются в omic такие эксперименты как геномика, протеомика, и метаболомика где у человека часто есть список из многих тысяч реплицируемых точек данных между двумя условиями, и кто-то хочет быстро определить наиболее значимые изменения. График вулкана сочетает в себе меру статистической значимости из статистического теста (например, значение p из ANOVA модели) с величиной изменения, позволяя быстро визуально идентифицировать те точки данных (гены и т. д.), которые отображают большие изменения величины, которые также статистически значимый.
График вулкана строится путем нанесения отрицательного логарифма значение p на ось y (обычно по основанию 10). Это приводит к появлению точек данных с низкими значениями p (очень значимыми) в верхней части графика. В ось x журнал сложить изменение между двумя условиями. Журнал изменения складки используется так, чтобы изменения в обоих направлениях казались равноудаленными от центра. Построение точек таким образом приводит к появлению двух областей интереса на графике: тех точек, которые находятся в верхней части графика, которые находятся далеко либо от левой, либо от правой стороны. Они представляют значения, которые отображают большие кратные изменения величины (следовательно, находятся слева или справа от центра), а также высокие Статистическая значимость (следовательно, к вершине).
Дополнительная информация может быть добавлена путем раскрашивания точек в соответствии с третьим измерением данных (например, интенсивностью сигнала), но это не используется повсеместно. Графики вулканов также используются для графического отображения анализ значимости микрочипов (SAM) критерий отбора гена, пример регуляризация.[2]
Концепция сюжета вулкана может быть обобщена на другие приложения, где ось x связан с мерой силы статистического сигнала, и ось y связано с мерой Статистическая значимость сигнала. Например, в генетическая ассоциация case-control исследование, например Полногеномное исследование ассоциации, точка на графике вулкана представляет собой однонуклеотидный полиморфизм. Его значение x может быть отношение шансов и его значение y может быть -log10 от значение p из Тест хи-квадрат или хи-квадрат статистика теста.[3]
Графики вулканов показывают характерную форму двух рукавов, направленную вверх, потому что лежащие в основе данные обычно представляют собой Функция Гаусса с x = значение p.Гауссиан имеет вид
- .
Итак из этого
и отрицательный является
которая представляет собой параболу, чьи рукава проходят вверх с левой и правой сторон. Верхняя граница данных - одна парабола, а нижняя граница - другая парабола.
Рекомендации
- ^ Cui, X .; Черчилль, Г. А. (2003). «Статистические тесты для дифференциальной экспрессии в экспериментах с микрочипами кДНК». Геномная биология. 4 (4): 210. Дои:10.1186 / gb-2003-4-4-210. ЧВК 154570. PMID 12702200.
- ^ Ли, В. (2012). «Графики вулканов в анализе дифференциальных выражений с помощью микромассивов мРНК». Журнал биоинформатики и вычислительной биологии. 10 (6): 1231003. arXiv:1103.3434. Дои:10.1142 / S0219720012310038. PMID 23075208.
- ^ Ли, В.; Freudenberg, J .; Suh, Y.J .; Ян, Ю. (2014). «Использование графиков вулканов и регуляризованной статистики ци в исследованиях генетических ассоциаций». Вычислительная биология и химия. 48: 77–83. arXiv:1308.6245. Дои:10.1016 / j.compbiolchem.2013.02.003. PMID 23602812. S2CID 12399345.