Метод Фишера - Википедия - Fishers method

По методу Фишера два малых p-значения п₁ и п₂ объединить, чтобы сформировать меньшее p-значение. Желто-зеленая граница определяет область, в которой значение p для мета-анализа ниже 0,05. Например, если оба p-значения составляют около 0,10, или если одно около 0,04, а другое около 0,25, p-значение мета-анализа составляет около 0,05.

В статистика, Метод Фишера,^[1]^[2] также известный как Комбинированный вероятностный тест Фишера, это техника для слияние данных или же "метаанализ "(анализ анализов). Он был разработан и назван в честь Рональд Фишер. В своей основной форме он используется для объединения результатов нескольких независимый тесты опираясь на тот же общий гипотеза (ЧАС₀).

Приложение к независимой тестовой статистике

Метод Фишера сочетает в себе исключительную ценность вероятности из каждого теста, обычно известного как "p-значения ", в один статистика теста (Икс²) по формуле

{ displaystyle X_ {2k} ^ {2} sim -2 sum _ {i = 1} ^ {k} ln (p_ {i}),}

куда п_я p-значение для я^th проверка гипотез. Когда p-значения имеют тенденцию быть маленькими, статистика теста Икс² будет большим, что говорит о том, что нулевые гипотезы верны не для всех тестов.

Когда все нулевые гипотезы верны, а п_я (или их соответствующие тестовые статистики) независимы, Икс² имеет распределение хи-квадрат с 2k степени свободы, куда k это количество тесты объединяются. Этот факт можно использовать для определения p-значение за Икс².

Распределение Икс² это распределение хи-квадрат по следующей причине; при нулевой гипотезе для проверки я, p-значение п_я следует за равномерное распределение на отрезке [0,1]. Отрицательный натуральный логарифм равномерно распределенного значения следует за экспоненциальное распределение. Масштабирование значения, которое следует экспоненциальному распределению в два раза, дает величину, которая следует за распределение хи-квадрат с двумя степенями свободы. Наконец, сумма k Независимые значения хи-квадрат, каждое с двумя степенями свободы, следует распределению хи-квадрат с 2k степени свободы.

Ограничения предположения о независимости

Зависимость между статистическими тестами обычно^{[нечеткий ]} положительный, что означает, что p-значение Икс² слишком мало (антиконсервативно), если не учитывать зависимость. Таким образом, если метод Фишера для независимых тестов применяется в зависимых условиях, а значение p недостаточно мало, чтобы отвергнуть нулевую гипотезу, то этот вывод будет оставаться в силе, даже если зависимость не будет должным образом учтена. Однако, если положительная зависимость не учтена и p-значение метаанализа оказывается небольшим, свидетельства против нулевой гипотезы обычно преувеличиваются. В средний уровень ложного обнаружения, ${ Displaystyle альфа (к + 1) / (2к)}$ , ${ displaystyle alpha}$ уменьшено для k независимых или положительно коррелированных тестов может быть достаточно для контроля альфа для полезного сравнения со сверхмалым p-значением из ФишераИкс².

Расширение статистики зависимых тестов

В случаях, когда тесты не являются независимыми, нулевое распределение Икс² сложнее. Обычная стратегия - аппроксимировать нулевое распределение с помощью масштабированного χ²-распределение случайная переменная. Могут использоваться разные подходы в зависимости от того, известна ли ковариация между различными p-значениями.

Метод Брауна ^[3] может использоваться для комбинирования зависимых p-значений, базовая статистика теста которых имеет многомерное нормальное распределение с известной ковариационной матрицей. Коста ^[4] расширяет матрицу Брауна, позволяя комбинировать p-значения, когда ковариационная матрица известна только с точностью до скалярного мультипликативного множителя.

В гармоническое среднее п-ценить предлагает альтернативу методу Фишера для комбинирования п-значения, когда структура зависимостей неизвестна, но тесты нельзя считать независимыми.^[5]^[6]

Интерпретация

Метод Фишера обычно применяется к сбору статистических данных независимых тестов, обычно из отдельных исследований, имеющих одну и ту же нулевую гипотезу. Нулевая гипотеза мета-анализа состоит в том, что все отдельные нулевые гипотезы верны. Альтернативная гипотеза метаанализа состоит в том, что по крайней мере одна из отдельных альтернатива гипотезы верны.

В некоторых условиях имеет смысл рассмотреть возможность «неоднородности», когда нулевая гипотеза верна в одних исследованиях, но не в других, или когда разные альтернативные гипотезы могут иметь место в разных исследованиях. Распространенной причиной последней формы неоднородности является то, что размеры эффекта могут отличаться в разных популяциях. Например, рассмотрим коллекцию медицинских исследований, изучающих риск диеты с высоким содержанием глюкозы для развития типа II. сахарный диабет. Из-за генетических факторов или факторов окружающей среды реальный риск, связанный с данным уровнем потребления глюкозы, может быть выше в некоторых популяциях людей, чем в других.

В других условиях альтернативная гипотеза либо универсально ложна, либо универсально верна - нет возможности, что она будет выполняться в одних условиях, но не в других. Например, рассмотрим несколько экспериментов, предназначенных для проверки определенного физического закона. Любые расхождения между результатами отдельных исследований или экспериментов должны быть случайными, возможно, вызванными различиями в мощность.

В случае метаанализа с использованием двусторонних тестов можно отклонить нулевую гипотезу метаанализа, даже если отдельные исследования показывают сильные эффекты в разных направлениях. В этом случае мы отвергаем гипотезу о том, что нулевая гипотеза верна в каждом исследовании, но это не означает, что существует единообразная альтернативная гипотеза, которая сохраняется во всех исследованиях. Таким образом, двусторонний метаанализ особенно чувствителен к неоднородности альтернативных гипотез. Односторонний мета-анализ может обнаружить неоднородность в величинах эффекта, но фокусируется на одном, заранее заданном направлении эффекта.

Связь с методом Z-оценки Стоуффера

Связь между методом Фишера и методом Стоуфера можно понять из отношения между z и −log (п)

Тесно связанный с методом Фишера подход - Z Stouffer's, основанный на Z-баллах, а не на p-значениях, что позволяет включать веса исследования. Назван в честь социолога. Сэмюэл А. Стоуфер.^[7] Если мы позволим Z_я = Φ^− 1(1−п_я), куда Φ стандартный нормальный кумулятивная функция распределения, тогда

{ displaystyle Z sim { frac { sum _ {i = 1} ^ {k} Z_ {i}} { sqrt {k}}},}

Z-оценка для общего метаанализа. Эта Z-оценка подходит для односторонних правосторонних p-значений; незначительные изменения могут быть внесены, если анализируются двусторонние или левосторонние p-значения. В частности, если анализируются двусторонние p-значения, двустороннее p-значение (p_я/ 2) или 1-p_я если используются левосторонние p-значения.^[8]^{[ненадежный источник? ]}

Поскольку метод Фишера основан на среднем значении −log (п_я) значений, а метод Z-оценки основан на среднем значении Z_я ценности, взаимосвязь между этими двумя подходами следует из взаимосвязи между z и −log (п) = −log (1−Φ(z)). Для нормального распределения эти два значения не совсем линейно связаны, но они следуют очень линейной зависимости в диапазоне наиболее часто наблюдаемых Z-значений, от 1 до 5. В результате мощность метода Z-оценки равна почти идентична силе метода Фишера.

Одним из преимуществ подхода Z-score является простота введения весов.^[9]^[10]Если я^th Z-оценка взвешивается ш_я, то Z-оценка метаанализа равна

{ displaystyle Z sim { frac { sum _ {i = 1} ^ {k} w_ {i} Z_ {i}} { sqrt { sum _ {i = 1} ^ {k} w_ {i } ^ {2}}}},}

которое следует стандартному нормальному распределению при нулевой гипотезе. В то время как взвешенные версии статистики Фишера могут быть получены, нулевое распределение становится взвешенной суммой независимых статистик хи-квадрат, с которой менее удобно работать.

Смотрите также

Расширения метода Фишера
Альтернативный источник заметки Фишера 1948 года: [1]
Z-оценка Фишера, Стоуффера и несколько связанных методов реализованы в метапа Пакет R.

[1] Фишер, Р.А. (1925). Статистические методы для научных работников. Оливер и Бойд (Эдинбург). ISBN 0-05-002170-2.

[2] Fisher, R.A .; Фишер, Р. А (1948). «Вопросы и ответы №14». Американский статистик. 2 (5): 30–31. Дои:10.2307/2681650. JSTOR 2681650.

[3] Браун, М. (1975). «Метод объединения независимых односторонних тестов значимости». Биометрия. 31 (4): 987–992. Дои:10.2307/2529826.

[4] Kost, J .; Макдермотт, М. (2002). «Объединение зависимых P-значений». Письма о статистике и вероятности. 60 (2): 183–190. Дои:10.1016 / S0167-7152 (02) 00310-3.

[:0-5] Хорошо, И. Дж (1958). «Параллельные и последовательные испытания значимости». Журнал Американской статистической ассоциации. 53 (284): 799–813. Дои:10.1080/01621459.1958.10501480. JSTOR 2281953.

[:1-6] Уилсон, Д. Дж. (2019). "Среднее гармоническое п-значение для объединения зависимых тестов ». Труды Национальной академии наук США. 116 (4): 1195–1200. Дои:10.1073 / pnas.1814092116. ЧВК 6347718.

[7] Stouffer, S.A .; Сучман, E.A .; DeVinney, L.C .; Star, S.A .; Уильямс, Р. Младший (1949). Американский солдат, Том 1: Приспособление во время армейской жизни. Издательство Принстонского университета, Принстон.

[8] «Проверка двусторонних p-значений с использованием подхода Стоуфера». stats.stackexchange.com. Получено 2015-09-14.

[9] Мостеллер, Ф .; Буш, Р. Р. (1954). «Избранные количественные методы». В Линдзей, Г. (ред.). Справочник по социальной психологии, Том 1. Addison_Wesley, Кембридж, Массачусетс, стр. 289–334.

[10] Липтак, Т. (1958). «О комбинации независимых тестов». Мадьяр Туд. Акад. Мат. Kutato Int. Козл. 3: 171–197.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]