Сила теста - Power of a test

В мощность двоичного проверка гипотез вероятность того, что тест отклонит нулевая гипотеза ( ${ displaystyle H_ {0}}$ ) когда конкретный Альтернативная гипотеза ( ${ displaystyle H_ {1}}$ ) истинно, т. е. указывает на вероятность избежать ошибка типа II. Статистическая мощность варьируется от 0 до 1, и по мере увеличения статистической мощности вероятность совершения ошибки типа II (ошибочного отказа от отклонения нулевой гипотезы) уменьшается.

Описание

Для ошибки типа II вероятность $β$ , соответствующая статистическая мощность равна 1 - $β$ . Например, если эксперимент E имеет статистическую мощность 0,7, а эксперимент F имеет статистическую мощность 0,95, тогда существует большая вероятность того, что эксперимент E имел ошибку типа II, чем эксперимент F. Это снижает чувствительность эксперимента E для обнаружения значительных эффектов. . Однако эксперимент E, следовательно, более надежен, чем эксперимент F, из-за меньшей вероятности ошибки типа I. Его можно эквивалентно рассматривать как вероятность принятия альтернативной гипотезы ( ${ displaystyle H_ {1}}$ ), когда это правда - то есть способность теста обнаруживать конкретный эффект, если этот конкретный эффект действительно существует. Таким образом,

{ displaystyle { text {power}} = Pr { big (} { text {reject}} H_ {0} mid H_ {1} { text {is true}} { big)}.}

Если ${ displaystyle H_ {1}}$ это не равенство, а просто отрицание ${ displaystyle H_ {0}}$ (так, например, с ${ displaystyle H_ {0}: mu = 0}$ для некоторого ненаблюдаемого параметра популяции ${ displaystyle mu,}$ у нас просто ${ displaystyle H_ {1}: mu neq 0}$ ), то мощность не может быть вычислена, если не известны вероятности для всех возможных значений параметра, которые нарушают нулевую гипотезу. Таким образом, обычно говорят о мощности теста. против конкретной альтернативной гипотезы.

По мере увеличения мощности уменьшается вероятность ошибки типа II, также называемой ошибкой ложноотрицательная ставка ( $β$ ), так как мощность равна 1 - $β$ . Похожая концепция - это ошибка типа I вероятность, также называемая ложноположительный рейтинг или уровень теста при нулевой гипотезе.

Анализ мощности можно использовать для расчета минимального размер образца требуется, чтобы можно было с достаточной вероятностью обнаружить эффект данного размер. Например: «Сколько раз мне нужно подбросить монету, чтобы сделать вывод, что она сфальсифицирована на определенную сумму?»^[1] Анализ мощности также можно использовать для расчета минимального размера эффекта, который может быть обнаружен в исследовании с использованием данного размера выборки. Кроме того, понятие мощности используется для сравнения между различными процедурами статистического тестирования: например, между параметрический тест и непараметрический тест той же гипотезы.

В контексте двоичная классификация, мощность теста называется его статистическая чувствительность, это истинно положительная ставка, или его вероятность обнаружения.

Фон

Статистические тесты использовать данные из образцы оценить или сделать выводы Об статистическая совокупность. В конкретных условиях сравнения двух выборок цель состоит в том, чтобы оценить, различаются ли средние значения некоторых атрибутов, полученные для лиц в двух подгруппах. Например, чтобы проверить нулевую гипотезу о том, что иметь в виду оценки мужчин и женщин, участвующих в тесте, не различаются, составляются выборки мужчин и женщин, проводится тест, и средний балл одной группы сравнивается со средним баллом другой группы с использованием статистического теста, такого как двухкомпонентный образец z-тест. Мощность теста - это вероятность того, что тест обнаружит статистически значимую разницу между мужчинами и женщинами, как функцию размера истинной разницы между этими двумя популяциями.

Факторы, влияющие на мощность

Статистическая мощность может зависеть от ряда факторов. Некоторые факторы могут быть специфичными для конкретной ситуации тестирования, но как минимум мощность почти всегда зависит от следующих трех факторов:

в Статистическая значимость критерий, использованный в тесте
величина эффекта интереса у населения
в размер образца используется для обнаружения эффекта

А критерий значимости является заявлением о том, насколько маловероятным должен быть положительный результат, если нулевая гипотеза об отсутствии эффекта верна, чтобы нулевая гипотеза была отклонена. Наиболее часто используемые критерии - это вероятности 0,05 (5%, 1 из 20), 0,01 (1%, 1 из 100) и 0,001 (0,1%, 1 из 1000). Если критерий равен 0,05, вероятность того, что данные подразумевают эффект, по крайней мере, такой же большой, как наблюдаемый эффект, когда нулевая гипотеза верна, должна быть меньше 0,05, чтобы нулевая гипотеза отсутствия эффекта была отклонена. Один из простых способов повысить эффективность теста - это провести менее консервативный тест, используя более высокий критерий значимости, например 0,10 вместо 0,05. Это увеличивает вероятность отклонения нулевой гипотезы (т. Е. Получения статистически значимого результата), когда нулевая гипотеза ложна; то есть снижает риск ошибка типа II (ложноотрицательный результат относительно наличия эффекта). Но это также увеличивает риск получения статистически значимого результата (т. Е. Отклонения нулевой гипотезы), когда нулевая гипотеза не является ложной; то есть увеличивает риск ошибка типа I (ложный положительный результат).

В величина эффекта интереса у населения можно количественно оценить с помощью размер эффекта, где больше возможностей для обнаружения больших эффектов. Величина эффекта может быть прямым значением интересующей величины или стандартизированной мерой, которая также учитывает изменчивость в популяции. Например, в анализе, сравнивающем результаты в полученной и контрольной популяции, разница результатов означает: ${ displaystyle { bar {Y}} - { bar {X}}}$ будет прямой оценкой размера эффекта, тогда как ${ displaystyle ({ bar {Y}} - { bar {X}}) / sigma}$ будет оценочной стандартизированной величиной эффекта, где ${ displaystyle sigma}$ - общее стандартное отклонение результатов в обработанной и контрольной группах. При правильном построении стандартизированный размер эффекта вместе с размером выборки полностью определяет мощность. Нестандартизованная (прямая) величина эффекта редко бывает достаточной для определения мощности, поскольку она не содержит информации о вариабельности измерений.

В размер образца определяет количество ошибка выборки заложенный в результате теста. При прочих равных, эффекты труднее обнаружить в меньших выборках. Увеличение размера выборки часто является самым простым способом повысить статистическую мощность теста. То, как увеличение размера выборки приводит к более высокой степени, является мерой эффективность теста - например, размер выборки, необходимый для данной мощности.^[2]

Точность измерения данных также влияет на статистическую мощность. Следовательно, мощность часто можно улучшить за счет уменьшения ошибки измерения данных. Связанная концепция заключается в повышении «надежности» оцениваемой меры (как в психометрическая надежность ).

В дизайн эксперимента или наблюдательного исследования часто влияет на мощность. Например, в ситуации тестирования с двумя выборками с заданным общим размером выборки $п$ , оптимально иметь равное количество наблюдений из двух сравниваемых популяций (при условии, что дисперсия в двух популяциях одинакова). В регрессионном анализе и дисперсионный анализ, существуют обширные теории и практические стратегии для улучшения мощности, основанные на оптимальной установке значений независимых переменных в модели.

Интерпретация

Хотя формальных стандартов мощности (иногда их называют $π$ ^{[нужна цитата ]}), большинство исследователей оценивают эффективность своих тестов, используя $π$ = 0,80 в качестве стандарта адекватности. Это соглашение подразумевает компромисс четыре к одному между $β$ -риск и $α$ -риск. ( $β$ - вероятность ошибки типа II, а α - вероятность ошибки типа I; 0,2 и 0,05 - условные значения для $β$ и $α$ ). Однако бывают случаи, когда это взвешивание 4: 1 неуместно. В медицине, например, тесты часто разрабатываются таким образом, чтобы не было ложноотрицательных результатов (ошибок типа II). Но это неизбежно повышает риск получения ложного срабатывания (ошибка типа I). Причина в том, что лучше сказать здоровому пациенту: «Возможно, мы что-то нашли - давайте проверим дальше», чем сказать больному «все в порядке».^[3]

Анализ мощности уместен, когда проблема заключается в правильном отклонении ложной нулевой гипотезы. Во многих контекстах проблема заключается не столько в том, чтобы определить, есть ли разница, а в том, чтобы получить более точную оценивать величины эффекта популяции. Например, если мы ожидали, что население корреляция между интеллектом и производительностью работы около 0,50 размер выборки в 20 даст нам примерно 80% мощности ( $α$ = 0,05, два хвоста), чтобы отклонить нулевую гипотезу о нулевой корреляции. Однако при проведении этого исследования мы, вероятно, больше заинтересованы в том, чтобы узнать, составляет ли корреляция 0,30, 0,60 или 0,50. В этом контексте нам потребуется гораздо больший размер выборки, чтобы уменьшить доверительный интервал нашей оценки до диапазона, приемлемого для наших целей. Методы, аналогичные используемым в традиционном анализе мощности, могут использоваться для определения размера выборки, необходимого для того, чтобы ширина доверительного интервала была меньше заданного значения.

Многие статистические анализы включают оценку нескольких неизвестных величин. В простых случаях все эти величины, кроме одной, равны мешающие параметры. В этом случае единственная релевантная мощность относится к единственной величине, которая будет подвергаться формальному статистическому выводу. В некоторых условиях, особенно если цели более «исследовательские», в анализе может быть ряд интересных величин. Например, в нескольких регрессивный анализ мы можем включить несколько ковариат, представляющих потенциальный интерес. В таких ситуациях, как эта, когда рассматривается несколько гипотез, обычно полномочия, связанные с различными гипотезами, различаются. Например, при множественном регрессионном анализе способность обнаружения эффекта заданного размера связана с дисперсией ковариаты. Поскольку разные ковариаты будут иметь разные дисперсии, их мощности также будут различаться.

Любой статистический анализ, включающий несколько гипотез подвержен инфляции с уровнем ошибок I типа, если не будут приняты соответствующие меры. Такие меры обычно включают применение более высокого порога строгости для отклонения гипотезы, чтобы компенсировать множественные сравнения, сделанные (например как в Метод Бонферрони ). В этой ситуации анализ мощности должен отражать используемый подход множественного тестирования. Таким образом, например, данное исследование может иметь хорошую мощность для обнаружения определенного размера эффекта, когда должен быть проведен только один тест, но такой же размер эффекта может иметь гораздо меньшую мощность, если необходимо выполнить несколько тестов.

Также важно учитывать статистическую мощность проверки гипотез при интерпретации ее результатов. Мощность теста - это вероятность правильного отклонения нулевой гипотезы, если она ложна; Мощность теста зависит от выбора уровня значимости для теста, величины измеряемого эффекта и количества доступных данных. Проверка гипотезы может не отклонить нулевое значение, например, если существует истинное различие между двумя популяциями, сравниваемыми с помощью t-тест но эффект невелик, а размер выборки слишком мал, чтобы отличить эффект от случайности.^[4] Много клинические испытания, например, имеют низкую статистическую мощность для обнаружения различий в побочные эффекты лечения, так как такие эффекты могут быть редкими, а количество пораженных пациентов невелико.^[5]

Априори против. постфактум анализ

Анализ мощности можно выполнить до (априори или перспективный анализ мощности) или после (постфактум или ретроспективный анализ мощности). Априори анализ мощности проводится до исследования и обычно используется в оценка достаточного размера выборки для достижения адекватной мощности. Post-hoc Анализ «наблюдаемой мощности» проводится после завершения исследования и использует полученный размер выборки и размер эффекта, чтобы определить, какая мощность была в исследовании, предполагая, что размер эффекта в выборке равен размеру эффекта в популяции . В то время как полезность перспективного анализа мощности в экспериментальном дизайне общепризнана, апостериорный анализ мощности в корне ошибочен.^[6]^[7] Попадание в соблазн использовать статистический анализ собранных данных для оценки мощности приведет к неинформативным и вводящим в заблуждение значениям. В частности, было показано, что постфактум «наблюдаемая мощность» - это однозначная функция п-ценить достигнут.^[6] Это было расширено, чтобы показать, что все постфактум анализ мощности страдает от так называемого «парадокса подхода к власти» (PAP), при котором считается, что исследование с нулевым результатом более доказательства того, что нулевая гипотеза действительно верна, когда п-значение меньше, поскольку кажущаяся мощность для обнаружения действительного эффекта будет выше.^[6] Фактически, меньший п-значение правильно понято, чтобы сделать нулевую гипотезу относительно менее вероятно, что это правда.^{[нужна цитата ]}

Заявление

Финансовые агентства, советы по этике и комиссии по анализу исследований часто просят исследователя провести анализ мощности, например, чтобы определить минимальное количество испытуемых на животных, необходимое для того, чтобы эксперимент был информативным. В частотная статистика, недостаточно мощное исследование вряд ли позволит выбрать между гипотезами с желаемым уровнем значимости. В Байесовская статистика, проверка гипотез типа, используемого в классическом анализе мощности, не выполняется. В рамках байесовской модели каждый обновляет свои предыдущие убеждения, используя данные, полученные в данном исследовании. В принципе, исследование, которое будет считаться недостаточным с точки зрения проверки гипотез, все же может быть использовано в таком процессе обновления. Тем не менее, мощность остается полезной мерой того, насколько данный размер эксперимента может привести к уточнению убеждений. Исследование с малой мощностью вряд ли приведет к значительному изменению убеждений.

Пример

Ниже приведен пример, показывающий, как вычислить мощность для рандомизированного эксперимента: Предположим, цель эксперимента состоит в изучении влияния лечения на некоторое количество и сравнении субъектов исследования путем измерения количества до и после лечения, анализа данные с использованием парного t-тест. Позволять ${ displaystyle A_ {i}}$ и ${ displaystyle B_ {i}}$ обозначают меры до и после лечения на предмете ${ displaystyle i}$ , соответственно. Возможный эффект от лечения должен быть виден в различиях ${ displaystyle D_ {i} = B_ {i} -A_ {i},}$ Предполагается, что они распределены независимо друг от друга с одинаковым ожидаемым средним значением и дисперсией.

Эффект от лечения можно проанализировать с помощью одностороннего t-критерия. Нулевая гипотеза отсутствия эффекта будет заключаться в том, что средняя разница будет равна нулю, т.е. ${ displaystyle H_ {0}: mu _ {D} = 0.}$ В этом случае альтернативная гипотеза утверждает положительный эффект, соответствующий ${ displaystyle H_ {1}: mu _ {D}> 0.}$ В статистика теста является:

{ displaystyle T_ {n} = { frac {{ bar {D}} _ {n} -0} {{ hat { sigma}} _ {D} / { sqrt {n}}}}, }

куда

{ displaystyle { bar {D}} _ {n} = { frac {1} {n}} sum _ {i = 1} ^ {n} D_ {i},}

$п$ размер выборки и ${ displaystyle { hat { sigma}} _ {D} / { sqrt {n}}}$ стандартная ошибка. Статистика теста при нулевой гипотезе следует за Распределение Стьюдента с дополнительным предположением, что данные одинаково распределены ${ Displaystyle N ( му _ {D}, sigma _ {D} ^ {2})}$ . Кроме того, предположим, что нулевая гипотеза будет отклонена на уровень значимости из ${ Displaystyle альфа = 0,05 ,.}$ С $п$ велико, можно аппроксимировать t-распределение нормальным распределением и вычислить критическое значение с использованием квантильная функция ${ displaystyle Phi ^ {- 1}}$ , обратное кумулятивная функция распределения нормального распределения. Оказывается, нулевая гипотеза будет отклонена, если

{ displaystyle T_ {n}> 1,64 ,.}

Теперь предположим, что альтернативная гипотеза верна и ${ displaystyle mu _ {D} = theta}$ . Тогда мощность

{ Displaystyle { begin {выровнен} B ( theta) & = Pr left (T_ {n}> 1,64 ~ { big |} ~ mu _ {D} = theta right) & = Pr left ({ frac {{ bar {D}} _ {n} -0} {{ hat { sigma}} _ {D} / { sqrt {n}}}}> 1,64 ~ { Big |} ~ mu _ {D} = theta right) & = Pr left ({ frac {{ bar {D}} _ {n} - theta + theta} {{ hat { sigma}} _ {D} / { sqrt {n}}}}> 1.64 ~ { Big |} ~ mu _ {D} = theta right) & = Pr left ({ frac {{ bar {D}} _ {n} - theta} {{ hat { sigma}} _ {D} / { sqrt {n}}}}> 1,64 - { frac { theta} {{ hat { sigma}} _ {D} / { sqrt {n}}}} ~ { Big |} ~ mu _ {D} = theta right) & = 1 - Pr left ({ frac {{ bar {D}} _ {n} - theta} {{ hat { sigma}} _ {D} / { sqrt {n}}}} <1,64 - { frac { theta} {{ hat { sigma}} _ {D} / { sqrt {n}}}} ~ { Big |} ~ mu _ {D} = theta right) конец {выровнен}}}

Для больших $п$ , ${ displaystyle { frac {{ bar {D}} _ {n} - theta} {{ hat { sigma}} _ {D} / { sqrt {n}}}}}$ примерно соответствует стандарту нормальное распределение когда альтернативная гипотеза верна, приблизительную мощность можно рассчитать как

{ Displaystyle B ( theta) приблизительно 1- Phi left (1,64 - { frac { theta} {{ hat { sigma}} _ {D} / { sqrt {n}}}} верно).}

Согласно этой формуле мощность возрастает со значениями параметра ${ displaystyle theta.}$ Для конкретного значения ${ displaystyle theta}$ более высокую мощность можно получить, увеличив размер выборки $п$ .

Невозможно гарантировать достаточно большую мощность для всех значений ${ displaystyle theta,}$ в качестве ${ displaystyle theta}$ может быть очень близким к 0. Минимум (инфимум ) значение мощности равно доверительной вероятности теста, ${ displaystyle alpha,}$ в этом примере 0,05. Однако не важно различать ${ displaystyle theta = 0}$ и небольшие положительные значения. Если желательно иметь достаточно мощности, скажем, не менее 0,90, для определения значений ${ displaystyle theta> 1,}$ необходимый размер выборки можно приблизительно рассчитать:

{ displaystyle B (1) приблизительно 1- Phi left (1,64 - { frac { sqrt {n}} {{ hat { sigma}} _ {D}}} right)> 0,90,}

откуда следует, что

{ displaystyle Phi left (1.64 - { frac { sqrt {n}} {{ hat { sigma}} _ {D}}} right) <0.10 ,.}

Следовательно, используя функцию квантиля

{ displaystyle { frac { sqrt {n}} {{ hat { sigma}} _ {D}}}> 1.64-z_ {0.10} = 1.64 + 1.28 приблизительно 2.92 qquad { text {или} } qquad n> 8.56 { hat { sigma}} _ {D} ^ {2},}

куда ${ displaystyle z_ {0.10}}$ стандартный нормальный квантиль; обратитесь к Пробит статья для объяснения отношений между ${ displaystyle Phi}$ и z-значения.

Расширение

Байесовская сила

в частотник предполагается, что параметры имеют определенное значение, что маловероятно. Эту проблему можно решить, если предположить, что параметр имеет распределение. Результирующую мощность иногда называют байесовской, которая обычно используется в клиническое испытание дизайн.

Прогнозируемая вероятность успеха

Обе частотник мощность и байесовская мощность используют статистическую значимость в качестве критерия успеха. Однако статистической значимости часто недостаточно для определения успеха. Чтобы решить эту проблему, концепцию мощности можно расширить до концепции прогнозируемая вероятность успеха (PPOS). Критерий успеха для PPOS не ограничивается статистической значимостью и обычно используется в клиническое испытание конструкции.

Программное обеспечение для расчета мощности и объема выборки

Для выполнения расчетов мощности и размера выборки доступно множество бесплатных программ и / или программ с открытым исходным кодом. К ним относятся

G * Мощность (http://www.gpower.hhu.de/ )
WebPower Бесплатный онлайн-статистический анализ мощности (http://webpower.psychstat.org )
Бесплатные онлайн-калькуляторы с открытым кодом (http://powerandsamplesize.com )
PowerUp! предоставляет удобные функции на основе Excel для определения минимального размера обнаруживаемого эффекта и минимально необходимого размера выборки для различных экспериментальных и квазиэкспериментальных схем.
PowerUpR - это версия PowerUp в пакете R. и дополнительно включает функции для определения размера выборки для различных многоуровневых рандомизированных экспериментов с или без бюджетных ограничений.
R пакет pwr
R-пакет WebPower
Statsmodels пакета Python (http://www.statsmodels.org/ )

Смотрите также

Источники

Коэн, Дж. (1988). Статистический анализ мощности для поведенческих наук (2-е изд.). ISBN 0-8058-0283-5.
Аберсон, К. (2010). Прикладной анализ мощности для поведенческой науки. ISBN 1-84872-835-2.

внешняя ссылка

StatQuest: подводные камни P-значения и расчеты мощности на YouTube

[1] «Статистическая мощь и недостаточная статистика - статистика сделана неправильно». www.statisticsdonewrong.com. Получено 30 сентября 2019.

[Everitt2002-2] Эверит, Брайан С. (2002). Кембриджский статистический словарь. Издательство Кембриджского университета. п. 321. ISBN 0-521-81099-X.

[3] Эллис, Пол Д. (2010). Основное руководство по размерам эффекта: введение в статистическую мощь, метаанализ и интерпретацию результатов исследований. Соединенное Королевство: Издательство Кембриджского университета.

[4] Эллис, Пол (2010). Основное руководство по размерам эффекта: статистическая мощность, метаанализ и интерпретация результатов исследований. Издательство Кембриджского университета. п. 52. ISBN 978-0521142465.

[5] Tsang, R .; Colley, L .; Линд, Л. (2009). «Недостаточная статистическая мощность для обнаружения клинически значимых различий в частоте нежелательных явлений в рандомизированных контролируемых исследованиях». Журнал клинической эпидемиологии. 62 (6): 609–616. Дои:10.1016 / j.jclinepi.2008.08.005. PMID 19013761.

[HH1-6] а ^б ^c Хёниг; Хейси (2001). «Злоупотребление властью». Американский статистик. 55 (1): 19–24. Дои:10.1198/000313001300339897.

[7] Томас, Л. (1997). «Ретроспективный анализ власти» (PDF). Биология сохранения. 11 (1): 276–280.

[1]

[2]

[3]

[4]

[5]

[6]

[7]