Проверка почти достоверной гипотезы - Almost sure hypothesis testing

В статистике почти наверняка проверка гипотез или же в качестве. проверка гипотезы использует почти верная сходимость чтобы с вероятностью один определить достоверность статистической гипотезы. Это означает, что всякий раз, когда нулевая гипотеза верно, тогда a.s. проверка гипотез не сможет отклонить нулевую гипотезу w.p. 1 для всех достаточно больших выборок. Точно так же, когда Альтернативная гипотеза верно, тогда a.s. Проверка гипотезы отклонит нулевую гипотезу с вероятностью один для всех достаточно больших выборок. Аналогичным образом, a.s. доверительный интервал в конечном итоге содержит интересующий параметр с вероятностью 1. Дембо и Перес (1994) доказали существование почти надежных тестов гипотез.

Описание

Для простоты предположим, что у нас есть последовательность независимых и одинаково распределенных нормальных случайных величин, , со средним , и единичная дисперсия. Предположим, что природа или симуляция выбрали истинное средство , то функция распределения вероятностей среднего, , дан кем-то

где Кронштейн Айверсона был использован. Наивный подход к оценке этой функции распределения заключался бы в замене истинного среднего в правой части оценкой, такой как выборочное среднее, , но

что означает, что приближение к истинной функции распределения будет отклоняться от истинного среднего на 0,5. Тем не мение, представляет собой не что иное, как односторонний 50% доверительный интервал; в общем, пусть быть критическим значением, используемым в одностороннем доверительный интервал, тогда

Если мы установим , то погрешность аппроксимации снижается с 0,5 до 0,05, что в 10 раз. Конечно, если допустить , тогда

Однако это лишь показывает, что ожидание близко к предельному значению. Нааман (2016) показал, что установка уровня значимости на с приводит к конечному числу ошибок типа I и типа II w.p.1 при довольно умеренных условиях регулярности. Это означает, что для каждого , существует , так что для всех ,

где выполняется равенство w.p. 1. Итак, индикаторная функция одностороннего а.с. доверительный интервал является хорошим приближением к истинной функции распределения.

Приложения

Дополнительная остановка

Например, предположим, что исследователь провел эксперимент с размером выборки 10 и не нашел статистически значимого результата. Затем предположим, что она решила добавить еще одно наблюдение и повторить тест, продолжая этот процесс, пока не будет достигнут значительный результат. В этом сценарии, учитывая, что первоначальная партия из 10 наблюдений привела к незначительному результату, вероятность того, что эксперимент будет остановлен при некотором конечном размере выборки, , можно ограничить с помощью неравенства Буля

куда . Это выгодно отличается от тестирования с фиксированным уровнем значимости, которое имеет конечное время остановки с вероятностью единица; однако эта граница не будет иметь смысла для всех последовательностей уровня значимости, поскольку указанная выше сумма может быть больше единицы (установка был бы одним из примеров). Но даже с использованием этой полосы пропускания, если тестирование проводилось партиями по 10 штук, то

что приводит к относительно большой вероятности того, что процесс никогда не закончится.

Предвзятость публикации

В качестве еще одного примера силы этого подхода, если академический журнал принимает только статьи с p-значениями менее 0,05, то примерно 1 из 20 независимых исследований того же эффекта дадут значительный результат, когда его не было. Однако, если для журнала требуется минимальный размер выборки 100, а максимальный уровень значимости определяется выражением , то можно было бы ожидать, что примерно в 1 из 250 исследований будет обнаружен эффект, когда его не было (если бы минимальный размер выборки составлял 30, он все равно был бы 1 из 60). Если максимальный уровень значимости был задан (который будет иметь лучшую производительность небольшой выборки в отношении ошибки типа I, когда возникает проблема множественных сравнений), можно было бы ожидать, что примерно в 1 из 10000 исследований будет обнаружен эффект, когда его не было (если бы минимальный размер выборки был 30, это было бы 1 из 900). Кроме того, А.С. проверка гипотез устойчива к множественным сравнениям.

Парадокс Джеффриса – Линдли

Парадокс Линдли происходит когда

  1. Результат является «значимым» с помощью частотного теста, например, на уровне 5%, что указывает на достаточные доказательства для отклонения нулевой гипотезы, и
  2. В апостериорная вероятность нулевой гипотезы высока, что указывает на убедительные доказательства того, что нулевая гипотеза лучше согласуется с данными, чем альтернативная гипотеза.

Однако парадокс не относится к а.с. проверка гипотез. Байесовцы и частотники в конце концов придут к такому же выводу.

Смотрите также

Рекомендации

  • Нааман, Майкл (2016). «Почти надежная проверка гипотез и разрешение парадокса Джеффриса-Линдли». Электронный статистический журнал. 10 (1): 1526–1550.
  • Дембо, Амир; Перес, Юваль (1994). «Топологический критерий проверки гипотез». Анналы статистики. 22 (1): 106–117.