Нулевое распределение - Null distribution

В статистическая проверка гипотез, то нулевое распределение это распределение вероятностей статистики теста, когда нулевая гипотеза правда.[1]Например, в F-тесте нулевое распределение является F-распределением.[2]Нулевое распределение - это инструмент, который ученые часто используют при проведении экспериментов. Нулевое распределение - это распределение двух наборов данных при нулевой гипотезе. Если результаты двух наборов данных не выходят за рамки параметров ожидаемых результатов, то нулевая гипотеза считается верной.

Нулевое и альтернативное распределение

Примеры применения

Нулевая гипотеза часто является частью эксперимента. Нулевая гипотеза пытается показать, что среди двух наборов данных нет статистической разницы между результатами выполнения одного действия и результатов выполнения другого действия. Например, ученый может попытаться доказать, что у людей, которые проходят две мили в день, более здоровое сердце, чем у людей, которые проходят менее двух миль в день. Ученый использовал нулевую гипотезу, чтобы проверить здоровье сердец людей, которые проходили две мили в день, против здоровья сердец людей, которые проходили менее двух миль в день. Если бы не было разницы между их частотой сердечных сокращений, тогда ученый мог бы сказать, что статистика теста будет следовать нулевому распределению. Затем ученые могли определить, что если есть существенная разница, это означает, что тест следует альтернативному распределению.

Получение нулевого распределения

В порядке проверка гипотезы, необходимо сформировать совместное распределение тестовой статистики для проведения теста и контроля ошибки типа I. Однако истинное распределение часто неизвестно, и для представления данных следует использовать правильное нулевое распределение. Например, один образец и два образца проверки средств могут использовать т статистики, которые имеют гауссовское нулевое распределение, а F статистика, тестирование k группы популяционных средних, которые имеют гауссову квадратичную форму нулевого распределения.[3] Нулевое распределение определяется как асимптотические распределения тестовой статистики с преобразованием нулевого квантиля на основе маргинального нулевого распределения.[4] На практике тестовая статистика нулевого распределения часто неизвестна, так как она основана на распределении, генерирующем неизвестные данные. Процедуры повторной выборки, такие как непараметрические или модельные бутстрап, может предоставить согласованные оценки для нулевых распределений. Неправильный выбор нулевого распределения оказывает значительное влияние на ошибка типа I и мощность свойства в процессе тестирования. Другой подход для получения нулевого распределения тестовой статистики состоит в использовании данных генерации оценки нулевого распределения.

Нулевое распределение с большим размером выборки

Нулевое распределение играет решающую роль в крупномасштабном тестировании. Большой размер выборки позволяет реализовать более реалистичное эмпирическое нулевое распределение. Можно сгенерировать эмпирический нуль, используя алгоритм подбора MLE.[5] В рамках байесовской модели крупномасштабные исследования позволяют поместить нулевое распределение в вероятностный контекст с его ненулевыми аналогами. Когда размер выборки п большой, например, более 10 000, эмпирические нули используют собственные данные исследования для оценки соответствующего нулевого распределения. Важное предположение состоит в том, что из-за большой доли нулевых случаев (> 0,9) данные могут отображать само нулевое распределение. В некоторых случаях теоретический нуль может не сработать, что не совсем неверно, но требует соответствующей корректировки. В крупномасштабных наборах данных легко найти отклонения данных от идеальной математической основы, например, независимых и одинаково распределенных (i.i.d.) выборок. Кроме того, корреляция между единицами выборки и ненаблюдаемыми ковариатами может привести к неправильному теоретическому нулевому распределению.[6] Методы перестановки часто используются при множественном тестировании для получения эмпирического нулевого распределения, созданного на основе данных. Эмпирические нулевые методы были введены с центральным алгоритмом сопоставления в статье Эфрона.[7]

Следует учесть несколько моментов, используя метод перестановки. Методы перестановки не подходят для коррелированных единиц выборки, поскольку процесс перестановки подразумевает независимость и требует i.i.d. предположения. Кроме того, в литературе показано, что распределение перестановок быстро сходится к N (0,1), когда n становится большим. В некоторых случаях методы перестановки и эмпирические методы могут быть объединены с использованием перестановки NULL replace N (0,1) в эмпирическом алгоритме.[8]

Рекомендации

  1. ^ Стейли, Кент В. Введение в философию науки. 2014. с. 142. ISBN  9780521112499.
  2. ^ Джексон, Салли Энн. Случайные факторы в ANOVA. 1994. стр. 38. ISBN  9780803950900.
  3. ^ Дудуа, С., и M. J. Van Der Laan. «Множественные процедуры тестирования с приложениями к геномике. 2008.»
  4. ^ Ван дер Лаан, Марк Дж. И Алан Э. Хаббард. «Распределение нуля на основе квантильной функции при многократном тестировании на основе повторной выборки». Статистические приложения в генетике и молекулярной биологии 5.1 (2006): 1199.
  5. ^ Эфрон, Брэдли и Тревор Хасти. Статистический вывод компьютерного возраста. Издательство Кембриджского университета, 2016.
  6. ^ Эфрон, Брэдли. Крупномасштабный вывод: эмпирические байесовские методы оценки, тестирования и прогнозирования. Издательство Кембриджского университета, 2012.
  7. ^ Эфрон, Брэдли. «Масштабная одновременная проверка гипотез: выбор нулевой гипотезы». Журнал Американской статистической ассоциации 99.465 (2004): 96-104.
  8. ^ Эфрон, Брэдли. Крупномасштабный вывод: эмпирические байесовские методы оценки, тестирования и прогнозирования. Издательство Кембриджского университета, 2012.