Студентизированное распределение диапазона - Studentized range distribution

Студентизированное распределение диапазона
Функция плотности вероятности
StudentizedRangePDF.svg
Кумулятивная функция распределения
StudentizedRangeCDF.svg
Параметрыk > 1, количество групп
> 0, то степени свободы
Поддерживать
PDF
CDF

В вероятность и статистика, студентизированное распределение диапазона является непрерывным распределение вероятностей из стьюдентизированный диапазон из i.i.d. образец из нормально распределенный численность населения.

Предположим, что мы берем образец размером п от каждого из k населения с одинаковыми нормальное распределение N(μσ2) и предположим, что - наименьшее из этих выборочных средних и является наибольшим из этих выборочных средних, и предположим, что s² - это совокупное отклонение выборки от этих выборок. Тогда следующая случайная величина имеет распределение по стьюдентизированному диапазону.

Определение

Функция плотности вероятности

Дифференцируя кумулятивную функцию распределения по q дает функция плотности вероятности.

Отметим, что во внешней части интеграла уравнение

был использован для замены экспоненциального множителя.

Кумулятивная функция распределения

Кумулятивная функция распределения определяется выражением [1]

Особые случаи

Если k 2 или 3,[2] стьюдентизированная функция распределения вероятностей диапазона может быть непосредственно оценена, где - стандартная нормальная функция плотности вероятности и - стандартная нормальная кумулятивная функция распределения.

Когда степени свободы приближаются к бесконечности, кумулятивное распределение стьюдентизированного диапазона может быть вычислено для любого k с использованием стандартного нормального распределения.

Приложения

Критические значения стьюдентизированного распределения диапазонов используются в Тест дальности Тьюки.

Студентизированный диапазон используется для расчета уровней значимости результатов, полученных сбор данных, где выборочно ищут крайние различия в данных выборки, а не только случайную выборку.

Распределение диапазонов Studentized имеет приложения для проверка гипотезы и множественные сравнения процедуры. Например, Тест дальности Тьюки и Новый многодиапазонный тест Дункана (MRT), в котором образец Икс1, ..., Иксп это образец средства и q - основная статистика теста, может использоваться как апостериорный анализ чтобы проверить, между какими двумя группами имеется значительная разница (попарные сравнения) после отклонения нулевая гипотеза что все группы принадлежат к одной и той же популяции (т.е. все средства равны) по стандарту дисперсионный анализ.[3]

Связанные дистрибутивы

Когда ставится под сомнение только равенство двух групп средств (т.е. μ1 = μ2), стьюдентизированное распределение диапазона похоже на Распределение Стьюдента, отличаясь только тем, что первое учитывает количество рассматриваемых средств, а критическое значение корректируется соответствующим образом. Чем больше рассматриваемых средств, тем больше критическое значение. Это имеет смысл, поскольку чем больше имеется средств, тем больше вероятность того, что хотя бы некоторые различия между парами средних будут значительны только благодаря случайности.

Вывод

Стьюдентизированная функция распределения диапазона возникает в результате повторного масштабирования диапазона выборки. р посредством стандартное отклонение выборки s, поскольку стьюдентизированный диапазон обычно табулируется в единицах стандартных отклонений, с переменной q = ​рs. Вывод начинается с совершенно общей формы функции распределения диапазона выборки, которая применяется к любому распределению выборочных данных.

Для получения распределения по «студентизированному» диапазону q, мы заменим переменную с р к s и q. Предполагая, что данные образца нормально распределенный, то стандартное отклонение s будет χ распределен. Путем дальнейшей интеграции по s мы можем удалить s в качестве параметра и получить масштабированное распределение в терминах q один.

Общая форма

Для любой функции плотности вероятности жИкс, дальность плотности вероятности жр является:[2]

Это означает, что мы складываем вероятности, которые, учитывая k взяты из раздачи, два из них отличаются р, а остальные k - 2 рисунка попадают между двумя крайними значениями. Если мы заменим переменные на ты куда это нижний предел диапазона, и определите FИкс как кумулятивная функция распределения жИкс, то уравнение можно упростить:

Введем аналогичный интеграл и заметим, что дифференцирование под знаком интеграла дает

который восстанавливает интеграл выше,[а] так что последнее соотношение подтверждает

потому что для любого непрерывного cdf

Специальная форма для обычных данных

Распределение диапазона чаще всего используется для доверительных интервалов вокруг выборочных средних, которые асимптотически нормально распределенный посредством Центральная предельная теорема.

Чтобы создать стьюдентизированное распределение диапазонов для нормальных данных, мы сначала переключаемся с общего жИкс и FИкс к функциям распределения φ и Φ для стандартное нормальное распределение, и изменим переменную р к s · q, куда q фиксированный коэффициент, который изменяет масштаб р по коэффициенту масштабирования s:

Выберите коэффициент масштабирования s быть стандартным отклонением выборки, так что q становится числом стандартных отклонений в пределах диапазона. Для нормальных данных s является чи распределяется[b] и функция распределения жS распределения ци дан кем-то:

Умножение распределений жр и жS и интегрирование, чтобы удалить зависимость от стандартного отклонения s дает стьюдентифицированную функцию распределения диапазонов для нормальных данных:

куда

q - ширина диапазона данных, измеренная в стандартных отклонениях,
ν - количество степеней свободы для определения стандартного отклонения выборки,[c] и
k - количество отдельных средних значений, образующих точки в пределах диапазона.

Уравнение для pdf показанное в разделах выше, происходит от использования

для замены экспоненциального выражения во внешнем интеграле.

Примечания

  1. ^ Технически это соотношение верно только для точек куда , которое выполняется везде при нормальный данные, как описано в следующем разделе, но не для распределений, поддерживать имеет верхнюю границу, например равномерно распределены данные.
  2. ^ Обратите внимание на отсутствие «квадрата»: текст относится к χ распределение, нет то χ2 распределение.
  3. ^ Обычно , куда п - общее количество всех точек данных, используемых для нахождения средних значений, являющихся значениями в диапазоне.

Рекомендации

  1. ^ Lund, R.E .; Лунд, Дж. Р. (1983). «Алгоритм AS 190: вероятности и верхние квантили для студентизированного диапазона». Журнал Королевского статистического общества. 32 (2): 204–210. JSTOR  2347300.
  2. ^ а б Маккей, A.T. (1933). "Примечание о распределении ассортимента в образцах п". Биометрика. 25 (3): 415–420. Дои:10.2307/2332292. JSTOR  2332292.
  3. ^ Пирсон и Хартли (1970, раздел 14.2)

дальнейшее чтение