Распределение Т-квадрата Хотеллингса - Википедия - Hotellings T-squared distribution

Ти Хотеллинга2 распределение
Функция плотности вероятности
Hotelling-pdf.png
Кумулятивная функция распределения
Hotelling-cdf.png
Параметрып - размерность случайных величин
м - в зависимости от размера выборки
Поддерживать если
иначе.

В статистика, особенно в проверка гипотезы, то Хотеллинга Т-квадратное распределение (Т2), предложено Гарольд Хотеллинг,[1] это многомерное распределение вероятностей это тесно связано с F-распределение и наиболее примечателен тем, что возникает как распределение набора статистика выборки которые являются естественным обобщением статистики, лежащей в основе Студенты т-распределение.

В Хотеллинга т-квадратная статистика (т2) является обобщением Студенты т-статистический что используется в многомерный проверка гипотезы.[2]

Распределение

Мотивация

Распределение возникает в многомерная статистика в начинании тесты различий между (многомерными) средними для разных популяций, где тесты для одномерных задач будут использовать т-тест Дистрибутив назван в честь Гарольд Хотеллинг, который разработал его как обобщение студенческого т-распределение.[1]

Определение

Если вектор является Многомерное распределение по Гауссу с нулевым средним и единицей измерения ковариационная матрица и это матрица с единицей масштабная матрица и м степени свободы с Распределение Уишарта , то Квадратичная форма имеет распределение Хотеллинга, , с параметром и .[3]

Если случайная величина Икс имеет Хотеллинг Т-квадратное распределение, , тогда:[1]

куда это F-распределение с параметрами п и м − п + 1.

Прогнозирование статистики t-квадрат

Позволять быть выборочная ковариация:

где мы обозначаем транспонировать по апостроф. Можно показать, что это положительный (полу) определенный матрица и следует за п-variate Распределение Уишарта с п−1 степени свободы.[4] Примерная ковариационная матрица среднего значения имеет вид .[требуется разъяснение ]

В Хотеллинга т-квадратная статистика тогда определяется как:[5]

который пропорционален расстояние между выборочным средним и . Из-за этого следует ожидать, что статистика будет принимать низкие значения, если , и высокие значения, если они разные.

От распределение,

куда это F-распределение с параметрами п и п − п. Чтобы рассчитать п-ценить (не связано с п здесь переменная), обратите внимание, что распределение эквивалентно означает, что

Затем используйте количество слева, чтобы оценить п-значение, соответствующее образцу, которое происходит от F-распределение. А область доверия также может быть определено с использованием аналогичной логики.

Мотивация

Позволять обозначить п-вариантное нормальное распределение с место расположения и известный ковариация . Позволять

быть п независимые одинаково распределенные (iid) случайные переменные, который можно представить как векторы-столбцы действительных чисел. Определять

быть выборочное среднее с ковариацией . Можно показать, что

куда это распределение хи-квадрат с п степени свободы.[6]

Доказательство —

Чтобы показать это, используйте тот факт, что и получить характеристическая функция случайной величины . Как обычно, пусть обозначить детерминант аргумента, как в .

По определению характеристической функции имеем:[7]

Внутри интеграла две экспоненты, поэтому, умножая экспоненты, мы складываем показатели вместе, получая:

Теперь возьмем термин от интеграла, и умножьте все на тождество , поместив одну из них внутрь интеграла:

Но член внутри интеграла - это в точности функция плотности вероятности многомерное нормальное распределение с ковариационной матрицей и значит , поэтому при интеграции по всем , он должен уступить согласно аксиомы вероятности.[требуется разъяснение ] Таким образом, мы получаем:

куда является единичной матрицей размерности . Наконец, вычисляя определитель, получаем:

которая является характеристической функцией для распределение хи-квадрат с степени свободы.

Статистика по двум выборкам

Если и , с образцами независимо взят из двух независимый многомерные нормальные распределения с тем же средним значением и ковариацией, и мы определяем

как означает образец, и

как соответствующие выборочные ковариационные матрицы. потом

беспристрастный объединенная матрица ковариаций оценка (расширение совокупная дисперсия ).

Наконец, Двухвыборка Хотеллинга т-квадратная статистика является

Связанные понятия

Его можно связать с F-распределением следующим образом:[4]

Ненулевое распределение этой статистики - это нецентральное F-распределение (отношение нецентральный хи-квадрат случайная величина и независимый центральный Хи-квадрат случайная переменная)

с

куда - вектор разницы между средними значениями населения.

В случае двух переменных формула красиво упрощается, позволяя понять, как корреляция , между переменными влияет . Если мы определим

и

тогда

Таким образом, если различия в двух строках вектора одного знака, как правило, становится меньше как становится более позитивным. Если различия противоположного знака становится больше как становится более позитивным.

Одномерный частный случай можно найти в T-критерий Велча.

В литературе были предложены более надежные и мощные тесты, чем двухвыборочный тест Хотеллинга, см., Например, тесты на основе расстояния между точками, которые могут применяться также, когда количество переменных сравнимо или даже больше, чем количество испытуемых.[8][9]

Смотрите также

Рекомендации

  1. ^ а б c Хотеллинг, Х. (1931). «Обобщение коэффициента Стьюдента». Анналы математической статистики. 2 (3): 360–378. Дои:10.1214 / aoms / 1177732979.
  2. ^ Johnson, R.A .; Wichern, D.W. (2002). Прикладной многомерный статистический анализ. 5. Зал Прентис.
  3. ^ Эрик В. Вайсштейн, MathWorld
  4. ^ а б Mardia, K. V .; Kent, J. T .; Бибби, Дж. М. (1979). Многомерный анализ. Академическая пресса. ISBN  978-0-12-471250-8.
  5. ^ «6.5.4.3. Отель Хотеллинга Т в квадрате ".
  6. ^ Конец главы 4.2. Джонсон, Р.А. И Уичерн, Д. (2002)
  7. ^ Биллингсли, П. (1995). «26. Характеристические функции». Вероятность и мера (3-е изд.). Вайли. ISBN  978-0-471-00710-4.
  8. ^ Мароцци, М. (2016). «Многовариантные тесты на основе межточечных расстояний с приложением к магнитно-резонансной томографии». Статистические методы в медицинских исследованиях. 25 (6): 2593–2610. Дои:10.1177/0962280214529104. PMID  24740998.
  9. ^ Мароцци, М. (2015). «Многофакторные многомерные тесты для многомерных исследований методом случай-контроль с малым размером выборки». Статистика в медицине. 34 (9): 1511–1526. Дои:10.1002 / sim.6418. PMID  25630579.

внешняя ссылка