Омнибус тест - Omnibus test

Омнибус тесты являются своего рода статистический тест. Они проверяют, соответствует ли объясненная дисперсия в наборе данных существенно больше, чем необъяснимое отклонение, общий. Одним из примеров является F-тест в дисперсионный анализ. В модели могут быть законные значительные эффекты, даже если комплексный тест не имеет значения. Например, в модели с двумя независимыми переменными, если только одна переменная оказывает существенное влияние на зависимую переменную, а другая - нет, то комплексный тест может быть несущественным. Этот факт не влияет на выводы, которые можно сделать на основании одной значимой переменной. Чтобы проверить эффекты в рамках комплексного теста, исследователи часто используют контрасты.

Кроме того, Омнибус-тест как общее название относится к общему или глобальному тесту. Другие имена включают F-тест или же Тест хи-квадрат.

Омнибус-тест как статистический тест реализуется на основе общей гипотезы, которая имеет тенденцию находить общую значимость между дисперсией параметров, исследуя параметры одного типа, например: Гипотезы относительно равенства или неравенства между k ожиданиями μ1= μ2= ... = μk  против хотя бы одной пары  μj≠ μj '  , где j, j '= 1, ..., k и j ≠ j', в дисперсионном анализе (ANOVA); или относительно равенства между k стандартных отклонений  σ1= σ2= .... = σ k   против хотя бы одной пары   σj≠ σj '   при проверке равенства дисперсий в ANOVA; или относительно коэффициентов  β1= β2= .... = βk   против хотя бы одной пары βj≠ βj '  в Множественная линейная регрессия или в Логистическая регрессия.

Обычно он проверяет более двух параметров одного и того же типа, и его роль заключается в обнаружении общего значения хотя бы одного из задействованных параметров.

Омнибус-тесты обычно относятся к одному из этих статистических тестов:

  • ANOVA F тест для проверки значимости между всеми средними факторами и / или равенством их дисперсий в процедуре дисперсионного анализа;
  • Комплексный многомерный F-тест в ANOVA с повторными измерениями;
  • F-тест на равенство / неравенство коэффициентов регрессии в множественной регрессии;
  • Тест хи-квадрат для изучения различий значимости между блоками независимых независимых переменных или их коэффициентами в логистической регрессии.

Эти комплексные тесты обычно проводятся всякий раз, когда кто-то стремится проверить общую гипотезу на основе квадратичной статистики (например, сумма площадей или дисперсия или ковариация) или рационально-квадратичная статистика (например, общий F-тест ANOVA в Дисперсионном анализе или F-тест в Анализ ковариации или F-тест в линейной регрессии или хи-квадрат в логистической регрессии).

Хотя значимость основывается на комплексном тесте, в нем не указывается, где именно произошло различие, то есть не указывается, какой параметр значительно отличается от другого, но он статистически определяет, что есть разница, поэтому по крайней мере два из протестированных параметров статистически различаются. Если значимость была достигнута, ни один из этих тестов не скажет конкретно, какое среднее значение отличается от других (в ANOVA), какой коэффициент отличается от других (в регрессии) и т. Д.

Омнибусные тесты в одностороннем дисперсионном анализе

F-тест в ANOVA - это пример комплексного теста, который проверяет общую значимость модели. Значимый F-тест означает, что среди протестированных средних, по крайней мере, два из средних значительно отличаются, но этот результат не указывает точно, какие средства отличаются одно от другого. Фактически, проверка разности средних осуществляется с помощью квадратичной рациональной F-статистики (F = MSB / MSW). Чтобы определить, какое среднее значение отличается от другого среднего или какой контраст средних значений значительно отличается, после получения значимого комплексного F-теста следует проводить постфактуальные тесты (тесты множественного сравнения) или запланированные тесты. Можно подумать об использовании простого Коррекция Бонферрони Другим комплексным тестом, который мы можем найти в ANOVA, является F-тест для проверки одного из предположений ANOVA: равенство дисперсии между группами. Например, в одностороннем ANOVA гипотезы, проверенные комплексным F-тестом, следующие:

H0: μ1= μ2= .... = μk

H1: хотя бы одна пара μj≠ μj '

Эти гипотезы исследуют соответствие наиболее распространенной модели: yij = μj + εij, где yij - зависимая переменная, μj - ожидание j-й независимой переменной, которое обычно называют «ожиданием группы» или «ожиданием фактора»; и εij - результаты ошибок при использовании модели.

F-статистика омнибусного теста:Где, общее среднее значение выборки, - среднее выборочное значение группы j, k - количество групп, а nj размер выборки группы j.

Статистика F распределена F(k-1, n-k), (α) при предположении нулевой гипотезы и предположении нормальности. F-тест считается надежным в некоторых ситуациях, даже если предположение нормальности не выполняется.

Допущения модели в одностороннем дисперсионном анализе

  • Случайная выборка.
  • Нормальное или приблизительно нормальное распределение в каждой группе.
  • Равные различия между группами.

Если предположение о равенстве дисперсий не выполняется, предпочтение отдается критерию Тамхана. Когда это предположение выполнено, мы можем выбрать один из нескольких тестов. Хотя LSD (наименьшая значимая разница Фишера) является очень сильным тестом для обнаружения пар различий средних значений, он применяется только тогда, когда F-тест является значимым, и в большинстве случаев менее предпочтителен, поскольку его метод не обеспечивает защиты низкой частоты ошибок. Проба Бонферрони является хорошим выбором, поскольку ее коррекция предложена его методом. Эта поправка гласит, что если нужно применить n независимых тестов, тогда α в каждом тесте должен быть равен α / n. Многие статистики предпочитают метод Тьюки, поскольку он контролирует общую частоту ошибок. (Более подробную информацию по этому вопросу можно найти в любой книге ANOVA, например в книге Дугласа К. Монтгомери «Планирование и анализ экспериментов»). При малых размерах выборки, когда допущение нормальность не выполняется, непараметрический дисперсионный анализ может быть проведен с помощью теста Краскала-Уоллиса, который является еще одним примером комплексного теста (см. следующий пример). Альтернативный вариант - использовать методы начальной загрузки, чтобы оценить, отличаются ли средние значения группы. Бутстрап Методы не имеют каких-либо конкретных предположений о распределении и могут быть подходящим инструментом для использования, например, с использованием повторной выборки, которая является одним из простейших методов начальной загрузки. Вы можете распространить эту идею на случай нескольких групп и оценить p-значения.

Пример

Опрос сотовой связи о времени ожидания клиентов был рассмотрен для 1963 различных клиентов в течение 7 дней в каждой из 20 недель подряд. Предполагая, что ни один из клиентов не звонил дважды и ни у кого из них нет отношений с клиентами, был проведен однофакторный ANOVA. SPSS чтобы найти существенные различия между днями времени ожидания:

ANOVA

Зависимая переменная: время в минутах, чтобы ответить

ИсточникСумма площадейdfСредний квадратFSig.
Между группами  12823.921  6 2137.320158.266.000
Внутри групп  26414.9581956 13.505
Общий 39238.8791962

Результаты комплексного анализа F ANOVA, приведенные выше, указывают на существенные различия между временем ожидания в днях (значение P = 0,000 <0,05, α = 0,05).

Другим протестированным комплексным вариантом было предположение о равенстве вариантов, проверенное с помощью F-теста Левена:

Проверка на однородность вариаций

Зависимая переменная: время в минутах, чтобы ответить

Статистика Левенаdf1df2Sig.
  36.19261956.000

Результаты показывают, что предположение о равенстве дисперсий невозможно. В этом случае тест Тамхане может быть проведен на Post Hoc сравнениях.

Некоторые важные замечания и соображения

Значимый комплексный F-тест в процедуре ANOVA является предварительным требованием перед проведением постфактум, иначе эти сравнения не требуются. Если омнибусный тест не обнаруживает существенных различий между всеми средними значениями, это означает, что не было обнаружено никакой разницы между любыми комбинациями проверенных средних. Таким образом, он защищает семейную ошибку типа I, которая может быть увеличена, если пропустить омнибусный тест. Возникли споры об эффективности комплексного F-теста в ANOVA.

В статье «Обзор исследований в области образования» (66 (3), 269-306), рассмотренной Грегом Хэнкоком, эти проблемы обсуждаются:

Уильям Б. Уэр (1997) утверждает, что значимость сводного теста требуется в зависимости от Пост Hoc тест проводится или планируется: «... HSD Тьюки и процедура Шеффе являются одноэтапными процедурами и могут быть выполнены без обязательного использования омнибуса F. Это тесты« апостериори », но в данном случае« апостериори »означает «без предварительного знания», как «без конкретных гипотез». С другой стороны, критерий наименьшей значимой разницы Фишера представляет собой двухэтапную процедуру. Его не следует проводить без существенной общей F-статистики ».

Уильям Б. Уэр (1997) утверждал, что существует ряд проблем, связанных с требованием отклонения комплексного теста перед проведением множественных сравнений. Хэнкок согласен с этим подходом и видит требование комплексного анализа в ANOVA в выполнении запланированных тестов ненужным тестом и потенциально пагубным препятствием, если только оно не связано с LSD Фишера, который является жизнеспособным вариантом для k = 3 групп.

Другая причина относиться к значимости комплексного теста, когда речь идет о защите семьи Ошибка типа I.

В этой публикации «Обзор исследований в области образования» обсуждаются четыре проблемы, содержащиеся в требованиях к комплексному тесту F:

ПервыйВ хорошо спланированном исследовании вопросы исследователя включают конкретные контрасты групповых средств, в то время как комплексный тест рассматривает каждый вопрос лишь косвенно и скорее используется для облегчения контроля над частотой ошибок типа I.

во-вторыхэтот вопрос контроля связан со вторым моментом: вера в то, что комплексный тест обеспечивает защиту, не совсем верна. Когда полная нулевая гипотеза верна, слабый семейный контроль ошибок типа I облегчается комплексным тестом; но, когда полный ноль ложен и существуют частичные нули, F-тест не поддерживает строгий контроль над частотой ошибок в семье.

А в третьих Пункт, который Games (1971) продемонстрировал в своем исследовании, состоит в том, что F-тест может не полностью соответствовать результатам подхода попарного сравнения. Рассмотрим, например, исследователя, которому поручено проводить тест Тьюки, только если F-тест альфа-уровня отклоняет полный нуль. Возможно, что полный нуль будет отклонен, но для самых широкомасштабных средств существенных различий не будет. Это пример того, что было названо несогласие / диссонанс (Габриэль, 1969) или несовместимость (Леманн, 1957). С другой стороны, полный нуль может быть сохранен, в то время как нуль, связанный со средствами самого широкого диапазона, был бы отклонен, если бы структура решения позволяла его тестировать. Габриэль (1969) назвал это непоследовательность. Возникает вопрос, действительно ли практикующий в этой ситуации будет просто проводить MCP вопреки рекомендациям комплексного теста.

В четвертый Аргумент против традиционной реализации начального комплексного F-теста проистекает из того факта, что его благонамеренная, но ненужная защита способствует снижению мощности. Первый тест в попарном MCP, такой как тест наиболее разрозненных средних в тесте Тьюки, представляет собой форму комплексного теста сам по себе, контролируя частоту ошибок в семье на α-уровне в слабом смысле. Требование предварительной суммы комплексного F-теста вынуждает исследователя преодолевать два препятствия, чтобы объявить, что наиболее разрозненные средства существенно различаются, - задача, которую тест дальности справился сам на приемлемом уровне α. Если бы эти два теста были полностью дублированы, результаты обоих были бы идентичны результатам комплексного теста; вероятностно говоря, совместная вероятность отклонения обоих будет α, если полная нулевая гипотеза верна. Однако эти два теста не являются полностью повторяющимися; в результате общая вероятность их отклонения меньше α. Таким образом, F-защита навязывает ненужный консерватизм (см. Bernhardson, 1975, для моделирования этого консерватизма). По этой причине, а также по причинам, перечисленным выше, мы согласны с утверждением Games (1971) относительно традиционной реализации предварительного комплексного F-теста: кажется, нет смысла применять общий F-тест перед запуском c-контрастов с помощью процедур, которые установить [частоту ошибок в семье] α .... Если c контрасты прямо выражают экспериментальный интерес, они оправданы, независимо от того, является ли общая F значимой или нет, и (частота ошибок в семье) все еще контролируется.

Омнибус-тесты в множественной регрессии

В Множественной регрессии омнибус-тест - это ANOVA F-тест для всех коэффициентов, который эквивалентен множественному корреляционному тесту R Square F. Омнибусный F-тест - это общий тест, который проверяет соответствие модели, поэтому отказ от отклонения нулевой гипотезы означает, что Предложенная линейная модель не очень подходит для данных. Другими словами, ни одна из независимых переменных не исследовалась как значимая для объяснения вариации зависимой переменной. Эти гипотезы проверяют соответствие модели наиболее распространенной модели: yя= β0 + β1 Иксi1 + ... + βk Иксik + εij

оценивается E (yя| хi1....Иксik) = β0+ β1Иксi1+ ... + βkИксik, где E (yя| хi1....Иксik) - зависимая переменная, объясняющая i-е наблюдение, xij - j-я независимая (объясняющая) переменная, βj - j-й коэффициент при xij и указывает его влияние на зависимую переменную y при ее частичной корреляции с y. F-статистика комплексного теста:

Принимая во внимание, что ȳ является общим выборочным средним для yя, ŷя - среднее оценочное значение регрессии для конкретного набора из k независимых (объясняющих) переменных, а n - размер выборки.

Статистика F распределена F (k, n-k-1), (α) при предположении нулевой гипотезы и предположении нормальности.

Допущения модели в множественной линейной регрессии

  • Случайная выборка.
  • Нормальное или приблизительно нормальное распределение ошибок eij.
  • Ошибки eij объяснительный равен нулю>, E (eij)=0.
  • Равные дисперсии ошибок eij. Это омнибусный тест F (например, тест Levene F).
  • Нет Мультиколлинеарности значений объясняющих / предикторных переменных: cov (xя,Иксj) = 0, где i ≠ j, для любого i или j.

Комплексный F-тест относительно гипотез по коэффициентам

ЧАС0: β1= β2= .... = βk = 0

ЧАС1: хотя бы один βj ≠ 0

Комплексный тест проверяет, есть ли какие-либо коэффициенты регрессии, значительно отличные от нуля, за исключением коэффициента β0. Коэффициент β0 связан с постоянным предсказателем и обычно не представляет интереса. Нулевая гипотеза обычно считается ложной и легко отклоняется с разумным объемом данных, но, в отличие от ANOVA, все равно важно провести тест. Когда нулевая гипотеза не может быть отклонена, это означает, что данные совершенно бесполезны. Модель, которая имеет постоянную функцию регрессии, подходит так же, как и модель регрессии, а это означает, что дальнейший анализ не требуется. Во многих статистических исследованиях сводная информация обычно имеет значение, хотя часть или большинство независимых переменных не имеют значимого влияния на зависимая переменная. Таким образом, омнибус полезен только для того, чтобы определить, подходит ли модель или нет, но он не предлагает исправленную рекомендованную модель, которая может быть адаптирована к данным. Комплексный тест становится значимым в основном, если значима хотя бы одна из независимых переменных. Это означает, что любая другая переменная может входить в модель при допущении модели о неколинеарности между независимыми переменными, в то время как комплексный тест по-прежнему показывает значимость, то есть: предлагаемая модель соответствует данным. Итак, значимость комплексного F-теста (показанного в таблице ANOVA), за которым следует выбор модели, какая его часть связана с выбором значимой независимой переменной, которая способствует изменению зависимой переменной.

Пример 1 - Тест Omnibus F на SPSS

Страховая компания намеревается спрогнозировать «Среднюю стоимость претензий» (имя переменной «claimt ») с помощью трех независимых переменных (Предикторы):« Количество претензий »(имя переменной« nclaims »),« Возраст страхователя »(имя переменной holderage), «Возраст транспортного средства» (имя переменной - транспортное средство). Процедура линейной регрессии была запущена для данных, как показано ниже: омнибусный F-тест в таблице ANOVA подразумевает, что модель, в которой задействованы эти три предиктора, может соответствовать для прогнозирования «Средней стоимости претензий», поскольку нулевая гипотеза отклоняется (значение P = 0,000 <0,01, α = 0,01). Этот отказ от омнибусного теста означает, что хотя бы один коэффициентов предикторов в модели оказались отличными от нуля. Множественный R-квадрат, указанный в сводной таблице модели, равен 0,362, что означает, что три предиктора могут объяснить 36,2% вариации «Средняя стоимость требований».

ANOVAб

ИсточникСумма площадейdfСредний квадратFSig.
Регресс 605407.143 3 201802.381 22.527.000а
Остаточный  1066019.508 119 8958.147 
Общий  1671426.650122

а. Прогнозирующие факторы: (Постоянно), nclaims Количество претензий, право собственности, возраст страхователя, транспортное средство Возраст автомобиля

б. Зависимая переменная: заявитель Средняя стоимость претензий

Резюме модели

МодельрR квадратСкорректированный квадрат RСтд. Ошибка оценки
 1 .602а  .362 .346 94.647

а. Прогнозирующие факторы: (Постоянно), nclaims Количество претензий, право собственности, возраст страхователя, транспортное средство Возраст автомобиля

Однако только предикторы: «Возраст транспортного средства» и «Количество требований» имеют статистическое влияние и предсказывают «Среднюю стоимость требований», как показано в следующей «Таблице коэффициентов», тогда как «Возраст страхователя» не имеет значения в качестве предиктора. (Значение P = 0,116> 0,05). Это означает, что модель без этого предсказателя может подойти.

Коэффициенты а

МодельНестандартизированные коэффициентыСтандартизированные коэффициентытSig.
1 B  Стд. ОшибкаБета
(Постоянный) 447.668  29.64715.100.000
транспортное средство Возраст автомобиля -67.877  9.366 -.644-7.247.000
возраст держателя полиса  -6.624   4.184  -.128-1.583.116
nclaims Количество претензий  -.274 .119  -.217-2.30.023

а. Зависимая переменная: заявитель Средняя стоимость претензий


Пример 2 - Омнибус F-тест множественной линейной регрессии на R

Следующий выход R иллюстрирует линейную регрессию и соответствие модели двух предикторов: x1 и x2. Последняя строка описывает омнибусный F-тест на соответствие модели. Интерпретация состоит в том, что нулевая гипотеза отклоняется (P = 0,02692 <0,05, α = 0,05). Итак, либо β1, либо β2 кажутся ненулевыми (или, возможно, оба). Обратите внимание, что вывод из таблицы «Коэффициенты:» состоит в том, что только β1 является значимым (значение P, показанное в столбце Pr (> | t |), составляет 4,37e-05 << 0,001). Таким образом, одношагового теста, такого как омнибус F-тест для подгонки модели, недостаточно для определения соответствия модели для этих предикторов.

Коэффициенты

  Оценивать   Стд. Ошибка   значение t   Pr (> | t |)

(Перехват)   -0.7451   .7319  .-1.018  0.343

X1   0.6186   0.7500   0.825   4.37e-05 ***

x2   0.0126   0.1373   0.092   0.929

Остаточная стандартная ошибка: 1,157 на 7 степенях свободы

Множественный R-квадрат: 0,644, Скорректированный R-квадрат: 0,5423

F-статистика: 6,332 для 2 и 7 DF, значение p: 0,02692

Омнибус-тесты в логистической регрессии

В статистике логистическая регрессия - это тип регрессионного анализа, используемый для прогнозирования результата категориальной зависимой переменной (с ограниченным числом категорий) или дихотомической зависимой переменной на основе одной или нескольких переменных-предикторов. Вероятности, описывающие возможный результат одного испытания, моделируются как функция объясняющих (независимых) переменных с использованием логистической функции или полиномиального распределения. Логистическая регрессия измеряет взаимосвязь между категориальной или дихотомической зависимой переменной и обычно непрерывной независимой переменной ( или несколько), путем преобразования зависимой переменной в оценки вероятности. Вероятности можно получить с помощью логистической функции или полиномиального распределения, в то время как эти вероятности, как и в теории вероятностей, принимают значения от нуля до единицы:

Таким образом, протестированная модель может быть определена следующим образом:

, тогда как yя - категория зависимой переменной для i-го наблюдения, а xij независимая переменная j (j = 1,2, ... k) для этого наблюдения, βj - j-й коэффициент при xij и указывает на его влияние на подобранную модель и ожидаемое от нее.

Примечание: независимые переменные в логистической регрессии также могут быть непрерывными.

Комплексный тест относится к гипотезам

ЧАС0: β1= β2= .... = βk = 0

ЧАС1: хотя бы один βj ≠ 0

Подбор модели: метод максимального правдоподобия

Вместе с другими частями процедуры логистической регрессии омнибусный тест представляет собой тест отношения правдоподобия, основанный на методе максимального правдоподобия. В отличие от процедуры линейной регрессии, в которой оценка коэффициентов регрессии может быть получена с помощью процедуры наименьших квадратов или минимизации суммы квадратов остатков, как в методе максимального правдоподобия, в логистической регрессии нет такого аналитического решения или набора уравнений, из которых можно получить решение для оценки коэффициентов регрессии. Таким образом, логистическая регрессия использует процедуру максимального правдоподобия для оценки коэффициентов, которые максимизируют вероятность коэффициентов регрессии с учетом предикторов и критерия [6]. Решение максимального правдоподобия - это итеративный процесс, который начинается с предварительного решения, его немного изменяют, чтобы увидеть, можно ли его улучшить, и повторяют этот процесс до тех пор, пока улучшение не станет минимальным, после чего модель считается сходимой [6]. Применение процедуры при условии сходимости (см. Также следующие «замечания и другие соображения»).

В общем, относительно простых гипотез по параметру θ (например): ЧАС0: θ = θ0 против. ЧАС1: θ = θ1 , статистику теста отношения правдоподобия можно назвать:

, где L (yя| θ) - функция правдоподобия, которая относится к конкретному θ.

Числитель соответствует максимальной вероятности наблюдаемого результата при нулевой гипотезе. Знаменатель соответствует максимальной вероятности наблюдаемого результата, изменяющего параметры во всем пространстве параметров. Числитель этого отношения меньше знаменателя. Следовательно, отношение правдоподобия находится между 0 и 1.

Более низкие значения отношения правдоподобия означают, что наблюдаемый результат был гораздо менее вероятен при нулевой гипотезе по сравнению с альтернативой. Более высокие значения статистики означают, что наблюдаемый результат был более или равновероятным или почти столь же вероятным при нулевой гипотезе по сравнению с альтернативой, и нулевая гипотеза не может быть отклонена.

Тест отношения правдоподобия обеспечивает следующее правило принятия решения:

Если    не отвергайте H0,

иначе

Если     отклонить H0

а также отклонить H0 с вероятностью   q   если  ,

тогда как критические значения   c, q   обычно выбираются для получения заданного уровня значимости α через соотношение: .

Таким образом, тест отношения правдоподобия отклоняет нулевую гипотезу, если значение этой статистики слишком мало. Насколько мала слишком мала, зависит от уровня значимости теста, т. Е. От того, какая вероятность ошибки типа I считается допустимой Лемма Неймана-Пирсона [8] утверждает, что этот тест отношения правдоподобия является самым мощным среди всех тестов уровня α для этой проблемы.

Статистика и распределение теста: теорема Уилкса

Сначала мы определяем статистику теста как отклонение что указывает на проверку соотношения:

В то время как насыщенная модель - это модель с теоретически идеальной подгонкой. Учитывая, что отклонение является мерой разницы между данной моделью и насыщенной моделью, меньшие значения указывают на лучшее соответствие, поскольку подобранная модель меньше отклоняется от насыщенной модели. При оценке по распределению хи-квадрат незначительные значения хи-квадрат указывают на очень небольшую необъяснимую дисперсию и, таким образом, хорошее соответствие модели. И наоборот, значительное значение хи-квадрат указывает на то, что значительная величина дисперсии необъяснима. Два показателя отклонения D особенно важны в логистической регрессии: нулевое отклонение и отклонение модели. Нулевое отклонение представляет собой разницу между моделью только с точкой пересечения и без предикторов и насыщенной моделью. И отклонение модели представляет собой разницу между моделью с хотя бы одним предиктором и насыщенной моделью. [3] В этом отношении нулевая модель обеспечивает основу для сравнения моделей предикторов. Следовательно, чтобы оценить вклад предиктора или набора предикторов, можно вычесть отклонение модели из нулевого отклонения и оценить разницу в распределении хи-квадрат с одной степенью свободы. Если отклонение модели значительно меньше нулевого отклонения, то можно сделать вывод, что предиктор или набор предикторов значительно улучшили соответствие модели. Это аналогично F-критерию, используемому в линейном регрессионном анализе для оценки значимости прогноза. В большинстве случаев очень сложно определить точное распределение отношения правдоподобия, соответствующее конкретной гипотезе. Удобный результат, приписываемый Сэмюэлю С. Уилксу, гласит, что по мере приближения размера выборки n статистика теста имеет асимптотическое распределение со степенями свободы, равными разнице в размерности и параметрах коэффициентов β, как упоминалось ранее в омнибусном тесте. например, если n достаточно велико и если подобранная модель, предполагающая нулевую гипотезу, состоит из 3 предикторов, а насыщенная (полная) модель состоит из 5 предикторов, статистика Уилкса приблизительно распределена (с 2 степенями свободы). Это означает, что мы можем получить критическое значение C из хи-квадрат с 2 степенями свободы при определенном уровне значимости.

Замечания и другие соображения

  1. В некоторых случаях модель может не достичь сходимости. Если модель не сходится, это означает, что коэффициенты ненадежны, поскольку модель так и не достигла окончательного решения. Отсутствие сходимости может быть результатом ряда проблем: большого отношения предикторов к случаям, мультиколлинеарности, разреженности или полного разделения. Хотя это и не точное число, как правило, модели логистической регрессии требуют минимум 10 наблюдений на переменную. Наличие большого количества переменных в наблюдениях приводит к чрезмерно консервативной статистике Вальда (обсуждается ниже) и может привести к несходимости.
  2. Мультиколлинеарность означает недопустимо высокие корреляции между предикторами. По мере увеличения мультиколлинеарности коэффициенты остаются несмещенными, но увеличиваются стандартные ошибки и уменьшается вероятность сходимости модели. Чтобы обнаружить мульти-коллинеарность среди предикторов, можно провести линейный регрессионный анализ с интересующими предикторами с единственной целью - изучить статистику толерантности, используемую для оценки того, является ли многоколлинеарность неприемлемо высокой.
  3. Разреженность данных означает наличие большой доли пустых ячеек (ячеек с нулевым счетчиком). Нулевое количество ячеек особенно проблематично для категориальных предикторов. С непрерывными предикторами модель может вывести значения для нулевого количества ячеек, но это не относится к категориальным предикторам. Причина, по которой модель не будет сходиться с нулевым количеством ячеек для категориальных предикторов, заключается в том, что натуральный логарифм нуля является неопределенным значением, поэтому окончательные решения модели не могут быть достигнуты. Чтобы решить эту проблему, исследователи могут свернуть категории теоретически значимым образом или могут рассмотреть возможность добавления константы ко всем ячейкам. [6] Другой числовой проблемой, которая может привести к отсутствию сходимости, является полное разделение, которое относится к случаю, когда предикторы идеально предсказывают критерий - все случаи точно классифицируются. В таких случаях следует повторно проверить данные, поскольку, вероятно, есть какая-то ошибка.
  4. Статистика Вальда определяется как, где - выборочная оценка, - стандартная ошибка. В качестве альтернативы, при оценке вклада отдельных предикторов в данную модель, можно исследовать значимость статистики Вальда. Статистика Вальда, аналогичная t-критерию линейной регрессии, используется для оценки значимости коэффициентов. Статистика Вальда представляет собой отношение квадрата коэффициента регрессии к квадрату стандартной ошибки коэффициента и асимптотически распределяется как распределение хи-квадрат. Хотя несколько статистических пакетов (например, SPSS, SAS) сообщают статистику Вальда для оценки вклада отдельных предикторов, статистика Вальда имеет некоторые ограничения. Во-первых, когда коэффициент регрессии велик, стандартная ошибка коэффициента регрессии также имеет тенденцию быть большой, увеличивая вероятность ошибки типа II. Во-вторых, статистика Вальда также имеет тенденцию к смещению, когда данные скудны.
  5. Подгонка модели с использованием категориальных предикторов может быть достигнута с помощью лог-линейного моделирования.

Пример 1 логистической регрессии [3]

Спектор и Маццео исследовали влияние метода обучения, известного как PSI, на успеваемость студентов по курсу макроэкономики среднего уровня. Вопрос заключался в том, набрали ли учащиеся, знакомые с этим методом, более высокие баллы на экзаменах в классе. Они собрали данные от учащихся двух классов, в одном из которых использовался PSI, а в другом - традиционный метод обучения. Для каждого из 32 студентов они собрали данные о

Независимые переменные

• Средний балл GPA-Grade перед посещением класса. • TUCE - оценка за экзамен, выставленный в начале семестра для проверки вступительных знаний материала. • PSI - фиктивная переменная, указывающая используемый метод обучения (1 = использованный Psi, 0 = другой метод).

Зависимая переменная

• ОЦЕНКА - кодируется 1, если итоговая оценка была A, 0, если итоговая оценка была B или C.

Особый интерес к исследованию заключался в том, оказывает ли PSI значительное влияние на GRADE. TUCE и GPA включены в качестве контрольных переменных.

Статистический анализ с использованием логистической регрессии оценки по GPA, Tuce и Psi был проведен в SPSS с использованием пошаговой логистической регрессии.

В выходных данных линия «блока» относится к критерию хи-квадрат для набора независимых переменных, которые проверяются и включаются в подгонку модели. Линия «шаг» относится к критерию хи-квадрат на ступенчатом уровне, в то время как переменные включаются в модель шаг за шагом. Обратите внимание, что на выходе шаг хи-квадрат совпадает с хи-квадрат блока, поскольку они оба проверяют одну и ту же гипотезу, что проверяемые переменные, вводимые на этом шаге, не равны нулю. Если бы вы делали пошаговая регрессия Однако результаты были бы другими. Используя прямой пошаговый выбор, исследователи разделили переменные на два блока (см. МЕТОД по синтаксису ниже).

LOGISTIC REGRESSION VAR = оценка

/ МЕТОД = fstep psi / fstep gpa tuce

/ КРИТЕРИЙ ПИН (.50) ВЫХОД (.10) ИТЕРАЦИЯ (20) ВЫРЕЗАТЬ (.5).

Значение PIN по умолчанию - 0,05, было изменено исследователями на 0,5, чтобы незначительный TUCE мог пройти. В первом блоке вводятся только psi, поэтому блок и шаг Chi Test связаны с гипотезой H0: βPSI = 0. Результаты комплексных тестов хи-квадрат подразумевают, что PSI имеет важное значение для прогнозирования того, что GRADE с большей вероятностью будет окончательной оценкой A.

Блок 1: Метод = Пошаговое движение вперед (условно)[6]
Омнибусные тесты коэффициентов модели
Хи-квадратdfSig.
шаг 1   Шаг   5.8421.016
  Блокировать   5.8421.016
  Модель   5.8421.016

Затем в следующем блоке процедура прямого выбора заставляет вводить сначала GPA, а затем TUCE (см. Синтаксис команды METHOD ранее).

Блок 2: Метод = Пошаговое движение вперед (условно)
Омнибусные тесты коэффициентов модели
Хи-квадратdfSig.
Шаг 1   Шаг   9.088  1    .003  
  Блокировать   9.088   1    .003  
  Модель   14.930    2    .001  
Шаг 2   Шаг   .474    1    .491  
  Блокировать   9.562    2    .008  
  Модель   15.404    3    .002  

Первый шаг в блоке 2 указывает на то, что средний балл значимого (P-Value = 0,003 <0,05, α = 0,05)

Итак, глядя на последние записи на шаге 2 в блоке 2,

  • Шаг хи-квадрат, 0,474, сообщает вам, существенно ли отличается от нуля эффект переменной, введенной на последнем шаге, TUCE. Это эквивалент инкрементного F-теста параметра, то есть он тестирует H0: βTUCE = 0.
  • Блок хи-квадрат, 9,562, проверяет, имеют ли одна или обе переменные, включенные в этот блок (GPA и TUCE) эффекты, отличные от нуля. Это эквивалент инкрементного F-теста, то есть он тестирует H0: βСредний балл = βТЮС = 0.
  • Модель хи-квадрат 15.404 показывает, имеет ли какая-либо из трех независимых переменных значительный эффект. Это эквивалент глобального F-теста, т.е. он проверяет H0: βСредний балл = βТЮС = βPSI = 0.

Тесты отдельных параметров, показанные на «переменных в таблице уравнений», которые тест Вальда (W = (b / sb) 2, где b - оценка β, а sb - оценка его стандартной ошибки), которые проверяют, равен ли какой-либо отдельный параметр нулю. . При желании вы можете выполнить инкрементный тест хи-квадрат LR. Фактически, это лучший способ сделать это, поскольку тест Вальда, о котором идет речь ниже, в определенных ситуациях оказывается необъективным. Когда параметры тестируются отдельно, контролируя другие параметры, мы видим, что эффекты GPA и PSI статистически значимы, а эффект TUCE - нет. Оба имеют Exp (β) больше 1, что означает, что вероятность получить оценку «A» выше, чем получение другой оценки, зависит от метода обучения PSI и среднего среднего балла GPA в предыдущем классе.

Переменные в уравнении
BS.E.WalddfSig.Опыт (B)
Шаг 1а  Средний балл   2.826    1.263   5.007    1    .025   16.872  
  ТЮС    0.095   .142   .452  1  .502   1.100 
  PSI    2.378    1.064   4.992  1  .025    10.786  
  Постоянный    -13.019    4.930   6.972  1  .008    .000  

а. Переменные, введенные на шаге 1: PSI

Пример 2 логистической регрессии[7]

Тема исследования: «Влияние занятости, образования, реабилитации и тяжести правонарушения на повторный арест» [8]. Социальный работник в агентстве пробации уголовного правосудия, как правило, исследует, приводят ли некоторые из факторов к повторному аресту лиц, находящихся в ведении вашего агентства в течение последних пяти лет, которые были осуждены, а затем освобождены. Данные состоят из 1000 клиентов со следующими переменными:

Зависимая переменная (кодируется как фиктивная переменная)

• Повторно арестован или повторно арестован (0 = повторно не арестован; 1 = повторно арестован) - категориальный, номинальный

Независимые переменные (закодированные как фиктивные переменные)

  • Был ли клиент осужден за второе уголовное преступление (1 = вынесено решение, 0 = нет).
  • Серьезность первого правонарушения (1 = тяжкое преступление против 0 = мисдиминор) - категория, номинальная
  • Выпускник средней школы или не окончивший (0 = не окончил; 1 = окончил) - категориальный, номинальный
  • Независимо от того, прошел ли клиент программу реабилитации после первого нарушения, 0 = реабилитация не завершена; 1 = реабилитация завершена) -категория, номинальная
  • Статус занятости после первого нарушения (0 = не работает; 1 = работает)

Примечание. Непрерывные независимые переменные в этом сценарии не измерялись.

Нулевая гипотеза для общей модели соответствия: общая модель не предсказывает повторного ареста. ИЛИ независимые переменные как группа не связаны с повторным арестом. (И для независимых переменных: любая из отдельных независимых переменных не связана с вероятностью повторного ареста).

Альтернативная гипотеза для общего соответствия модели: общая модель предсказывает вероятность повторного ареста. (Значения соответственно независимых переменных: совершение уголовного преступления (против проступка), незавершение средней школы, невыполнение программы реабилитации и отсутствие работы связаны с вероятностью повторного ареста).

К данным в SPSS применялась логистическая регрессия, поскольку зависимая переменная является категориальной (дихотомической), и исследователь изучает нечетное соотношение потенциально повторного ареста и не ожидаемого повторного ареста.

Омнибусные тесты коэффициентов модели

Хи-квадратdfSig.
Шаг 1   Шаг   41.1554.000
  Блокировать   41.1554.000
  Модель   41.1554.000

В приведенной выше таблице показан Омнибус-тест коэффициентов модели на основе теста хи-квадрат, который подразумевает, что общая модель предсказывает повторную остановку (нас беспокоит третья строка - «Модель»): (4 степени свободы) = 41.15, p <.001, и нуль можно отклонить. Тестирование нулевого значения, которое Модель или группа независимых переменных, взятых вместе, не предсказывает вероятность повторного ареста. Этот результат означает, что модель ожидания повторного ареста больше подходит для данных.

Переменные в уравнении

BS.E.WalddfSig.Опыт (B)
Шаг 1  тяжкое преступление    0.283    0.142    3.997    1    0.046    1.327  
  Средняя школа    0.023    0.138    0.028  1    0.867    1.023  
  реабилитация    -0.679    0.142    22.725  1  0.000    0.507  
  нанять    -0.513    0.142    13.031  1  .000    .599  
  Постоянный    1.035    0.154    45.381  1  .000    2.816  

Как показано в таблице «Переменные в уравнении» ниже, мы также можем отклонить нулевое значение, так как коэффициенты B для совершения преступления, завершения программы реабилитации и трудоустройства равны нулю - они статистически значимы и позволяют прогнозировать повторное преступление. -арест. Однако уровень образования не позволял предсказать повторный арест. С учетом других переменных, совершение тяжкого преступления за первое правонарушение увеличивает вероятность повторного ареста на 33% (p = 0,046) по сравнению с совершением мисдиминора. Завершение реабилитационной программы и прием на работу после первого нарушения снижает вероятность повторного ареста, каждая более чем на 50% (p <0,001). Последний столбец Exp (B) (принимает значение B путем вычисления обратного естественного логарифм B) указывает отношение шансов: вероятность наступления события, деленная на вероятность того, что событие не произойдет. Значение Exp (B) больше 1.0 означает, что независимая переменная увеличивает вероятность появления зависимой переменной. Значение Exp (B) меньше 1,0 означает, что независимая переменная уменьшает вероятность появления зависимой переменной в зависимости от декодирования, упомянутого ранее в деталях переменных. Отрицательный коэффициент B приведет к Exp (B) меньше 1,0, и положительный коэффициент B приведет к Exp (B) больше 1,0. Статистическая значимость каждого B проверяется с помощью хи-квадрата Вальда - проверка нуля, что коэффициент B = 0 (альтернативная гипотеза, что он не = 0). p-значения ниже альфа значимы, что приводит к отклонению нуля. Здесь значимы только независимые переменные: тяжкое преступление, реабилитация, занятость (значение P <0,05. Изучение отношения шансов повторного ареста по сравнению с повторным арестом означает изучение отношения шансов для сравнения двух групп (повторно). -Арестован = 1 в числителе и повторно арестован = 0 в знаменателе) для группы уголовных преступлений по сравнению с базовой группой проступков. Exp (B) = 1,327 для «уголовного преступления» может означать, что совершение преступления или проступка увеличивает вероятность повторного ареста на 33%. Что касается «реабилитации», мы можем сказать, что завершение реабилитации снижает вероятность (или шансы) повторного ареста почти на 51%.

Смотрите также

Рекомендации