Односторонний дисперсионный анализ - One-way analysis of variance
В статистика, в одну сторону дисперсионный анализ (сокращенно односторонний ANOVA) - это метод, который можно использовать для сравнения средних значений двух или более образцов (с использованием F распределение ). Этот метод может использоваться только для числовых данных ответа, «Y», обычно одной переменной, и числовых или (обычно) категориальных входных данных, «X», всегда одной переменной, следовательно, «односторонний».[1]
ANOVA проверяет нулевая гипотеза, в котором говорится, что образцы во всех группах взяты из популяций с одинаковыми средними значениями. Для этого делаются две оценки дисперсии населения. Эти оценки основаны на различных предположениях (Смотри ниже ). ANOVA дает F-статистику - отношение дисперсии, вычисленной среди средних значений, к дисперсии в выборках. Если средние значения группы взяты из совокупностей с одинаковыми средними значениями, дисперсия между средними значениями группы должна быть ниже, чем дисперсия выборок, после Центральная предельная теорема. Следовательно, более высокое соотношение означает, что образцы были взяты из популяций с разными средними значениями.[1]
Однако обычно односторонний дисперсионный анализ используется для проверки различий между как минимум тремя группами, поскольку случай с двумя группами может быть покрыт t-тест (Госсет, 1908). Когда есть только два средства для сравнения, t-тест и F-тест эквивалентны; связь между ANOVA и т дан кем-то F = т2. Расширение одностороннего дисперсионного анализа двусторонний дисперсионный анализ который исследует влияние двух различных категориальных независимых переменных на одну зависимую переменную.
Предположения
Результаты одностороннего дисперсионного анализа можно считать надежными, если выполняются следующие допущения:
- Переменная ответа остатки находятся нормально распределенный (или приблизительно нормально распределены).
- Вариации популяций равны.
- Ответы для данной группы независимые и одинаково распределенные нормальные случайные величины (не простая случайная выборка (SRS)).
Если данные порядковый, следует использовать непараметрическую альтернативу этому тесту, например Односторонний дисперсионный анализ Краскала – Уоллиса. Если известно, что дисперсии не равны, обобщение двухвыборочного T-критерий Велча может быть использован.[2]
Отклонения от нормальной популяции
ANOVA - это относительно надежная процедура в отношении нарушений предположения о нормальности.[3]
Односторонний дисперсионный анализ можно обобщить на факторные и многомерные схемы, а также на анализ ковариации.[требуется разъяснение ]
В популярной литературе часто утверждается, что ни одно из этих F-тесты крепкий когда есть серьезные нарушения предположения, что каждая популяция следует нормальное распределение, особенно для небольших альфа-уровней и несбалансированных макетов.[4] Кроме того, также утверждается, что если исходное допущение гомоскедастичность нарушается, Ошибка типа I свойства деградируют намного сильнее.[5]
Однако это заблуждение, основанное на работе, проделанной в 1950-х годах и ранее. Первым всесторонним исследованием этого вопроса с помощью моделирования методом Монте-Карло был Дональдсон (1966).[6] Он показал, что при обычных отклонениях (положительный перекос, неравные отклонения) " F-тест является консервативным », и поэтому вероятность того, что переменная значима, менее вероятна, чем должна быть. Однако по мере увеличения либо размера выборки, либо количества ячеек« кривые мощности, похоже, сходятся к кривым, основанным на нормальное распределение ». Тику (1971) обнаружил, что« ненормальная сила теории F оказывается, отличается от нормальной теоретической мощности поправочным членом, который резко уменьшается с увеличением размера выборки ".[7] Проблема ненормальности, особенно в больших выборках, гораздо менее серьезна, чем предполагают популярные статьи.
В настоящее время считается, что «исследования методом Монте-Карло широко использовались с тестами на основе нормального распределения, чтобы определить, насколько они чувствительны к нарушениям предположения о нормальном распределении анализируемых переменных в популяции. Общий вывод из этих исследований состоит в том, что последствия таких нарушений менее серьезны, чем предполагалось ранее. Хотя эти выводы не должны полностью отпугивать кого-либо от беспокойства по поводу предположения о нормальности, они повысили общую популярность статистических тестов, зависящих от распределения, во всех областях исследований ».[8]
Для непараметрических альтернатив в факторной схеме см. Sawilowsky.[9] Для получения дополнительной информации см. ANOVA по рангам.
Случай фиксированных эффектов, полностью рандомизированный эксперимент, несбалансированные данные
Модель
Нормальная линейная модель описывает лечебные группы с распределениями вероятностей, которые представляют собой идентичные колоколообразные (нормальные) кривые с разными средними значениями. Таким образом, для подгонки моделей требуются только средние значения для каждой группы лечения и расчет дисперсии (используется средняя дисперсия внутри групп лечения). Вычисления средних значений и дисперсии выполняются как часть проверки гипотезы.
Обычно используемые нормальные линейные модели для полностью рандомизированного эксперимента:[10]
- (модель средних)
или же
- (модель эффектов)
куда
- индекс экспериментальных единиц
- индекс по группам лечения
- количество экспериментальных единиц в j-й группе лечения
- общее количество экспериментальных единиц
- наблюдения
- среднее значение наблюдений для j-й группы лечения
- среднее значение наблюдений
- это j-й лечебный эффект, отклонение от общего среднего
- , - нормально распределенные случайные ошибки с нулевым средним.
Индекс над экспериментальными установками можно интерпретировать по-разному. В некоторых экспериментах одна и та же экспериментальная установка подвергается различным воздействиям; может указывать на конкретную единицу. В других случаях каждая группа лечения имеет отдельный набор экспериментальных единиц; может быть просто указателем в -й список.
Данные и статистические сводки данных
Одна форма организации экспериментальных наблюдений с группами в столбцах:
Списки групповых наблюдений | ||||||||
---|---|---|---|---|---|---|---|---|
1 | ||||||||
2 | ||||||||
3 | ||||||||
Сводная статистика группы | Общая сводная статистика | |||||||
# Наблюдаемый | # Наблюдаемый | |||||||
Сумма | Сумма | |||||||
Сумма кв. | Сумма кв. | |||||||
Иметь в виду | Иметь в виду | |||||||
Дисперсия | Дисперсия |
Сравнение модели с аннотациями: и . Общее среднее и большое отклонение вычисляются из общих сумм, а не из групповых средних и дисперсий.
Проверка гипотез
С учетом сводной статистики расчеты проверки гипотез представлены в табличной форме. Хотя для пояснительного значения показаны два столбца SS, для отображения результатов требуется только один столбец.
Источник вариации | Суммы квадратов | Суммы квадратов | Степени свободы | Средний квадрат | F |
---|---|---|---|---|---|
Пояснительная СС[11] | Вычислительная СС[12] | DF | РС | ||
Лечение | |||||
Ошибка | |||||
Общий |
- оценка дисперсии, соответствующая модели.
Резюме анализа
Основной анализ ANOVA состоит из серии вычислений. Данные собраны в табличной форме. потом
- Каждая группа лечения суммирована по количеству экспериментальных единиц, двум суммам, среднему значению и дисперсии. Сводные данные по группам лечения объединяются для получения итоговых значений количества единиц и сумм. Основное среднее и большое отклонение вычисляются из общих сумм. В модели использовано лечение и большие средства.
- Три DF и SS рассчитываются на основе сводных данных. Затем рассчитываются MS, и отношение определяет F.
- Компьютер обычно определяет p-значение из F, которое определяет, дают ли процедуры существенно разные результаты. Если результат значительный, то модель временно действительна.
Если эксперимент сбалансирован, все члены равны, поэтому уравнения SS упрощаются.
В более сложном эксперименте, где экспериментальные единицы (или эффекты окружающей среды) неоднородны, в анализе также используется статистика строк. Модель включает условия, зависящие от . Определение дополнительных членов сокращает количество доступных степеней свободы.
Пример
Рассмотрим эксперимент по изучению влияния трех разных уровней фактора на реакцию (например, трех уровней удобрения на рост растений). Если бы у нас было 6 наблюдений для каждого уровня, мы могли бы записать результат эксперимента в такую таблицу, где а1, а2, и а3 - это три уровня изучаемого фактора.
а1 а2 а3 6 8 13 8 12 9 4 9 11 5 11 8 3 6 7 4 8 12
Нулевая гипотеза, обозначенная H0, для общего F-Тестом для этого эксперимента будет то, что все три уровня фактора в среднем дают одинаковый ответ. Для расчета F-соотношение:
Шаг 1: Рассчитайте среднее значение в каждой группе:
Шаг 2: Рассчитайте общее среднее значение:
- куда а количество групп.
Шаг 3: Вычислите «межгрупповую» сумму квадратов разностей:
куда п - количество значений данных в группе.
Межгрупповые степени свободы на единицу меньше количества групп.
поэтому межгрупповое среднеквадратическое значение
Шаг 4: Вычислите сумму квадратов "внутри группы". Начните с центрирования данных в каждой группе
а1 | а2 | а3 |
---|---|---|
6−5=1 | 8−9=−1 | 13−10=3 |
8−5=3 | 12−9=3 | 9−10=−1 |
4−5=−1 | 9−9=0 | 11−10=1 |
5−5=0 | 11−9=2 | 8−10=−2 |
3−5=−2 | 6−9=−3 | 7−10=−3 |
4−5=−1 | 8−9=−1 | 12−10=2 |
Сумма квадратов внутри группы - это сумма квадратов всех 18 значений в этой таблице.
Внутригрупповые степени свободы
Таким образом, среднеквадратичное значение внутри группы равно
Шаг 5: В F-отношение
Критическое значение - это число, которое должна превышать статистика теста, чтобы отклонить тест. В этом случае, Fкрит(2,15) = 3,68 при α = 0,05. С F= 9,3> 3,68, результаты будут существенный на уровне значимости 5%. Можно отклонить нулевую гипотезу, заключив, что есть веские доказательства того, что ожидаемые значения в трех группах различаются. В p-значение для этого теста 0,002.
После выполнения F-тест, как правило, проводится некоторый «апостериорный» анализ групповых средних. В этом случае средние значения первых двух групп отличаются на 4 единицы, средние значения первой и третьей группы отличаются на 5 единиц, а средние значения второй и третьей группы отличаются только на 1 единицу. В стандартная ошибка каждого из этих различий . Таким образом, первая группа сильно отличается от других групп, так как средняя разница в несколько раз больше стандартной ошибки, поэтому мы можем быть уверены, что Средняя численность населения первой группы отличается от средних значений остальных групп. Однако нет никаких доказательств того, что вторая и третья группы имеют разные средние по численности населения друг от друга, поскольку их среднее различие в одну единицу сопоставимо со стандартной ошибкой.
Примечание F(Икс, у) обозначает F-распределение кумулятивная функция распределения с Икс степеней свободы в числителе и у степени свободы в знаменателе.
Смотрите также
- Дисперсионный анализ
- F тест (Включает пример одностороннего дисперсионного анализа)
- Смешанная модель
- Многомерный дисперсионный анализ (MANOVA)
- Повторные измерения ANOVA
- Двусторонний дисперсионный анализ
- T-критерий Велча
Примечания
- ^ а б Хауэлл, Дэвид (2002). Статистические методы психологии. Даксбери. стр.324–325. ISBN 0-534-37770-X.
- ^ Велч, Б. Л. (1951). «О сравнении нескольких средних значений: альтернативный подход». Биометрика. 38 (3/4): 330–336. Дои:10.2307/2332579. JSTOR 2332579.
- ^ Кирк, RE (1995). План эксперимента: процедуры для поведенческих наук (3-е изд.). Пасифик Гроув, Калифорния, США: Брукс / Коул.
- ^ Блэр, Р. К. (1981). «Реакция на« Последствия несоблюдения предположений, лежащих в основе анализа дисперсии и ковариации с фиксированными эффектами ».'". Обзор образовательных исследований. 51 (4): 499–507. Дои:10.3102/00346543051004499.
- ^ Randolf, E. A .; Барчиковски, Р. С. (1989). «Коэффициент ошибок типа I, когда реальные значения исследования используются в качестве параметров популяции в исследовании Монте-Карло». Доклад, представленный на 11-м ежегодном собрании Ассоциации исследований в области образования Среднего Запада, Чикаго.
- ^ Дональдсон, Теодор С. (1966). "Мощность F-теста для ненормальных распределений и неравных отклонений ошибок". Документ подготовлен для проекта ВВС США RAND.
- ^ Тику, М. Л. (1971). "Силовая функция F-Тест в нестандартных ситуациях ». Журнал Американской статистической ассоциации. 66 (336): 913–916. Дои:10.1080/01621459.1971.10482371.
- ^ «Архивная копия». Архивировано из оригинал на 2018-12-04. Получено 2016-09-22.CS1 maint: заархивированная копия как заголовок (связь)
- ^ Савиловский, С. (1990). «Непараметрические тесты взаимодействия в экспериментальном дизайне». Обзор образовательных исследований. 60 (1): 91–126. Дои:10.3102/00346543060001091.
- ^ Монтгомери, Дуглас С. (2001). Планирование и анализ экспериментов (5-е изд.). Нью-Йорк: Вили. п. Раздел 3–2. ISBN 9780471316497.
- ^ Мур, Дэвид С .; Маккейб, Джордж П. (2003). Введение в статистическую практику (4-е изд.). W H Freeman & Co. стр. 764. ISBN 0716796570.
- ^ Винклер, Роберт Л .; Хейс, Уильям Л. (1975). Статистика: вероятность, вывод и решение (2-е изд.). Нью-Йорк: Холт, Райнхарт и Уинстон. п.761.
дальнейшее чтение
- Джордж Каселла (18 апреля 2008 г.). Статистический дизайн. Springer. ISBN 978-0-387-75965-4.