Дисперсионный анализ - Analysis of variance

Дисперсионный анализ (ANOVA) представляет собой набор статистические модели и связанные с ними процедуры оценки (например, «вариации» между группами), используемые для анализа различий между средними значениями групп в образец. ANOVA был разработан статистик Рональд Фишер. ANOVA основан на закон полной дисперсии, где наблюдаемый отклонение в конкретной переменной делится на компоненты, относящиеся к различным источникам вариации. В своей простейшей форме ANOVA дает статистический тест от того, два или более населения средства равны, и поэтому обобщает т-тест за пределами двух средств.

История

Согласно Стиглеру, хотя дисперсионный анализ реализовался в XX веке, предшественники уходят в прошлое.[1] К ним относятся проверка гипотез, разделение сумм квадратов, экспериментальные методы и аддитивная модель. Лаплас проводил проверку гипотез в 1770-х годах.[2] Около 1800 г. Лаплас и Гаусс разработал метод наименьших квадратов для объединения наблюдений, который усовершенствовал методы, которые затем использовались в астрономии и геодезии. Он также инициировал большое изучение вкладов в суммы квадратов. Лаплас знал, как оценить дисперсию по остаточной (а не по общей) сумме квадратов.[3] К 1827 году Лаплас использовал наименьших квадратов методы решения задач ANOVA, касающихся измерений атмосферных приливов.[4] До 1800 года у астрономов были отдельные ошибки наблюдений, вызванные временем реакции ("личное уравнение ") и разработали методы уменьшения ошибок.[5] Экспериментальные методы, использованные в исследовании личностного уравнения, позже были приняты развивающейся областью психологии. [6] который разработал сильные (полные факторные) экспериментальные методы, к которым вскоре были добавлены рандомизация и слепой анализ.[7] Красноречивое нематематическое объяснение модели аддитивных эффектов было доступно в 1885 году.[8]

Рональд Фишер ввел термин отклонение и предложил его формальный анализ в статье 1918 г. Корреляция между родственниками на основе предположения о менделевской наследственности.[9] Его первое приложение дисперсионного анализа было опубликовано в 1921 году.[10] Дисперсионный анализ стал широко известен после включения в книгу Фишера 1925 года. Статистические методы для научных работников.

Модели рандомизации были разработаны несколькими исследователями. Первый был опубликован на польском языке Ежи Нейман в 1923 г.[11]

Одним из атрибутов ANOVA, который обеспечил его раннюю популярность, была вычислительная элегантность. Структура аддитивной модели позволяет решать аддитивные коэффициенты простой алгеброй, а не матричными вычислениями. В эпоху механических вычислителей эта простота имела решающее значение. Определение статистической значимости также потребовало доступа к таблицам функции F, которые были предоставлены ранними статистическими текстами.

Пример

Не подходят: молодые против старых, короткошерстные против длинноволосых.
Соответствие требованиям: домашние животные против рабочих пород и менее атлетичные против более атлетичных
Очень хорошо подходит: вес по породе

Дисперсионный анализ может использоваться как исследовательский инструмент для объяснения наблюдений. Пример тому - выставка собак. Выставка собак - это не случайная выборка представителей породы: она обычно ограничивается взрослыми, чистокровными и образцовыми собаками. Гистограмма веса собак на выставке может быть довольно сложной, как желто-оранжевое распределение, показанное на иллюстрациях. Предположим, мы хотим предсказать вес собаки на основе определенного набора характеристик каждой собаки. Один из способов сделать это - объяснять распределение веса путем разделения популяции собак на группы на основе этих характеристик. Успешное группирование разделит собак таким образом, чтобы (а) каждая группа имела низкую дисперсию веса собак (что означает, что группа относительно однородна) и (б) среднее значение каждой группы различно (если две группы имеют одинаковое среднее значение, тогда оно неразумно делать вывод о том, что группы фактически разделены каким-либо значимым образом).

На иллюстрациях справа группы обозначены как Икс1, Икс2и т. д. На первой иллюстрации собаки разделены в соответствии с продуктом (взаимодействием) двух бинарных групп: молодые и старые, короткошерстные и длинношерстные (например, группа 1 - молодые, короткошерстные собаки, группа 2 - молодые, длинношерстные собаки и др.). Поскольку распределение веса собак в каждой из групп (показано синим цветом) имеет относительно большую дисперсию, и поскольку средние значения очень похожи для разных групп, группирование собак по этим характеристикам не дает эффективного способа объяснить различия в весе собак. : знание того, к какой группе принадлежит собака, не позволяет нам предсказать ее вес намного лучше, чем просто знать, что собака находится на выставке. Таким образом, данная группировка не может объяснить различия в общем распределении (желто-оранжевый).

Попытка объяснить распределение веса, сгруппировав собак как домашнее животное против рабочей породы и менее спортивный vs более спортивный вероятно, будет несколько более удачным (подходит). Самыми тяжелыми выставочными собаками, вероятно, будут большие, сильные, рабочие породы, в то время как породы, содержащиеся в качестве домашних животных, обычно меньше и, следовательно, легче. Как показано на втором рисунке, распределения имеют значительно меньшие отклонения, чем в первом случае, а средние значения более различимы. Однако, например, значительное перекрытие распределений означает, что мы не можем различить Икс1 и Икс2 надежно. Группировка собак по методу подбрасывания монеты может привести к похожему распределению.

Попытка объяснить вес породой, вероятно, даст очень хорошее соответствие. Все чихуахуа легкие, а все сенбернары тяжелые. Разница в весе между сеттерами и пойнтерами не оправдывает отдельных пород. Дисперсионный анализ предоставляет формальные инструменты для обоснования этих интуитивных суждений. Обычно этот метод используется для анализа экспериментальных данных или разработки моделей. Этот метод имеет некоторые преимущества перед корреляцией: не все данные должны быть числовыми, и одним из результатов метода является оценка достоверности пояснительной взаимосвязи.

Предпосылки и терминология

ANOVA - это форма статистическая проверка гипотез активно используется при анализе экспериментальных данных. Результат теста (рассчитанный из нулевая гипотеза и выборка) называется статистически значимым, если считается, что это не произошло случайно, предполагая истинность нулевой гипотезы. Статистически значимый результат, когда вероятность (п-ценить ) меньше заранее заданного порога (уровня значимости), оправдывает отклонение нулевая гипотеза, но только если априорная вероятность нулевой гипотезы невелика.

В типичном применении ANOVA нулевая гипотеза состоит в том, что все группы являются случайными выборками из одной и той же популяции. Например, при изучении влияния различных видов лечения на аналогичные выборки пациентов нулевая гипотеза будет заключаться в том, что все виды лечения имеют одинаковый эффект (возможно, ни один). Отказ от нулевой гипотезы означает, что различия в наблюдаемых эффектах между группами лечения вряд ли могут быть вызваны случайной случайностью.

По построению, проверка гипотез ограничивает скорость Ошибки типа I (ложные срабатывания) до уровня значимости. Экспериментаторы также хотят ограничить Ошибки типа II (ложноотрицательные). Частота ошибок типа II в значительной степени зависит от размера выборки (частота больше для меньших выборок), уровня значимости (когда стандарт доказательства высок, вероятность пропустить открытие также высока) и размер эффекта (меньший размер эффекта более подвержен ошибкам типа II).

Терминология ANOVA во многом основана на статистических данных. дизайн экспериментов. Экспериментатор корректирует факторы и измеряет ответы, пытаясь определить эффект. Факторы присваиваются экспериментальным единицам путем комбинации рандомизации и блокировка для обеспечения достоверности результатов. Ослепление сохраняет беспристрастность взвешивания. Ответы показывают изменчивость, которая частично является результатом эффекта и частично случайной ошибкой.

ANOVA - это синтез нескольких идей, который используется для нескольких целей. Как следствие, трудно дать краткое или точное определение.

«Классический» дисперсионный анализ ANOVA для сбалансированных данных выполняет сразу три задачи:

  1. В качестве разведочный анализ данных, ANOVA использует аддитивную декомпозицию данных, а его суммы квадратов указывают дисперсию каждого компонента разложения (или, что то же самое, каждого набора членов линейной модели).
  2. Сравнение средних квадратов вместе с F-тест ... разрешить тестирование вложенной последовательности моделей.
  3. С ANOVA тесно связана аппроксимация линейной модели с оценками коэффициентов и стандартными ошибками.[12]

Короче говоря, ANOVA - это статистический инструмент, который используется несколькими способами для разработки и подтверждения объяснения наблюдаемых данных.

Кроме того:

  1. Он вычислительно элегантен и относительно устойчив к нарушениям его предположений.
  2. ANOVA обеспечивает надежный статистический анализ (сравнение нескольких выборок).
  3. Он был адаптирован для анализа множества экспериментальных проектов.

В результате: ANOVA «долгое время пользовался статусом наиболее используемого (некоторые сказали бы, злоупотребления) статистического метода в психологических исследованиях».[13]ANOVA «вероятно, самый полезный метод в области статистического вывода».[14]

ANOVA трудно обучить, особенно для сложных экспериментов, с сплит-проекты печально известна.[15] В некоторых случаях правильное применение метода лучше всего определяется путем распознавания образов проблемы с последующей консультацией с помощью классического авторитетного теста.[16]

Условия разработки экспериментов

(Кратко из «Справочника по технической статистике NIST»: Раздел 5.7. Глоссарий терминологии Министерства энергетики.)[17]

Сбалансированный дизайн
План эксперимента, в котором все клетки (т. Е. Комбинации лечения) имеют одинаковое количество наблюдений.
Блокировка
График проведения комбинаций обработки в экспериментальном исследовании, при котором любое влияние на результаты эксперимента из-за известного изменения сырья, операторов, машин и т. Д. Концентрируется на уровнях блокирующей переменной. Причина блокировки заключается в том, чтобы изолировать систематический эффект и не допустить, чтобы он затенял основные эффекты. Блокировка достигается ограничением рандомизации.
Дизайн
Набор экспериментальных прогонов, который позволяет подобрать конкретную модель и оценить эффекты.
DOE
Дизайн экспериментов. Подход к решению проблем, включающий сбор данных, которые поддержат верные, обоснованные и подтверждаемые выводы.[18]
Эффект
Как изменение настроек фактора меняет ответ. Эффект одного фактора также называется основным эффектом.
Ошибка
Необъяснимая вариация в коллекции наблюдений. DOE обычно требуют понимания как случайной ошибки, так и ошибки отсутствия соответствия.
Экспериментальная установка
Объект, к которому применяется определенная комбинация лечения.
Факторы
Обработка входных данных, которыми манипулирует исследователь, чтобы вызвать изменение выходных данных.
Ошибка несоответствия
Ошибка, возникающая, когда анализ пропускает один или несколько важных терминов или факторов из модели процесса. Включение репликации в DOE позволяет разделить экспериментальную ошибку на ее составляющие: несоответствие и случайная (чистая) ошибка.
Модель
Математическое соотношение, которое связывает изменения в данной реакции с изменениями одного или нескольких факторов.
Случайная ошибка
Ошибка, возникающая из-за естественного изменения процесса. Обычно предполагается, что случайная ошибка имеет нормальное распределение с нулевым средним и постоянной дисперсией. Случайная ошибка также называется экспериментальной ошибкой.
Рандомизация
График распределения обрабатывающего материала и проведения комбинаций обработок в DOE таким образом, чтобы условия в одном прогоне не зависели от условий предыдущего прогона и не прогнозировали условия в последующих прогонах.[nb 1]
Репликация
Выполнение одной и той же лечебной комбинации более одного раза. Включение репликации позволяет оценить случайную ошибку независимо от ошибки отсутствия соответствия.
Ответы
Выход (ы) процесса. Иногда называется зависимой (ыми) переменной (ами).
Уход
Лечение - это определенная комбинация уровней факторов, действие которой следует сравнивать с другими видами лечения.

Классы моделей

В дисперсионном анализе используются три класса моделей, и они описаны здесь.

Модели с фиксированными эффектами

Модель дисперсионного анализа с фиксированными эффектами (класс I) применяется к ситуациям, в которых экспериментатор применяет одно или несколько методов лечения к субъектам эксперимента, чтобы увидеть, переменная ответа ценности меняются. Это позволяет экспериментатору оценить диапазоны значений переменных ответа, которые лечение может вызвать в популяции в целом.

Модели со случайными эффектами

Модель случайных эффектов (класс II) используется, когда лечение не фиксировано. Это происходит, когда различные уровни факторов выбираются из более широкой совокупности. Потому что сами уровни случайные переменные, некоторые допущения и метод противопоставления обработок (многовариантное обобщение простых различий) отличаются от модели с фиксированными эффектами.[19]

Модели со смешанными эффектами

Модель со смешанными эффектами (класс III) содержит экспериментальные факторы как с фиксированными, так и со случайными эффектами, с соответственно разными интерпретациями и анализом для двух типов.

Пример. Обучающие эксперименты могут быть проведены колледжем или отделением университета, чтобы найти хороший вводный учебник, где каждый текст считается лечением. Модель с фиксированными эффектами будет сравнивать список текстов-кандидатов. Модель случайных эффектов будет определять, существуют ли важные различия между списком случайно выбранных текстов. Модель со смешанными эффектами будет сравнивать (фиксированные) существующие тексты со случайно выбранными альтернативами.

Определение фиксированных и случайных эффектов оказалось труднодостижимым, а конкурирующие определения, возможно, ведут к лингвистическому болоту.[20]

Предположения

Анализ дисперсии был изучен с помощью нескольких подходов, наиболее распространенный из которых использует линейная модель что связывает реакцию на лечение и блокировку. Обратите внимание, что модель линейна по параметрам, но может быть нелинейной по уровням факторов. Интерпретация проста, когда данные сбалансированы по факторам, но для несбалансированных данных требуется гораздо более глубокое понимание.

Анализ учебника с использованием нормального распределения

Дисперсионный анализ можно представить в виде линейная модель, что делает следующие предположения о распределение вероятностей ответов:[21][22][23][24]

Отдельные допущения модели учебника подразумевают, что ошибки независимо, одинаково и нормально распределены для моделей с фиксированными эффектами, то есть ошибки () независимы и

Анализ на основе рандомизации

В рандомизированный контролируемый эксперимент, процедуры случайным образом распределяются по экспериментальным единицам в соответствии с протоколом эксперимента. Эта рандомизация является объективной и объявляется до проведения эксперимента. Объективное случайное присвоение используется для проверки значимости нулевой гипотезы, следуя идеям К. С. Пирс и Рональд Фишер. Этот анализ на основе дизайна был обсужден и разработан Фрэнсис Дж. Анскомб в Экспериментальная станция Ротамстед и по Оскар Кемпторн в Государственный университет Айовы.[25] Кемпторн и его ученики делают предположение о том, что аддитивность единичного лечения, который обсуждается в книгах Кемпторна и Дэвид Р. Кокс.[нужна цитата ]

Аддитивность к единичному лечению

В своей простейшей форме предположение об аддитивности единичного лечения[nb 2] заявляет, что наблюдаемый ответ из экспериментальной установки при лечении можно записать как сумму отклика блока и лечебный эффект , то есть [26][27][28]

Предположение об аддитивности единичного лечения подразумевает, что для каждого лечения , то й курс лечения имеет точно такой же эффект на каждой экспериментальной установке.

Предположение об аддитивности единичного лечения обычно не может быть прямо фальсифицированный по словам Кокса и Кемпторна. Однако многие последствия аддитивности лечебного учреждения могут быть сфальсифицированы. Для рандомизированного эксперимента допущение об аддитивности единичного лечения подразумевает что дисперсия постоянна для всех видов лечения. Следовательно, по противопоставление, необходимым условием аддитивности единичной обработки является постоянство дисперсии.

Использование аддитивности единичного лечения и рандомизации аналогично выводу на основе дизайна, который является стандартным для конечной совокупности. выборка обследования.

Производная линейная модель

Кемпторн использует распределение рандомизации и предположение аддитивность единичного лечения произвести производная линейная модель, очень похожая на модель из учебника, обсуждавшуюся ранее.[29] Тестовая статистика этой производной линейной модели близко аппроксимируется тестовой статистикой соответствующей нормальной линейной модели в соответствии с теоремами аппроксимации и исследованиями моделирования.[30] Однако есть отличия. Например, анализ на основе рандомизации дает небольшую, но (строго) отрицательную корреляцию между наблюдениями.[31][32] В анализе на основе рандомизации есть нет предположения из нормальный распространение и конечно нет предположения из независимость. Напротив, наблюдения зависят!

Недостаток анализа на основе рандомизации состоит в том, что его изложение требует утомительной алгебры и большого количества времени. Поскольку анализ на основе рандомизации сложен и близко приближается к подходу, использующему нормальную линейную модель, большинство учителей подчеркивают подход нормальной линейной модели. Некоторые статистики возражают против основанного на моделях анализа сбалансированных рандомизированных экспериментов.

Статистические модели для данных наблюдений

Однако применительно к данным нерандомизированных экспериментов или наблюдательные исследования, модельный анализ не требует рандомизации.[33] Для данных наблюдений при выводе доверительных интервалов необходимо использовать субъективный модели, как подчеркивают Рональд Фишер и его последователи. На практике оценки лечебных эффектов на основе обсервационных исследований, как правило, часто противоречивы. На практике «статистические модели» и данные наблюдений полезны для выдвижения гипотез, к которым общественность должна относиться очень осторожно.[34]

Резюме предположений

Анализ ANOVA на основе нормальной модели предполагает независимость, нормальность и однородность дисперсий остатков. Анализ на основе рандомизации предполагает только однородность дисперсий остатков (как следствие аддитивности единицы лечения) и использует процедуру рандомизации эксперимента. Оба эти анализа требуют гомоскедастичность, в качестве предположения для анализа нормальной модели и как следствие рандомизации и аддитивности для анализа на основе рандомизации.

Однако исследования процессов, которые изменяют дисперсию, а не средние значения (так называемые эффекты дисперсии), были успешно проведены с использованием ANOVA.[35] Естьнет необходимые предположения для ANOVA в его полной общности, ноF-тест, используемый для проверки гипотез ANOVA, имеет допущения и практические ограничения, которые представляют постоянный интерес.

Задачи, которые не удовлетворяют предположениям ANOVA, часто могут быть преобразованы, чтобы удовлетворить предположениям. Свойство аддитивности единичной обработки не является инвариантным при «изменении масштаба», поэтому статистики часто используют преобразования для достижения аддитивности единичной обработки. Если ожидается, что переменная отклика будет следовать параметрическому семейству распределений вероятностей, то статистик может указать (в протоколе эксперимента или наблюдательного исследования), что отклики будут преобразованы для стабилизации дисперсии.[36] Кроме того, статистик может указать, что к ответам применяются логарифмические преобразования, которые, как считается, соответствуют мультипликативной модели.[27][37]Согласно Коши функциональное уравнение теорема, логарифм - единственное непрерывное преобразование, преобразующее действительное умножение в сложение.[нужна цитата ]

Характеристики

ANOVA используется при анализе сравнительных экспериментов, в которых интерес представляет только разница в результатах. Статистическая значимость эксперимента определяется соотношением двух дисперсий. Это соотношение не зависит от нескольких возможных изменений экспериментальных наблюдений: добавление константы ко всем наблюдениям не меняет значимости. Умножение всех наблюдений на константу не меняет значения. Таким образом, результат статистической значимости ANOVA не зависит от постоянного смещения и ошибок масштабирования, а также от единиц, используемых при выражении наблюдений. В эпоху механических вычислений было принято вычитать константу из всех наблюдений (что эквивалентно отбрасыванию ведущих цифр) для упрощения ввода данных.[38][39] Это пример данныхкодирование.

Логика

Вычисления ANOVA можно охарактеризовать как вычисление ряда средних и дисперсий, деление двух дисперсий и сравнение отношения со справочным значением для определения статистической значимости. В таком случае вычисление лечебного эффекта является тривиальным: «эффект любого лечения оценивается как разница между средним значением наблюдений, в которых проводится лечение, и общим средним значением».[40]

Разбиение суммы квадратов

ANOVA использует традиционную стандартизированную терминологию. Уравнение определения дисперсии выборки:, где делитель называется степенями свободы (DF), суммирование называется суммой квадратов (SS), результат называется средним квадратом (MS), а квадраты членов представляют собой отклонения от выборочного среднего. ANOVA оценивает 3 выборочные дисперсии: общую дисперсию, основанную на всех отклонениях наблюдений от общего среднего, дисперсию ошибок, основанную на всех отклонениях наблюдений от соответствующих средств обработки, и дисперсию лечения. Дисперсия лечения основана на отклонениях средних значений лечения от общего среднего, результат умножается на количество наблюдений в каждом лечении, чтобы учесть разницу между дисперсией наблюдений и дисперсией средних значений.

Основной метод - это разделение всего сумма площадей SS на компоненты, связанные с эффектами, используемыми в модели. Например, модель для упрощенного дисперсионного анализа с одним типом обработки на разных уровнях.

Количество степени свободы DF могут быть разделены аналогичным образом: один из этих компонентов (для ошибки) указывает распределение хи-квадрат который описывает связанную сумму квадратов, в то время как то же самое верно для "лечения", если нет лечебного эффекта.

Смотрите также Неподходящая сумма квадратов.

В F-тест

В F-тест используется для сравнения коэффициентов общего отклонения. Например, в однофакторном или однофакторном дисперсионном анализе статистическая значимость проверяется путем сравнения статистики F-критерия.

куда РС среднеквадратичный, = количество процедур и = общее количество случаев

к F-распределение с , степени свободы. С использованием F-распределение является естественным кандидатом, потому что тестовая статистика представляет собой отношение двух масштабированных сумм квадратов, каждая из которых следует масштабированной распределение хи-квадрат.

Ожидаемое значение F равно (куда - размер лечебной выборки), который равен 1, если лечебный эффект отсутствует. По мере увеличения значения F выше 1 свидетельства становятся все более несовместимыми с нулевой гипотезой. Два очевидных экспериментальных метода увеличения F - это увеличение размера выборки и уменьшение дисперсии ошибок за счет жесткого экспериментального контроля.

Есть два метода завершения проверки гипотезы ANOVA, оба из которых дают одинаковый результат:

  • Учебный метод заключается в сравнении наблюдаемого значения F с критическим значением F, определенным из таблиц. Критическое значение F является функцией степеней свободы числителя и знаменателя, а также уровня значимости (α). Если F ≥ FКритический, нулевая гипотеза отклоняется.
  • Компьютерный метод вычисляет вероятность (p-значение) значения F, большего или равного наблюдаемому значению. Нулевая гипотеза отклоняется, если эта вероятность меньше или равна уровню значимости (α).

ANOVA F-тест, как известно, является почти оптимальным в смысле минимизации ложноотрицательных ошибок для фиксированного количества ложноположительных ошибок (т. е. максимизации мощности для фиксированного уровня значимости). Например, чтобы проверить гипотезу о том, что различные виды лечения имеют одинаковый эффект, F-тест с п-значения очень близки к перестановочный тест с p-значения: Приближение особенно близко, когда дизайн сбалансирован.[30][41] Такой перестановочные тесты охарактеризовать тесты с максимальной мощностью против всех альтернативные гипотезы, как заметил Розенбаум.[№ 3] ANOVA F-тест (нулевой гипотезы о том, что все методы лечения имеют одинаковый эффект) рекомендуется в качестве практического теста из-за его устойчивости ко многим альтернативным распределениям.[42][№ 4]

Расширенная логика

ANOVA состоит из отдельных частей; разделение источников дисперсии и проверка гипотез могут использоваться индивидуально. ANOVA используется для поддержки других статистических инструментов. Сначала регрессия используется для подгонки более сложных моделей к данным, затем ANOVA используется для сравнения моделей с целью выбора простых (r) моделей, которые адекватно описывают данные. «Такие модели можно было бы подогнать без какой-либо ссылки на ANOVA, но затем можно было бы использовать инструменты ANOVA, чтобы разобраться в подобранных моделях и проверить гипотезы о пакетах коэффициентов».[43] «[Мы] думаем об анализе дисперсии как о способе понимания и структурирования многоуровневых моделей - не как об альтернативе регрессии, а как об инструменте для обобщения сложных многомерных выводов ...»[43]

Для одного фактора

Самый простой эксперимент, подходящий для анализа ANOVA, - это полностью рандомизированный эксперимент с одним фактором. Более сложные эксперименты с одним фактором включают ограничения на рандомизацию и включают полностью рандомизированные блоки и латинские квадраты (и варианты: греко-латинские квадраты и т. Д.). Более сложные эксперименты имеют много общего с множеством факторов. Относительно полное обсуждение анализа (модели, сводки данных, таблица ANOVA) полностью рандомизированного эксперимента приведено ниже. имеется в наличии.

Для нескольких факторов

ANOVA обобщает изучение эффектов нескольких факторов. Когда эксперимент включает наблюдения на всех комбинациях уровней каждого фактора, это называется факториал. Факторные эксперименты более эффективны, чем серия однофакторных экспериментов, и эффективность растет с увеличением числа факторов.[44] Следовательно, широко используются факторные планы.

Использование ANOVA для изучения воздействия нескольких факторов имеет сложности. В трехфакторном ANOVA с факторами x, y и z модель ANOVA включает члены для основных эффектов (x, y, z) и условия для взаимодействия (xy, xz, yz, xyz). Все термины требуют проверки гипотез. Распространение терминов взаимодействия увеличивает риск того, что какая-то проверка гипотез случайно даст ложноположительный результат. К счастью, опыт показывает, что взаимодействия высокого порядка редки.[45][требуется проверка ]Возможность обнаруживать взаимодействия - главное преимущество многофакторного дисперсионного анализа. Тестирование одного фактора за раз скрывает взаимодействия, но дает явно противоречивые экспериментальные результаты.[44]

При взаимодействии рекомендуется соблюдать осторожность; Сначала проверьте условия взаимодействия и расширьте анализ за пределы ANOVA, если взаимодействия обнаружены. Тексты различаются по своим рекомендациям относительно продолжения процедуры ANOVA после столкновения с взаимодействием. Взаимодействия усложняют интерпретацию экспериментальных данных. Ни расчеты значимости, ни предполагаемые эффекты лечения нельзя принимать за чистую монету. «Существенное взаимодействие часто маскирует значимость основных эффектов».[46] Для лучшего понимания рекомендуется использовать графические методы. Часто бывает полезна регрессия. Подробное обсуждение взаимодействий доступно в Cox (1958).[47] Некоторые взаимодействия можно удалить (преобразованием), а другие нельзя.

Для сокращения затрат используются различные методы с многофакторным дисперсионным анализом. Одним из методов, используемых в факторных планах, является минимизация репликации (возможно, без репликации с поддержкой аналитический обман ) и объединять группы, когда эффекты оказываются статистически (или практически) незначительными. Эксперимент с множеством незначительных факторов может свернуться в эксперимент с несколькими факторами, поддерживаемыми множеством повторений.[48]

Рабочие числовые примеры

Многочисленные полностью проработанные числовые примеры доступны в стандартных учебниках и в Интернете. А простой случай использует односторонний (однофакторный) анализ.

Сопутствующий анализ

Требуется некоторый анализ в поддержку дизайн эксперимента, в то время как другой анализ выполняется после того, как формально установлено, что изменения факторов приводят к статистически значимым изменениям в ответах. Поскольку экспериментирование является повторяющимся, результаты одного эксперимента меняют планы последующих экспериментов.

Подготовительный анализ

Количество опытных единиц

При планировании эксперимента количество экспериментальных единиц планируется, чтобы удовлетворить цели эксперимента. Эксперименты часто бывают последовательными.

Ранние эксперименты часто предназначены для получения объективных оценок эффектов лечения и экспериментальной ошибки. Более поздние эксперименты часто предназначены для проверки гипотезы о том, что лечебный эффект имеет важную величину; в этом случае количество экспериментальных единиц выбирается таким образом, чтобы эксперимент был в рамках бюджета и имел достаточную мощность, среди других целей.

Отчетный анализ размера выборки обычно требуется в психологии. «Предоставьте информацию о размере выборки и процессе, который привел к принятию решения о размере выборки».[49] Анализ, который записывается в протоколе эксперимента перед проведением эксперимента, изучается в заявках на гранты и административных комиссиях.

Помимо анализа мощности, существуют менее формальные методы выбора количества экспериментальных единиц. К ним относятся графические методы, основанные на ограничении вероятности ложноотрицательных ошибок, графические методы, основанные на ожидаемом увеличении вариации (выше остатков), и методы, основанные на достижении желаемого доверительного интервала.[50]

Анализ мощности

Анализ мощности часто применяется в контексте ANOVA для оценки вероятности успешного отклонения нулевой гипотезы, если мы предполагаем определенный дизайн ANOVA, размер эффекта в генеральной совокупности, размер выборки и уровень значимости. Анализ мощности может помочь в дизайне исследования, определяя, какой размер выборки потребуется, чтобы иметь разумные шансы отклонить нулевую гипотезу, когда альтернативная гипотеза верна.[51][52][53][54]

Размер эффекта

Для ANOVA было предложено несколько стандартизированных мер воздействия, чтобы суммировать силу связи между предиктором (ями) и зависимой переменной или общую стандартизированную разницу полной модели. Стандартизированные оценки размера эффекта облегчают сравнение результатов исследований и дисциплин. Однако, хотя стандартизованная величина эффекта обычно используется в большей части профессиональной литературы, нестандартная мера величины эффекта, имеющая сразу «значимые» единицы, может быть предпочтительнее для целей отчетности.[55]

Последующий анализ

Всегда уместно внимательно рассматривать выбросы. Они оказывают несоразмерное влияние на статистические выводы и часто являются результатом ошибок.

Подтверждение модели

Благоразумно проверять соблюдение допущений ANOVA. Остатки исследуются или анализируются для подтверждения гомоскедастичность и грубая нормальность.[56] Остатки должны иметь вид шума (нормальное распределение с нулевым средним) при построении графика в зависимости от чего-либо, включая время и значения смоделированных данных. Тенденции намекают на взаимодействие между факторами или между наблюдениями. Одно практическое правило: «Если наибольшее стандартное отклонение в два раза меньше наименьшего стандартного отклонения, мы можем использовать методы, основанные на предположении о равных стандартных отклонениях, и наши результаты все равно будут приблизительно правильными».[57]

Последующие тесты

Статистически значимый эффект в ANOVA часто сопровождается одним или несколькими контрольными тестами. Это может быть сделано для оценки того, какие группы отличаются от других групп, или для проверки различных других сфокусированных гипотез. Последующие тесты часто различают по тому, запланированы ли они (априори ) или же постфактум. Плановые тесты определяются до просмотра данных, а апостериорные тесты выполняются после просмотра данных.

Часто одного из «обработок» нет, поэтому группа лечения может выступать в качестве контроля. Тест Даннета (модификация т-test) проверяет, имеет ли каждая из других групп обработки то же среднее значение, что и контрольная.[58]

Последующие тесты, такие как Тест дальности Тьюки обычно сравнивают среднее значение каждой группы со средним значением любой другой группы и обычно включают какой-либо метод контроля ошибок типа I. Сравнения, которые обычно планируются, могут быть простыми или сложными. Простые сравнения сравнивают среднее значение одной группы со средним значением другой группы. Сложные сравнения обычно сравнивают два набора групповых средних, где один набор имеет две или более групп (например, сравнивают средние групповые средние группы А, В и С с группой D). При сравнении также можно использовать тесты на тенденцию, такие как линейные и квадратичные отношения, когда независимая переменная включает упорядоченные уровни.

После ANOVA с тестами попарного множественного сравнения критиковали по нескольким причинам.[55][59] Таких тестов много (10 в одной таблице), и рекомендации по их использованию расплывчаты или противоречивы.[60][61]

Дизайн исследования

Есть несколько типов ANOVA. Многие статистики основывают ANOVA на план эксперимента,[62] особенно в протоколе, который определяет случайное присвоение лечения субъектов; описание протокола механизма назначения должно включать спецификацию структуры обработок и любых блокировка. Также часто применяют ANOVA к данным наблюдений с использованием соответствующей статистической модели.[нужна цитата ]

Некоторые популярные модели используют следующие типы ANOVA:

  • Односторонний дисперсионный анализ используется для проверки различий между двумя или более независимый группы (средства), например разные уровни внесения мочевины в культуру или разные уровни действия антибиотиков на несколько разных видов бактерий,[63] или разные уровни действия того или иного лекарства на группы пациентов. Однако, если эти группы не являются независимыми, и существует порядок в группах (например, легкое, умеренное и тяжелое заболевание) или в дозе лекарственного средства (например, 5 мг / мл, 10 мг / мл, 20 мг / мл) для той же группы пациентов, затем оценка линейного тренда должен быть использован. Однако обычно односторонний дисперсионный анализ используется для проверки различий между как минимум тремя группами, поскольку случай с двумя группами может быть покрыт t-тест.[64] Когда есть только два средства для сравнения, t-тест и ANOVA F-тест эквивалентны; связь между ANOVA и т дан кем-то F = т2.
  • Факториал ANOVA используется, когда экспериментатор хочет изучить эффекты взаимодействия между видами лечения.
  • Повторные мероприятия ANOVA используется, когда одни и те же субъекты используются для каждого лечения (например, в длительное обучение ).
  • Многомерный дисперсионный анализ (MANOVA) используется, когда имеется более одного переменная ответа.

Предостережения

Сбалансированные эксперименты (с одинаковым размером выборки для каждого лечения) относительно легко интерпретировать; Несбалансированные эксперименты более сложны. Для однофакторного (одностороннего) дисперсионного анализа несбалансированные данные легко скорректировать, но несбалансированному анализу не хватает как надежности, так и мощности.[65] Для более сложных конструкций отсутствие баланса приводит к дальнейшим осложнениям. "Свойство ортогональности основных эффектов и взаимодействий, присутствующих в сбалансированных данных, не переносится на несбалансированный случай. Это означает, что обычные методы дисперсионного анализа неприменимы. Следовательно, анализ несбалансированных факториалов намного сложнее, чем анализ сбалансированных факториалов. конструкции. "[66] В общем случае «Дисперсионный анализ также может применяться к несбалансированным данным, но тогда суммы квадратов, средние квадраты и F-отношения будут зависеть от порядка, в котором рассматриваются источники вариации ».[43] Простейшие методы обработки несбалансированных данных восстанавливают баланс, либо отбрасывая данные, либо синтезируя недостающие данные. Более сложные методы используют регрессию.

ANOVA (частично) является тестом на статистическую значимость. Американская психологическая ассоциация (и многие другие организации) придерживаются мнения, что простого сообщения статистической значимости недостаточно и что предпочтительны границы достоверности сообщения.[55]

В то время как ANOVA консервативен (в поддержании уровня значимости) против множественные сравнения в одном измерении это не консервативно по сравнению со многими измерениями.[67]

Распространенной ошибкой является использование ANOVA (или Краскал – Уоллис ) для анализа упорядоченных групп, например во временной последовательности (меняется в течение нескольких месяцев), по степени тяжести заболевания (легкая, умеренная, тяжелая) или по расстоянию от заданной точки (10 км, 25 км, 50 км). Данные в трех или более упорядоченных группах, которые определены исследователем, должны быть проанализированы оценка линейного тренда.

Обобщения

ANOVA считается частным случаем линейная регрессия[68][69] что, в свою очередь, является частным случаем общая линейная модель.[70] Все рассматривают наблюдения как сумму модели (подгонки) и остатка (ошибки), который необходимо минимизировать.

В Тест Краскела – Уоллиса и Тест Фридмана находятся непараметрический тесты, которые не основываются на предположении о нормальности.[71][72]

Связь с линейной регрессией

Ниже мы проясняем связь между многофакторным дисперсионным анализом и линейной регрессией.

Линейно измените порядок данных так, чтобы наблюдение связано с ответом и факторы куда обозначает различные факторы и - общее количество факторов. Односторонний дисперсионный анализ и в двустороннем ANOVA . Кроме того, мы предполагаем, что фактор имеет уровни, а именно . Теперь мы можем горячий закодировать факторы в размерный вектор .

Функция быстрого кодирования определяется так, что вход является

Вектор является конкатенацией всех вышеуказанных векторов для всех . Таким образом, . Чтобы получить полностью общее ANOVA-способов взаимодействия, мы также должны объединить каждый дополнительный член взаимодействия в векторе а затем добавьте термин перехват. Пусть этот вектор будет .

Имея это обозначение, мы имеем точную связь с линейной регрессией. Мы просто регрессируем ответ против вектора . Однако есть опасения по поводу идентифицируемость. Чтобы преодолеть такие проблемы, мы предполагаем, что сумма параметров в каждом наборе взаимодействий равна нулю. Отсюда можно использовать F-статистика или другие методы для определения значимости отдельных факторов.

Пример

Мы можем рассмотреть пример двустороннего взаимодействия, в котором мы предполагаем, что первый фактор имеет 2 уровня, а второй фактор - 3 уровня.

Определять если и если , т.е. является горячим кодированием первого фактора и является горячим кодированием второго фактора.

С этим,

где последний член - это член перехвата. Для более конкретного примера предположим, что
Потом,

Смотрите также

Сноски

  1. ^ Рандомизация - это термин, который используется в этом материале по-разному. «Рандомизация играет в приложениях три роли: как средство устранения предвзятости, например, из-за ненаблюдаемых объясняющих переменных и эффектов выбора; как основа для оценки стандартных ошибок; и как основа для формально точных тестов значимости». Cox (2006, стр. 192) Хинкельманн и Кемпторн используют рандомизацию как при планировании экспериментов, так и для статистического анализа.
  2. ^ Аддитивность единичного лечения в большинстве текстов просто называется аддитивностью. Хинкельманн и Кемпторн добавляют прилагательные и различают аддитивность в строгом и широком смысле. Это позволяет подробно рассмотреть несколько источников ошибок (обработка, состояние, выбор, измерение и выборка) на странице 161.
  3. ^ Розенбаум (2002, стр. 40) цитирует раздел 5.7 (Проверки перестановки), теорему 2.3 (фактически теорему 3, стр. 184) из Lehmann с Проверка статистических гипотез (1959).
  4. ^ В F-тест на сравнение дисперсий имеет неоднозначную репутацию. Не рекомендуется в качестве проверки гипотезы определять, разные образцы имеют такую ​​же дисперсию. Это рекомендуется для ANOVA, где две оценки дисперсии одно и тоже образцы сравниваются. В то время как F-test обычно не устойчив к отклонениям от нормальности, он оказался устойчивым в специальном случае ANOVA. Цитаты из Мура и МакКейба (2003): «Дисперсионный анализ использует F-статистику, но это не то же самое, что F-статистика для сравнения двух стандартных отклонений населения». (стр. 554) «F-тест и другие процедуры для вывода о дисперсиях настолько неубедительны, что от них мало пользы на практике». (стр. 556) «[ANOVA F-тест] относительно нечувствителен к умеренным отклонениям от нормы и неравным дисперсиям, особенно когда размеры выборки схожи ». (стр. 763) ANOVA предполагает гомоскедастичность, но он надежен. Статистический тест на гомоскедастичность ( F-test) не является надежным. Мур и МакКейб рекомендуют практическое правило.

Примечания

  1. ^ Стиглер (1986)
  2. ^ Стиглер (1986, стр.134)
  3. ^ Стиглер (1986, стр.153)
  4. ^ Стиглер (1986, стр. 154–155).
  5. ^ Стиглер (1986, стр 240–242).
  6. ^ Стиглер (1986, глава 7 - Психофизика как контрапункт)
  7. ^ Стиглер (1986, стр. 253)
  8. ^ Стиглер (1986, стр 314–315)
  9. ^ Корреляция между родственниками на основе предположения о менделевской наследственности. Рональд А. Фишер. Философские труды Эдинбургского королевского общества. 1918 г. (том 52, страницы 399–433).
  10. ^ О «вероятной ошибке» коэффициента корреляции по малой выборке. Рональд А. Фишер. Метрон, 1: 3–32 (1921)
  11. ^ Шеффе (1959, стр. 291), «Рандомизационные модели были впервые сформулированы Нейманом (1923) для полностью рандомизированного плана, Нейманом (1935) для рандомизированных блоков, Велчем (1937) и Питманом (1937) для латинского квадрата при определенном нулевая гипотеза, а также Кемпторном (1952, 1955) и Уилком (1955) для многих других разработок ».
  12. ^ Гельман (2005, стр. 2)
  13. ^ Хауэлл (2002, стр. 320)
  14. ^ Монтгомери (2001, стр. 63)
  15. ^ Гельман (2005, стр.1)
  16. ^ Гельман (2005, стр. 5)
  17. ^ «Раздел 5.7. Глоссарий терминологии Министерства энергетики». Справочник NIST по инженерной статистике. NIST. Получено 5 апреля 2012.
  18. ^ «Раздел 4.3.1 Глоссарий терминологии Министерства энергетики». Справочник NIST по инженерной статистике. NIST. Получено 14 августа 2012.
  19. ^ Монтгомери (2001, Глава 12: Эксперименты со случайными факторами)
  20. ^ Гельман (2005, стр. 20–21).
  21. ^ Снедекор, Джордж В .; Кокран, Уильям Г. (1967). Статистические методы (6-е изд.). п. 321.
  22. ^ Кокран и Кокс (1992, стр. 48)
  23. ^ Хауэлл (2002, стр. 323)
  24. ^ Андерсон, Дэвид Р .; Суини, Деннис Дж .; Уильямс, Томас А. (1996). Статистика для бизнеса и экономики (6-е изд.). Миннеаполис / Сент. Пол: Западный паб. Co., стр. 452–453. ISBN  978-0-314-06378-6.
  25. ^ Анскомб (1948)
  26. ^ Кемпторн (1979, стр.30)
  27. ^ а б Кокс (1958, Глава 2: Некоторые ключевые предположения)
  28. ^ Хинкельманн и Кемпторн (2008, Том 1, На всем протяжении. Представлено в Разделе 2.3.3: Принципы экспериментального дизайна; Линейная модель; Наброски модели)
  29. ^ Хинкельманн и Кемпторн (2008, том 1, раздел 6.3: Полностью рандомизированный дизайн; производная линейная модель)
  30. ^ а б Хинкельманн и Кемпторн (2008, том 1, раздел 6.6: Полностью рандомизированный дизайн; аппроксимация теста рандомизации)
  31. ^ Бейли (2008, глава 2.14 «Более общая модель» в Бейли, стр. 38–40)
  32. ^ Хинкельманн и Кемпторн (2008, том 1, глава 7: Сравнение методов лечения)
  33. ^ Кемпторн (1979, стр. 125–126): «Экспериментатор должен решить, какая из различных причин, которые, по его мнению, вызовут вариации в его результатах, должны контролироваться экспериментально. Те причины, которые он не контролирует экспериментально, потому что он не осознает их, он должен управлять с помощью устройства рандомизации. "" [Только когда экспериментатор применяет методы лечения в эксперименте, используя полную процедуру рандомизации, это цепочка индуктивного вывода звука. Только в этих обстоятельствах экспериментатор может приписать любые наблюдаемые им эффекты только лечению и лечению. В этих обстоятельствах его выводы надежны в статистическом смысле ".)
  34. ^ Вольноотпущенник[требуется полная цитата ]
  35. ^ Монтгомери (2001, Раздел 3.8: Обнаружение эффектов дисперсии)
  36. ^ Хинкельманн и Кемпторн (2008, том 1, раздел 6.10: Полностью рандомизированный дизайн; трансформации)
  37. ^ Бейли (2008)
  38. ^ Монтгомери (2001, Раздел 3-3: Эксперименты с одним фактором: Дисперсионный анализ; Анализ модели фиксированных эффектов)
  39. ^ Cochran & Cox (1992, пример стр. 2)
  40. ^ Кокран и Кокс (1992, стр. 49)
  41. ^ Хинкельманн и Кемпторн (2008, том 1, раздел 6.7: Полностью рандомизированный дизайн; CRD с неравным числом повторений)
  42. ^ Мур и МакКейб (2003, стр.763)
  43. ^ а б c Гельман (2008)
  44. ^ а б Монтгомери (2001, раздел 5-2: Введение в факторные планы; преимущества факториалов)
  45. ^ Белль (2008, Раздел 8.4: Взаимодействия высокого порядка происходят редко)
  46. ^ Монтгомери (2001, Раздел 5-1: Введение в факторные планы; Основные определения и принципы)
  47. ^ Кокс (1958, глава 6: Основные идеи о факторных экспериментах)
  48. ^ Монтгомери (2001, раздел 5-3.7: Введение в факторные планы; двухфакторный факторный план; одно наблюдение на ячейку)
  49. ^ Уилкинсон (1999, стр. 596)
  50. ^ Монтгомери (2001, Раздел 3-7: Определение размера выборки)
  51. ^ Хауэлл (2002, Глава 8: Власть)
  52. ^ Хауэлл (2002, Раздел 11.12: Мощность (в ANOVA))
  53. ^ Хауэлл (2002, Раздел 13.7: Анализ мощности для факторных экспериментов)
  54. ^ Мур и МакКейб (2003, стр. 778–780)
  55. ^ а б c Уилкинсон (1999, стр. 599)
  56. ^ Монтгомери (2001, Раздел 3-4: Проверка адекватности модели)
  57. ^ Мур и МакКейб (2003, стр. 755, квалификация этого правила приводится в сноске).
  58. ^ Монтгомери (2001, Раздел 3-5.8: Эксперименты с одним фактором: Дисперсионный анализ; Практическая интерпретация результатов; Сравнение средних с контролем)
  59. ^ Хинкельманн и Кемпторн (2008, том 1, раздел 7.5: Сравнение методов лечения; процедуры множественного сравнения)
  60. ^ Хауэлл (2002, глава 12: Множественные сравнения лечебных средств)
  61. ^ Монтгомери (2001, Раздел 3-5: Практическая интерпретация результатов)
  62. ^ Cochran & Cox (1957, стр. 9: «Общее правило [состоит] в том, что способ проведения эксперимента определяет не только то, можно ли делать выводы, но и требуемые для их выполнения вычисления»).
  63. ^ "Bandar Ceme Online | Domino99 | Poker | 99Ceme | DominoQQ". 99ceme.in. Архивировано из оригинал 7 ноября 2014 г.
  64. ^ «Вероятная ошибка среднего» (PDF). Биометрика. 6: 1–25. 1908. Дои:10.1093 / biomet / 6.1.1. HDL:10338.dmlcz / 143545.
  65. ^ Монтгомери (2001, Раздел 3-3.4: Несбалансированные данные)
  66. ^ Монтгомери (2001, Раздел 14-2: Несбалансированные данные в факторном дизайне)
  67. ^ Уилкинсон (1999, стр. 600)
  68. ^ Гельман (2005, стр.1) (с оговоркой в ​​более позднем тексте)
  69. ^ Монтгомери (2001, раздел 3.9: регрессионный подход к дисперсионному анализу)
  70. ^ Хауэлл (2002, стр. 604)
  71. ^ Хауэлл (2002, глава 18: Передискретизация и непараметрические подходы к данным)
  72. ^ Монтгомери (2001, Раздел 3-10: Непараметрические методы дисперсионного анализа)

Рекомендации

  • Анскомб, Ф. Дж. (1948). «Достоверность сравнительных экспериментов». Журнал Королевского статистического общества. Серия А (Общие). 111 (3): 181–211. Дои:10.2307/2984159. JSTOR  2984159. МИСТЕР  0030181.
  • Бейли, Р.А. (2008). Дизайн сравнительных экспериментов. Издательство Кембриджского университета. ISBN  978-0-521-68357-9. Главы перед публикацией доступны в режиме онлайн.
  • Белль, Джеральд ван (2008). Статистические практические правила (2-е изд.). Хобокен, штат Нью-Джерси: Wiley. ISBN  978-0-470-14448-0.
  • Кокран, Уильям Дж .; Кокс, Гертруда М. (1992). Экспериментальные образцы (2-е изд.). Нью-Йорк: Вили. ISBN  978-0-471-54567-5.
  • Коэн, Джейкоб (1988). Статистический анализ мощности для наук о поведении (2-е изд.). Рутледж ISBN  978-0-8058-0283-2
  • Коэн, Джейкоб (1992). «Статистика энергетический букварь». Психологический бюллетень. 112 (1): 155–159. Дои:10.1037/0033-2909.112.1.155. PMID  19565683.
  • Кокс, Дэвид Р. (1958). Планирование экспериментов. Печатается как ISBN  978-0-471-57429-3
  • Кокс, Дэвид Р. (2006). Принципы статистического вывода. Кембридж, Нью-Йорк: Издательство Кембриджского университета. ISBN  978-0-521-68567-2.
  • Фридман, Дэвид А. (2005). Статистические модели: теория и практика, Издательство Кембриджского университета. ISBN  978-0-521-67105-7
  • Гельман, Андрей (2005). «Дисперсионный анализ? Почему он важнее, чем когда-либо». Анналы статистики. 33: 1–53. arXiv:математика / 0504499. Дои:10.1214/009053604000001048.
  • Гельман, Андрей (2008). «Дисперсия, анализ». Новый экономический словарь Palgrave (2-е изд.). Бейзингсток, Гэмпшир, Нью-Йорк: Пэлгрейв Макмиллан. ISBN  978-0-333-78676-5.
  • Хинкельманн, Клаус и Кемпторн, Оскар (2008). Планирование и анализ экспериментов. I и II (Второе изд.). Вайли. ISBN  978-0-470-38551-7.
  • Хауэлл, Дэвид С. (2002). Статистические методы психологии (5-е изд.). Пасифик Гроув, Калифорния: Обучение Даксбери / Томсон. ISBN  978-0-534-37770-0.
  • Кемпторн, Оскар (1979). План и анализ экспериментов (Исправленная перепечатка (1952) изд. Wiley). Роберт Э. Кригер. ISBN  978-0-88275-105-4.
  • Леманн, Э. (1959) Проверка статистических гипотез. Джон Вили и сыновья.
  • Монтгомери, Дуглас С. (2001). Планирование и анализ экспериментов (5-е изд.). Нью-Йорк: Вили. ISBN  978-0-471-31649-7.
  • Мур, Дэвид С. и Маккейб, Джордж П. (2003). Введение в статистическую практику (4e). W H Freeman & Co. ISBN  0-7167-9657-0
  • Розенбаум, Пол Р. (2002). Наблюдательные исследования (2-е изд.). Нью-Йорк: Springer-Verlag. ISBN  978-0-387-98967-9
  • Шеффе, Генри (1959). Дисперсионный анализ. Нью-Йорк: Вили.
  • Стиглер, Стивен М. (1986). История статистики: измерение неопределенности до 1900 г.. Кембридж, Массачусетс: Belknap Press of Harvard University Press. ISBN  978-0-674-40340-6.
  • Уилкинсон, Лиланд (1999). «Статистические методы в психологических журналах; рекомендации и пояснения». Американский психолог. 5 (8): 594–604. CiteSeerX  10.1.1.120.4818. Дои:10.1037 / 0003-066X.54.8.594.

дальнейшее чтение

внешняя ссылка