Матрица дизайна - Design matrix

В статистика, а матрица дизайна, также известный как матрица модели или же матрица регрессора и часто обозначается Икс, это матрица ценностей объясняющие переменные набора предметов. Каждая строка представляет отдельный объект, а последовательные столбцы соответствуют переменным и их конкретным значениям для этого объекта. Матрица дизайна используется в некоторых статистические модели, например, общая линейная модель.[1][2][3] Он может содержать индикаторные переменные (единицы и нули), которые указывают на членство в группе ANOVA, или он может содержать значения непрерывные переменные.

Матрица дизайна содержит данные о независимые переменные (также называемые независимыми переменными) в статистических моделях, которые пытаются объяснить наблюдаемые данные о переменной отклика (часто называемой зависимая переменная ) с точки зрения объясняющих переменных. Теория, относящаяся к таким моделям, в значительной степени использует матричные манипуляции с матрицами плана: см., Например, линейная регрессия. Примечательной особенностью концепции матрицы проектирования является то, что она способна представлять ряд различных экспериментальные образцы и статистические модели, например, ANOVA, ANCOVA, и линейная регрессия.[нужна цитата ]

Определение

Матрица проекта определяется как матрица такой, что (jth столбец яth ряд ) представляет собой значение jth переменная, связанная с ith объект.

Модель регрессии, которая является линейная комбинация независимых переменных, следовательно, могут быть представлены посредством матричного умножения как

куда Икс матрица дизайна, - вектор коэффициентов модели (по одному для каждой переменной), а у - вектор прогнозируемых результатов для каждого объекта.

Размер

В матрица из данные имеет размер п-к-п, куда п - количество наблюдаемых образцов, и п - количество переменных (Особенности ) измерено во всех образцах.[4][5]

В этом представлении разные строки обычно представляют разные повторы эксперимента, а столбцы представляют разные типы данных (например, результаты определенных зондов). Например, предположим, что проводится эксперимент, в котором 10 человек вытаскивают с улицы и задают четыре вопроса. Матрица данных M будет матрицей 10 × 4 (что означает 10 строк и 4 столбца). Данные в строке я и столбец j этой матрицы будет ответом я th человек к j th вопрос.

Примеры

Среднее арифметическое

Матрица дизайна для среднее арифметическое это столбец вектор единиц.

Простая линейная регрессия

В этом разделе приводится пример простая линейная регрессия - то есть регрессия только с одной независимой переменной - с семью наблюдениями. Семь точек данных: {уя, Икся}, за я = 1, 2,…, 7. Простая модель линейной регрессии имеет вид

куда это у-перехват и - наклон линии регрессии. Эта модель может быть представлена ​​в матричной форме как

где первый столбец единиц в матрице плана позволяет оценить у-intercept, а второй столбец содержит Икс-значения, связанные с соответствующими у-значения.

Множественная регрессия

В этом разделе содержится пример множественная регрессия с двумя ковариатами (независимыми переменными): ш и Икс.Вновь предположим, что данные состоят из семи наблюдений, и что для каждого наблюдаемого значения, которое должно быть предсказано (), значения шя и Икся двух ковариат также наблюдаются. Рассматриваемая модель

Эта модель может быть записана в матричных терминах как

Здесь матрица 7 × 3 с правой стороны - это матрица плана.

Односторонний дисперсионный анализ (модель ячеек)

В этом разделе содержится пример с односторонним дисперсионным анализом (ANOVA ) с тремя группами и семью наблюдениями. В данном наборе данных есть первые три наблюдения, принадлежащие к первой группе, следующие два наблюдения, принадлежащие ко второй группе, и последние два наблюдения, принадлежащие к третьей группе. Если модель, которая должна соответствовать, представляет собой только среднее значение каждой группы, то модель

что можно написать

В этой модели представляет собой среднее значение -я группа.

Односторонний дисперсионный анализ (смещение от контрольной группы)

Модель ANOVA может быть эквивалентно записана как каждый параметр группы это смещение от некоторой общей ссылки. Обычно за эту точку отсчета берется одна из рассматриваемых групп. Это имеет смысл в контексте сравнения нескольких групп лечения с контрольной группой, и контрольная группа считается «контрольной». В этом примере группа 1 была выбрана в качестве контрольной группы. Таким образом, подходящая модель

с ограничением, что равно нулю.

В этой модели среднее значение контрольной группы и чем отличается от группы в референтную группу. не включается в матрицу, потому что его отличие от контрольной группы (самой себя) обязательно равно нулю.

Смотрите также

Рекомендации

  1. ^ Эверитт, Б. С. (2002). Кембриджский статистический словарь (2-е изд.). Кембридж, Великобритания: Издательство Кембриджского университета. ISBN  0-521-81099-X.
  2. ^ Бокс, Г. Э. П.; Тяо, Г. К. (1992) [1973]. Байесовский вывод в статистическом анализе. Нью-Йорк: Джон Уайли и сыновья. ISBN  0-471-57428-7. (Раздел 8.1.1)
  3. ^ Тимм, Нил Х. (2007). Прикладной многомерный анализ. Springer Science & Business Media. п. 107.
  4. ^ Джонсон, Ричард А; Уичерн, Дин В. (2001). Прикладной многомерный статистический анализ. Пирсон. С. 111–112. ISBN  0131877151.
  5. ^ "Основные концепции многомерной статистики стр.2" (PDF). Институт САС.

дальнейшее чтение

  • Вербеек, Альберт (1984). «Геометрия выбора модели в регрессии». В Dijkstra, Тео К. (ред.). Анализ неправильной спецификации. Нью-Йорк: Спрингер. С. 20–36. ISBN  0-387-13893-5.