Неподходящая сумма квадратов - Lack-of-fit sum of squares
В статистика, а сумма квадратов из-за отсутствия подгонки, или короче несоответствующая сумма квадратов, является одним из компонентов разбиения сумма квадратов остатков в дисперсионный анализ, используемый в числитель в F-тест из нулевая гипотеза это говорит о том, что предложенная модель подходит. Другой компонент - это сумма квадратов чистой ошибки.
Сумма квадратов чистой ошибки - это сумма квадратов отклонений каждого значения зависимая переменная от среднего значения по всем наблюдениям, разделяющим его независимая переменная ценности). Это ошибки, которых нельзя было бы избежать с помощью какого-либо прогнозного уравнения, которое назначало прогнозируемое значение для зависимой переменной как функцию значения (значений) независимой переменной (переменных). Оставшаяся часть остаточной суммы квадратов объясняется недостаточным соответствием модели, поскольку было бы математически возможно полностью устранить эти ошибки.
Набросок идеи
Чтобы сумма квадратов несовпадения отличалась от сумма квадратов остатков, должно быть больше одного ценность переменная ответа по крайней мере для одного из значений набора переменных-предикторов. Например, подобрать линию
методом наименьших квадратов. В качестве оценок принимаются α и β значения, которые минимизируют сумму квадратов остатков, то есть сумму квадратов разностей между наблюдаемыми у-значение и подогнанный у-ценность. Чтобы получить неадекватную сумму квадратов, которая отличается от остаточной суммы квадратов, необходимо наблюдать более одного у-значение для каждого из одного или нескольких Икс-ценности. Затем делят «сумму квадратов из-за ошибки», то есть сумму квадратов остатков, на два компонента:
- сумма квадратов из-за ошибки = (сумма квадратов из-за "чистой" ошибки) + (сумма квадратов из-за отсутствия соответствия).
Сумма квадратов из-за "чистой" ошибки - это сумма квадратов различий между каждым наблюдаемым у-значение и среднее значение всех у-значения, соответствующие тем же Икс-ценность.
Сумма квадратов из-за отсутствия подгонки равна взвешенный сумма квадратов разностей между каждым средним у-значения, соответствующие тем же Икс-значение и соответствующий установленный у-значение, вес в каждом случае просто количество наблюдаемых у-значения для этого Икс-ценность.[1][2] Поскольку свойство регрессии наименьших квадратов состоит в том, что вектор, компоненты которого являются "чистыми ошибками", и вектор компонентов несовпадения ортогональны друг другу, выполняется следующее равенство:
Следовательно, остаточная сумма квадратов полностью разложена на две составляющие.
Математические детали
Рассмотрите возможность подгонки строки с одной переменной-предиктором. Определить я в качестве индекса каждого из п отчетливый Икс ценности, j как индекс наблюдений переменной ответа для данного Икс значение и пя как количество у ценности, связанные с я th Икс ценность. Значение каждого наблюдения переменной ответа может быть представлено как
Позволять
быть наименьших квадратов оценки ненаблюдаемых параметров α и β исходя из наблюдаемых значений Икс я и Y я j.
Позволять
быть подобранными значениями переменной ответа. потом
являются остатки, которые представляют собой наблюдаемые оценки ненаблюдаемых значений члена ошибкиε ij. Из-за природы метода наименьших квадратов весь вектор невязок с
скалярные компоненты, обязательно удовлетворяет двум ограничениям
Таким образом, он вынужден находиться в (N - 2) -мерное подпространство р N, т.е. есть N − 2 "степени свободы за ошибку ».
Теперь позвольте
быть средним из всех Y-значения, связанные с я th Икс-ценность.
Мы разделим сумму квадратов из-за ошибки на две составляющие:
Распределения вероятностей
Суммы квадратов
Предположим, что условия ошибки ε я j находятся независимый и нормально распределенный с участием ожидаемое значение 0 и отклонение σ2. Мы лечим Икс я как постоянный, а не случайный. Тогда переменные ответа Y я j случайны только потому, что ошибки ε я j случайны.
Можно показать, что, если прямолинейная модель верна, то сумма квадратов из-за ошибки деленное на дисперсию ошибки,
имеет распределение хи-квадрат с участием N - 2 степени свободы.
Причем, учитывая общее количество наблюдений N, количество уровней независимой переменной п, и количество параметров в модели п:
- Сумма квадратов чистой ошибки, деленная на дисперсию ошибки σ2, имеет распределение хи-квадрат с N − п степени свободы;
- Сумма квадратов из-за отсутствия подгонки, деленная на дисперсию ошибки σ2, имеет распределение хи-квадрат с п − п степени свободы (здесь п = 2, так как в линейной модели есть два параметра);
- Две суммы квадратов вероятностно независимы.
Статистика теста
Отсюда следует, что статистика
имеет F-распределение с соответствующим числом степеней свободы в числителе и знаменателе, при условии, что модель верна. Если модель неверна, то распределение вероятностей знаменателя остается таким, как указано выше, а числитель и знаменатель по-прежнему независимы. Но тогда в числителе есть нецентральное распределение хи-квадрат, и, следовательно, частное в целом имеет нецентральное F-распределение.
Эту F-статистику используют для проверки нулевая гипотеза что линейная модель верна. Поскольку нецентральное F-распределение стохастически больше чем (центральное) F-распределение, отвергают нулевую гипотезу, если F-статистика больше критического значения F. Критическое значение соответствует кумулятивная функция распределения из F распределение с участием Икс равный желаемому уровень уверенности, и степени свободы d1 = (п − п) и d2 = (N − п).
Предположения нормальное распределение ошибок и независимость можно показать, что это тест на неподготовленность это критерий отношения правдоподобия этой нулевой гипотезы.
Смотрите также
Заметки
- ^ Брук, Ричард Дж .; Арнольд, Грегори С. (1985). Прикладной регрессионный анализ и экспериментальный дизайн. CRC Press. стр.48–49. ISBN 0824772520.
- ^ Нетер, Джон; Катнер, Майкл Х .; Nachstheim, Christopher J .; Вассерман, Уильям (1996). Прикладные линейные статистические модели (Четвертое изд.). Чикаго: Ирвин. С. 121–122. ISBN 0256117365.