Студентизованный остаток - Studentized residual

В статистика, а студенизированный остаток частное, полученное в результате деления остаточный по оценивать своего стандартное отклонение. Это форма Студенты т-статистический, при этом оценка ошибки варьируется от точки.

Это важный метод обнаружения выбросы. Он входит в число нескольких, названных в честь Уильям Сили Госсет, который написал под псевдонимом Ученик. Разделив статистику на стандартное отклонение выборки называется студенчество, по аналогии с стандартизация и нормализация.

Мотивация

Основная причина студенчества заключается в том, что в регрессивный анализ из многомерное распределение, дисперсии остатки при разных значениях входных переменных могут отличаться, даже если дисперсии ошибки при этом значения различных входных переменных равны. Проблема в различии между ошибки и остатки в статистике, в частности, поведение остатков в регрессиях.

Рассмотрим простая линейная регрессия модель

Учитывая случайную выборку (ИксяYя), я = 1, ..., п, каждая пара (ИксяYя) удовлетворяет

где ошибки , находятся независимый и все имеют одинаковую дисперсию . В остатки не настоящие ошибки, но оценки, на основе наблюдаемых данных. При использовании метода наименьших квадратов для оценки и , то остатки , в отличие от ошибок , не могут быть независимыми, поскольку удовлетворяют двум ограничениям

и

(Здесь εя это я-я ошибка, и это яй остаток.)

Остатки, в отличие от ошибок, не все имеют одинаковую дисперсию: дисперсия уменьшается по мере того, как Икс-значение уходит дальше от среднего Икс-ценить. Это не особенность самих данных, а регрессия, которая лучше соответствует значениям на концах домена. Это также отражено в функции влияния различных точек данных на коэффициенты регрессии: конечные точки имеют большее влияние. Это также можно увидеть, потому что остатки в конечных точках сильно зависят от наклона подобранной линии, в то время как остатки в середине относительно нечувствительны к наклону. Дело в том, что дисперсии остатков различаются, хотя дисперсии истинных ошибок все равны друг к другу, это основная причина на необходимость студентизации.

Дело не только в том, что параметры совокупности (среднее и стандартное отклонение) неизвестны - дело в том, что регрессии урожай различные остаточные распределения в разные точки данных, В отличие от точка оценщики из одномерные распределения, которые разделяют общее распространение для остатков.

Фон

Для этой простой модели матрица дизайна является

и шляпа матрица ЧАС матрица ортогональная проекция на пространство столбцов матрицы проекта:

В использовать часii это я-й диагональный элемент в матрице шляпы. Дисперсия яй остаток

Если матрица дизайна Икс имеет только два столбца (как в примере выше), это равно

В случае среднее арифметическое, матрица дизайна Икс имеет только один столбец (a вектор единиц ), а это просто:

Расчет

Учитывая приведенные выше определения, Студентизованный остаток затем

куда является подходящей оценкой σ (Смотри ниже).

В случае среднего это равно:

Внутренняя и внешняя студентизация

Обычная оценка σ2 это внутренне обученный остаточный

куда м - количество параметров в модели (в нашем примере 2).

Но если я Если предположить, что кейс невероятно большой, то он также не будет распространяться нормально. Следовательно, разумно исключить я -е наблюдение из процесса оценки дисперсии, когда рассматривается вопрос о том, я th случай может быть выбросом, и вместо этого используйте внешне обученный остаточный, который

на основе всех остатков Кроме подозреваемый я й остаток. Здесь необходимо подчеркнуть, что для подозреваемого я вычисляются с я -й случай исключен.

Если оценка σ2 включает то я й случай, то он называется внутренне обученный остаточный, (также известный как стандартизованный остаток [1]Если оценка вместо этого используется без учета то я й случай, то он называется внешне обученный, .

Распределение

Если ошибки независимы и нормально распределенный с ожидаемое значение 0 и дисперсия σ2, то распределение вероятностей из яй остаточный остаток, прошедший внешнее обучение это Распределение Стьюдента с п − м − 1 степени свободы, и может варьироваться от к .

С другой стороны, внутренне стьюдентифицированные остатки находятся в диапазоне , куда ν = п − м - количество остаточных степеней свободы. Если тя представляет собой стьюдентизированный остаток, и снова предполагая, что ошибки являются независимыми одинаково распределенными гауссовскими переменными, тогда:[2]

куда т случайная величина, распределенная как Распределение Стьюдента с ν - 1 степень свободы. Фактически это означает, что тя2 /ν следует за бета-распространение B(1/2,(ν - 1) / 2). Вышеуказанное распределение иногда называют распределение тау;[2] он был впервые выведен Томпсоном в 1935 году.[3]

Когда ν = 3, внутренне стьюдентифицированные остатки равны равномерно распределены между и .Если имеется только одна остаточная степень свободы, приведенная выше формула для распределения внутренне стьюдентизированных остатков неприменима. В этом случае тя все равны +1 или -1 с вероятностью 50% для каждого.

Стандартное отклонение распределения остатков внутренней стьюдентизации всегда равно 1, но это не означает, что стандартное отклонение всех тя конкретного эксперимента равно 1. Например, внутренне стьюдентифицированные остатки при подгонке прямой, проходящей через (0, 0) к точкам (1, 4), (2, −1), (2, −1), равны , и их стандартное отклонение не равно 1.

Обратите внимание, что любая пара стьюдентизированных остатков тя и тj (куда ), НЕ являются i.i.d. Они имеют одинаковое распределение, но не являются независимыми из-за ограничений на остатки, которые необходимо суммировать до 0 и чтобы они были ортогональны матрице плана.

Программные реализации

Многие программы и статистические пакеты, такие как р, Python и т.д., включают реализации стьюдентизированного остатка.

Язык / ПрограммаФункцияПримечания
рrstandard (модель, ...)внутренне обучен. Видеть [2]
рrstudent (модель, ...)внешне студентоз. Видеть [3]


Смотрите также

Рекомендации

  1. ^ Диагностика удаления регрессии Документы R
  2. ^ а б Аллен Дж. Поуп (1976), «Статистика остатков и обнаружение выбросов», Министерство торговли США, Национальное управление океанических и атмосферных исследований, Национальное управление океана, Лаборатория геодезических исследований и разработок, 136 страниц, [1], уравнение (6)
  3. ^ Томпсон, Уильям Р. (1935). «О критерии отклонения наблюдений и распределении отношения отклонения к стандартному отклонению выборки». Анналы математической статистики. 6 (4): 214–219. Дои:10.1214 / aoms / 1177732567.

дальнейшее чтение