Гетероскедастичность - Heteroscedasticity

График со случайными данными, показывающий гетероскедастичность

В статистика, вектор случайные переменные является гетероскедастический (или же гетероскедастический;[а] из Древнегреческий гетеро "разные" и скедасис «дисперсия»), если изменчивость случайное нарушение отличается по элементам вектора. Здесь изменчивость может быть определена количественно отклонение или любая другая мера статистическая дисперсия. Таким образом, гетероскедастичность - это отсутствие гомоскедастичность. Типичный пример - совокупность наблюдений за доходами в разных городах.

Существование гетероскедастичности является серьезной проблемой в регрессивный анализ и дисперсионный анализ, поскольку это делает недействительным статистические тесты значимости которые предполагают, что ошибки моделирования у всех одинаковая дисперсия. В то время как обыкновенный метод наименьших квадратов оценка по-прежнему беспристрастна при наличии гетероскедастичности, неэффективна и обобщенный метод наименьших квадратов следует использовать вместо этого.[5][6]

Поскольку гетероскедастичность касается ожидания второй момент ошибок, его наличие обозначается как неверное определение второго порядка.[7]

В эконометрист Роберт Энгл выиграл 2003 Нобелевская мемориальная премия по экономике за его исследования регрессивный анализ в присутствии гетероскедастичности, что привело к его формулировке авторегрессионная условная гетероскедастичность (ARCH) техника моделирования.[8]

Определение

Рассмотрим уравнение регрессии где зависимая случайная величина равно детерминированной переменной умноженный на коэффициент плюс случайное возмущение что имеет нулевое среднее значение. Нарушения гомоскедастичны, если дисперсия это постоянная ; в противном случае они гетероскедастичны. В частности, нарушения являются гетероскедастическими, если дисперсия зависит от i или от значения . Они могут быть гетероскедастичными, если (пример сседастическая функция ), поэтому дисперсия пропорциональна значению x.

В более общем смысле, если ковариационная матрица возмущения поперек i имеет непостоянную диагональ, возмущение гетероскедастично.[9] Приведенные ниже матрицы представляют собой ковариации, когда имеется всего три наблюдения во времени. Нарушение в матрице A гомоскедастично; это простой случай, когда OLS - лучшая линейная несмещенная оценка. Возмущения в матрицах B и C гетероскедастичны. В матрице B дисперсия изменяется во времени, неуклонно увеличиваясь во времени; в матрице C дисперсия зависит от значения x. Нарушение в матрице D гомоскедастично, потому что диагональные дисперсии постоянны, даже если недиагональные ковариации не равны нулю, а обычный метод наименьших квадратов неэффективен по другой причине: последовательная корреляция.

Последствия

Одно из предположений классической модели линейной регрессии - отсутствие гетероскедастичности. Нарушение этого предположения означает, что Теорема Гаусса – Маркова не применяется, что означает, что OLS оценщики не Лучшие линейные объективные оценщики (СИНИЙ) и их дисперсия не самая низкая из всех других объективных оценок. нет вызывает смещение обычных оценок коэффициентов методом наименьших квадратов, хотя это может привести к смещению обычных оценок дисперсии (и, следовательно, стандартных ошибок) коэффициентов методом наименьших квадратов, возможно, выше или ниже истинной дисперсии или дисперсии генеральной совокупности. Таким образом, регрессионный анализ с использованием гетероскедастических данных по-прежнему будет обеспечивать беспристрастную оценку взаимосвязи между переменной-предиктором и результатом, но стандартные ошибки и, следовательно, выводы, полученные на основе анализа данных, являются подозрительными. Предвзятые стандартные ошибки приводят к необъективным выводам, поэтому результаты проверки гипотез могут быть неверными. Например, если OLS выполняется на гетероскедастическом наборе данных, что дает предвзятую оценку стандартной ошибки, исследователь может не отклонить нулевую гипотезу при заданном значении. значимость уровень, когда эта нулевая гипотеза была фактически нехарактерна для реальной популяции ( ошибка типа II ).

При определенных предположениях оценщик МНК имеет нормальный асимптотическое распределение при правильной нормализации и центрировании (даже если данные не поступают из нормальное распределение ). Этот результат используется для обоснования использования нормального распределения или распределение хи-квадрат (в зависимости от того, как статистика теста рассчитывается), при проведении проверка гипотез. Это справедливо даже при гетероскедастичности. Точнее, оценка МНК при наличии гетероскедастичности является асимптотически нормальной, когда она правильно нормализована и центрирована, с дисперсией-ковариацией матрица это отличается от случая гомоскедастичности. В 1980 году Уайт предложил согласованная оценка для дисперсионно-ковариационной матрицы асимптотического распределения оценки OLS.[3] Это подтверждает использование проверки гипотез с использованием оценок OLS и оценки дисперсии-ковариации Уайта при гетероскедастичности.

Гетероскедастичность также является важной практической проблемой, с которой сталкиваются ANOVA проблемы.[10]В F тест все еще можно использовать в некоторых случаях.[11]

Однако было сказано, что студенты в эконометрика не должны слишком остро реагировать на гетероскедастичность.[4] Один автор написал: «Неравномерная дисперсия ошибок заслуживает исправления только тогда, когда проблема серьезна».[12] Кроме того, еще одно предостережение было в форме: «гетероскедастичность никогда не была причиной для отказа от хорошей модели».[4][13] С появлением стандартные ошибки, согласованные с гетероскедастичностью с учетом вывода без указания условного второго момента ошибки, проверка условной гомоскедастичности не так важна, как в прошлом.[нужна цитата ]

Для любой нелинейной модели (например Logit и Пробит моделей), однако гетероскедастичность имеет более серьезные последствия: оценки максимального правдоподобия (MLE) параметров будет смещенным, а также непоследовательным (если функция правдоподобия не будет изменена для правильного учета точной формы гетероскедастичности).[14] Однако в контексте моделей бинарного выбора (Logit или же Пробит ), гетероскедастичность приведет только к положительному эффекту масштабирования на асимптотическое среднее значение неправильно заданной MLE (то есть модели, игнорирующей гетероскедастичность).[15] В результате прогнозы, основанные на неверно заданном MLE, останутся верными. Кроме того, неправильно указанные Probit и Logit MLE будут асимптотически нормально распределены, что позволяет выполнять обычные тесты значимости (с соответствующей матрицей дисперсии-ковариации). Однако, что касается общей проверки гипотез, как указывает Грин, «Простое вычисление устойчивой ковариационной матрицы для иначе несовместимой оценки не дает ей выгоды. Следовательно, достоинство надежной ковариационной матрицы в этой ситуации неясно ».[16]

Обнаружение

Абсолютное значение остатков для смоделированных гетероскедастических данных первого порядка

Существует несколько методов проверки наличия гетероскедастичности. Хотя тесты на гетероскедастичность между группами формально можно рассматривать как частный случай тестирования в рамках регрессионных моделей, некоторые тесты имеют структуру, специфичную для этого случая.

Тесты в регрессии
Тесты для сгруппированных данных

Эти тесты состоят из статистика теста (математическое выражение, дающее числовое значение как функцию данных), гипотеза, которая будет проверена ( нулевая гипотеза ), Альтернативная гипотеза, и утверждение о распределении статистики при нулевой гипотезе.

Во многих вводных книгах по статистике и эконометрике из педагогических соображений эти тесты представлены в предположении, что имеющиеся данные получены из нормального распределения. Большое заблуждение заключается в том, что это предположение необходимо. Большинство описанных выше методов обнаружения гетероскедастичности можно модифицировать для использования, даже если данные получены не из нормального распределения. Во многих случаях это предположение может быть ослаблено, давая тестовую процедуру, основанную на той же или аналогичной тестовой статистике, но с распределением в соответствии с нулевой гипотезой, оцененным альтернативными способами: например, с использованием асимптотические распределения который можно получить из асимптотическая теория,[нужна цитата ] или используя повторная выборка.

Исправления

Есть четыре распространенных поправки на гетероскедастичность. Они есть:

  • Вид логарифмированный данные. Нелогарифмированные ряды, которые растут экспоненциально, часто имеют увеличивающуюся изменчивость по мере того, как ряды растут с течением времени. Однако вариативность в процентном отношении может быть довольно стабильной.
  • Используйте другую спецификацию для модели (другой Икс переменные или, возможно, нелинейные преобразования Икс переменные).
  • Применить взвешенный метод наименьших квадратов метод оценки, в котором OLS применяется к преобразованным или взвешенным значениям Икс и Y. Веса варьируются в зависимости от наблюдений, обычно в зависимости от изменяющейся дисперсии ошибок. В одном варианте веса напрямую связаны с величиной зависимой переменной, и это соответствует процентной регрессии наименьших квадратов.[20]
  • Стандартные ошибки, согласованные с гетероскедастичностью (HCSE), хотя и смещен, но улучшает оценки OLS.[3] HCSE - это последовательная оценка стандартных ошибок в регрессионных моделях с гетероскедастичностью. Этот метод корректирует гетероскедастичность без изменения значений коэффициентов. Этот метод может быть лучше обычного OLS, поскольку при наличии гетероскедастичности он корректирует ее, однако, если данные гомоскедастичны, стандартные ошибки эквивалентны обычным стандартным ошибкам, оцененным с помощью OLS. Было предложено несколько модификаций метода Уайта вычисления стандартных ошибок, согласующихся с гетероскедастичностью, как поправки с превосходными свойствами конечной выборки.
  • Использовать MINQUE или даже обычные оценки (за независимые образцы с каждое наблюдение), потери эффективности которых не существенны при большом количестве наблюдений на выборку (), особенно для небольшого количества независимых выборок.[21]

Примеры

Гетероскедастичность часто возникает, когда существует большая разница в размерах наблюдений.

  • Классический пример гетероскедастичности - это соотношение доходов и расходов на питание. По мере увеличения дохода увеличивается и разнообразие потребления пищи. Более бедный человек будет тратить довольно постоянную сумму, всегда есть недорогую еду; более состоятельный человек может иногда покупать недорогую еду, а иногда есть дорогую еду. Люди с более высокими доходами демонстрируют большую изменчивость в потреблении продуктов питания.
  • Представьте, что вы наблюдаете, как поблизости взлетает ракета, и каждую секунду измеряете пройденное ею расстояние. Скажем, в первые пару секунд ваши измерения могут быть точными до ближайшего сантиметра. Однако через 5 минут, когда ракета улетает в космос, точность ваших измерений может быть хорошей только до 100 м из-за увеличенного расстояния, атмосферных искажений и множества других факторов. Собранные вами данные будут демонстрировать гетероскедастичность.

Многомерный случай

Исследование гетероскедастичности было обобщено на многомерный случай, который имеет дело с ковариациями векторных наблюдений вместо дисперсии скалярных наблюдений. Одним из вариантов этого является использование ковариационных матриц в качестве многомерной меры дисперсии. Несколько авторов рассматривали тесты в этом контексте как для ситуаций регрессии, так и для ситуаций с сгруппированными данными.[22][23] Тест Бартлетта для гетероскедастичности между сгруппированными данными, который чаще всего используется в одномерном случае, также был расширен для многомерного случая, но послушное решение существует только для двух групп.[24] Аппроксимации существуют более чем для двух групп, и обе они называются М-тест коробки.

Примечания

  1. ^ Написание гомоkэдастичность и гетеросексуалыkэдастичность также часто используются. Карл Пирсон впервые употребил это слово в 1905 г. c написание.[1] Дж. Хьюстон Маккалох утверждал, что в середине слова должна быть буква «k», а не «c». Его аргумент состоял в том, что это слово было образовано в английском языке непосредственно из греческих корней, а не пришло в английский язык косвенно через французский язык.[2] В то время как влиятельная статья 1980 г. Халберт Уайт используется написание «гетероскедастичность», чаще встречается написание «гетероскедастичность». Оба приемлемы.[3] [4]

Рекомендации

  1. ^ Пирсон, Карл (1905). «Математические вклады в теорию эволюции. XIV. Об общей теории косой корреляции и нелинейной регрессии». Мемуары об исследованиях компании Дрейпера: биометрическая серия. II.
  2. ^ Маккалок, Дж. Хьюстон (март 1985 г.). «Разное: О гетеро * эдастичности». Econometrica. 53 (2): 483. JSTOR  1911250.
  3. ^ а б c d Белый, Халберт (1980). «Средство оценки ковариационной матрицы с согласованной гетероскедастичностью и прямой тест на гетероскедастичность». Econometrica. 48 (4): 817–838. CiteSeerX  10.1.1.11.7646. Дои:10.2307/1912934. JSTOR  1912934.
  4. ^ а б c Гуджарати, Д. Н .; Портер, Д. К. (2009). Базовая эконометрика (Пятое изд.). Бостон: Макгроу-Хилл Ирвин. п. 400. ISBN  9780073375779.
  5. ^ Гольдбергер, Артур С. (1964). Эконометрическая теория. Нью-Йорк: Джон Вили и сыновья. стр.238–243.
  6. ^ Джонстон, Дж. (1972). Эконометрические методы. Нью-Йорк: Макгроу-Хилл. С. 214–221.
  7. ^ Лонг, Дж. Скотт; Триведи, Правин К. (1993). «Некоторые тесты спецификации для модели линейной регрессии». В Bollen, Kenneth A .; Лонг, Дж. Скотт (ред.). Тестирование моделей структурных уравнений. Лондон: Мудрец. С. 66–110. ISBN  978-0-8039-4506-7.
  8. ^ Энгл, Роберт Ф. (июль 1982 г.). «Авторегрессионная условная гетероскедастичность с оценками дисперсии инфляции Соединенного Королевства». Econometrica. 50 (4): 987–1007. Дои:10.2307/1912773. ISSN  0012-9682. JSTOR  1912773.
  9. ^ Питер Кеннеди, Руководство по эконометрике, 5-е издание, с. 137.
  10. ^ Джинадаса, Гамаге; Вираханди, Сэм (1998). «Размерное исполнение некоторых тестов в односторонней анове». Коммуникации в статистике - моделирование и вычисления. 27 (3): 625. Дои:10.1080/03610919808813500.
  11. ^ Батке, А (2004). «Тест ANOVA F все еще может использоваться в некоторых сбалансированных планах с неравными дисперсиями и ненормальными данными». Журнал статистического планирования и вывода. 126 (2): 413–422. Дои:10.1016 / j.jspi.2003.09.010.
  12. ^ Фокс, Дж. (1997). Прикладной регрессионный анализ, линейные модели и родственные методы. Калифорния: Sage Publications. п. 306. (Цитировано по Гуджарати и др., 2009 г., стр. 400)
  13. ^ Мэнкью, Н. Г. (1990). «Краткий курс повышения квалификации по макроэкономике». Журнал экономической литературы. 28 (4): 1645–1660 [стр. 1648]. Дои:10.3386 / w3256. JSTOR  2727441.
  14. ^ Джайлз, Дэйв (8 мая 2013 г.). «Робастные стандартные ошибки для нелинейных моделей». Эконометрика Beat.
  15. ^ Гинкер, Т .; Либерман, О. (2017). «Устойчивость моделей бинарного выбора к условной гетероскедастичности». Письма по экономике. 150: 130–134. Дои:10.1016 / j.econlet.2016.11.024.
  16. ^ Грин, Уильям Х. (2012). «Оценка и вывод в моделях двоичного выбора». Эконометрический анализ (Седьмое изд.). Бостон: образование Пирсона. стр. 730–755 [стр. 733]. ISBN  978-0-273-75356-8.
  17. ^ Р. Э. Парк (1966). «Оценка с гетероскедастическими ошибками». Econometrica. 34 (4): 888. Дои:10.2307/1910108. JSTOR  1910108.
  18. ^ Глейзер, Х. (1969). «Новый тест на гетероскедастичность». Журнал Американской статистической ассоциации. 64 (325): 316–323. Дои:10.1080/01621459.1969.10500976.
  19. ^ Machado, José A. F .; Сильва, Дж. М. С. Сантос (2000). «Повторный визит к тесту Глейсера». Журнал эконометрики. 97 (1): 189–202. Дои:10.1016 / S0304-4076 (00) 00016-6.
  20. ^ Тофаллис, C (2008). «Процентная регрессия наименьших квадратов». Журнал современных прикладных статистических методов. 7: 526–534. Дои:10.2139 / ssrn.1406472. SSRN  1406472.
  21. ^ Дж. Н. К. Рао (март 1973 г.). «Об оценке гетероскедастических вариаций». Биометрия. 29 (1): 11–24. Дои:10.2307/2529672. JSTOR  2529672.
  22. ^ Хольгерссон, Х. Э. Т .; Шукур, Г. (2004). «Тестирование многомерной гетероскедастичности». Журнал статистических вычислений и моделирования. 74 (12): 879. Дои:10.1080/00949650410001646979. HDL:2077/24416. S2CID  121576769.
  23. ^ Гупта, А. К .; Тан Дж. (1984). «Распределение статистики отношения правдоподобия для проверки равенства ковариационных матриц многомерных гауссовских моделей». Биометрика. 71 (3): 555–559. Дои:10.1093 / biomet / 71.3.555. JSTOR  2336564.
  24. ^ д'Агостино, Р. Б .; Рассел, Х. К. (2005). «Многомерный тест Бартлетта». Энциклопедия биостатистики. Дои:10.1002 / 0470011815.b2a13048. ISBN  978-0470849071.

дальнейшее чтение

Большинство учебников по статистике будут включать по крайней мере некоторые материалы по гетероскедастичности. Вот несколько примеров:

внешняя ссылка