Смещение пропущенной переменной - Omitted-variable bias

В статистика, систематическая ошибка пропущенной переменной (OVB) возникает, когда статистическая модель не учитывает одну или несколько релевантных переменных. Смещение приводит к тому, что модель объясняет влияние отсутствующих переменных на те, которые были включены.

В частности, OVB - это предвзятость что фигурирует в оценках параметры в регрессивный анализ, когда предполагаемое Технические характеристики неверен в том смысле, что в нем не указана независимая переменная, которая является детерминантом зависимой переменной и коррелирует с одной или несколькими включенными независимыми переменными.

В линейной регрессии

Интуиция

Предположим, истинная причинно-следственная связь задается:

с параметрами а, б, в, зависимая переменная у, независимые переменные Икс и z, и срок ошибки ты. Мы хотим знать эффект Икс сам на у (то есть мы хотим получить оценку б).

Для существования смещения опущенной переменной в линейная регрессия:

  • пропущенная переменная должна быть детерминантом зависимой переменной (т.е. ее истинный коэффициент регрессии не должен быть нулевым); и
  • пропущенная переменная должна быть коррелирована с независимой переменной, указанной в регрессии (т. е. cov (z,Икс) не должен равняться нулю).

Допустим, мы опускаем z из регрессии, и предположим связь между Икс и z дан кем-то

с параметрами d, ж и срок ошибки е. Подставляя второе уравнение в первое, получаем

Если регресс у проводится на Икс только это последнее уравнение является оценочным, а коэффициент регрессии Икс на самом деле оценка (б + ср ), что дает не просто оценку желаемого прямого эффекта Икс на у (который б), а скорее его суммы с косвенным эффектом (эффект ж из Икс на z раз эффект c из z на у). Таким образом, опуская переменную z из регрессии мы оценили полная производная из у относительно Икс а не его частная производная относительноИкс. Они отличаются, если оба c и ж не равны нулю.

Направление и степень смещения содержатся в ср, поскольку искомый эффект б но оценки регрессии b + cf. Степень смещения - это абсолютное значение ср, а направление смещения - вверх (в сторону более положительного или менее отрицательного значения), если ср > 0 (если направление корреляции между у и z то же самое, что и между Икс и z), иначе - вниз.

Детальный анализ

В качестве примера рассмотрим линейная модель формы

куда

  • Икся является 1 ×п вектор-строка значений п независимые переменные наблюдается во время я или для я th участник исследования;
  • β это п × 1 вектор-столбец ненаблюдаемых параметров (коэффициенты отклика зависимой переменной на каждый из п независимые переменные в Икся) подлежат оценке;
  • zя является скаляром и представляет собой значение другой независимой переменной, которая наблюдается во время я или для я th участник исследования;
  • δ является скаляром и является ненаблюдаемым параметром (коэффициент отклика зависимой переменной на zя) подлежат оценке;
  • тыя ненаблюдаемый срок ошибки происходит во время я или для я th участник исследования; это ненаблюдаемая реализация случайная переменная имея ожидаемое значение 0 (условно на Икся и zя);
  • уя это наблюдение зависимая переменная вовремя я или для я th участник исследования.

Мы собираем наблюдения всех переменных с индексами я = 1, ..., п, и сложите их друг под другом, чтобы получить матрица Икс и векторов Y, Z, и U:

и

Если независимая переменная z исключается из регрессии, то оценочные значения параметров отклика других независимых переменных будут даны обычным наименьших квадратов расчет

(где «штрих» означает транспонировать матрицы, а верхний индекс -1 равен инверсия матриц ).

Замена на Y на основе принятой линейной модели,

Принимая во внимание ожидания, вклад последнего члена равен нулю; это следует из предположения, что U не коррелирует с регрессорами Икс. Об упрощении остальных терминов:

Второй член после знака равенства - это смещение пропущенной переменной в этом случае, которое не равно нулю, если пропущенная переменная z коррелирует с любой из включенных переменных в матрицу Икс (то есть, если X′Z не равен вектору нулей). Обратите внимание, что смещение равно взвешенной части zя что "объясняется" Икся.

Эффект методом наименьших квадратов

В Теорема Гаусса – Маркова утверждает, что регрессионные модели, которые соответствуют допущениям классической модели линейной регрессии, обеспечивают Наиболее эффективным, линейный и беспристрастный оценщики. В обыкновенный метод наименьших квадратов, соответствующее допущение классической модели линейной регрессии состоит в том, что член ошибки не коррелирует с регрессорами.

Наличие смещения пропущенной переменной нарушает это конкретное предположение. Нарушение приводит к смещению оценки OLS и непоследовательный. Направление смещения зависит от оценок, а также от ковариация между регрессорами и пропущенными переменными. Положительная ковариация пропущенной переменной как с регрессором, так и с зависимой переменной приведет к тому, что МНК-оценка коэффициента включенного регрессора будет больше, чем истинное значение этого коэффициента. Этот эффект можно увидеть, приняв математическое ожидание параметра, как показано в предыдущем разделе.

Смотрите также

Рекомендации

  • Баррето; Хауленд (2006). «Пропущенная переменная погрешность». Вводная эконометрика: использование моделирования Монте-Карло с Microsoft Excel. Издательство Кембриджского университета.
  • Кларк, Кевин А. (2005). «Скрытая угроза: пропущенные переменные предвзятости в эконометрических исследованиях». Управление конфликтами и наука о мире. 22 (4): 341–352. Дои:10.1080/07388940500339183.
  • Грин, В. Х. (1993). Эконометрический анализ (2-е изд.). Макмиллан. С. 245–246.
  • Вулдридж, Джеффри М. (2009). «Пропущенная переменная предвзятость: простой случай». Вводная эконометрика: современный подход. Мейсон, Огайо: Обучение Cengage. С. 89–93. ISBN  9780324660548.