Надежная регрессия - Robust regression

В надежная статистика, надежная регрессия это форма регрессивный анализ разработан, чтобы преодолеть некоторые ограничения традиционных параметрический и непараметрические методы. Регрессионный анализ стремится найти взаимосвязь между одним или несколькими независимые переменные и зависимая переменная. Некоторые широко используемые методы регрессии, такие как обыкновенный метод наименьших квадратов, имеют благоприятные свойства, если их основные предположения верны, но могут давать вводящие в заблуждение результаты, если эти предположения не верны; таким образом, обычный метод наименьших квадратов считается не крепкий нарушениям его предположений. Надежные методы регрессии разработаны таким образом, чтобы на них не слишком сильно влияли нарушения предположений в базовом процессе генерации данных.

Особенно, наименьших квадратов оценки для регрессионные модели очень чувствительны к выбросы. Хотя нет точного определения выброса, выбросы - это наблюдения, которые не следуют шаблону других наблюдений. Обычно это не проблема, если выброс - это просто экстремальное наблюдение, извлеченное из хвоста нормального распределения, но если выброс является результатом ненормальной ошибки измерения или какого-либо другого нарушения стандартных обычных предположений наименьших квадратов, то это ставит под угрозу достоверность результатов регрессии, если используется метод ненадежной регрессии.

Приложения

Гетероскедастические ошибки

Одним из случаев, когда следует рассматривать робастную оценку, является сильное подозрение гетероскедастичность. в гомоскедастический модели предполагается, что дисперсия члена ошибки постоянна для всех значений Икс. Гетероскедастичность позволяет дисперсии зависеть от Икс, что более точно для многих реальных сценариев. Например, разброс расходов часто больше для лиц с более высокими доходами, чем для лиц с более низкими доходами. Программные пакеты обычно по умолчанию используют гомоскедастическую модель, хотя такая модель может быть менее точной, чем гетероскедастическая модель. Один простой подход (Тофаллис, 2008 г. ) заключается в применении метода наименьших квадратов к процентным ошибкам, так как это уменьшает влияние больших значений зависимой переменной по сравнению с обычным методом наименьших квадратов.

Наличие выбросов

Другая распространенная ситуация, в которой используется надежная оценка, возникает, когда данные содержат выбросы. При наличии выбросов, которые не являются результатом того же процесса генерации данных, что и остальные данные, оценка методом наименьших квадратов неэффективный и может быть необъективным. Поскольку прогнозы методом наименьших квадратов перетаскиваются в сторону выбросов, а дисперсия оценок искусственно завышается, в результате выбросы могут быть замаскированы. (Во многих ситуациях, включая некоторые области геостатистика и медицинская статистика, интерес представляют именно выбросы.)

Хотя иногда утверждается, что методы наименьших квадратов (или классические статистические методы в целом) являются надежными, они надежны только в том смысле, что частота ошибок типа I не увеличивается при нарушениях модели. Фактически, частота ошибок типа I обычно ниже номинального уровня, когда присутствуют выбросы, и часто наблюдается резкое увеличение количества ошибок. частота ошибок II типа. Снижение частоты ошибок типа I было обозначено как консерватизм классических методов.

История и непопулярность робастной регрессии

Несмотря на их превосходную производительность по сравнению с оценкой методом наименьших квадратов во многих ситуациях, надежные методы регрессии до сих пор широко не используются. Несколько причин могут помочь объяснить их непопулярность (Hampel et al. 1986, 2005 ). Одна из возможных причин заключается в том, что существует несколько конкурирующих методов.[нужна цитата ] и в этой области было много фальстартов. Кроме того, вычисление устойчивых оценок требует гораздо больших вычислительных ресурсов, чем оценка методом наименьших квадратов; Однако в последние годы это возражение стало менее актуальным, поскольку вычислительные мощности сильно выросли. Другая причина может заключаться в том, что некоторые популярные пакеты статистического программного обеспечения не смогли реализовать эти методы (Стромберг, 2004 г. ). Вера многих статистиков в надежность классических методов может быть еще одной причиной[нужна цитата ].

Хотя внедрение надежных методов происходит медленно, современные основные учебники по статистике часто включают обсуждение этих методов (например, книги Себера и Ли и Фарауэя; для хорошего общего описания того, как различные методы надежной регрессии развивались из одного другой см. книгу Андерсена). Кроме того, современные пакеты статистического программного обеспечения, такие как р, Статистические модели, Stata и S-PLUS включают значительную функциональность для надежной оценки (см., например, книги Венейбла и Рипли, а также Маронны и др.).

Методы надежной регрессии

Альтернативы наименьших квадратов

Самый простой метод оценки параметров регрессионной модели, которые менее чувствительны к выбросам, чем оценки методом наименьших квадратов, - это использовать наименьшие абсолютные отклонения. Даже в этом случае грубые выбросы все еще могут оказывать значительное влияние на модель, мотивируя исследования еще более надежными подходами.

В 1964 году Хубер представил М-оценка для регресса. M в M-оценке означает «тип максимального правдоподобия». Метод устойчив к выбросам в переменной ответа, но оказался не устойчивым к выбросам в переменной ответа. объясняющие переменные (использовать точки). Фактически, когда есть выбросы в независимых переменных, метод не имеет преимущества перед методом наименьших квадратов.

В 1980-х годах было предложено несколько альтернатив М-оценке в качестве попыток преодолеть отсутствие сопротивления. Посмотреть книгу Rousseeuw и Leroy за очень практический обзор. Наименее обрезанные квадраты (LTS) является жизнеспособной альтернативой и в настоящее время (2007 г.) является предпочтительным выбором Rousseeuw и Ryan (1997, 2008). В Оценка Тейла – Сена имеет более низкую точку разбивки, чем LTS, но является статистически эффективным и популярным. Другое предложенное решение - S-оценка. Этот метод находит линию (плоскость или гиперплоскость), которая минимизирует надежную оценку масштаба (из которого метод получает букву S в своем имени) остатков. Этот метод очень устойчив к точкам воздействия и устойчив к выбросам в ответе. Однако и этот метод оказался неэффективным.

MM-оценка пытается сохранить надежность и устойчивость S-оценки, в то же время повышая эффективность M-оценки. Метод продолжается путем нахождения очень надежной и устойчивой S-оценки, которая минимизирует M-оценку масштаба остатков (первая M в названии метода). Затем оценочный масштаб остается неизменным, пока находится близкая M-оценка параметров (вторая M).

Параметрические альтернативы

Другой подход к надежной оценке регрессионных моделей состоит в замене нормального распределения распределением с тяжелыми хвостами. А т-распределение с 4–6 степенями свободы считается хорошим выбором в различных практических ситуациях. Байесовская робастная регрессия, будучи полностью параметрической, во многом зависит от таких распределений.

При предположении т-распределенные остатки, распределение является семейством в масштабе местоположения. То есть, . Степени свободы т-распределение иногда называют параметр эксцесса. Ланге, Литтл и Тейлор (1989) обсуждают эту модель более подробно с небайесовской точки зрения. Байесовский счет представлен в Gelman et al. (2003).

Альтернативный параметрический подход заключается в предположении, что остатки соответствуют смеси нормальных распределений; в частности, загрязненный нормальное распределение, при котором большинство наблюдений происходит от указанного нормального распределения, но небольшая часть - от нормального распределения с гораздо более высокой дисперсией. То есть остатки имеют вероятность исходящего из нормального распределения с дисперсией , куда мала, и вероятность исходящего из нормального распределения с дисперсией для некоторых :

Обычно . Иногда это называют -модель загрязнения.

Параметрические подходы имеют то преимущество, что теория правдоподобия обеспечивает "готовый" подход к выводу (хотя для смешанных моделей, таких как - модель загрязнения, обычные условия регулярности могут не применяться), и можно построить имитационные модели из подгонки. Однако такие параметрические модели по-прежнему предполагают, что лежащая в их основе модель буквально верна. Как таковые, они не учитывают искаженное остаточное распределение или конечную точность наблюдения.

Вес единицы

Еще один надежный метод - использование удельный вес (Wainer & Thissen, 1976), метод, который можно применять, когда есть несколько предикторов одного результата. Эрнест Берджесс (1928) использовали единичные веса для предсказания успеха условно-досрочного освобождения. Он оценил 21 положительный фактор как присутствующий (например, «без предварительного ареста» = 1) или отсутствующий («предыдущий арест» = 0), а затем суммировал его, чтобы получить прогнозную оценку, которая оказалась полезным предиктором успеха условно-досрочного освобождения. Сэмюэл С. Уилкс (1938) показали, что почти все наборы регрессионных весов суммируются в композиты, которые очень сильно коррелированы друг с другом, включая единичные веса, результат, известный как теорема Уилка (Ree, Carretta, & Earles, 1998). Робин Доус (1979) исследовали процесс принятия решений в прикладных условиях и показали, что простые модели с единичными весами часто превосходят экспертов-людей. Бобко, Рот и Бастер (2007) проанализировали литературу по единичным весам и пришли к выводу, что десятилетия эмпирических исследований показывают, что единичные веса работают аналогично обычным регрессионным весам при перекрестной проверке.

Пример: данные BUPA о печени

В БУПА данные о печени изучались различными авторами, включая Бреймана (2001). Данные можно найти на классические наборы данных страницу, а в статье о Преобразование Бокса – Кокса. График логарифмов ALT по сравнению с логарифмами γGT показан ниже. Две линии регрессии оцениваются обычным методом наименьших квадратов (OLS) и надежной MM-оценкой. Анализ проводился в р с использованием программного обеспечения, предоставленного Венейблсом и Рипли (2002).

OLSandMM.JPG

Две линии регрессии кажутся очень похожими (и это не редкость для набора данных такого размера). Однако преимущество робастного подхода становится очевидным при рассмотрении оценок остаточного масштаба. Для обычного метода наименьших квадратов оценка масштаба составляет 0,420 по сравнению с 0,373 для робастного метода. Таким образом, относительная эффективность обычного метода наименьших квадратов по отношению к MM-оценке в этом примере составляет 1,266. Эта неэффективность приводит к потере мощности при проверке гипотез и к излишне широким доверительным интервалам для оцениваемых параметров.

Обнаружение выбросов

Еще одно следствие неэффективности обыкновенный метод наименьших квадратов Подгонка состоит в том, что несколько выбросов замаскированы, потому что оценка шкалы остатков завышена, масштабированные остатки приближаются к нулю, чем при использовании более подходящей оценки масштаба. Графики масштабированных остатков из двух моделей показаны ниже. Переменная на Икс ось - это просто номер наблюдения, как он появился в наборе данных. Rousseeuw and Leroy (1986) содержит много таких сюжетов.

ResidualPlots.JPG

Горизонтальные опорные линии находятся в точках 2 и −2, так что любой наблюдаемый масштабированный остаток за этими границами можно рассматривать как выброс. Ясно, что метод наименьших квадратов приводит к тому, что многие интересные наблюдения замаскированы.

В то время как в одном или двух измерениях обнаружение выбросов с использованием классических методов может выполняться вручную, с большими наборами данных и в больших измерениях проблема маскирования может сделать идентификацию многих выбросов невозможной. Надежные методы автоматически обнаруживают эти наблюдения, предлагая серьезное преимущество перед классическими методами при наличии выбросов.

Смотрите также

Рекомендации

  • Андерсен, Р. (2008). Современные методы робастной регрессии. Серия работ Университета Сейдж по количественным приложениям в социальных науках, 07–152.
  • Бен-Гал И., Обнаружение выбросов, В: Маймон О. и Рокач Л. (ред.) Сборник данных и обнаружение знаний: Полное руководство для практиков и исследователей, Kluwer Academic Publishers, 2005, ISBN  0-387-24435-2.
  • Бобко П., Рот П. Л. и Бастер М. А. (2007). «Полезность единичных весов в создании составных оценок: обзор литературы, применение к валидности контента и метаанализ». Организационные методы исследования, том 10, страницы 689-709. Дои:10.1177/1094428106294734
  • Брейман, Л. (2001). «Статистическое моделирование: две культуры». Статистическая наука. 16 (3): 199–231. Дои:10.1214 / сс / 1009213725. JSTOR  2676681.
  • Берджесс, Э. У. (1928). «Факторы, определяющие успех или неудачу условно-досрочного освобождения». В А. А. Брюсе (ред.), Принципы закона о бессрочном приговоре и условно-досрочном освобождении в Иллинойсе (стр. 205–249). Спрингфилд, Иллинойс: Совет по условно-досрочному освобождению штата Иллинойс. Книги Google
  • Доус, Робин М. (1979). «Надежная красота неправильных линейных моделей в принятии решений». Американский психолог, том 34, страницы 571-582. Дои:10.1037 / 0003-066X.34.7.571 . архивный pdf
  • Дрейпер, Дэвид (1988). «Робастный анализ линейных моделей на основе рангов. I. Изложение и обзор». Статистическая наука. 3 (2): 239–257. Дои:10.1214 / сс / 1177012915. JSTOR  2245578.
  • Фарауэй, Дж. Дж. (2004). Линейные модели с R. Чепмен и Холл / CRC.
  • Форнальский, К. В. (2015). «Приложения робастного байесовского регрессионного анализа». Международный журнал науки о системах общества. 7 (4): 314–333. Дои:10.1504 / IJSSS.2015.073223.
  • Гельман, А .; Дж. Б. Карлин; Х. С. Стерн; Рубин Д. Б. (2003). Байесовский анализ данных (Второе изд.). Чепмен и Холл / CRC.
  • Hampel, F. R .; Э. М. Ронкетти; П. Дж. Руссеу; В. А. Стахел (2005) [1986]. Надежная статистика: подход, основанный на функциях влияния. Вайли.
  • Lange, K. L .; Р. Дж. А. Литтл; Дж. М. Г. Тейлор (1989). «Надежное статистическое моделирование с использованием т-распределение". Журнал Американской статистической ассоциации. 84 (408): 881–896. Дои:10.2307/2290063. JSTOR  2290063.
  • Lerman, G .; Маккой, М .; Tropp, J. A .; Чжан Т. (2012). «Надежный расчет линейных моделей, или как найти иголку в стоге сена», arXiv:1202.4044.
  • Maronna, R .; Д. Мартин; В. Йохай (2006). Надежная статистика: теория и методы. Вайли.
  • Маккин, Джозеф В. (2004). «Робастный анализ линейных моделей». Статистическая наука. 19 (4): 562–570. Дои:10.1214/088342304000000549. JSTOR  4144426.
  • Радченко С.Г. (2005). Робастные методы оценки статистических моделей: Монография. (на русском языке). Киев: РР «Sanspariel». п. 504. ISBN  978-966-96574-0-4.
  • Ри, М. Дж., Карретта, Т. Р., и Эрлз, Дж. А. (1998). "При принятии решений сверху вниз весовые переменные не имеют значения: следствие теоремы Уилка. Организационные методы исследования, том 1 (4), страницы 407-420. Дои:10.1177/109442819814003
  • Руссеу, П. Дж.; А. М. Лерой (2003) [1986]. Надежная регрессия и обнаружение выбросов. Вайли.
  • Райан, Т. П. (2008) [1997]. Современные методы регрессии. Вайли.
  • Себер, Г. А. Ф .; А. Дж. Ли (2003). Линейный регрессионный анализ (Второе изд.). Вайли.
  • Стромберг, А. Дж. (2004). «Зачем писать статистическое программное обеспечение? Случай надежных статистических методов». Журнал статистического программного обеспечения. 10 (5). Дои:10.18637 / jss.v010.i05.
  • Струтц, Т. (2016). Подгонка данных и неопределенность (практическое введение в взвешенный метод наименьших квадратов и не только). Springer Vieweg. ISBN  978-3-658-11455-8.
  • Тофаллис, Крис (2008). «Процентная регрессия наименьших квадратов». Журнал современных прикладных статистических методов. 7: 526–534. Дои:10.2139 / ssrn.1406472. SSRN  1406472.
  • Venables, W. N .; Б. Д. Рипли (2002). Современная прикладная статистика с S. Springer.
  • Вайнер, Х., & Тиссен, Д. (1976). «Три шага к устойчивой регрессии». Психометрика, том 41 (1), страницы 9–34. Дои:10.1007 / BF02291695
  • Уилкс, С. С. (1938). «Системы взвешивания для линейных функций коррелированных переменных при отсутствии зависимой переменной». Психометрика, том 3, страницы 23–40. Дои:10.1007 / BF02287917

внешняя ссылка