Оценка Тейла – Сена - Theil–Sen estimator

Оценка Тейла – Сена для набора точек выборки с выбросами (черная линия) по сравнению с ненадежным обыкновенный метод наименьших квадратов линия для того же набора (синяя). Пунктирная зеленая линия представляет собой основную истину, из которой были созданы образцы.

В непараметрическая статистика, то Оценка Тейла – Сена это метод для крепко примерка линии для выборки точек на плоскости (простая линейная регрессия ), выбрав медиана из склоны всех линий через пары точек. Его также называли Оценщик наклона Сена,[1][2] выбор уклона,[3][4] то метод единой медианы,[5] то Метод надежной подгонки линии Кендалла,[6] и Надежная линия Кендалла – Тейла.[7] Он назван в честь Анри Тейл и Пранаб К. Сен, опубликовавшие статьи по этому методу в 1950 и 1968 годах соответственно,[8] и после Морис Кендалл из-за его отношения к Коэффициент ранговой корреляции Кендалла тау.[9]

Эта оценка может быть вычислена эффективно и нечувствительна к выбросы. Это может быть значительно точнее, чем ненадежная простая линейная регрессия (наименьшие квадраты) для перекошенный и гетероскедастический данных и хорошо конкурирует с методом наименьших квадратов даже для нормально распределенный данные с точки зрения статистическая мощность.[10] Его назвали «самым популярным непараметрическим методом оценки линейного тренда».[2]

Определение

Как определено Тейл (1950), оценка Тейла – Сена множества двумерных точек (Икся,уя) это медиана м склонов (уjуя)/(ИксjИкся) определяется по всем парам точек выборки. Сен (1968) расширил это определение для обработки случая, когда две точки данных имеют одинаковые Икс координировать. В определении Сена берется медиана наклонов, определенных только для пар точек, имеющих различные Икс координаты.[8]

Однажды склон м был определен, можно определить линию из точек выборки, установив у-перехват б быть средним значением уяmxя. Подходящая линия - это линия у = mx + б с коэффициентами м и б в наклон – форма пересечения.[11] Как заметил Сен, такой выбор наклона делает Коэффициент ранговой корреляции Кендалла тау становятся приблизительно равными нулю, когда он используется для сравнения значений Икся с их связанными остатки уяmxяб. Интуитивно это говорит о том, что расстояние, на которое линия соответствия проходит выше или ниже точки данных, не коррелирует с тем, находится эта точка слева или справа от набора данных. Выбор б не влияет на коэффициент Кендалла, но приводит к тому, что медианная невязка становится приблизительно равной нулю; то есть линия соответствия проходит выше и ниже равного количества точек.[9]

А доверительный интервал для оценки наклона может быть определен как интервал, содержащий средние 95% наклонов линий, определяемых парами точек[12] и может быть быстро оценен путем выборки пар точек и определения 95% интервала выбранных наклонов. Согласно моделированию, приблизительно 600 пар образцов достаточно для определения точного доверительного интервала.[10]

Вариации

Вариант оценки Тейла – Сена, повторная медианная регрессия из Сигель (1982), определяет для каждой точки выборки (Икся,уя), медиана мя склонов (уjуя)/(ИксjИкся) линий, проходящих через эту точку, а затем определяет общую оценку как медиану этих медиан. Он может допускать большее количество выбросов, чем оценка Тейла – Сена, но известные алгоритмы для его эффективного вычисления более сложны и менее практичны.[13]

Другой вариант объединяет точки выборки по рангу их Икс-координаты: точка с наименьшей координатой соединяется с первой точкой над медианной координатой, вторая наименьшая точка соединяется со следующей точкой над медианной и т. д. Затем он вычисляет медиану наклонов линий, определенных этими парами точек, набирая скорость, исследуя значительно меньше пар, чем оценка Тейла – Сена.[14]

Вариации оценки Тейла – Сена на основе взвешенные медианы также были изучены, исходя из принципа, что пары образцов, Икс-координаты различаются сильнее, скорее всего, имеют точный наклон и, следовательно, должны получить больший вес.[15]

Для сезонных данных может оказаться целесообразным сгладить сезонные вариации данных, рассматривая только пары точек выборки, которые принадлежат одному и тому же месяцу или одному сезону года, и находя медианное значение наклонов линий, определенных это более ограниченный набор пар.[16]

Статистические свойства

Оценка Тейла – Сена представляет собой объективный оценщик истинного наклона в простая линейная регрессия.[17] Для многих дистрибутивов ошибка ответа, эта оценка имеет высокую асимптотическая эффективность относительно наименьших квадратов предварительный расчет.[18] Оценщикам с низкой эффективностью требуется больше независимых наблюдений, чтобы получить такую ​​же выборочную дисперсию эффективных несмещенных оценщиков.

Оценка Тейла – Сена более крепкий чем оценка методом наименьших квадратов, потому что он гораздо менее чувствителен к выбросы. Оно имеет точка разрушения из

Это означает, что он может выдерживать произвольное искажение до 29,3% входных точек данных без ухудшения его точности.[11] Однако точка срыва уменьшается для многомерных обобщений метода.[19] Более высокая точка пробоя, 50%, соответствует другому надежному алгоритму подбора линий, повторная медианная оценка Зигеля.[11]

Оценка Тейла – Сена равна эквивариантный под каждым линейное преобразование переменной ответа, что означает, что сначала преобразование данных, а затем подгонка к строке или сперва подгонка строки, а затем ее преобразование таким же образом, дают один и тот же результат.[20] Однако он не эквивариантен при аффинные преобразования переменных предиктора и отклика.[19]

Алгоритмы и реализация

Срединный уклон набора п точки выборки могут быть вычислены точно путем вычисления всех О(п2) линии через пары точек, а затем применяя линейное время алгоритм поиска медианы. В качестве альтернативы, это может быть оценено путем выборки пар точек. Эта проблема эквивалентна под проективная двойственность, к задаче поиска точки пересечения в расположение линий это медиана Икс-координация среди всех таких пунктов пересечения.[21]

Проблема точного, но более эффективного выбора наклона, чем алгоритм квадратичного времени методом грубой силы, широко изучалась в вычислительная геометрия. Известно несколько различных методов вычисления оценки Тейла – Сена точно в О(п журнал п) время, либо детерминированно[3] или используя рандомизированные алгоритмы.[4] Повторная медианная оценка Зигеля также может быть построена с той же временной границей.[22] В моделях вычислений, в которых входные координаты являются целыми числами и в которых побитовые операции для целых чисел требуется постоянное время, оценка Тейла – Сена может быть построена еще быстрее, за рандомизированное ожидаемое время .[23]

Оценка наклона с приблизительно средним рангом, имеющая ту же точку разбивки, что и оценка Тейла – Сена, может быть сохранена в модель потока данных (в котором точки выборки обрабатываются одна за другой алгоритмом, не имеющим достаточного постоянного хранилища для представления всего набора данных) с использованием алгоритма, основанного на ε-сети.[24]

в р статистический пакет, как оценка Тейла – Сена, так и повторная медианная оценка Зигеля доступны через mblm библиотека.[25]Бесплатная автономная Visual Basic приложение для оценки Тейла – Сена, KTRLine, был предоставлен Геологическая служба США.[26]Оценка Тейла – Сена также была реализована в Python как часть SciPy и scikit-learn библиотеки.[27]

Приложения

Оценка Тейла – Сена была применена к астрономия из-за его способности обрабатывать цензурированные регрессионные модели.[28] В биофизика, Фернандес и Леблан (2005) предложить его использование для приложений дистанционного зондирования, таких как оценка площади листа по данным отражательной способности, из-за его "простоты вычислений, аналитических оценок доверительных интервалов, устойчивости к выбросам, проверяемых предположений относительно остатков и ... ограниченной априорной информации относительно ошибок измерения" ".[29] Для измерения сезонных экологических данных, таких как качество воды, вариант оценки Тейла – Сена с поправкой на сезонные колебания был предложен как предпочтительный по сравнению с оценкой методом наименьших квадратов из-за его высокой точности при наличии искаженных данных.[16] В Информатика, метод Тейла – Сена использовался для оценки тенденций изменения старение программного обеспечения.[30] В метеорология и климатология, он использовался для оценки долгосрочных тенденций возникновения и скорости ветра.[31]

Смотрите также

Заметки

  1. ^ Гилберт (1987).
  2. ^ а б Эль-Шаарави и Пигорш (2001).
  3. ^ а б Cole et al. (1989); Кац и Шарир (1993); Брённиманн и Шазель (1998).
  4. ^ а б Дилленкур, Маунт и Нетаньяху (1992); Матушек (1991); Бланк и Варенхольд (2006).
  5. ^ Massart et al. (1997).
  6. ^ Сокал и Рольф (1995); Дайтэм (2011).
  7. ^ Гранато (2006)
  8. ^ а б Тейл (1950); Сен (1968)
  9. ^ а б Сен (1968); Осборн (2008).
  10. ^ а б Уилкокс (2001).
  11. ^ а б c Руссеу и Лерой (2003) С. 67, 164.
  12. ^ Для определения доверительных интервалов необходимо выбрать пары точек. с заменой; это означает, что набор пар, используемый в этом вычислении, включает пары, в которых обе точки идентичны друг другу. Эти пары всегда находятся за пределами доверительного интервала, потому что они не определяют четко определенного значения наклона, но их использование как часть расчета приводит к тому, что доверительный интервал становится шире, чем он был бы без них.
  13. ^ Логан (2010), Раздел 8.2.7 Робастная регрессия; Матушек, Маунт и Нетаньяху (1998)
  14. ^ Де Мут (2006).
  15. ^ Jaeckel (1972); Шольц (1978); Сиверс (1978); Биркес и Додж (1993).
  16. ^ а б Хирш, Слэк и Смит (1982).
  17. ^ Сен (1968), Теорема 5.1, с. 1384; Ван и Ю (2005).
  18. ^ Сен (1968), Раздел 6; Уилкокс (1998).
  19. ^ а б Уилкокс (2005).
  20. ^ Сен (1968), п. 1383.
  21. ^ Cole et al. (1989).
  22. ^ Матушек, Маунт и Нетаньяху (1998).
  23. ^ Чан и Патрашку (2010).
  24. ^ Багчи и др. (2007).
  25. ^ Логан (2010), п. 237; Ваннест, Дэвис и Паркер (2013)
  26. ^ Ваннест, Дэвис и Паркер (2013); Гранато (2006)
  27. ^ Сообщество SciPy (2015); Перссон и Мартинс (2016)
  28. ^ Акритас, Мерфи и ЛаВэлли (1995).
  29. ^ Фернандес и Леблан (2005).
  30. ^ Вайдьянатан и Триведи (2005).
  31. ^ Романич и др. (2014).

использованная литература