Оценка Тейла – Сена - Theil–Sen estimator
В непараметрическая статистика, то Оценка Тейла – Сена это метод для крепко примерка линии для выборки точек на плоскости (простая линейная регрессия ), выбрав медиана из склоны всех линий через пары точек. Его также называли Оценщик наклона Сена,[1][2] выбор уклона,[3][4] то метод единой медианы,[5] то Метод надежной подгонки линии Кендалла,[6] и Надежная линия Кендалла – Тейла.[7] Он назван в честь Анри Тейл и Пранаб К. Сен, опубликовавшие статьи по этому методу в 1950 и 1968 годах соответственно,[8] и после Морис Кендалл из-за его отношения к Коэффициент ранговой корреляции Кендалла тау.[9]
Эта оценка может быть вычислена эффективно и нечувствительна к выбросы. Это может быть значительно точнее, чем ненадежная простая линейная регрессия (наименьшие квадраты) для перекошенный и гетероскедастический данных и хорошо конкурирует с методом наименьших квадратов даже для нормально распределенный данные с точки зрения статистическая мощность.[10] Его назвали «самым популярным непараметрическим методом оценки линейного тренда».[2]
Определение
Как определено Тейл (1950), оценка Тейла – Сена множества двумерных точек (Икся,уя) это медиана м склонов (уj − уя)/(Иксj − Икся) определяется по всем парам точек выборки. Сен (1968) расширил это определение для обработки случая, когда две точки данных имеют одинаковые Икс координировать. В определении Сена берется медиана наклонов, определенных только для пар точек, имеющих различные Икс координаты.[8]
Однажды склон м был определен, можно определить линию из точек выборки, установив у-перехват б быть средним значением уя − mxя. Подходящая линия - это линия у = mx + б с коэффициентами м и б в наклон – форма пересечения.[11] Как заметил Сен, такой выбор наклона делает Коэффициент ранговой корреляции Кендалла тау становятся приблизительно равными нулю, когда он используется для сравнения значений Икся с их связанными остатки уя − mxя − б. Интуитивно это говорит о том, что расстояние, на которое линия соответствия проходит выше или ниже точки данных, не коррелирует с тем, находится эта точка слева или справа от набора данных. Выбор б не влияет на коэффициент Кендалла, но приводит к тому, что медианная невязка становится приблизительно равной нулю; то есть линия соответствия проходит выше и ниже равного количества точек.[9]
А доверительный интервал для оценки наклона может быть определен как интервал, содержащий средние 95% наклонов линий, определяемых парами точек[12] и может быть быстро оценен путем выборки пар точек и определения 95% интервала выбранных наклонов. Согласно моделированию, приблизительно 600 пар образцов достаточно для определения точного доверительного интервала.[10]
Вариации
Вариант оценки Тейла – Сена, повторная медианная регрессия из Сигель (1982), определяет для каждой точки выборки (Икся,уя), медиана мя склонов (уj − уя)/(Иксj − Икся) линий, проходящих через эту точку, а затем определяет общую оценку как медиану этих медиан. Он может допускать большее количество выбросов, чем оценка Тейла – Сена, но известные алгоритмы для его эффективного вычисления более сложны и менее практичны.[13]
Другой вариант объединяет точки выборки по рангу их Икс-координаты: точка с наименьшей координатой соединяется с первой точкой над медианной координатой, вторая наименьшая точка соединяется со следующей точкой над медианной и т. д. Затем он вычисляет медиану наклонов линий, определенных этими парами точек, набирая скорость, исследуя значительно меньше пар, чем оценка Тейла – Сена.[14]
Вариации оценки Тейла – Сена на основе взвешенные медианы также были изучены, исходя из принципа, что пары образцов, Икс-координаты различаются сильнее, скорее всего, имеют точный наклон и, следовательно, должны получить больший вес.[15]
Для сезонных данных может оказаться целесообразным сгладить сезонные вариации данных, рассматривая только пары точек выборки, которые принадлежат одному и тому же месяцу или одному сезону года, и находя медианное значение наклонов линий, определенных это более ограниченный набор пар.[16]
Статистические свойства
Оценка Тейла – Сена представляет собой объективный оценщик истинного наклона в простая линейная регрессия.[17] Для многих дистрибутивов ошибка ответа, эта оценка имеет высокую асимптотическая эффективность относительно наименьших квадратов предварительный расчет.[18] Оценщикам с низкой эффективностью требуется больше независимых наблюдений, чтобы получить такую же выборочную дисперсию эффективных несмещенных оценщиков.
Оценка Тейла – Сена более крепкий чем оценка методом наименьших квадратов, потому что он гораздо менее чувствителен к выбросы. Оно имеет точка разрушения из
Это означает, что он может выдерживать произвольное искажение до 29,3% входных точек данных без ухудшения его точности.[11] Однако точка срыва уменьшается для многомерных обобщений метода.[19] Более высокая точка пробоя, 50%, соответствует другому надежному алгоритму подбора линий, повторная медианная оценка Зигеля.[11]
Оценка Тейла – Сена равна эквивариантный под каждым линейное преобразование переменной ответа, что означает, что сначала преобразование данных, а затем подгонка к строке или сперва подгонка строки, а затем ее преобразование таким же образом, дают один и тот же результат.[20] Однако он не эквивариантен при аффинные преобразования переменных предиктора и отклика.[19]
Алгоритмы и реализация
Срединный уклон набора п точки выборки могут быть вычислены точно путем вычисления всех О(п2) линии через пары точек, а затем применяя линейное время алгоритм поиска медианы. В качестве альтернативы, это может быть оценено путем выборки пар точек. Эта проблема эквивалентна под проективная двойственность, к задаче поиска точки пересечения в расположение линий это медиана Икс-координация среди всех таких пунктов пересечения.[21]
Проблема точного, но более эффективного выбора наклона, чем алгоритм квадратичного времени методом грубой силы, широко изучалась в вычислительная геометрия. Известно несколько различных методов вычисления оценки Тейла – Сена точно в О(п журнал п) время, либо детерминированно[3] или используя рандомизированные алгоритмы.[4] Повторная медианная оценка Зигеля также может быть построена с той же временной границей.[22] В моделях вычислений, в которых входные координаты являются целыми числами и в которых побитовые операции для целых чисел требуется постоянное время, оценка Тейла – Сена может быть построена еще быстрее, за рандомизированное ожидаемое время .[23]
Оценка наклона с приблизительно средним рангом, имеющая ту же точку разбивки, что и оценка Тейла – Сена, может быть сохранена в модель потока данных (в котором точки выборки обрабатываются одна за другой алгоритмом, не имеющим достаточного постоянного хранилища для представления всего набора данных) с использованием алгоритма, основанного на ε-сети.[24]
в р статистический пакет, как оценка Тейла – Сена, так и повторная медианная оценка Зигеля доступны через mblm
библиотека.[25]Бесплатная автономная Visual Basic приложение для оценки Тейла – Сена, KTRLine
, был предоставлен Геологическая служба США.[26]Оценка Тейла – Сена также была реализована в Python как часть SciPy и scikit-learn библиотеки.[27]
Приложения
Оценка Тейла – Сена была применена к астрономия из-за его способности обрабатывать цензурированные регрессионные модели.[28] В биофизика, Фернандес и Леблан (2005) предложить его использование для приложений дистанционного зондирования, таких как оценка площади листа по данным отражательной способности, из-за его "простоты вычислений, аналитических оценок доверительных интервалов, устойчивости к выбросам, проверяемых предположений относительно остатков и ... ограниченной априорной информации относительно ошибок измерения" ".[29] Для измерения сезонных экологических данных, таких как качество воды, вариант оценки Тейла – Сена с поправкой на сезонные колебания был предложен как предпочтительный по сравнению с оценкой методом наименьших квадратов из-за его высокой точности при наличии искаженных данных.[16] В Информатика, метод Тейла – Сена использовался для оценки тенденций изменения старение программного обеспечения.[30] В метеорология и климатология, он использовался для оценки долгосрочных тенденций возникновения и скорости ветра.[31]
Смотрите также
- Разбавление регрессии, для другой проблемы, влияющей на предполагаемые наклоны тренда
Заметки
- ^ Гилберт (1987).
- ^ а б Эль-Шаарави и Пигорш (2001).
- ^ а б Cole et al. (1989); Кац и Шарир (1993); Брённиманн и Шазель (1998).
- ^ а б Дилленкур, Маунт и Нетаньяху (1992); Матушек (1991); Бланк и Варенхольд (2006).
- ^ Massart et al. (1997).
- ^ Сокал и Рольф (1995); Дайтэм (2011).
- ^ Гранато (2006)
- ^ а б Тейл (1950); Сен (1968)
- ^ а б Сен (1968); Осборн (2008).
- ^ а б Уилкокс (2001).
- ^ а б c Руссеу и Лерой (2003) С. 67, 164.
- ^ Для определения доверительных интервалов необходимо выбрать пары точек. с заменой; это означает, что набор пар, используемый в этом вычислении, включает пары, в которых обе точки идентичны друг другу. Эти пары всегда находятся за пределами доверительного интервала, потому что они не определяют четко определенного значения наклона, но их использование как часть расчета приводит к тому, что доверительный интервал становится шире, чем он был бы без них.
- ^ Логан (2010), Раздел 8.2.7 Робастная регрессия; Матушек, Маунт и Нетаньяху (1998)
- ^ Де Мут (2006).
- ^ Jaeckel (1972); Шольц (1978); Сиверс (1978); Биркес и Додж (1993).
- ^ а б Хирш, Слэк и Смит (1982).
- ^ Сен (1968), Теорема 5.1, с. 1384; Ван и Ю (2005).
- ^ Сен (1968), Раздел 6; Уилкокс (1998).
- ^ а б Уилкокс (2005).
- ^ Сен (1968), п. 1383.
- ^ Cole et al. (1989).
- ^ Матушек, Маунт и Нетаньяху (1998).
- ^ Чан и Патрашку (2010).
- ^ Багчи и др. (2007).
- ^ Логан (2010), п. 237; Ваннест, Дэвис и Паркер (2013)
- ^ Ваннест, Дэвис и Паркер (2013); Гранато (2006)
- ^ Сообщество SciPy (2015); Перссон и Мартинс (2016)
- ^ Акритас, Мерфи и ЛаВэлли (1995).
- ^ Фернандес и Леблан (2005).
- ^ Вайдьянатан и Триведи (2005).
- ^ Романич и др. (2014).
использованная литература
- Акритас, Майкл Дж .; Мерфи, Сьюзен А.; ЛаВалли, Майкл П. (1995), «Оценка Тейла-Сена с дважды цензурированными данными и приложениями к астрономии», Журнал Американской статистической ассоциации, 90 (429): 170–177, Дои:10.1080/01621459.1995.10476499, JSTOR 2291140, Г-Н 1325124.
- Багчи, Амитабха; Чаудхари, Амитабх; Эппштейн, Дэвид; Гудрич, Майкл Т. (2007), «Детерминированная выборка и подсчет диапазонов в потоках геометрических данных», ACM-транзакции на алгоритмах, 3 (2): Ст. №16, arXiv:cs / 0307027, Дои:10.1145/1240233.1240239, Г-Н 2335299, S2CID 123315817.
- Биркес, Дэвид; Додж, Ядола (1993), «6.3 Оценка линии регрессии», Альтернативные методы регрессии, Серия Уайли по вероятности и статистике, 282, Wiley-Interscience, стр. 113–118, ISBN 978-0-471-56881-0.
- Бланк, Хенрик; Варенхольд, Ян (2006), "Рандомизированный выбор откосов на месте", Международный симпозиум по алгоритмам и сложности, Конспект лекций по информатике, 3998, Берлин: Springer-Verlag, стр. 30–41, Дои:10.1007/11758471_6, ISBN 978-3-540-34375-2, Г-Н 2263136.
- Брённиманн, Эрве; Шазель, Бернар (1998), «Выбор оптимального откоса с помощью вырубки», Теория вычислительной геометрии и приложения, 10 (1): 23–29, Дои:10.1016 / S0925-7721 (97) 00025-4, Г-Н 1614381.
- Чан, Тимоти М.; Пэтрашку, Михай (2010), «Подсчет инверсий, автономный подсчет ортогональных диапазонов и связанные проблемы», Материалы двадцать первого ежегодного симпозиума ACM-SIAM по дискретным алгоритмам (SODA '10) (PDF), стр. 161–173.
- Коул, Ричард; Salowe, Jeffrey S .; Steiger, W. L .; Семереди, Эндре (1989), "Оптимальный по времени алгоритм выбора уклона", SIAM Журнал по вычислениям, 18 (4): 792–810, Дои:10.1137/0218055, Г-Н 1004799.
- Де Мут, Э. Джеймс (2006), Базовая статистика и приложения для фармацевтической статистики, Биостатистика, 16 (2-е изд.), CRC Press, стр. 577, г. ISBN 978-0-8493-3799-4.
- Дилленкур, Майкл Б.; Маунт, Дэвид М.; Нетаньяху, Натан С. (1992), "Рандомизированный алгоритм выбора наклона", Международный журнал вычислительной геометрии и приложений, 2 (1): 1–27, Дои:10.1142 / S0218195992000020, Г-Н 1159839.
- Дитам, Кальвин (2011), Выбор и использование статистики: руководство биолога (3-е изд.), Джон Уайли и сыновья, стр. 230, ISBN 978-1-4051-9839-4.
- Эль-Шаарави, Абдель Х .; Пигорш, Уолтер В. (2001), Энциклопедия окружающей среды, том 1, Джон Уайли и сыновья, стр. 19, ISBN 978-0-471-89997-6.
- Фернандес, Ричард; Леблан, Сильвен Г. (2005), «Параметрические (модифицированные методом наименьших квадратов) и непараметрические (Тейла – Сена) линейные регрессии для прогнозирования биофизических параметров при наличии ошибок измерения», Дистанционное зондирование окружающей среды, 95 (3): 303–316, Bibcode:2005RSEnv..95..303F, Дои:10.1016 / j.rse.2005.01.005.
- Гилберт, Ричард О. (1987), "Непараметрическая оценка наклона 6.5 Сена", Статистические методы мониторинга загрязнения окружающей среды, John Wiley and Sons, стр. 217–219, ISBN 978-0-471-28878-7.
- Гранато, Грегори Э. (2006), «Глава A7: Робастная линия Кендалла – Тейла (KTRLine - версия 1.0) - визуальная базовая программа для расчета и построения графиков надежных непараметрических оценок коэффициентов линейной регрессии между двумя непрерывными переменными», Гидрологический анализ и интерпретация, Методы и методы геологической разведки США, 4, Геологическая служба США.
- Хирш, Роберт М.; Slack, Джеймс Р .; Смит, Ричард А. (1982), "Методы анализа тенденций для ежемесячных данных о качестве воды", Исследование водных ресурсов, 18 (1): 107–121, Bibcode:1982WRR .... 18..107H, Дои:10.1029 / WR018i001p00107.
- Jaeckel, Луи А. (1972), "Оценка коэффициентов регрессии путем минимизации дисперсии остатков", Анналы математической статистики, 43 (5): 1449–1458, Дои:10.1214 / aoms / 1177692377, Г-Н 0348930.
- Кац, Мэтью Дж .; Шарир, Миха (1993), «Выбор оптимального откоса с помощью расширителей», Письма об обработке информации, 47 (3): 115–122, Дои:10.1016 / 0020-0190 (93) 90234-Z, Г-Н 1237287.
- Логан, Мюррей (2010), Биостатистический дизайн и анализ с использованием R: Практическое руководство, ISBN 9781444362473
- Massart, D. L .; Vandeginste, B.G.M .; Buydens, L.MC .; Де Йонг, S .; Lewi, P.J .; Смейерс-Вербеке, Дж. (1997), «12.1.5.1 Метод единой медианы», Справочник по хемометрике и квалиметрии: Часть A, Обработка данных в науке и технологиях, 20А, Elsevier, стр. 355–356, ISBN 978-0-444-89724-4.
- Матушек, Иржи (1991), "Рандомизированный оптимальный алгоритм выбора уклона", Письма об обработке информации, 39 (4): 183–187, Дои:10.1016 / 0020-0190 (91) 90177-Дж, Г-Н 1130747.
- Матушек, Иржи; Маунт, Дэвид М.; Нетаньяху, Натан С. (1998), «Эффективные рандомизированные алгоритмы для оценки повторяющейся средней линии», Алгоритмика, 20 (2): 136–150, Дои:10.1007 / PL00009190, Г-Н 1484533, S2CID 17362967.
- Осборн, Джейсон В. (2008), Лучшие практики количественных методов, Sage Publications, Inc., стр. 273, г. ISBN 9781412940658.
- Перссон, Магнус Вильхельм; Мартинс, Луис Фелипе (2016), Освоение анализа данных Python, Packt Publishing, стр. 177, ISBN 9781783553303
- Романич, Джордже; Дурич, Младжен; Йовичич, Илия; Ломпар, Милош (2014), «Долгосрочные тренды ветра Кошава в период 1949–2010 гг.», Международный журнал климатологии, 35 (2): 288–302, Bibcode:2015IJCli..35..288R, Дои:10.1002 / joc.3981.
- Руссей, Питер Дж.; Лерой, Анник М. (2003), Надежная регрессия и обнаружение выбросов, Ряд Уайли по вероятности и математической статистике, 516, Wiley, п. 67, ISBN 978-0-471-48855-2.
- Шольц, Фридрих-Вильгельм (1978), «Средневзвешенные оценки регрессии», Анналы статистики, 6 (3): 603–609, Дои:10.1214 / aos / 1176344204, JSTOR 2958563, Г-Н 0468054.
- Сообщество SciPy (2015), "scipy.stats.mstats.theilslopes", Справочное руководство SciPy v0.15.1
- Сен, Пранаб Кумар (1968), «Оценки коэффициента регрессии на основе тау Кендалла», Журнал Американской статистической ассоциации, 63 (324): 1379–1389, Дои:10.2307/2285891, JSTOR 2285891, Г-Н 0258201.
- Сигел, Эндрю Ф. (1982), «Надежная регрессия с использованием повторяющихся медиан» Биометрика, 69 (1): 242–244, Дои:10.1093 / biomet / 69.1.242.
- Сиверс, Джеральд Л. (1978), "Взвешенная ранговая статистика для простой линейной регрессии", Журнал Американской статистической ассоциации, 73 (363): 628–631, Дои:10.1080/01621459.1978.10480067, JSTOR 2286613.
- Сокал, Роберт Р.; Рольф, Ф. Джеймс (1995), Биометрия: принципы и практика статистики в биологических исследованиях (3-е изд.), Macmillan, p. 539, г. ISBN 978-0-7167-2411-7.
- Тейл, Х. (1950), "Рангово-инвариантный метод линейного и полиномиального регрессионного анализа. I, II, III", Nederl. Акад. Wetensch., Proc., 53: 386–392, 521–525, 1397–1412, Г-Н 0036489.
- Вайдьянатхан, Кальянараман; Триведи, Кишор С. (2005), «Комплексная модель омоложения программного обеспечения», Транзакции IEEE о надежных и безопасных вычислениях, 2 (2): 124–137, Дои:10.1109 / TDSC.2005.15, S2CID 15105513.
- Vannest, Kimberly J .; Дэвис, Джон Л .; Паркер, Ричард I. (2013), Исследование отдельных случаев в школах: практические рекомендации для школьных специалистов, Рутледж, стр. 55, ISBN 9781136173622
- Ван, Сюэцинь; Ю, Цицин (2005), "Беспристрастность оценки Тейла – Сена", Журнал непараметрической статистики, 17 (6): 685–695, Дои:10.1080/10485250500039452, Г-Н 2165096, S2CID 121061001.
- Wilcox, Rand R. (1998), "Примечание об оценке регрессии Тейла – Сена, когда регрессор является случайным, а член ошибки является гетероскедастическим", Биометрический журнал, 40 (3): 261–268, Дои:10.1002 / (SICI) 1521-4036 (199807) 40: 3 <261 :: AID-BIMJ261> 3.0.CO; 2-V.
- Уилкокс, Рэнд Р. (2001), «Оценка Тейла – Сена», Основы современных статистических методов: существенное повышение мощности и точности, Springer-Verlag, стр. 207–210, ISBN 978-0-387-95157-7.
- Уилкокс, Рэнд Р. (2005), «Оценка 10.2 Тейла – Сена», Введение в робастную оценку и проверку гипотез, Academic Press, стр. 423–427, ISBN 978-0-12-751542-7.