Тест Колмогорова – Смирнова - Kolmogorov–Smirnov test

Иллюстрация статистики Колмогорова – Смирнова. Красная линия CDF, синяя линия - это ECDF, а черная стрелка - статистика K – S.

В статистика, то Тест Колмогорова – Смирнова (K – S тест или же KS тест) это непараметрический тест равенства непрерывных (или разрывных, см. Раздел 2.2 ), одномерный распределения вероятностей который можно использовать для сравнения образец с эталонным распределением вероятностей (тест K – S для одной выборки) или для сравнения двух выборок (тест K – S для двух выборок). Он назван в честь Андрей Колмогоров и Николай Смирнов.

Статистика Колмогорова – Смирнова дает количественную оценку расстояние между эмпирическая функция распределения образца и кумулятивная функция распределения эталонного распределения или между эмпирическими функциями распределения двух выборок. В нулевое распределение этой статистики рассчитывается по нулевая гипотеза что выборка взята из эталонного распределения (в случае с одной выборкой) или что выборки взяты из того же распределения (в случае с двумя выборками). В случае с одной выборкой распределение, рассматриваемое при нулевой гипотезе, может быть непрерывным (см. Раздел 2 ), чисто дискретные или смешанные (см. Раздел 2.2 ). В двухвыборочном случае (см. Раздел 3 ), распределение, рассматриваемое при нулевой гипотезе, является непрерывным распределением, но в остальном не имеет ограничений.

Двухвыборочный тест K – S является одним из наиболее полезных и общих непараметрических методов для сравнения двух выборок, поскольку он чувствителен к различиям как в расположении, так и в форме эмпирических кумулятивных функций распределения двух выборок.

Тест Колмогорова – Смирнова можно модифицировать так, чтобы он служил степень соответствия тест. В частном случае тестирования на нормальность распределения образцы стандартизируются и сравниваются со стандартным нормальным распределением. Это эквивалентно установке среднего значения и дисперсии эталонного распределения, равных оценкам выборки, и известно, что их использование для определения конкретного эталонного распределения изменяет нулевое распределение тестовой статистики (см. Тест с расчетными параметрами ). Различные исследования показали, что даже в этой исправленной форме тест менее эффективен для проверки нормальности, чем тест. Тест Шапиро-Уилка или же Тест Андерсона – Дарлинга.[1] Однако у этих других тестов есть свои недостатки. Например, известно, что критерий Шапиро – Уилка не работает для образцов с множеством идентичных значений.

Статистика Колмогорова – Смирнова

В эмпирическая функция распределения Fп за п независимые и одинаково распределенные (i.i.d.) заказанные наблюдения Икся определяется как

куда это индикаторная функция, равный 1, если и равняется 0 в противном случае.

Колмогоров – Смирнов статистика для данного кумулятивная функция распределения F(Икс) является

где supИкс это супремум набора расстояний. Посредством Теорема Гливенко – Кантелли., если образец поступает из раздачи F(Икс), тогда Dп сходится к 0 почти наверняка в пределе, когда уходит в бесконечность. Колмогоров усилил этот результат, эффективно указав скорость этой сходимости (см. Колмогоровское распределение ). Теорема Донскера обеспечивает еще более сильный результат.

На практике для статистики требуется относительно большое количество точек данных (по сравнению с другими критериями согласия, такими как Тест Андерсона – Дарлинга статистика), чтобы правильно отклонить нулевую гипотезу.

Колмогоровское распределение

Иллюстрация распределения Колмогорова PDF.

Распределение Колмогорова - это распределение случайная переменная

куда B(т) это Броуновский мост. В кумулятивная функция распределения из K дан кем-то[2]

что также может быть выражено Тета-функция Якоби . И форма статистики критерия Колмогорова – Смирнова, и ее асимптотическое распределение при нулевой гипотезе были опубликованы Андрей Колмогоров,[3] а таблицу распределения опубликовал Николай Смирнов.[4] Доступны рекуррентные соотношения для распределения тестовой статистики в конечных выборках.[3]

При нулевой гипотезе о том, что выборка происходит из гипотетического распределения F(Икс),

в распределении, куда B(т) это Броуновский мост.

Если F непрерывно, то при нулевой гипотезе сходится к распределению Колмогорова, которое не зависит от F. Этот результат может быть также известен как теорема Колмогорова. Точность этого предела как приближение к точной cdf когда конечно не очень впечатляет: даже когда соответствующая максимальная ошибка составляет около ; эта ошибка увеличивается до когда и к совершенно неприемлемому когда . Однако очень простой способ замены к

в аргументе тета-функции Якоби сводит эти ошибки к , , и соответственно; такая точность обычно считается более чем достаточной для всех практических приложений.[5]

В добродетель тест или тест Колмогорова – Смирнова могут быть построены с использованием критических значений распределения Колмогорова. Этот тест асимптотически верен, когда . Он отвергает нулевую гипотезу на уровне если

куда Kα находится из

Асимптотика мощность этого теста 1.

Быстрые и точные алгоритмы вычисления cdf или его дополнение для произвольных и , доступны из:

  • [6] и [7] для непрерывных нулевых распределений с кодом на C и Java можно найти в [6].
  • [8] для чисто дискретного, смешанного или непрерывного нулевого распределения, реализованного в пакете KSgeneral [9] из Проект R для статистических вычислений, который для данной выборки также вычисляет статистику теста KS и его p-значение. Альтернативная реализация C ++ доступна по адресу [8].

Тест с расчетными параметрами

Если форма или параметры F(Икс) определяются по данным Икся определенные таким образом критические значения недействительны. В таких случаях, Монте-Карло или могут потребоваться другие методы, но для некоторых случаев были подготовлены таблицы. Подробная информация о необходимых изменениях в статистике испытаний и о критических значениях для нормальное распределение и экспоненциальное распределение были опубликованы,[10] и более поздние публикации также включают Гамбель раздача.[11] В Тест Лиллиэфорса представляет собой частный случай нормального распределения. Преобразование логарифма может помочь преодолеть случаи, когда данные теста Колмогорова не соответствуют предположению о том, что они получены из нормального распределения.

При использовании оценочных параметров возникает вопрос, какой метод оценки следует использовать. Обычно это метод максимального правдоподобия, но, например, для нормального распределения MLE имеет большую ошибку смещения сигмы. Использование моментальной подгонки или минимизации KS вместо этого имеет большое влияние на критические значения, а также некоторое влияние на мощность теста. Если нам нужно решить для данных Student-T с df = 2 с помощью теста KS, могут ли данные быть нормальными или нет, тогда оценка ML на основе H0 (данные являются нормальными, поэтому использование стандартного отклонения для масштаба) даст гораздо большее расстояние KS, чем соответствие с минимальным KS. В этом случае следует отказаться от H0, что часто имеет место с MLE, потому что стандартное отклонение выборки может быть очень большим для данных T-2, но с минимизацией KS мы можем получить слишком низкий KS, чтобы отклонить H0. В случае Стьюдента-T модифицированный тест KS с оценкой KS вместо MLE действительно немного ухудшает тест KS. Однако в других случаях такой модифицированный тест KS дает немного лучшую тестовую мощность.

Дискретное и смешанное нулевое распределение

В предположении, что является неубывающим и непрерывным вправо, со счетным (возможно, бесконечным) числом прыжков, статистика теста KS может быть выражена как:

Из правой непрерывности , следует, что и а значит, распределение зависит от нулевого распределения , т.е. больше не является свободным от распределения, как в непрерывном случае. Поэтому был разработан быстрый и точный метод вычисления точного и асимптотического распределения когда чисто дискретный или смешанный [8], реализованный на C ++ и в пакете KSgeneral [9] из R язык. Функции disc_ks_test (), mixed_ks_test () и cont_ks_test () вычислить также статистику теста KS и p-значения для чисто дискретных, смешанных или непрерывных нулевых распределений и произвольных размеров выборки. Тест KS и его p-значения для дискретных нулевых распределений и малых размеров выборки также вычисляются в [12] как часть пакета dgof языка R. Основные статистические пакеты, среди которых SAS PROC NPAR1WAY [13], Stata Ксмирнов [14] реализовать тест KS в предположении, что непрерывно, что является более консервативным, если нулевое распределение на самом деле не является непрерывным (см. [15] [16] [17]).

Двухвыборочный критерий Колмогорова – Смирнова.

Иллюстрация двухвыборочной статистики Колмогорова – Смирнова. Каждая красная и синяя линии соответствуют эмпирической функции распределения, а черная стрелка - статистике KS для двух выборок.

Тест Колмогорова – Смирнова также может использоваться для проверки того, различаются ли два лежащих в основе одномерных распределения вероятностей. В этом случае статистика Колмогорова – Смирнова равна

куда и являются эмпирические функции распределения первого и второго образца соответственно, и это функция супремума.

Для больших выборок нулевая гипотеза отклоняется на уровне если

Где и - размеры первой и второй выборки соответственно. Значение приведена в таблице ниже для наиболее распространенных уровней

0.200.150.100.050.0250.010.0050.001
1.0731.1381.2241.3581.481.6281.7311.949

и вообще[18] к

так что условие читается

Здесь, опять же, чем больше размер выборки, тем более чувствительна минимальная граница: для данного соотношения размеров выборки (например, ) минимальная граница масштабируется в размере любого из образцов в соответствии с его обратным квадратным корнем.

Обратите внимание, что тест с двумя выборками проверяет, происходят ли две выборки данных из одного и того же распределения. Это не указывает, что это за общее распределение (например, нормальное оно или ненормальное). Опять же, были опубликованы таблицы критических значений. Недостатком теста Колмогорова – Смирнова является то, что он не очень мощный, поскольку разработан так, чтобы быть чувствительным ко всем возможным типам различий между двумя функциями распределения. Некоторые спорят[19][20] что Тест Куккони, первоначально предложенный для одновременного сравнения местоположения и масштаба, может быть намного более мощным, чем тест Колмогорова – Смирнова при сравнении двух функций распределения.

Установка доверительных интервалов для формы функции распределения

В то время как тест Колмогорова – Смирнова обычно используется для проверки того, F(Икс) является основным распределением вероятностей Fп(Икс), процедура может быть инвертирована для получения доверительных интервалов F(Икс) сам. Если выбрать критическое значение тестовой статистики Dα такое, что P (Dп > Dα) = α, то полоса шириной ±Dα вокруг Fп(Икс) будет полностью содержать F(Икс) с вероятностью 1 -α.

Статистика Колмогорова – Смирнова более чем в одном измерении

Не имеющий распределения многомерный критерий согласия Колмогорова – Смирнова был предложен Justel, Peña and Zamar (1997).[21] В тесте используется статистика, построенная с использованием преобразования Розенблатта, и разработан алгоритм для ее вычисления в двумерном случае. Также представлен примерный тест, который можно легко вычислить в любом измерении.

Статистические данные критерия Колмогорова – Смирнова необходимо изменить, если аналогичный критерий будет применяться к многомерные данные. Это непросто, потому что максимальная разница между двумя суставами кумулятивные функции распределения обычно не то же самое, что максимальная разность любой из дополнительных функций распределения. Таким образом, максимальная разница будет зависеть от того, какой из или же или используется любое из двух других возможных расположений. Можно потребовать, чтобы результат используемого теста не зависел от того, какой выбор сделан.

Один из подходов к обобщению статистики Колмогорова – Смирнова на более высокие измерения, который отвечает вышеупомянутой проблеме, состоит в том, чтобы сравнить cdfs двух выборок со всеми возможными порядками и взять наибольшее значение из набора результирующих статистик K – S. В d габаритов всего 2d−1 таких порядков. Одна из таких вариаций принадлежит Павлину.[22] (см. также Gosset[23] для 3D-версии) и еще один - Фазано и Франческини[24] (см. сравнение и подробности расчетов у Лопеса и др.).[25] Критические значения для статистики теста могут быть получены путем моделирования, но они зависят от структуры зависимости в совместном распределении.

В одном измерении статистика Колмогорова-Смирнова идентична так называемому звездному расхождению D, поэтому еще одно собственное расширение KS для более высоких измерений было бы просто использовать D также для более высоких измерений. К сожалению, звездное расхождение трудно рассчитать в больших размерах.

Реализации

Тест Колмогорова-Смирнова (один или два выборочных теста проверяют равенство распределений) реализован во многих программах:

  • Mathematica имеет КолмогоровСмирновТест
  • MATLAB имеет kstest в его панели инструментов статистики.
  • В р пакет "KSgeneral"[9] вычисляет статистику теста KS и его p-значения при произвольном, возможно дискретном, смешанном или непрерывном нулевом распределении.
  • р базовый пакет статистики реализует тест как ks.test {stats} в его пакете "stats".
  • SAS реализует тест в своей процедуре PROC NPAR1WAY.
  • Python есть реализация этого теста, предоставленная SciPy[26] статистическими функциями (scipy.stats)
  • СИСТАТ (SPSS Inc., Чикаго, Иллинойс)
  • Ява есть реализация этого теста, предоставленная Apache Commons[27]
  • KNIME имеет узел, реализующий этот тест на основе указанной выше реализации Java[28]
  • StatsDirect (StatsDirect Ltd, Манчестер, Великобритания) реализует все распространенные варианты.
  • Stata (Stata Corporation, College Station, TX) реализует тест в команде ksmirnov (тест равенства распределений Колмогорова – Смирнова). [29]
  • PSPP реализует тест в своем КОЛМОГОРОВ-СМИРНОВ (или с помощью ярлыка K-S функция.
  • Excel запускает тест как KSCRIT и KSPROB [30]

Смотрите также

Рекомендации

  1. ^ Стивенс, М.А. (1974). «Статистика соответствия EDF и некоторые сравнения». Журнал Американской статистической ассоциации. 69 (347): 730–737. Дои:10.2307/2286009. JSTOR  2286009.
  2. ^ Marsaglia G, Цанг WW, Ван Дж (2003). «Оценка распределения Колмогорова». Журнал статистического программного обеспечения. 8 (18): 1–4. Дои:10.18637 / jss.v008.i18.
  3. ^ а б Колмогоров А (1933). "Sulla Definition empirica di una legge di distribuzione". G. Ist. Ital. Аттуари. 4: 83–91.
  4. ^ Смирнов Н. (1948). «Таблица для оценки согласия эмпирических распределений». Анналы математической статистики. 19 (2): 279–281. Дои:10.1214 / aoms / 1177730256.
  5. ^ Врбик, янв (2018). "Поправки по малой выборке к статистике критерия Колмогорова – Смирнова". Пионерский журнал теоретической и прикладной статистики. 15 (1–2): 15–23.
  6. ^ а б Simard R, L'Ecuyer P (2011). «Вычисление двустороннего распределения Колмогорова – Смирнова». Журнал статистического программного обеспечения. 39 (11): 1–18. Дои:10.18637 / jss.v039.i11.
  7. ^ Москович А, Надлер Б (2017). «Быстрый расчет вероятностей пересечения границ для пуассоновских процессов». Статистика и вероятностные письма. 123: 177–182. arXiv:1503.04363. Дои:10.1016 / j.spl.2016.11.027.
  8. ^ а б c Димитрова Д.С., Кайшев В.К., Тан С (2019). «Вычисление распределения Колмогорова – Смирнова, когда базовый cdf является чисто дискретным, смешанным или непрерывным». Журнал статистического программного обеспечения. предстоящий.
  9. ^ а б c Димитрова, Димитрина; Кайшев Владимир; Тан, Сенрен. «KSgeneral: вычисление P-значений теста K-S для (Dis) непрерывного распределения нулей». cran.r-project.org/web/packages/KSgeneral/index.html.
  10. ^ Пирсон, Э. С .; Хартли, Х. О., ред. (1972). Таблицы биометрики для статистиков. 2. Издательство Кембриджского университета. С. 117–123, таблицы 54, 55. ISBN  978-0-521-06937-3.
  11. ^ Shorack, Galen R .; Веллнер, Джон А. (1986). Эмпирические процессы с приложениями к статистике. Вайли. п. 239. ISBN  978-0471867258.
  12. ^ Арнольд, Тейлор Б.; Эмерсон, Джон В. (2011). «Непараметрические критерии согласия для дискретных нулевых распределений» (PDF). Журнал R. 3 (2): 34 [Тире] 39. Дои:10.32614 / rj-2011-016.
  13. ^ «Руководство пользователя SAS / STAT (R) 14.1». support.sas.com. Получено 14 апреля 2018.
  14. ^ «критерий равенства распределений ксмирнова - Колмогорова – Смирнова» (PDF). stata.com. Получено 14 апреля 2018.
  15. ^ Нётер Г.Е. (1963). «Заметка о статистике Колмогорова в дискретном случае». Метрика. 7 (1): 115–116. Дои:10.1007 / bf02613966.
  16. ^ Слактер MJ (1965). "Сравнение критериев согласия Пирсона и критерия согласия Колмогорова на предмет достоверности". Журнал Американской статистической ассоциации. 60 (311): 854–858. Дои:10.2307/2283251. JSTOR  2283251.
  17. ^ Уолш Дж. Э. (1963). «Ограниченные вероятностные свойства Колмогорова – Смирнова и аналогичные статистики для дискретных данных». Летопись Института статистической математики. 15 (1): 153–158. Дои:10.1007 / bf02865912.
  18. ^ Уравнение (15) в разделе 3.3.1 книги Knuth, D.E., The Art of Computer Programming, Volume 2 (Seminumerical Algorithms), 3rd Edition, Addison Wesley, Reading Mass, 1998.
  19. ^ Мароцци, Марко (2009). «Некоторые замечания по тесту Куккони по шкале местоположения». Журнал непараметрической статистики. 21 (5): 629–647. Дои:10.1080/10485250902952435.
  20. ^ Мароцци, Марко (2013). «Непараметрические одновременные тесты для определения местоположения и масштабирования: сравнение нескольких методов». Коммуникации в статистике - моделирование и вычисления. 42 (6): 1298–1317. Дои:10.1080/03610918.2012.665546.
  21. ^ Justel, A .; Peña, D .; Замар Р. (1997). «Многомерный критерий согласия Колмогорова – Смирнова». Письма о статистике и вероятности. 35 (3): 251–259. CiteSeerX  10.1.1.498.7631. Дои:10.1016 / S0167-7152 (97) 00020-5.
  22. ^ Пикок Дж. А. (1983). «Двумерная проверка согласия в астрономии». Ежемесячные уведомления Королевского астрономического общества. 202 (3): 615–627. Bibcode:1983МНРАС.202..615П. Дои:10.1093 / минрас / 202.3.615.
  23. ^ Госсет Э. (1987). «Трехмерный расширенный тест Колмогорова-Смирнова как полезный инструмент в астрономии}». Астрономия и астрофизика. 188 (1): 258–264. Bibcode:1987 A&A ... 188..258G.
  24. ^ Фазано, Г., Франческини, А. (1987). «Многомерный вариант теста Колмогорова – Смирнова». Ежемесячные уведомления Королевского астрономического общества. 225: 155–170. Bibcode:1987МНРАС.225..155Ф. Дои:10.1093 / mnras / 225.1.155. ISSN  0035-8711.CS1 maint: использует параметр авторов (связь)
  25. ^ Lopes, R.H.C., Reid, I., Hobson, P.R. (23–27 апреля 2007 г.). Двумерный тест Колмогорова – Смирнова. (PDF). XI Международный семинар по передовым вычислительным и аналитическим методам в физических исследованиях. Амстердам, Нидерланды.CS1 maint: использует параметр авторов (связь)
  26. ^ "scipy.stats.kstest". SciPy SciPy v0.14.0 Справочное руководство. Сообщество Scipy. Получено 18 июн 2019.
  27. ^ «КолмогоровСмирновТес». Получено 18 июн 2019.
  28. ^ «Новые узлы статистики». Получено 25 июн 2020.
  29. ^ "критерий равенства распределений ксмирнова - Колмогорова - Смирнова" (PDF). Получено 18 июн 2019.
  30. ^ «Тест Колмогорова-Смирнова для проверки гипотезы нормальности». Получено 18 июн 2019.

дальнейшее чтение

  • Дэниел, Уэйн В. (1990). «Одновыборочная проба Колмогорова – Смирнова». Прикладная непараметрическая статистика (2-е изд.). Бостон: PWS-Kent. С. 319–330. ISBN  978-0-534-91976-4.
  • Eadie, W.T .; Д. Дрижард; Ф.Э. Джеймс; М. Роос; Б. Садуле (1971). Статистические методы экспериментальной физики. Амстердам: Северная Голландия. С. 269–271. ISBN  978-0-444-10117-4.
  • Стюарт, Алан; Орд, Кейт; Арнольд, Стивен [Ф.] (1999). Классический вывод и линейная модель. Продвинутая теория статистики Кендалла. (Шестое изд.). Лондон: Арнольд. С. 25.37–25.43. ISBN  978-0-340-66230-4. МИСТЕР  1687411.
  • Corder, G.W .; Форман Д. И. (2014). Непараметрическая статистика: пошаговый подход. Вайли. ISBN  978-1118840313.
  • Стивенс М.А. (1979). «Проверка соответствия логистического распределения на основе эмпирической функции распределения». Биометрика. 66 (3): 591–595. Дои:10.1093 / biomet / 66.3.591.

внешняя ссылка