Непараметрическая статистика - Nonparametric statistics
Непараметрическая статистика это филиал статистика это не основано исключительно на параметризованный семьи распределения вероятностей (типичными примерами параметров являются среднее значение и дисперсия). Непараметрическая статистика основана либо на отсутствии распределения, либо на наличии определенного распределения, но с неопределенными параметрами распределения. Непараметрическая статистика включает как описательная статистика и статистические выводы. Непараметрические тесты часто используются, когда предположения параметрических тестов нарушаются.[1]
Определения
Термин «непараметрическая статистика» был неточно определен следующими двумя способами, среди прочего.
- Первое значение непараметрический охватывает методы, которые не полагаются на данные, принадлежащие какому-либо конкретному параметрическому семейству вероятностных распределений.
К ним, среди прочего, относятся:
- распространение бесплатно методы, которые не полагаются на предположения, что данные взяты из заданного параметрического семейства распределения вероятностей. По сути, это противоположность параметрическая статистика.
- непараметрическая статистика (а статистика определяется как функция образца; нет зависимости от параметр ).
Статистика заказов, которые основаны на разряды наблюдений, является одним из примеров такой статистики.
Следующее обсуждение взято из Кендалла.[2]
Статистические гипотезы касаются поведения наблюдаемых случайных величин .... Например, гипотеза (а) о том, что нормальное распределение имеет заданное среднее значение, а дисперсия является статистической; такова гипотеза (б) о том, что оно имеет заданное среднее значение, но неопределенную дисперсию; такова гипотеза (c) о том, что распределение имеет нормальную форму с неопределенными средним и дисперсией; наконец, такова гипотеза (d) о том, что два неопределенных непрерывных распределения идентичны.
Следует заметить, что в примерах (а) и (b) распределение, лежащее в основе наблюдений, было принято как имеющее определенную форму (нормальную), и гипотеза полностью касалась значения одного или обоих его параметров. Такая гипотеза по понятным причинам называется параметрический.
Гипотеза (c) имела иную природу, так как в формулировке гипотезы не указаны значения параметров; мы можем с полным основанием назвать такую гипотезу непараметрический. Гипотеза (d) также непараметрическая, но, кроме того, она даже не определяет основную форму распределения и теперь может быть обоснованно названа без распространения. Несмотря на эти различия, в статистической литературе в настоящее время обычно используется ярлык «непараметрические» для процедур тестирования, которые мы только что назвали «нераспределенными», тем самым теряя полезную классификацию.
- Второе значение непараметрический охватывает методы, которые не предполагают, что структура модели фиксируется. Как правило, размер модели увеличивается с учетом сложности данных. В этих методах отдельные переменные находятся обычно предполагается, что они принадлежат параметрическим распределениям, и также делаются предположения о типах связей между переменными. Эти методы включают, среди прочего:
- непараметрическая регрессия, которое является моделированием, при котором структура взаимосвязи между переменными обрабатывается непараметрически, но, тем не менее, могут существовать параметрические предположения о распределении остатков модели.
- непараметрические иерархические байесовские модели, например, модели на основе Процесс Дирихле, которые позволяют количество скрытые переменные расти по мере необходимости, чтобы соответствовать данным, но где отдельные переменные по-прежнему следуют параметрическим распределениям, и даже процесс, контролирующий скорость роста скрытых переменных, следует параметрическому распределению.
Приложения и цель
Непараметрические методы широко используются для изучения популяций, которые занимают ранжированный порядок (например, обзоры фильмов, получившие от одной до четырех звезд). Использование непараметрических методов может быть необходимо, когда данные имеют рейтинг но не ясно числовой интерпретация, например, при оценке предпочтения. С точки зрения уровни измерения, непараметрические методы приводят к порядковые данные.
Поскольку непараметрические методы делают меньше предположений, их применимость намного шире, чем у соответствующих параметрических методов. В частности, они могут применяться в ситуациях, когда о рассматриваемом приложении известно меньше. Кроме того, из-за использования меньшего количества предположений непараметрические методы более эффективны. крепкий.
Еще одно оправдание использования непараметрических методов - простота. В некоторых случаях, даже когда использование параметрических методов оправдано, непараметрические методы могут быть проще в использовании. Как из-за этой простоты, так и из-за их большей надежности, непараметрические методы рассматриваются некоторыми статистиками как оставляющие меньше места для неправильного использования и недопонимания.
Более широкая применимость и увеличенная надежность непараметрических тестов обходится дорого: в случаях, когда параметрический тест был бы уместен, непараметрические тесты имеют меньше мощность. Другими словами, может потребоваться больший размер выборки, чтобы делать выводы с той же степенью уверенности.
Непараметрические модели
Непараметрические модели отличаться от параметрический модели в которых структура модели не указана априори но вместо этого определяется на основе данных. Период, термин непараметрический это не означает, что в таких моделях полностью отсутствуют параметры, но что количество и характер параметров являются гибкими и не фиксируются заранее.
- А гистограмма представляет собой простую непараметрическую оценку распределения вероятностей.
- Оценка плотности ядра дает лучшие оценки плотности, чем гистограммы.
- Непараметрическая регрессия и полупараметрическая регрессия методы были разработаны на основе ядра, шлицы, и вейвлеты.
- Анализ охвата данных обеспечивает коэффициенты эффективности, аналогичные полученным многомерный анализ без каких-либо предположений о распределении.
- KNNs классифицируйте невидимый экземпляр на основе ближайших к нему K точек обучающего набора.
- А Машина опорных векторов (с гауссовым ядром) - непараметрический классификатор с большим запасом.
- Метод моментов (статистика) с полиномиальными вероятностными распределениями.
Методы
Непараметрический (или же без распространения) логические статистические методы математические процедуры для проверки статистических гипотез, которые, в отличие от параметрическая статистика, не делайте предположений о распределения вероятностей оцениваемых переменных. Наиболее часто используемые тесты включают
- Анализ сходства
- Тест Андерсона – Дарлинга: проверяет, взят ли образец из заданного распределения
- Статистические методы начальной загрузки: оценивает точность / выборочное распределение статистики.
- Кокрана Q: проверяет, есть ли k лечение в рандомизированных блок-схемах с исходами 0/1 имеет идентичный эффект
- Каппа Коэна: измеряет согласованность между экспертами по категориям
- Двусторонний дисперсионный анализ Фридмана по рангам: проверяет, k лечение в рандомизированных блочных схемах имеет идентичный эффект
- Каплан-Мейер: оценивает функцию выживания на основе данных о продолжительности жизни, моделируя цензуру
- Тау Кендалла: измеряет статистическую зависимость между двумя переменными
- Кендаллс W: показатель согласия между экспертами от 0 до 1
- Тест Колмогорова – Смирнова: проверяет, взята ли выборка из данного распределения, или две выборки взяты из одного и того же распределения
- Односторонний дисперсионный анализ Краскала – Уоллиса по рангам: проверяет, взяты ли более 2 независимых выборок из одного распределения
- Тест Койпера: проверяет, взята ли выборка из данного распределения, чувствительна к циклическим изменениям, таким как день недели.
- Логранк тест: сравнивает распределения выживаемости двух скошенных вправо, цензурированных выборок
- Манн – Уитни Ю или критерий суммы рангов Вилкоксона: проверяет, взяты ли две выборки из одного и того же распределения по сравнению с заданной альтернативной гипотезой.
- Тест Макнемара: проверяет, равны ли в таблицах сопряженности 2 × 2 с дихотомическим признаком и совпадающими парами субъектов граничные частоты строк и столбцов
- Медианный тест: проверяет, взяты ли две выборки из распределений с равными медианами
- Перестановочный тест Питмана: тест статистической значимости, который дает точные п значения, изучив все возможные перестановки меток
- Рейтинг продуктов: обнаруживает дифференциально экспрессируемые гены в повторных экспериментах на микрочипах
- Тест Зигеля – Тьюки: тесты на разницу в шкале между двумя группами
- Знаковый тест: проверяет, взяты ли подходящие пары выборки из распределений с равными медианами
- Коэффициент ранговой корреляции Спирмена: измеряет статистическую зависимость между двумя переменными с помощью монотонной функции
- Тест на квадратные ранги: проверяет равенство дисперсий в двух или более выборках
- Тест Тьюки – Дакворта: проверяет равенство двух распределений с помощью рангов
- Вальд – Вулфовиц проводит тест: проверяет, являются ли элементы последовательности взаимно независимыми / случайными
- Знаковый ранговый тест Вилкоксона: проверяет, взяты ли подходящие парные выборки из популяций с разными средними рангами
История
Ранняя непараметрическая статистика включает медиана (13 век или ранее, по оценке Эдвард Райт, 1599; видеть Медиана § История ) и знаковый тест к Джон Арбетнот (1710) при анализе соотношение полов человека при рождении (см. Знаковый тест § История ).[3][4]
Смотрите также
- Непараметрический доверительный интервал на основе CDF
- Параметрическая статистика
- Ресэмплинг (статистика)
- Полупараметрическая модель
Примечания
- ^ Пирс, Дж; Деррик, Б. (2019). «Предварительное тестирование: черт статистики?». Новое изобретение: международный журнал исследований студентов. 12 (2). Дои:10.31273 / reinvention.v12i2.339.
- ^ Стюарт А., Орд Дж. К., Арнольд С. (1999), Продвинутая теория статистики Кендалла: Том 2A - Классический вывод и линейная модель, шестое издание, §20.2–20.3 (Арнольд ).
- ^ Коновер, У.Дж. (1999), "Глава 3.4: Знаковый тест", Практическая непараметрическая статистика (Третье изд.), Wiley, стр. 157–176, ISBN 0-471-16068-7
- ^ Спрент, П. (1989), Прикладные методы непараметрической статистики (Второе изд.), Chapman & Hall, ISBN 0-412-44980-3
Общие ссылки
- Багдонавичюс В., Круопис Дж., Никулин М.С. (2011). «Непараметрические тесты для полных данных», ISTE & WILEY: London & Hoboken. ISBN 978-1-84821-269-5.
- Corder, G.W .; Форман Д. И. (2014). Непараметрическая статистика: пошаговый подход. Вайли. ISBN 978-1118840313.
- Гиббонс, Джин Дикинсон; Чакраборти, Субхабрата (2003). Непараметрический статистический вывод, 4-е изд. CRC Press. ISBN 0-8247-4052-1.
- Hettmansperger, T. P .; Маккин, Дж. У. (1998). Надежные непараметрические статистические методы. Библиотека статистики Кендалла. 5 (Первое изд.). Лондон: Эдвард Арнольд. Нью-Йорк: Джон Вили и сыновья. ISBN 0-340-54937-8. МИСТЕР 1604954. также ISBN 0-471-19479-4.
- Холландер М., Вулф Д.А., Цыпленок Э. (2014). Непараметрические статистические методы, Джон Уайли и сыновья.
- Шескин, Дэвид Дж. (2003) Справочник по параметрическим и непараметрическим статистическим процедурам. CRC Press. ISBN 1-58488-440-1
- Вассерман, Ларри (2007). Вся непараметрическая статистика, Springer. ISBN 0-387-25145-6.