Winsorizing - Winsorizing

Winsorizing или же победа трансформация статистика ограничивая крайние значения в статистических данных, чтобы уменьшить влияние возможных ложных выбросы. Он назван в честь инженера-биостатиста. Чарльз П. Винзор (1895–1951). Эффект такой же, как вырезка в обработке сигналов.

На распределение многих статистических данных могут сильно влиять выбросы. Типичная стратегия - установить для всех выбросов заданное значение. процентиль данных; например, при 90% -ном выигрыше все данные ниже 5-го процентиля будут установлены как 5-й процентиль, а данные выше 95-го процентиля будут установлены как 95-й процентиль. оценщики обычно больше крепкий к выбросам, чем их более стандартные формы, хотя есть альтернативы, такие как обрезка, что даст аналогичный эффект.

Пример

Рассмотрим набор данных, состоящий из:

{92, 19, 101, 58, 1053, 91, 26, 78, 10, 13, −40, 101, 86, 85, 15, 89, 89, 28, −5, 41} (N = 20, среднее = 101,5)

Данные ниже 5-го процентиля лежат между -40 и -5, тогда как данные выше 95-го процентиля находятся между 101 и 1053. (Значения выделены жирным шрифтом). Тогда 90% победа приведет к следующему:

{92, 19, 101, 58, 101, 91, 26, 78, 10, 13, −5, 101, 86, 85, 15, 89, 89, 28, −5, 41} (N = 20, среднее значение = 55,65)

Python может выиграть данные, используя SciPy библиотека:

из scipy.stats.mstats импорт побеждатьпобеждать([92, 19, 101, 58, 1053, 91, 26, 78, 10, 13, -40, 101, 86, 85, 15, 89, 89, 28, -5, 41], пределы=[0.05, 0.05])

р может победить данные с помощью пакета DescTools:

библиотека(DescTools)а<-c(92, 19, 101, 58, 1053, 91, 26, 78, 10, 13, -40, 101, 86, 85, 15, 89, 89, 28, -5, 41)DescTools::Winsorize(а, проблемы = c(0.05, 0.95))

Отличие от обрезки

Обратите внимание, что победа не эквивалентна простому исключению данных, что является более простой процедурой, называемой обрезка или же усечение, но это метод цензура данные.

В усеченной оценке экстремальные значения равны отброшен; в победившей оценке экстремальные значения вместо этого заменены по определенным процентилям (усеченный минимум и максимум).

Таким образом выигрышное среднее это не то же самое, что усеченное среднее Например, усеченное 10% среднее - это среднее значение от 5-го до 95-го процентиля данных, в то время как среднее 90% -ное усеченное значение устанавливает нижние 5% в 5-й перцентиль, верхние 5% - в 95-й перцентиль, а затем усредняет данные. В предыдущем примере усеченное среднее значение будет получено из меньшего набора:

{92, 19, 101, 58,       91, 26, 78, 10, 13,       101, 86, 85, 15, 89, 89, 28, −5, 41} (N = 18, среднее = 56,5)

В этом случае выигрышное среднее может быть эквивалентно выражено как средневзвешенное усеченного среднего и 5-го и 95-го процентилей (для 10% -го выигрышного среднего, 0,05-кратного 5-го процентиля, 0,9-кратного 10-процентного усеченного среднего и 0,05-кратного 95-го процентиля), хотя в целом выигранная статистика не должна быть выражена в терминах соответствующей усеченной статистики.

Более формально они различны, потому что статистика заказов не являются независимыми.

Смотрите также

Рекомендации

  • Гастингс-младший, Сесил; Мостеллер, Фредерик; Тьюки, Джон В .; Уинзор, Чарльз П. (1947). «Низкие моменты для небольших выборок: сравнительное исследование статистики заказов». Анналы математической статистики. 18 (3): 413–426. Дои:10.1214 / aoms / 1177730388.
  • Диксон, У. Дж. (1960). «Упрощенная оценка по цензуре нормальных выборок». Анналы математической статистики. 31 (2): 385–391. Дои:10.1214 / aoms / 1177705900.
  • Тьюки, Дж. У. (1962). «Будущее анализа данных». Анналы математической статистики. 33 (1): 1–67 [стр. 18]. Дои:10.1214 / aoms / 1177704711. JSTOR  2237638.

внешняя ссылка