Непараметрический доверительный интервал на основе CDF - CDF-based nonparametric confidence interval

В статистика, кумулятивная функция распределения Непараметрические доверительные интервалы на основе (CDF) являются общим классом доверительные интервалы вокруг статистические функционалы распределения. Все, что требуется для вычисления этих доверительных интервалов, - этонезависимо и одинаково распределены (iid) образец из распределения и известные границы поддержки распределения. Последнее требование просто означает, что вся ненулевая вероятностная масса распределения должна содержаться в некотором известном интервале. .

Интуиция

Интуиция, лежащая в основе подхода на основе CDF, заключается в том, что границы CDF распределения могут быть преобразованы в границы статистических функционалов этого распределения. Учитывая верхнюю и нижнюю границы CDF, подход включает поиск функций CDF в пределах, которые максимизируют и минимизируют интересующий статистический функционал.

Свойства границ

В отличие от подходов, которые делают асимптотические предположения, в том числе бутстрап подходы и те, кто полагается на Центральная предельная теорема, Границы на основе CDF действительны для конечных размеров выборки. И в отличие от оценок, основанных на неравенствах, таких как Хёффдинга и McDiarmid's Неравенства, границы на основе CDF используют свойства всей выборки и, таким образом, часто дают значительно более жесткие границы.

Границы CDF

При определении границ CDF мы должны различать поточечные и одновременные полосы.

Иллюстрация различных границ CDF. Это показывает границы CDF, созданные из случайной выборки из 30 точек. Фиолетовая линия - это одновременные границы DKW, которые охватывают всю CDF с уровнем достоверности 95%. Оранжевые линии показывают точечные границы Клоппера-Пирсона, которые гарантируют только отдельные точки с уровнем достоверности 95% и, таким образом, обеспечивают более жесткую границу.

Точечная полоса

Точечная граница CDF - это такая граница, которая гарантирует только их Вероятность покрытия из процентов по любой отдельной точке эмпирического CDF. Из-за ослабленных гарантий эти интервалы могут быть намного меньше.

Один из методов их создания основан на биномиальном распределении. Рассмотрение единственной точки CDF ценности , то эмпирическое распределение в этой точке будет распределено пропорционально биномиальному распределению с и установить равным количеству выборок в эмпирическом распределении. Таким образом, любой из доступных методов генерации Доверительный интервал биномиальной пропорции также может использоваться для создания привязки CDF.

Синхронный диапазон

Доверительные интервалы на основе CDF требуют вероятностной границы для CDF распределения, из которого была создана выборка. Существует множество методов для генерации доверительных интервалов для CDF распределения, , учитывая i.i.d. образец взят из раздачи. Все эти методы основаны на эмпирическая функция распределения (эмпирический CDF). Учитывая i.i.d. образец размерап, , эмпирический CDF определяется как

куда является индикатором события А. Неравенство Дворецкого – Кифера – Вулфовица.,[1] чья точная постоянная была определена Массаром,[2] помещает доверительный интервал вокруг Статистика Колмогорова – Смирнова между CDF и эмпирическим CDF. Учитывая i.i.d. образец размерап из , связанные состояния

Это можно рассматривать как доверительный интервал, который проходит параллельно эмпирической CDF и находится в равной степени выше и ниже нее.

Иллюстрация оценки эмпирической CDF, полученной с помощью неравенства Дворецкого – Кифера – Вулфовица. Обозначение указывает на статистика заказов.

Равномерно распределенный доверительный интервал вокруг эмпирического CDF допускает разную частоту нарушений в рамках поддержки распределения. В частности, CDF чаще оказывается вне границы CDF, оцененной с использованием неравенства Дворецкого – Кифера – Вулфовица, вблизи среднего значения распределения, чем вблизи конечных точек распределения. Напротив, оценка, основанная на статистике порядка, введенная Лирнед-Миллером и ДеСтефано[3] допускает равный уровень нарушений по всей статистике заказа. Это, в свою очередь, приводит к тому, что граница становится более плотной около концов опоры распределения и более рыхлой в середине опоры. Другие типы границ могут быть сгенерированы путем изменения скорости нарушения статистики порядка. Например, если желательна более жесткая граница распределения в верхней части опоры, может быть допущена более высокая степень нарушения в верхней части опоры за счет более низкой скорости нарушения и, следовательно, более свободной граница, для нижней части опоры.

Непараметрическая оценка среднего

Без ограничения общности предположим, что носитель распределения содержится в Учитывая конверт уверенности для CDF легко получить соответствующий доверительный интервал для среднего значения . Это можно показать[4] что CDF, который максимизирует среднее значение, - это тот, который проходит по нижнему диапазону уверенности, , а функция CDF, которая минимизирует среднее значение, - это функция, которая проходит по верхней оболочке, . Используя личность

доверительный интервал для среднего может быть вычислен как

Непараметрическая оценка дисперсии

Без ограничения общности предположим, что поддержка распределения процентов, , содержится в . Учитывая конверт уверенности для , это можно показать[5] что функция CDF внутри конверта, которая минимизирует дисперсию, начинается с нижней огибающей, имеет скачкообразный переход к верхней огибающей и затем продолжается вдоль верхней огибающей. Кроме того, можно показать, что эта функция CDF, минимизирующая дисперсию, F ', должна удовлетворять ограничению, согласно которому скачок скачка возникает при . CDF, увеличивающий дисперсию, начинается с верхнего конверта, горизонтально переходит к нижнему конверту, а затем продолжается вдоль нижнего конверта. Явные алгоритмы для вычисления этих максимизирующих дисперсию и минимизирующих CDF даны Романо и Вольфом.[5]

Оценки других статистических функционалов

Структура на основе CDF для генерации доверительных интервалов является очень общей и может применяться к множеству других статистических функционалов, включая

Смотрите также

Рекомендации

  1. ^ А., Дворецкий; Kiefer, J .; Вулфовиц, Дж. (1956). «Асимптотический минимаксный характер выборочной функции распределения и классической полиномиальной оценки». Анналы математической статистики. 27 (3): 642–669. Дои:10.1214 / aoms / 1177728174.
  2. ^ Массарт, П. (1990). «Точная постоянная в неравенстве Дворецкого – Кифера – Вулфовица». Анналы вероятности. 18 (3): 1269–1283. Дои:10.1214 / aop / 1176990746.
  3. ^ а б Learned-Miller, E .; ДеСтефано, Дж. (2008). «Вероятностная оценка сверху дифференциальной энтропии». IEEE Transactions по теории информации. 54 (11): 5223–5230. arXiv:cs / 0504091. Дои:10.1109 / tit.2008.929937.
  4. ^ Андерсон, Т. (1969). «Пределы уверенности для значения произвольной ограниченной случайной величины с непрерывной функцией распределения». Вестник Международного статистического института. 43: 249–251.
  5. ^ а б Romano, J.P .; М., Вольф (2002). «Явные непараметрические доверительные интервалы для дисперсии с гарантированным покрытием». Коммуникации в статистике - теория и методы. 31 (8): 1231–1250. CiteSeerX  10.1.1.202.3170. Дои:10.1081 / sta-120006065.
  6. ^ VanderKraats, N.D .; Банерджи, А. (2011). "Конечная выборка, без распределения, вероятностная нижняя граница взаимной информации". Нейронные вычисления. 23 (7): 1862–1898. Дои:10.1162 / neco_a_00144. PMID  21492010.