Полнота (статистика) - Completeness (statistics)

В статистика, полнота является собственностью статистика по отношению к модели для набора наблюдаемых данных. По сути, это гарантирует, что распределения, соответствующие разным значениям параметров, различны.

Это тесно связано с идеей идентифицируемость, но в статистическая теория это часто встречается как условие, наложенное на достаточная статистика из которых выводятся определенные результаты оптимальности.

Определение

Рассмотрим случайная переменная Икс распределение вероятностей которого принадлежит параметрическая модель п_θ параметризованныйθ.

Сказать Т является статистика; то есть состав измеримая функция со случайной выборкой Икс₁,...,Икс_п.

Статистика Т как говорят полный для распределения Икс если для каждой измеримой функции г,:^[1]

${ displaystyle { text {if}} operatorname {E} _ { theta} (g (T)) = 0 { text {для всех}} theta { text {then}} mathbf {P} _ { theta} (g (T) = 0) = 1 { text {для всех}} theta.}$

Статистика Т как говорят ограниченно полный для распределения Икс если эта импликация верна для любой измеримой функции грамм это тоже ограничено.

Пример 1: модель Бернулли

Модель Бернулли допускает полную статистику.^[2] Позволять Икс быть случайный пример размера п так что каждый Икс_я имеет то же самое Распределение Бернулли с параметром п. Позволять Т быть количеством единиц, наблюдаемых в образце. Т это статистика Икс который имеет биномиальное распределение с параметрами (п,п). Если пространство параметров для п равно (0,1), то Т это полная статистика. Чтобы увидеть это, обратите внимание, что

{ displaystyle operatorname {E} _ {p} (g (T)) = sum _ {t = 0} ^ {n} {g (t) {n choose t} p ^ {t} (1- p) ^ {nt}} = (1-p) ^ {n} sum _ {t = 0} ^ {n} {g (t) {n choose t} left ({ frac {p} { 1-p}} right) ^ {t}}.}

Отметим также, что ни п ни 1 -п может быть 0. Следовательно ${ displaystyle E_ {p} (g (T)) = 0}$ если и только если:

{ displaystyle sum _ {t = 0} ^ {n} g (t) {n choose t} left ({ frac {p} {1-p}} right) ^ {t} = 0. }

Об обозначении п/(1 − п) к р, получается:

{ displaystyle sum _ {t = 0} ^ {n} g (t) {n choose t} r ^ {t} = 0.}

Во-первых, обратите внимание, что диапазон р это положительные реалы. Также E (грамм(Т)) это многочлен в р и, следовательно, может быть идентичным 0, только если все коэффициенты равны 0, то есть грамм(т) = 0 для всехт.

Важно отметить, что результат, что все коэффициенты должны быть равны 0, был получен из-за диапазона значений р. Если бы пространство параметров было конечным и с числом элементов меньше или равным п, можно было бы решить линейные уравнения в грамм(т), полученные подстановкой значений р и получите решения отличные от 0. Например, если п = 1, а пространство параметров - {0,5}, одно наблюдение и одно значение параметра, Т не полный. Обратите внимание на это с определением:

{ Displaystyle г (т) = 2 (т-0,5), ,}

тогда E (грамм(Т)) = 0 хотя грамм(т) не 0 для т = 0 ни для т = 1.

Отношение к достаточной статистике

Для некоторых параметрических семейств полный достаточная статистика не существует (например, см. Galili and Meilijson 2016 ^[3]). Также минимально достаточный статистика не обязательна. (Случай, когда нет минимально достаточной статистики, был показан Бахадур в 1957 г.^{[нужна цитата ]}) При мягких условиях всегда существует минимальная достаточная статистика. В частности, эти условия всегда выполняются, если случайные величины (связанные с п_θ ) все дискретны или все непрерывны.^{[нужна цитата ]}

Важность полноты

Понятие полноты имеет множество приложений в статистике, особенно в следующих двух теоремах математической статистики.

Теорема Лемана – Шеффе

Полнота происходит в Теорема Лемана – Шеффе,^[4]в котором говорится, что если статистика несмещена, полный и достаточно для какого-то параметра θ, то это лучшая несмещенная оценка среднегоθ. Другими словами, эта статистика имеет меньший ожидаемый убыток для любого выпуклый функция потерь; во многих практических приложениях с квадратичной функцией потерь она имеет меньшую среднеквадратичную ошибку среди любых оценок с тем же ожидаемое значение.

Существуют примеры, когда минимальная достаточная статистика не завершено то существует несколько альтернативных статистических данных для объективной оценки θ, в то время как у некоторых из них дисперсия ниже, чем у других.^[5]

Теорема Басу

Ограниченная полнота происходит в Теорема Басу,^[6] который утверждает, что статистика, которая является как ограниченно полный и достаточно является независимый любой вспомогательная статистика.

Теорема Бахадура

Ограниченная полнота также встречается в Теорема Бахадура. В случае, если существует хотя бы один минимально достаточный статистика, статистика, которая достаточно и ограниченно полная, обязательно минимально достаточная.

Примечания

^ Янг, Г. А. и Смит, Р. Л. (2005). Основы статистического вывода. (стр.94). Издательство Кембриджского университета.
^ Казелла, Г. и Бергер, Р. Л. (2001). Статистические выводы. (стр. 285–286). Duxbury Press.
^ Тал Галили и Исаак Мейлиджсон (31 марта 2016 г.). «Пример улучшаемого улучшения Рао – Блэквелла, неэффективной оценки максимального правдоподобия и несмещенной обобщенной байесовской оценки». Американский статистик. 70 (1): 108–113. Дои:10.1080/00031305.2015.1100683. ЧВК 4960505. PMID 27499547.CS1 maint: использует параметр авторов (ссылка на сайт)
^ Казелла, Джордж; Бергер, Роджер Л. (2001). Статистические выводы (2-е изд.). Duxbury Press. ISBN 978-0534243128.
^ Тал Галили и Исаак Мейлиджсон (31 марта 2016 г.). «Пример улучшаемого улучшения Рао – Блэквелла, неэффективной оценки максимального правдоподобия и несмещенной обобщенной байесовской оценки». Американский статистик. 70 (1): 108–113. Дои:10.1080/00031305.2015.1100683. ЧВК 4960505. PMID 27499547.CS1 maint: использует параметр авторов (ссылка на сайт)
^ Казелла, Г. и Бергер, Р. Л. (2001). Статистические выводы. (стр.287). Duxbury Press.