Оценка Джеймса – Стейна - Википедия - James–Stein estimator

В Оценка Джеймса – Стейна это пристрастный оценщик из иметь в виду, , из (возможно) коррелированный Гауссово распределенное случайные векторы неизвестными средствами .

Она возникла последовательно в двух основных опубликованных статьях, более ранняя версия оценки была разработана Чарльз Штайн в 1956 г.,[1] который пришел к относительно шокирующему выводу, что тогда как обычная оценка среднего или выборочного среднего, записанная Штейном и Джеймсом как , является допустимый когда , однако это недопустимый когда и предложил возможное улучшение оценщика, которое сжимается образец означает к более центральному среднему вектору (который можно выбрать априори или обычно «среднее среднее значение» выборки означает, что все выборки имеют одинаковый размер), обычно называют Пример или парадокс Штейна. Этот более ранний результат был улучшен позже Уиллардом Джеймсом и Чарльзом Штейном в 1961 году путем упрощения исходного процесса.[2]

Можно показать, что оценка Джеймса – Стейна доминирует "обычный" наименьших квадратов подход, означающий, что оценка Джеймса-Стейна имеет меньшую или равную среднеквадратичная ошибка чем "обычная" оценка методом наименьших квадратов.

Параметр

Позволять где вектор неизвестно иметь в виду из , который -вариант нормально распределенный и с известными ковариационная матрица .

Мы заинтересованы в получении сметы, , из , основываясь на одном наблюдении, , из .

В реальных приложениях это обычная ситуация, когда выполняется выборка набора параметров, а выборки искажаются независимыми Гауссов шум. Поскольку этот шум имеет нулевое среднее значение, может быть разумным использовать сами выборки в качестве оценки параметров. Такой подход является наименьших квадратов оценщик, который .

Штейн продемонстрировал, что с точки зрения среднеквадратичная ошибка , оценка методом наименьших квадратов, , является субоптимальным для оценок на основе усадки, таких как Оценка Джеймса – Стейна, .[1] Парадоксальный результат, что существует (возможно) лучшая и никогда не худшая оценка в среднеквадратичной ошибке по сравнению со средним по выборке, стала известна как Феномен Штейна.

Оценка Джеймса – Стейна

MSE (R) оценки наименьших квадратов (ML) по сравнению с оценкой Джеймса – Стейна (JS). Оценка Джеймса – Стейна дает наилучшую оценку, когда норма фактического вектора параметров θ близка к нулю.

Если известно, оценка Джеймса – Стейна дается формулой

Джеймс и Стейн показали, что указанная выше оценка доминирует для любого , что означает, что оценка Джеймса – Стейна всегда среднеквадратичная ошибка (MSE), чем максимальная вероятность оценщик.[2][3] По определению, это делает оценку методом наименьших квадратов недопустимый когда .

Обратите внимание, что если тогда эта оценка просто берет естественную оценку и сжимает его к началу 0. На самом деле это не единственное направление усадка это работает. Позволять ν - произвольный фиксированный вектор длины . Тогда существует оценка типа Джеймса-Стейна, стягивающаяся к ν, а именно

Оценка Джеймса – Стейна доминирует над обычной оценкой для любого ν. Возникает естественный вопрос: не зависит ли улучшение по сравнению с обычной оценкой от выбора ν. Ответ - нет. Улучшение невелико, если большой. Таким образом, чтобы получить очень большое улучшение, нужно знать местоположение θ необходимо. Конечно, это количество, которое мы пытаемся оценить, поэтому у нас нет этого знания. априори. Но мы можем иметь некоторое предположение относительно того, что такое средний вектор. Это можно считать недостатком оценщика: выбор необъективен, так как он может зависеть от убеждений исследователя.

Интерпретация

Рассматривая оценку Джеймса – Стейна как эмпирический метод Байеса дает некоторую интуицию к этому результату: предполагается, что θ сама по себе является случайной величиной с предварительное распространение , куда А оценивается на основании самих данных. Оценка А только дает преимущество по сравнению с оценщик максимального правдоподобия когда размер достаточно большой; следовательно, это не работает для . Оценщик Джеймса – Стейна является членом класса байесовских оценщиков, которые доминируют над оценщиком максимального правдоподобия.[4]

Следствием приведенного выше обсуждения является следующий противоречивый результат: когда измеряются три или более несвязанных параметра, их общая MSE может быть уменьшена с помощью комбинированного оценщика, такого как оценщик Джеймса – Стейна; тогда как, когда каждый параметр оценивается отдельно, оценка методом наименьших квадратов (LS) допустимый. Причудливый пример - это оценка скорости света, потребления чая на Тайване и веса свиньи в Монтане, все вместе. Оценка Джеймса – Стейна всегда улучшает общий MSE, то есть сумма ожидаемых ошибок каждого компонента. Таким образом, общая MSE при измерении скорости света, потребления чая и веса свиньи улучшится при использовании оценщика Джеймса – Стейна. Однако любой конкретный компонент (например, скорость света) улучшится для одних значений параметров и ухудшится для других. Таким образом, хотя оценщик Джеймса – Стейна доминирует над оценщиком LS, когда оцениваются три или более параметров, любой отдельный компонент не доминирует над соответствующим компонентом оценщика LS.

Вывод из этого гипотетического примера состоит в том, что измерения должны быть объединены, если кто-то заинтересован в минимизации их общего MSE. Например, в телекоммуникации установка, целесообразно совместить канал измерения в оценка канала сценарий, так как цель состоит в том, чтобы минимизировать общую ошибку оценки канала. И наоборот, могут возникать возражения против объединения оценок каналов разных пользователей, поскольку ни один пользователь не хочет, чтобы оценка их канала ухудшалась, чтобы улучшить среднюю производительность сети.[нужна цитата ]

Оценка Джеймса-Стейна также нашла применение в фундаментальной квантовой теории, где оценка использовалась для улучшения теоретических оценок принципа энтропийной неопределенности (недавнее развитие теории Гейзенберга). принцип неопределенности ) для более чем трех измерений.[5]

Улучшения

Базовая оценка Джеймса – Стейна обладает тем особенным свойством, что при малых значениях множитель на на самом деле отрицательно. Это легко исправить, заменив этот множитель на ноль, когда он отрицательный. Полученная оценка называется положительная часть оценки Джеймса – Стейна и дается

Эта оценка имеет меньший риск, чем базовая оценка Джеймса – Стейна. Отсюда следует, что основная оценка Джеймса – Стейна сама по себе недопустимый.[6]

Однако оказывается, что оценка положительной части также недопустима.[3] Это следует из общего результата, который требует, чтобы допустимые оценки были гладкими.

Расширения

На первый взгляд может показаться, что оценка Джеймса – Стейна является результатом какой-то особенности постановки задачи. Фактически, оценщик демонстрирует очень широкий эффект; а именно тот факт, что "обычная" оценка или оценка методом наименьших квадратов часто недопустимый для одновременной оценки нескольких параметров.[нужна цитата ] Этот эффект получил название Феномен Штейна, и был продемонстрирован для нескольких различных настроек проблемы, некоторые из которых кратко описаны ниже.

  • Джеймс и Стейн продемонстрировали, что представленная выше оценка все еще может использоваться, когда дисперсия неизвестно, заменив его стандартной оценкой дисперсии, . Результат о преобладании сохраняется при тех же условиях, а именно, .[2]
  • Результаты в этой статье относятся к случаю, когда только один вектор наблюдения у доступен. Для более общего случая, когда векторы доступны, результаты аналогичны:[нужна цитата ]
куда это -средняя длина наблюдения.
  • Работа Джеймса и Стейна была распространена на случай общей ковариационной матрицы измерений, то есть когда измерения могут быть статистически зависимыми и иметь разные дисперсии.[7] Можно построить аналогичную доминирующую оценку с подходящим обобщенным условием доминирования. Это можно использовать для построения линейная регрессия метод, который превосходит стандартное приложение оценки LS.[7]
  • Результат Стейна был распространен на широкий класс распределений и функций потерь. Однако эта теория обеспечивает только результат существования, поскольку явные доминирующие оценки фактически не выставлялись.[8] Довольно сложно получить явные оценки, улучшающие обычную оценку, без конкретных ограничений на лежащие в основе распределения.[3]

Смотрите также

Рекомендации

  1. ^ а б Штейн, К. (1956), «Недопустимость обычной оценки среднего многомерного распределения», Proc. Третий симпозиум Беркли. Математика. Статист. Вероятность., 1, стр. 197–206, МИСТЕР  0084922, Zbl  0073.35602
  2. ^ а б c James, W .; Штейн, К. (1961), «Оценка с квадратичной потерей», Proc. Четвертый симпозиум Беркли. Математика. Статист. Вероятность., 1, стр. 361–379, МИСТЕР  0133191
  3. ^ а б c Lehmann, E. L .; Казелла, Г. (1998), Теория точечного оценивания (2-е изд.), Нью-Йорк: Springer
  4. ^ Ефрон, Б .; Моррис, К. (1973). «Правило оценки Штейна и его конкуренты - эмпирический байесовский подход». Журнал Американской статистической ассоциации. Американская статистическая ассоциация. 68 (341): 117–130. Дои:10.2307/2284155. JSTOR  2284155.
  5. ^ Стандер, М. (2017), Использование оценки Стейна для корректировки границы принципа энтропийной неопределенности для более чем двух измерений, arXiv:1702.02440, Bibcode:2017arXiv170202440S
  6. ^ Андерсон, Т. В. (1984), Введение в многомерный статистический анализ (2-е изд.), Нью-Йорк: John Wiley & Sons
  7. ^ а б Бок, М. Э. (1975), "Минимаксные оценки среднего многомерного нормального распределения", Анналы статистики, 3 (1): 209–218, Дои:10.1214 / aos / 1176343009, МИСТЕР  0381064, Zbl  0314.62005
  8. ^ Браун, Л.Д. (1966), «О допустимости инвариантных оценок одного или нескольких параметров местоположения», Анналы математической статистики, 37 (5): 1087–1136, Дои:10.1214 / aoms / 1177699259, МИСТЕР  0216647, Zbl  0156.39401

дальнейшее чтение

  • Судья, Джордж Г .; Бок, М. Э. (1978). Статистическое значение предварительных оценок и оценок по правилу Штейна в эконометрике. Нью-Йорк: Северная Голландия. С. 229–257. ISBN  0-7204-0729-X.