Оценка многомерной плотности ядра - Multivariate kernel density estimation
Оценка плотности ядра это непараметрический техника для оценка плотности т.е. оценка функции плотности вероятности, что является одним из основных вопросов в статистика. Его можно рассматривать как обобщение гистограмма оценка плотности с улучшенными статистическими свойствами. Помимо гистограмм, к другим типам оценок плотности относятся: параметрический, сплайн, вейвлет и Ряд Фурье. Оценщики плотности ядра были впервые представлены в научной литературе для одномерный данные в 1950-х и 1960-х годах[1][2] и впоследствии получили широкое распространение. Вскоре было признано, что аналогичные оценки для многомерных данных будут важным дополнением к многомерная статистика. На основании исследований, проведенных в 1990-х и 2000-х годах, многомерная оценка плотности ядра достигла уровня зрелости, сопоставимого с его одномерными аналогами.[3]
Мотивация
Возьмем иллюстративный синтетический двумерный набор данных из 50 точек для иллюстрации построения гистограмм. Для этого требуется выбор точки привязки (нижний левый угол сетки гистограммы). Для гистограммы слева мы выбираем (-1,5, -1,5): для гистограммы справа мы сдвигаем точку привязки на 0,125 в обоих направлениях до (-1,625, -1,625). Обе гистограммы имеют ширину бина 0,5, поэтому любые различия связаны только с изменением точки привязки. Цветовая кодировка указывает количество точек данных, которые попадают в ячейку: 0 = белый, 1 = бледно-желтый, 2 = ярко-желтый, 3 = оранжевый, 4 = красный. Левая гистограмма, по-видимому, указывает на то, что верхняя половина имеет более высокую плотность, чем нижняя половина, тогда как обратное верно для правой гистограммы, подтверждая, что гистограммы очень чувствительны к размещению точки привязки.[4]
Одним из возможных решений этой проблемы размещения точек привязки является полное удаление сетки биннинга гистограммы. На левом рисунке ниже ядро (представленное серыми линиями) центрировано в каждой из 50 точек данных выше. Результат суммирования этих ядер показан на правом рисунке, который является оценкой плотности ядра. Наиболее разительное различие между оценками плотности ядра и гистограммами заключается в том, что первые легче интерпретировать, поскольку они не содержат искажений, вызванных сеткой бинирования. Цветные контуры соответствуют наименьшей области, которая содержит соответствующую вероятностную массу: красный = 25%, оранжевый + красный = 50%, желтый + оранжевый + красный = 75%, что указывает на то, что одна центральная область имеет самую высокую плотность.
Цель оценки плотности - взять конечную выборку данных и сделать выводы о лежащей в основе функции плотности вероятности повсюду, в том числе там, где данные не наблюдаются. При оценке плотности ядра вклад каждой точки данных сглаживается из одной точки в область окружающего ее пространства. Агрегирование индивидуально сглаженных вкладов дает общую картину структуры данных и их функции плотности. В следующих подробностях мы покажем, что этот подход приводит к разумной оценке основной функции плотности.
Определение
Предыдущий рисунок представляет собой графическое представление оценки плотности ядра, которую мы теперь точно определим. Позволять Икс1, Икс2, ..., Иксп быть образец из d-variate случайные векторы взяты из общего распределения, описанного функция плотности ƒ. Оценка плотности ядра определяется как
куда
- Икс = (Икс1, Икс2, …, Иксd)Т, Икся = (Икся1, Икся2, …, Икся бы)Т, я = 1, 2, …, п находятся d-векторы;
- ЧАС это полоса пропускания (или сглаживание) d × d матрица, которая симметричный и положительно определенный;
- K это ядро функция, которая является симметричной многомерной плотностью;
- .
Выбор функции ядра K не имеет решающего значения для точности оценок плотности ядра, поэтому мы используем стандартную многомерный нормальный ядро во всем: , где H играет роль ковариационная матрица. С другой стороны, выбор матрицы пропускной способности ЧАС является единственным наиболее важным фактором, влияющим на его точность, поскольку он контролирует величину и ориентацию индуцированного сглаживания.[5]:36–39 То, что матрица полосы пропускания также индуцирует ориентацию, является основным отличием многомерной ядерной оценки плотности от ее одномерного аналога, поскольку ориентация не определена для одномерных ядер. Это приводит к выбору параметризации этой матрицы ширины полосы. Три основных класса параметризации (в порядке возрастания сложности): S, класс положительных скаляров, умноженный на единичную матрицу; D, диагональные матрицы с положительными элементами на главной диагонали; и F, симметричные положительно определенные матрицы. В S ядра классов имеют одинаковое сглаживание во всех направлениях координат, D ядра позволяют различное количество сглаживания в каждой из координат, и F ядра позволяют произвольное количество и ориентацию сглаживания. Исторически S и D ядра являются наиболее распространенными из-за вычислительных причин, но исследования показывают, что значительное повышение точности может быть получено с использованием более общего F ядра классов.[6][7]
Выбор оптимальной матрицы пропускной способности
Наиболее часто используемый критерий оптимальности для выбора матрицы пропускной способности - это MISE или среднеквадратичная ошибка
Это вообще не имеет выражение в закрытой форме, поэтому обычно используется его асимптотическое приближение (AMISE) в качестве прокси
куда
- , с р(K) = (4π)−d/2 когда K это нормальное ядро
- ,
- с яd будучи d × d единичная матрица, с м2 = 1 для нормального ядра
- D2ƒ это d × d Матрица Гессе частных производных второго порядка от ƒ
- это d2 × d2 матрица интегральных частных производных четвертого порядка от ƒ
- vec - это векторный оператор, который складывает столбцы матрицы в один вектор, например.
Качество приближения AMISE к MISE[5]:97 дан кем-то
куда о указывает на обычный строчная нотация. Эвристически это утверждение подразумевает, что AMISE является «хорошим» приближением MISE как размера выборки. п → ∞.
Можно показать, что любой разумный селектор полосы пропускания ЧАС имеет ЧАС = О(п−2/(d+4)) где нотация большой O применяется поэлементно. Подставляя это в формулу MISE, получаем, что оптимальным MISE является О(п−4/(d+4)).[5]:99–100 Таким образом, как п → ∞, MISE → 0, т.е. оценка плотности ядра сходится в среднем квадрате а значит, и по вероятности истинной плотности ж. Эти способы сходимости являются подтверждением утверждения в разделе мотивации, что ядерные методы приводят к разумным оценкам плотности. Идеальный селектор оптимальной полосы пропускания - это
Поскольку этот идеальный селектор содержит неизвестную функцию плотности ƒ, его нельзя использовать напрямую. Множество различных разновидностей селекторов полосы пропускания на основе данных возникает из разных оценок AMISE. Мы концентрируемся на двух классах селекторов, которые, как было показано, наиболее широко применимы на практике: сглаженная перекрестная проверка и селекторы плагинов.
Плагин
Подключаемый модуль (PI) оценка AMISE формируется заменой Ψ4 по его оценке
куда . Таким образом это селектор подключаемых модулей.[8][9] Эти ссылки также содержат алгоритмы оптимальной оценки матрицы полосы пропускания пилот-сигнала. грамм и установить, что сходится по вероятности к ЧАСAMISE.
Сглаженная перекрестная проверка
Сглаженная перекрестная проверка (SCV) - это подмножество более крупного класса перекрестная проверка техники. Оценщик SCV отличается от модуля оценщика во втором члене.
Таким образом это селектор SCV.[9][10]Эти ссылки также содержат алгоритмы оптимальной оценки матрицы полосы пропускания пилот-сигнала. грамм и установить, что сходится по вероятности к ЧАСAMISE.
Практическое правило
Эмпирическое правило Сильвермана предлагает использовать куда - стандартное отклонение i-й переменной и . Правило Скотта .
Асимптотический анализ
В разделе выбора оптимальной полосы пропускания мы представили MISE. Его конструкция опирается на ожидаемое значение и отклонение оценщика плотности[5]:97
где свертка оператор между двумя функциями и
Чтобы эти два выражения были четко определены, мы требуем, чтобы все элементы ЧАС стремятся к 0 и что п−1 |ЧАС|−1/2 стремится к 0 как п стремится к бесконечности. Предполагая эти два условия, мы видим, что ожидаемое значение стремится к истинной плотности ж т.е. оценка плотности ядра асимптотически беспристрастный; и что дисперсия стремится к нулю. Использование стандартного разложения среднеквадратичного значения
у нас есть, что MSE стремится к 0, подразумевая, что оценка плотности ядра (среднеквадратичная) согласована и, следовательно, сходится по вероятности к истинной плотности ж. Скорость сходимости MSE к 0 обязательно такая же, как и скорость MISE, отмеченная ранее. О(п−4 / (d + 4)), следовательно, скорость покрытия оценки плотности до ж является Оп(п−2/(d+4)) куда Оп обозначает порядок вероятности. Это устанавливает поточечную сходимость. Функциональное покрытие устанавливается аналогичным образом, рассматривая поведение MISE и отмечая, что при достаточной регулярности интегрирование не влияет на скорость сходимости.
Для рассматриваемых селекторов полосы пропускания на основе данных целью является матрица полосы пропускания AMISE. Мы говорим, что селектор на основе данных сходится к селектору AMISE с относительной скоростью Оп(п−α), α > 0, если
Было установлено, что селекторы подключаемого модуля и сглаженной перекрестной проверки (при одной полосе пропускания пилот-сигнала грамм) оба сходятся с относительной скоростью Оп(п−2/(d+6)) [9][11] то есть оба этих основанных на данных селектора являются согласованными оценками.
Оценка плотности с полной матрицей полосы пропускания
В пакет ks[12] в р реализует плагин и селекторы сглаженной перекрестной проверки (среди прочего). Этот набор данных (включенный в базовое распределение R) содержит 272 записи с двумя измерениями в каждой: продолжительность извержения (минуты) и время ожидания до следующего извержения (минуты) Старый верный гейзер в национальном парке Йеллоустоун, США.
Фрагмент кода вычисляет оценку плотности ядра с помощью матрицы пропускной способности плагина