Статистическое расстояние - Statistical distance
В статистика, теория вероятности, и теория информации, а статистическое расстояние количественно оценивает расстояние между двумя статистическими объектами, которых может быть два случайные переменные, или два распределения вероятностей или же образцы, или расстояние может быть между отдельной точкой выборки и генеральной совокупностью или более широкой выборкой точек.
Расстояние между популяциями можно интерпретировать как измерение расстояния между двумя распределения вероятностей и, следовательно, они по сути являются мерой расстояний между вероятностные меры. Если меры статистического расстояния относятся к различиям между случайные переменные, они могут иметь статистическая зависимость,[1] и, следовательно, эти расстояния не связаны напрямую с мерами расстояний между мерами вероятности. Опять же, мера расстояния между случайными величинами может относиться к степени зависимости между ними, а не к их индивидуальным значениям.
Статистические измерения расстояния в основном не используются. метрики и они не обязательно должны быть симметричными. Некоторые типы измерений расстояния называются (статистическими) расхождения.
Терминология
Многие термины используются для обозначения различных понятий расстояния; они часто до степени смешения схожи и могут непоследовательно использоваться авторами и с течением времени, либо вольно, либо с точным техническим значением. Помимо «расстояния», аналогичные термины включают отклонение, отклонение, несоответствие, дискриминация и расхождение, а также другие, такие как функция контраста и метрика. Условия от теория информации включают перекрестная энтропия, относительная энтропия, информация о дискриминации, и получение информации.
Расстояния как метрики
Метрики
А метрика на съемочной площадке Икс это функция (называется функция расстояния или просто расстояние)
d : Икс × Икс → р+(куда р+ это множество неотрицательных действительные числа ). Для всех Икс, у, z в Икс, эта функция требуется для выполнения следующих условий:
- d(Икс, у) ≥ 0 (неотрицательность )
- d(Икс, у) = 0 тогда и только тогда, когда Икс = у (идентичность неразличимых. Обратите внимание, что условия 1 и 2 вместе дают положительная определенность )
- d(Икс, у) = d(у, Икс) (симметрия )
- d(Икс, z) ≤ d(Икс, у) + d(у, z) (субаддитивность / неравенство треугольника ).
Обобщенные метрики
Многие статистические расстояния не метрики, потому что им не хватает одного или нескольких свойств правильных показателей. Например, псевдометрика нарушить "положительная определенность "(альтернативно "личность неуловимых" ) свойство (1 и 2 выше); квазиметрика нарушать симметрия свойство (3); и полуметрика нарушать неравенство треугольника (4). Статистические расстояния, удовлетворяющие (1) и (2), называются расхождения.
Примеры
Некоторые важные статистические расстояния включают следующее:
- f-расхождение: включает
- Дивергенция Кульбака – Лейблера
- Расстояние Хеллингера
- Общее расстояние вариации (иногда просто "статистическое расстояние")
- Расхождение Реньи
- Расхождение Дженсена – Шеннона
- Метрика Леви – Прохорова
- Бхаттачарья расстояние
- Метрика Вассерштейна: также известна как метрика Канторовича, или расстояние землекопа
- В Статистика Колмогорова – Смирнова представляет собой расстояние между двумя распределениями вероятностей, определенными для одной действительной переменной
- В максимальное среднее расхождение который определяется в терминах встраивание дистрибутивов в ядро
Другие подходы
- Соотношение сигнал шум расстояние
- Расстояние Махаланобиса
- Энергетическое расстояние
- Корреляция расстояний мера зависимости между двумя случайные переменные, он равен нулю тогда и только тогда, когда случайные величины независимы.
- В оценка непрерывной ранжированной вероятности измеряет, насколько хорошо прогнозы, выраженные в виде распределения вероятностей, соответствуют наблюдаемым результатам. Как местоположение, так и разброс прогнозного распределения учитываются при оценке того, насколько близко распределение является наблюдаемым значением: см. вероятностное прогнозирование.
- Метрика Лукашика – Кармовского - функция, определяющая расстояние между двумя случайные переменные или два случайные векторы. Это не удовлетворяет идентичность неразличимых условием метрики и равно нулю тогда и только тогда, когда оба его аргумента являются определенными событиями, описываемыми Дельта Дирака плотность функции распределения вероятностей.
Смотрите также
Эта статья включает в себя список общих Рекомендации, но он остается в основном непроверенным, потому что ему не хватает соответствующих встроенные цитаты.Февраль 2012 г.) (Узнайте, как и когда удалить этот шаблон сообщения) ( |
Эта статья нужны дополнительные цитаты для проверка.Февраль 2012 г.) (Узнайте, как и когда удалить этот шаблон сообщения) ( |
Примечания
- ^ Додж, Ю. (2003) - вход на расстоянии
внешняя ссылка
Рекомендации
- Додж, Ю. (2003) Оксфордский словарь статистических терминов, ОУП. ISBN 0-19-920613-9