Статистическое расстояние - Statistical distance

В статистика, теория вероятности, и теория информации, а статистическое расстояние количественно оценивает расстояние между двумя статистическими объектами, которых может быть два случайные переменные, или два распределения вероятностей или же образцы, или расстояние может быть между отдельной точкой выборки и генеральной совокупностью или более широкой выборкой точек.

Расстояние между популяциями можно интерпретировать как измерение расстояния между двумя распределения вероятностей и, следовательно, они по сути являются мерой расстояний между вероятностные меры. Если меры статистического расстояния относятся к различиям между случайные переменные, они могут иметь статистическая зависимость,[1] и, следовательно, эти расстояния не связаны напрямую с мерами расстояний между мерами вероятности. Опять же, мера расстояния между случайными величинами может относиться к степени зависимости между ними, а не к их индивидуальным значениям.

Статистические измерения расстояния в основном не используются. метрики и они не обязательно должны быть симметричными. Некоторые типы измерений расстояния называются (статистическими) расхождения.

Терминология

Многие термины используются для обозначения различных понятий расстояния; они часто до степени смешения схожи и могут непоследовательно использоваться авторами и с течением времени, либо вольно, либо с точным техническим значением. Помимо «расстояния», аналогичные термины включают отклонение, отклонение, несоответствие, дискриминация и расхождение, а также другие, такие как функция контраста и метрика. Условия от теория информации включают перекрестная энтропия, относительная энтропия, информация о дискриминации, и получение информации.

Расстояния как метрики

Метрики

А метрика на съемочной площадке Икс это функция (называется функция расстояния или просто расстояние)

d : Икс × Икср+(куда р+ это множество неотрицательных действительные числа ). Для всех Икс, у, z в Икс, эта функция требуется для выполнения следующих условий:

  1. d(Икс, у) ≥ 0     (неотрицательность )
  2. d(Икс, у) = 0 тогда и только тогда, когда Икс = у     (идентичность неразличимых. Обратите внимание, что условия 1 и 2 вместе дают положительная определенность )
  3. d(Икс, у) = d(у, Икс)     (симметрия )
  4. d(Икс, z) ≤ d(Икс, у) + d(у, z)     (субаддитивность / неравенство треугольника ).

Обобщенные метрики

Многие статистические расстояния не метрики, потому что им не хватает одного или нескольких свойств правильных показателей. Например, псевдометрика нарушить "положительная определенность "(альтернативно "личность неуловимых" ) свойство (1 и 2 выше); квазиметрика нарушать симметрия свойство (3); и полуметрика нарушать неравенство треугольника (4). Статистические расстояния, удовлетворяющие (1) и (2), называются расхождения.

Примеры

Некоторые важные статистические расстояния включают следующее:

Другие подходы

Смотрите также

Примечания

  1. ^ Додж, Ю. (2003) - вход на расстоянии

внешняя ссылка

Рекомендации

  • Додж, Ю. (2003) Оксфордский словарь статистических терминов, ОУП. ISBN  0-19-920613-9