Коэффициент неопределенности - Uncertainty coefficient

В статистика, то коэффициент неопределенности, также называемый мастерство, коэффициент энтропии или же Theil's U, является мерой номинальной ассоциация. Впервые он был представлен Анри Тейл[нужна цитата ] и основан на концепции информационная энтропия.

Определение

Предположим, у нас есть выборки двух дискретных случайных величин, Икс и Y. Построив совместное распределение, пX, Y(Иксу), из которого мы можем вычислить условные распределения, пИкс|Y(Икс|у) = пX, Y(Иксу)/пY(у) и пY| X(у|Икс) = пX, Y(Иксу)/пИкс(Икс), и вычисляя различные энтропии, мы можем определить степень связи между двумя переменными.

Энтропия одного распределения определяется как:[1]

в то время как условная энтропия дается как:[1]

Коэффициент неопределенности[2] или умение [3] определяется как:

и говорит нам: дано Y, какая доля битов Икс мы можем предсказать? В этом случае мы можем думать о Икс как содержащие полную информацию, и Y как позволяющий предсказать часть такой информации.

Из приведенного выше выражения видно, что коэффициент неопределенности является нормированным взаимная информация Я (X; Y). В частности, коэффициент неопределенности изменяется в [0, 1] как Я (Х; Y) и оба Я (X, Y) и H (X) положительные или нулевые.

Обратите внимание, что значение U (но нет ЧАС!) не зависит от базы бревно так как все логарифмы пропорциональны.

Коэффициент неопределенности полезен для измерения достоверности алгоритма статистической классификации и имеет преимущество перед более простыми мерами точности, такими как точность и отзыв в том, что на него не влияют относительные доли различных классов, т. е. п(Икс).[4]У него также есть уникальное свойство, заключающееся в том, что он не наказывает алгоритм за предсказание неправильных классов, если он делает это последовательно (то есть просто переупорядочивает классы). Это полезно при оценке алгоритмы кластеризации поскольку метки кластера обычно не имеют определенного порядка.[3]

Вариации

Коэффициент неопределенности не является симметричным относительно ролей Икс и Y. Роли можно поменять местами, и симметричный показатель определяется как средневзвешенное значение между ними:[2]

Хотя обычно коэффициент неопределенности применяется к дискретным переменным, он может быть расширен до непрерывных переменных.[1] с помощью оценка плотности.[нужна цитата ]

Смотрите также

Рекомендации

  1. ^ а б c Клод Э. Шеннон; Уоррен Уивер (1963). Математическая теория коммуникации. Университет Иллинойса Press.
  2. ^ а б Уильям Х. Пресс; Брайан П. Фланнери; Саул А. Теукольский; Уильям Т. Веттерлинг (1992). «14.7.4». Числовые рецепты: искусство научных вычислений (3-е изд.). Издательство Кембриджского университета. п. 761.
  3. ^ а б Белый, Джим; Штейнгольд, Сэм; Фурнель, Конни. «Метрики производительности для алгоритмов группового обнаружения» (PDF). Цитировать журнал требует | журнал = (помощь)
  4. ^ Питер, Миллс (2011). «Эффективная статистическая классификация спутниковых измерений» (PDF). Международный журнал дистанционного зондирования. 32 (21): 6109–6132. arXiv:1202.2194. Дои:10.1080/01431161.2010.507795. Архивировано из оригинал (PDF) на 2012-04-26.

внешняя ссылка

  • libagf Включает программное обеспечение для расчета коэффициентов неопределенности.