Общая корреляция - Total correlation

В теория вероятности и в частности в теория информации, полная корреляция (Watanabe 1960) - одно из нескольких обобщений взаимная информация. Он также известен как многомерное ограничение (Гарнер 1962) или мультиинформация (Студены и Вейнарова, 1999). Он количественно определяет избыточность или зависимость между набором п случайные переменные.

Определение

Для данного набора п случайные переменные , общая корреляция определяется как Дивергенция Кульбака – Лейблера из совместного распределения к независимому распределению ,

Это расхождение сводится к более простой разности энтропий:

куда это информационная энтропия переменной , и это совместная энтропия набора переменных . В терминах дискретных распределений вероятностей переменных , общая корреляция определяется выражением

Общая корреляция - это количество информации общий среди переменных в наборе. Сумма представляет количество информации в биты (при условии, что журналы базы 2), которыми переменные обладали бы, если бы они были полностью независимы друг от друга (без избыточности), или, что то же самое, средняя длина кода для передачи значений всех переменных, если бы каждая переменная (оптимально) была закодирована независимо . Период, термин это действительный количество информации, которую содержит набор переменных, или, что эквивалентно, средняя длина кода для передачи значений всех переменных, если набор переменных (оптимально) закодирован вместе. Таким образом, разница между этими терминами представляет собой абсолютную избыточность (в битах), присутствующую в данном наборе переменных, и, таким образом, обеспечивает общую количественную меруструктура или же организация воплощены в множестве переменных (Rothstein 1952). Полная корреляция также является Дивергенция Кульбака – Лейблера между фактическим распределением и приближение его максимального произведения энтропии .

Общая корреляция количественно определяет степень зависимости между группой переменных. Почти нулевая общая корреляция указывает на то, что переменные в группе по существу статистически независимы; они совершенно не связаны между собой в том смысле, что знание значения одной переменной не дает никакого ключа к значениям других переменных. С другой стороны, максимальная полная корреляция (для фиксированного набора индивидуальных энтропий ) дан кем-то

и возникает, когда одна из переменных определяет все других переменных. Затем переменные максимально связаны между собой в том смысле, что знание значения одной переменной дает полную информацию о значениях всех других переменных, а переменные можно образно рассматривать как винтики в котором положение одного винтика определяет положение всех остальных (Rothstein 1952).

Важно отметить, что общая корреляция имеет большое значение. все избыточность между набором переменных, но эта избыточность может быть распределена по набору переменных множеством сложных способов (Garner 1962). Например, некоторые переменные в наборе могут быть полностью взаимно избыточными, в то время как другие в наборе полностью независимы. Возможно, что более важно, избыточность может передаваться во взаимодействиях разной степени: группа переменных может не обладать какой-либо парной избыточностью, но может обладать более высоким порядком. взаимодействие избыточности, примером которых является функция четности. Разложение полной корреляции на составляющие ее дублирующие элементы исследуется в ряде источников (Mcgill 1954, Watanabe 1960, Garner 1962, Studeny & Vejnarova 1999, Jakulin & Bratko 2003a, Jakulin & Bratko 2003b, Nemenman 2004, Margolin et al. 2008, Han 1978, Хань 1980).

Условная общая корреляция

Условная общая корреляция определяется аналогично общей корреляции, но с добавлением условия к каждому члену. Условная полная корреляция аналогичным образом определяется как расхождение Кульбака-Лейблера между двумя условными распределениями вероятностей,

По аналогии с вышеизложенным условная полная корреляция сводится к разности условных энтропий,

Использование полной корреляции

Кластеризация и выбор функции алгоритмы, основанные на полной корреляции, были исследованы Ватанабе. Альфонсо и др. (2010) применили концепцию полной корреляции к оптимизации сетей мониторинга воды.

Смотрите также

Рекомендации

  • Альфонсо, Л., Лоббрехт, А., и Прайс, Р. (2010). Оптимизация сети мониторинга уровня воды в польдерных системах с использованием теории информации, Исследование водных ресурсов, 46, W12553, 13 стр., 2010 г., Дои:10.1029 / 2009WR008953.
  • Гарнер В. Р. (1962). Неопределенность и структура как психологические концепции, JohnWiley & Sons, Нью-Йорк.
  • Хан Т. С (1978). Неотрицательные энтропийные меры многомерных симметричных корреляций, Информация и контроль 36, 133–156.
  • Хан Т. С (1980). Множественная взаимная информация и множественные взаимодействия в частотных данных, Информация и контроль 46, 26–45.
  • Якулин А. и Братко И. (2003a). Анализ зависимостей атрибутов, в N Lavraquad {c}, D Gamberger, L Todorovski & H Blockeel, eds, Труды 7-й Европейской конференции по принципам и практике обнаружения знаний в базах данных, Springer, Цавтат-Дубровник, Хорватия, стр. 229–240.
  • Якулин А. и Братко И. (2003b). Количественная оценка и визуализация взаимодействий атрибутов [1].
  • Марголин А., Ван К., Калифано А. и Неменман И. (2010). Многомерная зависимость и вывод генетических сетей. ИЭПП Сист Биол 4, 428.
  • Макгилл В. Дж. (1954). Многомерная передача информации, Психометрика 19, 97–116.
  • Неменман I (2004). Теория информации, многомерная зависимость и генетический сетевой вывод [2].
  • Ротштейн Дж (1952). Организация и энтропия, Журнал прикладной физики 23, 1281–1282.
  • Студены М. и Вейнарова Дж. (1999). Многоинформационная функция как инструмент для измерения стохастической зависимости, в М. И. Джордан, изд., Обучение в графических моделях, MIT Press, Кембридж, Массачусетс, стр. 261–296.
  • Ватанабэ С (1960). Информационно-теоретический анализ многомерной корреляции, Журнал исследований и разработок IBM 4, 66–82.