Вариация информации - Variation of information

В теория вероятности и теория информации, то изменение информации или же дистанция обмена информацией является мерой расстояния между двумя кластерами (перегородки элементов ). Это тесно связано с взаимная информация; действительно, это простое линейное выражение, включающее взаимную информацию. Однако, в отличие от взаимной информации, изменение информации является истинным метрика, в том, что он подчиняется неравенство треугольника.[1][2][3]

Информационная диаграмма иллюстрируя связь между информационные энтропии, взаимная информация и изменение информации.

Определение

Предположим, у нас есть два перегородки и из набор в непересекающийся подмножества, а именно и . Позволять , , , . Тогда разница в информации между двумя разделами будет:

.

Это эквивалентно дистанция обмена информацией между случайными величинами я и j относительно равномерной вероятностной меры на определяется за .

Явное информационное содержание

Мы можем переписать это определение в терминах, которые явно выделяют информационное содержание этой метрики.

Множество всех перегородок множества образуют компактный Решетка где частичный порядок индуцирует две операции, встреча и присоединение , где максимум это раздел, состоящий только из одного блока, т. е. все элементы сгруппированы вместе, и минимум равен , разбиение, состоящее из всех элементов как одиночных элементов. Встреча двух перегородок и легко понять как это разбиение, образованное всеми парными пересечениями одного блока , из и один, , из . Отсюда следует, что и .

Определим энтропию раздела в качестве

,

куда . Четко, и . Энтропия разбиения - это монотонная функция на решетке разбиений в том смысле, что .

Тогда расстояние VI между и дан кем-то

.

Разница псевдометрика как не обязательно означает, что . Из определения , это .

Если в Диаграмма Хассе от каждой перегородки проводим ребро по максимуму и присвоить ему вес, равный расстоянию VI между данным разделом и , мы можем интерпретировать расстояние VI как в основном среднее значение разницы весов ребер до максимума.

.

За как определено выше, считается, что общая информация двух разделов совпадает с энтропией встречи

и у нас также есть это совпадает с условной энтропией встречи (пересечения) относительно .

Идентичности

Разнообразие информации удовлетворяет

,

куда это энтропия из , и является взаимная информация между и относительно равномерной вероятностной меры на . Это можно переписать как

,

куда это совместная энтропия из и , или же

,

куда и соответствующие условные энтропии.

Разнообразие информации также может быть ограничено количеством элементов:

,

Или относительно максимального количества кластеров, :

Рекомендации

  1. ^ П. Араби, С.А. Бурман, С.А., "Многомерное масштабирование мер расстояния между разделами", Журнал математической психологии (1973), том. 10, 2, стр. 148–203, DOI: 10.1016 / 0022-2496 (73) 90012-6
  2. ^ W.H. Zurek, Nature, том 341, стр. 119 (1989); W.H. Zurek, Physics Review A, том 40, стр. 4731 (1989)
  3. ^ Марина Мейла, "Сравнение кластеризации по вариации информации", Теория обучения и ядерные машины (2003), т. 2777, стр. 173–187, Дои:10.1007/978-3-540-45167-9_14, Конспект лекций по информатике, ISBN  978-3-540-40720-1

дальнейшее чтение

  • Arabie, P .; Бурман, С. А. (1973). «Многомерное масштабирование мер расстояния между перегородками». Журнал математической психологии. 10 (2): 148–203. Дои:10.1016/0022-2496(73)90012-6.
  • Мейла, Марина (2003). «Сравнение кластеризации по вариации информации». Теория обучения и машины ядра. Конспект лекций по информатике. 2777: 173–187. Дои:10.1007/978-3-540-45167-9_14. ISBN  978-3-540-40720-1.
  • Мейла, М. (2007). «Сравнение кластеризации - расстояние, основанное на информации». Журнал многомерного анализа. 98 (5): 873–895. Дои:10.1016 / j.jmva.2006.11.013.
  • Кингсфорд, Карл (2009). «Заметки по теории информации» (PDF). Получено 22 сентября 2009.
  • Красков, Александр; Харальд Штегбауэр; Ральф Дж. Анджеяк; Питер Грассбергер (2003). «Иерархическая кластеризация на основе взаимной информации». arXiv:q-bio / 0311039.

внешняя ссылка