Вариация информации - Variation of information
В теория вероятности и теория информации, то изменение информации или же дистанция обмена информацией является мерой расстояния между двумя кластерами (перегородки элементов ). Это тесно связано с взаимная информация; действительно, это простое линейное выражение, включающее взаимную информацию. Однако, в отличие от взаимной информации, изменение информации является истинным метрика, в том, что он подчиняется неравенство треугольника.[1][2][3]
Определение
Предположим, у нас есть два перегородки и из набор в непересекающийся подмножества, а именно и . Позволять , , , . Тогда разница в информации между двумя разделами будет:
- .
Это эквивалентно дистанция обмена информацией между случайными величинами я и j относительно равномерной вероятностной меры на определяется за .
Явное информационное содержание
Мы можем переписать это определение в терминах, которые явно выделяют информационное содержание этой метрики.
Множество всех перегородок множества образуют компактный Решетка где частичный порядок индуцирует две операции, встреча и присоединение , где максимум это раздел, состоящий только из одного блока, т. е. все элементы сгруппированы вместе, и минимум равен , разбиение, состоящее из всех элементов как одиночных элементов. Встреча двух перегородок и легко понять как это разбиение, образованное всеми парными пересечениями одного блока , из и один, , из . Отсюда следует, что и .
Определим энтропию раздела в качестве
- ,
куда . Четко, и . Энтропия разбиения - это монотонная функция на решетке разбиений в том смысле, что .
Тогда расстояние VI между и дан кем-то
- .
Разница псевдометрика как не обязательно означает, что . Из определения , это .
Если в Диаграмма Хассе от каждой перегородки проводим ребро по максимуму и присвоить ему вес, равный расстоянию VI между данным разделом и , мы можем интерпретировать расстояние VI как в основном среднее значение разницы весов ребер до максимума.
- .
За как определено выше, считается, что общая информация двух разделов совпадает с энтропией встречи
и у нас также есть это совпадает с условной энтропией встречи (пересечения) относительно .
Идентичности
Разнообразие информации удовлетворяет
- ,
куда это энтропия из , и является взаимная информация между и относительно равномерной вероятностной меры на . Это можно переписать как
- ,
куда это совместная энтропия из и , или же
- ,
куда и соответствующие условные энтропии.
Разнообразие информации также может быть ограничено количеством элементов:
- ,
Или относительно максимального количества кластеров, :
Рекомендации
- ^ П. Араби, С.А. Бурман, С.А., "Многомерное масштабирование мер расстояния между разделами", Журнал математической психологии (1973), том. 10, 2, стр. 148–203, DOI: 10.1016 / 0022-2496 (73) 90012-6
- ^ W.H. Zurek, Nature, том 341, стр. 119 (1989); W.H. Zurek, Physics Review A, том 40, стр. 4731 (1989)
- ^ Марина Мейла, "Сравнение кластеризации по вариации информации", Теория обучения и ядерные машины (2003), т. 2777, стр. 173–187, Дои:10.1007/978-3-540-45167-9_14, Конспект лекций по информатике, ISBN 978-3-540-40720-1
дальнейшее чтение
- Arabie, P .; Бурман, С. А. (1973). «Многомерное масштабирование мер расстояния между перегородками». Журнал математической психологии. 10 (2): 148–203. Дои:10.1016/0022-2496(73)90012-6.
- Мейла, Марина (2003). «Сравнение кластеризации по вариации информации». Теория обучения и машины ядра. Конспект лекций по информатике. 2777: 173–187. Дои:10.1007/978-3-540-45167-9_14. ISBN 978-3-540-40720-1.
- Мейла, М. (2007). «Сравнение кластеризации - расстояние, основанное на информации». Журнал многомерного анализа. 98 (5): 873–895. Дои:10.1016 / j.jmva.2006.11.013.
- Кингсфорд, Карл (2009). «Заметки по теории информации» (PDF). Получено 22 сентября 2009.
- Красков, Александр; Харальд Штегбауэр; Ральф Дж. Анджеяк; Питер Грассбергер (2003). «Иерархическая кластеризация на основе взаимной информации». arXiv:q-bio / 0311039.
внешняя ссылка
- Партанализатор включает в себя реализацию VI на C ++ и другие показатели и индексы для анализа разделов и кластеров
- Реализация C ++ с файлами MATLAB mex