Минимальная длина сообщения - Minimum message length

Минимальная длина сообщения (MML) - это байесовский теоретико-информационный метод сравнения и выбора статистических моделей.[1] Он обеспечивает формальное теория информации повторение Бритва Оккама: даже когда модели сравнимы по степени точности с наблюдаемыми данными, модель генерирует наиболее краткую объяснение данных с большей вероятностью будут правильными (где объяснение состоит из описания модели, за которым следует кодирование без потерь данных с использованием указанной модели). MML был изобретен Крис Уоллес, впервые появившейся в основополагающей статье «Информационная мера для классификации».[2] MML предназначен не только как теоретическая конструкция, но и как метод, который можно применить на практике.[3] Он отличается от родственной концепции Колмогоровская сложность в том, что он не требует использования Полный по Тьюрингу язык для моделирования данных.[4]

Определение

Шеннон с Математическая теория коммуникации (1948) утверждает, что в оптимальном коде длина сообщения (в двоичном формате) события , , куда имеет вероятность , дан кем-то .

Теорема Байеса утверждает, что вероятность (переменной) гипотезы предоставил твердые доказательства пропорционально , которое по определению условная возможность, равно . Нам нужна модель (гипотеза) с наибольшим таким апостериорная вероятность. Предположим, мы кодируем сообщение, которое представляет (описывает) модель и данные вместе. С , наиболее вероятная модель будет иметь самое короткое такое сообщение. Сообщение разбивается на две части: . Первая часть кодирует саму модель. Вторая часть содержит информацию (например, значения параметров или начальные условия и т. Д.), Которая при обработке моделью выводит наблюдаемые данные.

MML естественно и точно меняет сложность модели на степень соответствия. Формирование более сложной модели занимает больше времени (более длинная первая часть), но, вероятно, лучше соответствует данным (более короткая вторая часть). Таким образом, метрика MML не выберет сложную модель, если эта модель не окупится.

Непрерывные параметры

Одна из причин, по которой модель может быть длиннее, может быть просто потому, что ее различные параметры указаны с большей точностью, что требует передачи большего количества цифр. Большая часть возможностей MML заключается в том, что он умеет точно указывать параметры в модели, а также в различных приближениях, которые делают это возможным на практике. Это позволяет с пользой сравнить, скажем, модель с множеством неточно заданных параметров с моделью с меньшим количеством параметров, сформулированных более точно.

Ключевые особенности MML

  • MML можно использовать для сравнения моделей разной структуры. Например, его самое раннее применение было в поиске модели смеси с оптимальным количеством занятий. Добавление дополнительных классов в смешанную модель всегда позволяет подбирать данные с большей точностью, но согласно MML это необходимо сопоставить с дополнительными битами, необходимыми для кодирования параметров, определяющих эти классы.
  • MML - это метод Сравнение байесовских моделей. Это дает каждой модели оценку.
  • MML является масштабно-инвариантным и статистически инвариантным. В отличие от многих байесовских методов отбора, MML не заботится о том, переходите ли вы от измерения длины к объему или от декартовых координат к полярным координатам.
  • MML статистически согласован. Для таких проблем, как Нейман-Скотт (1948), где объем данных для каждого параметра ограничен выше, MML может оценить все параметры с помощью статистическая согласованность.
  • MML учитывает точность измерения. Он использует Информация Fisher (в приближении Уоллеса-Фримена 1987 г. или других гиперобъемах в другие приближения ) для оптимальной дискретизации непрерывных параметров. Следовательно, апостериорная всегда является вероятностью, а не плотностью вероятности.
  • MML используется с 1968 года. Схемы кодирования MML были разработаны для нескольких распределений и для многих типов машинного обучения, включая неконтролируемую классификацию, деревья и графики решений, последовательности ДНК, Байесовские сети, нейронные сети (пока только однослойные), сжатие изображений, сегментация изображений и функций и т. д.

Смотрите также

Рекомендации

  1. ^ Уоллес, С.С. (Кристофер С.), -2004. (2005). Статистический и индуктивный вывод по минимальной длине сообщения. Нью-Йорк: Спрингер. ISBN  9780387237954. OCLC  62889003.CS1 maint: несколько имен: список авторов (связь)
  2. ^ Wallace, C. S .; Бултон, Д. М. (1968-08-01). «Информационная мера для классификации». Компьютерный журнал. 11 (2): 185–194. Дои:10.1093 / comjnl / 11.2.185. ISSN  0010-4620.
  3. ^ Эллисон, Ллойд. (2019). Кодирование бритвы Оккама. Springer. ISBN  978-3030094881. OCLC  1083131091.
  4. ^ Wallace, C. S .; Доу, Д. Л. (1999-01-01). «Минимальная длина сообщения и колмогоровская сложность». Компьютерный журнал. 42 (4): 270–283. Дои:10.1093 / comjnl / 42.4.270. ISSN  0010-4620.
  5. ^ Wallace, C. S .; Доу, Д. Л. (1999-01-01). «Минимальная длина сообщения и колмогоровская сложность». Компьютерный журнал. 42 (4): 270–283. Дои:10.1093 / comjnl / 42.4.270. ISSN  0010-4620.

внешняя ссылка

Оригинальная публикация:

Книги:

Ссылки по теме: