Сбор информации в деревьях решений - Information gain in decision trees

В теория информации и машинное обучение, получение информации это синоним Дивергенция Кульбака – Лейблера; то количество информации получил около случайная переменная или же сигнал от наблюдения другой случайной величины. Однако в контексте деревьев решений этот термин иногда используется как синоним взаимная информация, какой условное математическое ожидание дивергенции Кульбака – Лейблера одномерного распределение вероятностей одной переменной из условное распределение этой переменной данный другой.

Информационный прирост случайной величины Икс получено из наблюдения случайная переменная А принимая ценность определено

расхождение Кульбака – Лейблера предварительное распространение для x из апостериорное распределение за Икс данный а.

В ожидаемое значение получения информации взаимная информация из Икс и А - то есть уменьшение энтропия из Икс достигается путем изучения состояния случайная переменная А.

В машинном обучении эту концепцию можно использовать для определения предпочтительной последовательности атрибутов для исследования, чтобы наиболее быстро сузить состояние Икс. Такая последовательность (которая зависит от результата исследования предыдущих атрибутов на каждом этапе) называется Древо решений и применяется в области машинного обучения, известной как обучение по дереву решений. Обычно атрибут с высокой взаимной информацией должен быть предпочтительнее других атрибутов.[Почему? ]

Общее определение

В целом ожидал прирост информации - это изменение информационная энтропия Η из предыдущего состояния в состояние, которое принимает некоторую информацию как данность:

куда это условная энтропия из учитывая ценность атрибут .

Формальное определение

Позволять обозначить набор обучающих примеров, каждая форма куда стоимость атрибут или особенность из пример и y - соответствующая метка класса. Информационный прирост для атрибута определяется в терминах Энтропия Шеннона следующее. Для стоимости взят по атрибуту , позволять

быть определенным как набор обучающих материалов для какого атрибута равно . Тогда информационный прирост для атрибута есть разница между априорной энтропией Шеннона обучающего набора и условная энтропия .

В взаимная информация равна общей энтропии для атрибута, если для каждого из значений атрибута уникальное классификация можно сделать для атрибута результата. В этом случае относительные энтропии, вычитаемые из полной энтропии, равны 0. В частности, значения определяет раздел данных обучающего набора в взаимоисключающий и все включено подмножества, вызывая категориальное распределение вероятностей о ценностях атрибута . Распределение дано . В этом представлении информационный прирост данный можно определить как разницу между безусловной энтропией Шеннона и ожидаемая энтропия при условии , где ожидаемое значение берется относительно индуцированного распределения по значениям .

Недостатки

Хотя получение информации обычно является хорошей мерой для определения актуальность атрибута, это не идеально. Заметная проблема возникает, когда информационное усиление применяется к атрибутам, которые могут принимать большое количество различных значений. Например, предположим, что кто-то строит дерево решений для некоторых данных, описывающих клиентов компании. Получение информации часто используется, чтобы решить, какие из атрибутов являются наиболее важными, чтобы их можно было проверить около корня дерева. Одним из входных атрибутов может быть номер кредитной карты клиента. Этот атрибут имеет много взаимной информации, потому что он однозначно идентифицирует каждого клиента, но мы нет хотите включить его в дерево решений: решение о том, как обращаться с клиентом на основе номера его кредитной карты, вряд ли будет распространено на клиентов, которых мы раньше не видели (переоснащение ).

Чтобы противостоять этой проблеме, Росс Куинлан предложил вместо этого выбрать атрибут с наивысшим коэффициент передачи информации из числа атрибутов, информативность которых средняя или выше.[1] Это заставляет дерево решений не рассматривать атрибуты с большим количеством различных значений, но не дает несправедливого преимущества атрибутам с очень низким информационным значением, поскольку информационное значение выше или равно информационному выигрышу.[2]

Пример

Давайте воспользуемся этой таблицей в качестве набора данных и воспользуемся полученной информацией, чтобы определить, болен ли пациент каким-либо заболеванием. Пациенты, классифицированные как истинные (T), больны, а пациенты, классифицированные как ложные (F), не болеют. В настоящее время мы находимся в корневом узле дерева и должны рассмотреть все возможные разбиения с использованием данных.

Набор данных обучения
ПациентСимптом АСимптом BСимптом CКлассификация
1ТТТF
2ТFТТ
3FFТТ
4FТТF
5FТFТ

Разделение кандидатов определяется путем рассмотрения каждой переменной, составляющей пациента, и возможных ее состояний. В этом примере все симптомы могут быть истинными (T) или ложными (F).

Разделение кандидатов
РасколотьДочерние узлы
1Симптом A = T, Симптом A = F
2Симптом B = T, Симптом B = F
3Симптом C = T, Симптом C = F

Теперь для расщепления №1 мы определяем энтропию до расщепления, которая определяется с использованием классификации каждого пациента.

Условная энтропия расщепления №1 определяется путем нахождения энтропии каждого состояния симптома A и их объединения.

Затем можно определить информационный выигрыш, найдя разницу в априорной энтропии и условной энтропии.

Пример разделения корневого узла

Эти шаги повторяются для всех групп кандидатов, чтобы получить их информацию. Все возможные разделения для узла используют одно и то же значение для .

Разделение кандидатов на получение информации
РасколотьПолучение информации
10.020
20.419
30.171

Разделение кандидатов №2 имеет наибольшее информационное усиление, поэтому оно будет наиболее благоприятным для корневого узла. В зависимости от достоверности классификации дочерних узлов, получение информации может применяться к дочерним узлам, но не может использовать одно и то же разбиение-кандидат.

Смотрите также

Рекомендации

  1. ^ Куинлан, Дж. Росс (1986). «Индукция деревьев решений». Машинное обучение. 1 (1): 81–106. Дои:10.1007 / BF00116251.
  2. ^ Мильман, Орен (6 августа 2018 г.). «Каков диапазон коэффициента передачи информации?». Обмен стеком. Получено 2018-10-09.

дальнейшее чтение