Сеть реляционных зависимостей - Relational dependency network

Сети реляционных зависимостей (RDN) - это графические модели, расширяющие сети зависимости для учета реляционных данных. Реляционные данные - это данные, организованные в одну или несколько таблиц, которые связаны между собой общими полями. А реляционная база данных является каноническим примером системы, которая служит для поддержки реляционных данных. Сеть реляционных зависимостей может использоваться для характеристики знаний, содержащихся в базе данных.


Введение

Сети реляционных зависимостей (или RDN) стремятся получить совместное распределение вероятностей над переменными набора данных, представленных в реляционной области. Они основаны на Сети зависимостей (или DN) и расширьте их до реляционной настройки. У RDN есть эффективные методы обучения, при которых RDN может изучать параметры независимо, то есть условные распределения вероятностей могут оцениваться отдельно. Поскольку могут быть некоторые несоответствия из-за метода независимого обучения, RDN используют выборку Гиббса для восстановления совместного распределения, как DN.

В отличие от сетей зависимостей, для RDN требуется три графики чтобы полностью их представить.

  • График данных: Это граф, узлы которого представляют объекты из набора данных, а ребра представляют зависимости между объектами. Каждому из объектов и ребер присваивается тип, и у каждого объекта есть набор атрибутов.
  • График модели: Это график более высокого уровня, а точнее на уровне типов. Таким образом, узлы представляют атрибуты данного типа, а ребра представляют зависимости между атрибутами одного и того же типа или между атрибутами разных типов. Каждый узел связан с распределением вероятности, обусловленным его родительскими узлами. Граф модели не делает никаких предположений о наборе данных, что делает его достаточно общим для поддержки различных данных, представленных графом данных. Таким образом, можно использовать данный набор данных для изучения структуры и условных распределений вероятностей графа модели, а затем сгенерировать граф вывода из графа модели, примененного к графу данных, который представляет другой набор данных.
  • График вывода: Он соответствует тому графику, который создается графом данных и графом модели в процессе, называемом развертыванием. Графики вывода, вероятно, больше, чем графы данных и графы моделей, потому что каждый из атрибутов для каждого из объектов является экземпляром на графе вывода с характеристиками этого соответствующего атрибута из графа модели.

Таким образом, граф данных указывает, как граф модели будет развернут для создания графа вывода.

Обучение RDN

Метод обучения для RDN аналогичен методу, используемому DN, то есть все условные распределения вероятностей могут быть изучены для каждой из переменных независимо. Однако только условные реляционные учащиеся могут использоваться в процессе оценки параметров для RDN. Следовательно, учащиеся, используемые DN, например деревья решений или логистическая регрессия, не работают для RDN. Невилл, Дж. И Дженсен, Д. (2007) [1] представить результаты некоторых экспериментов, сравнивающих RDN при обучении с помощью реляционных байесовских классификаторов и RDN при обучении с помощью реляционных деревьев вероятностей. Натараджан и др. (2012) [2] используйте серию регрессионных моделей для представления условных распределений.

Этот метод обучения делает RDN моделью с эффективным временем обучения. Однако этот метод также делает RDN чувствительными к некоторым структурным или численным несоответствиям. Если в методе оценки условного распределения вероятностей используется выбор признаков, возможно, что данная переменная обнаружит зависимость между собой и другой переменной, в то время как последняя не найдет эту зависимость. В этом случае RDN структурно несовместим. Кроме того, если совместное распределение не суммирует единицу из-за приближений, вызванных независимым обучением, то мы говорим, что существует численное несоответствие. К счастью, такие несоответствия можно обойти на этапе вывода, как мы скоро увидим в разделе вывода RDN.

Вывод RDN

Вывод RDN начинается с создания графа вывода посредством процесса, называемого развертыванием. В этом процессе граф модели разворачивается поверх графа данных, чтобы сформировать граф вывода. Затем можно использовать метод выборки Гиббса для восстановления условного распределения вероятностей.

Приложения

RDN применяются во многих реальных доменах. Основными преимуществами RDN являются их способность использовать информацию о взаимосвязях для повышения производительности модели. Диагностика, прогнозирование, автоматическое зрение, объединение датчиков и управление производством - вот некоторые примеры проблем, при которых применялись RDN.

Реализации

Некоторые предложения по реализации RDN:

  • BoostSRL:[3] Система, специализирующаяся на обучении методом повышения на основе градиента для различных типов статистических моделей реляционного обучения, включая сети реляционных зависимостей. Для получения дополнительной информации и обозначений см. Natarajan et al. (2011).[2]

использованная литература

  1. ^ Невилл, Дженнифер; Дженсен, Дэвид (2007). «Сети реляционных зависимостей» (PDF). Журнал исследований в области машинного обучения. 8: 653–692. Получено 9 февраля 2020.
  2. ^ а б Натараджан, Шрирам; Хот, Тушар; Керстинг, Кристиан; Гутманн, Бернд; Шавлик, Джуд (10 мая 2011 г.). «Градиентное усиление для статистического реляционного обучения: пример сети реляционных зависимостей» (PDF). Машинное обучение. 86 (1): 25–56. Дои:10.1007 / s10994-011-5244-9. Получено 9 февраля 2020.
  3. ^ Лаборатория, СТАРЛИНГ. "BoostSRL Wiki". Скворец. Получено 9 февраля 2020.