Язык разметки прогнозной модели - Predictive Model Markup Language

PMML Logo.png

В Язык разметки прогнозной модели (PMML) является XML -основан прогнозная модель формат обмена, разработанный Dr. Роберт Ли Гроссман, затем директор Национальный центр интеллектуального анализа данных на Иллинойский университет в Чикаго. PMML предоставляет аналитическим приложениям способ описания и обмена прогнозные модели произведено сбор данных и машинное обучение алгоритмы. Он поддерживает распространенные модели, такие как логистическая регрессия и другие нейронные сети с прямой связью. Версия 0.9 была опубликована в 1998 году.[1] Последующие версии были разработаны Data Mining Group.[2]

Поскольку PMML является стандартом на основе XML, спецификация представлена ​​в виде Схема XML. PMML сам по себе является зрелым стандартом, и более 30 организаций анонсировали продукты, поддерживающие PMML.[3]

Компоненты PMML

Файл PMML можно описать следующими компонентами:[4][5]

  • Заголовок: содержит общую информацию о документе PMML, такую ​​как информацию об авторских правах на модель, ее описание и информацию о приложении, использованном для создания модели, такую ​​как имя и версия. Он также содержит атрибут для отметки времени, который можно использовать для указания даты создания модели.
  • Словарь с данными: содержит определения для всех возможных полей, используемых моделью. Именно здесь поле определяется как непрерывное, категориальное или порядковое (атрибут optype). В зависимости от этого определения затем определяются соответствующие диапазоны значений, а также тип данных (например, string или double).
  • Преобразования данных: преобразования позволяют отображать пользовательские данные в более желаемую форму для использования в модели интеллектуального анализа данных. PMML определяет несколько видов простых преобразований данных.
    • Нормализация: отображение значений в числа, ввод может быть непрерывным или дискретным.
    • Дискретность: преобразование непрерывных значений в дискретные.
    • Сопоставление значений: сопоставление дискретных значений с дискретными значениями.
    • Функции (настраиваемые и встроенные): получение значения путем применения функции к одному или нескольким параметрам.
    • Агрегация: используется для суммирования или сбора групп значений.
  • Модель: содержит определение модели интеллектуального анализа данных. Например, многослойный нейронная сеть с прямой связью представлен в PMML элементом «NeuralNetwork», который содержит такие атрибуты, как:
    • Название модели (атрибут modelName)
    • Имя функции (атрибут functionName)
    • Имя алгоритма (атрибут algorithmName)
    • Функция активации (атрибут ActivationFunction)
    • Количество слоев (атрибут numberOfLayers)
Затем за этой информацией следуют три типа нейронных слоев, которые определяют архитектуру модели нейронной сети, представленной в документе PMML. Эти атрибуты - NeuralInputs, NeuralLayer и NeuralOutputs. Помимо нейронных сетей, PMML позволяет отображать многие другие типы моделей, включая опорные векторные машины, правила ассоциации, Наивный байесовский классификатор, модели кластеризации, текстовые модели, деревья решений, и разные регрессионные модели.
  • Схема майнинга: список всех полей, используемых в модели. Это может быть подмножество полей, как определено в словаре данных. Он содержит конкретную информацию о каждом поле, например:
    • Имя (имя атрибута): должно относиться к полю в словаре данных
    • Тип использования (атрибут usageType): определяет способ использования поля в модели. Типичные значения: активные, прогнозируемые и дополнительные. Прогнозируемые поля - это те, значения которых предсказываются моделью.
    • Обработка выбросов (выбросы атрибутов): определяет используемую обработку выбросов. В PMML выбросы можно рассматривать как пропущенные значения, как экстремальные значения (на основе определения высоких и низких значений для конкретного поля) или как есть.
    • Политика замены отсутствующих значений (атрибут missingValueReplacement): если этот атрибут указан, то отсутствующее значение автоматически заменяется заданными значениями.
    • Обработка отсутствующего значения (атрибут missingValueTreatment): указывает, как была получена замена отсутствующего значения (например, в виде значения, среднего или медианы).
  • Цели: позволяет выполнять постобработку прогнозируемого значения в формате масштабирования, если выход модели является непрерывным. Цели также можно использовать для задач классификации. В этом случае атрибут priorProbability указывает вероятность по умолчанию для соответствующей целевой категории. Используется, если сама логика прогноза не дала результата. Это может произойти, например, если входное значение отсутствует и нет другого метода обработки отсутствующих значений.
  • Выход: этот элемент можно использовать для именования всех желаемых выходных полей, ожидаемых от модели. Это особенности прогнозируемого поля и, как правило, само прогнозируемое значение, вероятность, кластерное сходство (для моделей кластеризации), стандартная ошибка и т. Д. Последняя версия PMML, PMML 4.1, расширенная Выход чтобы обеспечить общую постобработку выходных данных модели. В PMML 4.1 все встроенные и пользовательские функции, которые изначально были доступны только для предварительной обработки, стали доступны и для последующей обработки.

PMML 4.0, 4.1, 4.2 и 4.3

PMML 4.0 был выпущен 16 июня 2009 года.[6][7][8]

Примеры новых функций:

PMML 4.1 был выпущен 31 декабря 2011 года.[9][10]

Включены новые функции:

  • Новые элементы модели для представления оценочных карточек, k-ближайших соседей (KNN ) и базовые модели.
  • Упрощение нескольких моделей. В PMML 4.1 один и тот же элемент используется для представления сегментации, ансамбля и цепочки модели.
  • Общее определение области и имен полей.
  • Новый атрибут, определяющий для каждого элемента модели, готова ли модель к производственному развертыванию.
  • Расширенные возможности постобработки (через элемент «Вывод»).

PMML 4.2 был выпущен 28 февраля 2014 года.[11][12]

Новые функции включают:

  • Преобразования: новые элементы для реализации интеллектуального анализа текста
  • Новые встроенные функции для реализации регулярных выражений: совпадения, согласование и замена
  • Упрощенный вывод для постобработки
  • Улучшения в системе показателей и элементах модели наивного Байеса

PMML 4.3 был выпущен 23 августа 2016 г.[13][14]

Новые функции включают:

  • Новые типы моделей:
    • Гауссовский процесс
    • Байесовская сеть
  • Новые встроенные функции
  • Разъяснения по использованию
  • Улучшения документации

История выпуска

ВерсияДата выхода
Версия 0.7Июль 1997 г.
Версия 0.9Июль 1998 г.
Версия 1.0Август 1999 г.
Версия 1.1Август 2000 г.
Версия 2.0Август 2001 г.
Версия 2.1Март 2003 г.
Версия 3.0Октябрь 2004 г.
Версия 3.1Декабрь 2005 г.
Версия 3.2Май 2007 г.
Версия 4.0Июнь 2009 г.
Версия 4.1Декабрь 2011 г.
Версия 4.2Февраль 2014
Версия 4.2.1Март 2015 г.
Версия 4.3Август 2016 г.

Группа интеллектуального анализа данных

В Группа интеллектуального анализа данных - это консорциум, управляемый некоммерческой организацией Center for Computational Science Research, Inc., основанной в 2008 году.[15] Группа интеллектуального анализа данных также разработала стандарт под названием Портативный формат для аналитики или PFA, который дополняет PMML.

Рекомендации

  1. ^ «Управление и анализ нескольких прогнозных моделей с использованием языка разметки прогнозного моделирования». ResearchGate. Дои:10.1016 / S0950-5849 (99) 00022-1. Получено 2015-12-21.
  2. ^ «Группа интеллектуального анализа данных». Получено 14 декабря, 2017. DMG гордится тем, что принимает у себя рабочие группы, которые разрабатывают Язык разметки прогнозных моделей (PMML) и Портативный формат для аналитики (PFA), два дополнительных стандарта, которые упрощают развертывание аналитических моделей.
  3. ^ "PMML Powered". Группа интеллектуального анализа данных. Получено 14 декабря, 2017.
  4. ^ А. Гуаццелли, М. Целлер, В. Чен и Г. Уильямс. PMML: открытый стандарт для обмена моделями. Журнал R, Том 1/1, май 2009 г.
  5. ^ А. Гуаццелли, В. Лин, Т. Йена (2010). PMML в действии (2-е издание): раскрытие возможностей открытых стандартов интеллектуального анализа данных и прогнозной аналитики. CreateSpace.
  6. ^ Веб-сайт Data Mining Group | PMML 4.0 - Отличия от PMML 3.2 В архиве 2012-07-28 в Archive.today
  7. ^ "Сайт Zementis | PMML 4.0 уже здесь!". Архивировано из оригинал на 2011-10-03. Получено 2009-06-17.
  8. ^ Р. Пехтер. Что такое PMML и что нового в PMML 4.0? Информационный бюллетень ACM SIGKDD Explorations, Том 11/1, июль 2009 г.
  9. ^ Веб-сайт Data Mining Group | PMML 4.1 - Изменения по сравнению с PMML 4.0
  10. ^ Информационный сайт по прогнозной аналитике | PMML 4.1 уже здесь!
  11. ^ Веб-сайт Data Mining Group | PMML 4.2 - Отличия от PMML 4.1 В архиве 2014-05-20 в Archive.today
  12. ^ Информационный сайт по прогнозной аналитике | PMML 4.2 уже здесь!
  13. ^ Веб-сайт Data Mining Group | PMML 4.3 - Отличия от PMML 4.2.1
  14. ^ Веб-сайт продукта языка разметки прогнозных моделей | Проектная деятельность
  15. ^ «2008 EO 990». Получено 16 октября 2014.

внешняя ссылка