Язык разметки прогнозной модели
Разработано | Роберт Ли Гроссман |
---|---|
Последний выпуск | 4.4 ноябрь 2019 г |
Тип формата | Прогнозное моделирование |
Расширено с | XML |
Язык разметки прогнозных моделей ( PMML ) — это XML основанный на формат обмена прогнозными моделями, разработанный Робертом Ли Гроссманом , в то время директором Национального центра интеллектуального анализа данных в Университете Иллинойса в Чикаго . PMML предоставляет аналитическим приложениям возможность описывать и обмениваться прогнозными моделями, созданными с помощью алгоритмов интеллектуального анализа данных и машинного обучения . Он поддерживает распространенные модели, такие как логистическая регрессия и другие нейронные сети прямого распространения . Версия 0.9 была опубликована в 1998 году. [ 1 ] Последующие версии были разработаны Data Mining Group. [ 2 ]
Поскольку PMML — это стандарт, основанный на XML, спецификация представлена в форме схемы XML . PMML сам по себе является зрелым стандартом: более 30 организаций анонсировали продукты, поддерживающие PMML. [ 3 ]
Компоненты PMML
[ редактировать ]Файл PMML может быть описан следующими компонентами: [ 4 ] [ 5 ]
- Заголовок : содержит общую информацию о документе PMML, например информацию об авторских правах на модель, ее описание и информацию о приложении, использованном для создания модели, например имя и версию. Он также содержит атрибут отметки времени, который можно использовать для указания даты создания модели.
- Словарь данных : содержит определения для всех возможных полей, используемых моделью. Именно здесь поле определяется как непрерывное, категориальное или порядковое (оптип атрибута). В зависимости от этого определения затем определяются соответствующие диапазоны значений, а также тип данных (например, строка или двойное значение).
- Преобразования данных : преобразования позволяют отображать пользовательские данные в более желательную форму для использования в модели интеллектуального анализа данных. PMML определяет несколько видов простых преобразований данных.
- Нормализация: сопоставляет значения с числами, ввод может быть непрерывным или дискретным.
- Дискретизация: сопоставьте непрерывные значения с дискретными значениями.
- Сопоставление значений: сопоставьте дискретные значения с дискретными значениями.
- Функции (настраиваемые и встроенные): получают значение путем применения функции к одному или нескольким параметрам.
- Агрегация: используется для суммирования или сбора групп значений.
- Модель : содержит определение модели интеллектуального анализа данных. Например, многослойная нейронная сеть прямого распространения представлена в PMML элементом NeuralNetwork, который содержит такие атрибуты, как:
- Название модели (атрибут modelName)
- Имя функции (атрибут functionName)
- Имя алгоритма (атрибут имя_алгоритма)
- Функция активации (атрибут activeFunction)
- Количество слоев (атрибут NumberOfLayers)
- Затем за этой информацией следуют три типа нейронных слоев, которые определяют архитектуру модели нейронной сети, представленной в документе PMML. Этими атрибутами являются NeuralInputs, NeuralLayer и NeuralOutputs. Помимо нейронных сетей, PMML позволяет представлять многие другие типы моделей, включая машины опорных векторов , правила ассоциации , наивный байесовский классификатор , модели кластеризации, текстовые модели , деревья решений и различные модели регрессии .
- Схема интеллектуального анализа : список всех полей, используемых в модели. Это может быть подмножество полей, определенных в словаре данных. Он содержит конкретную информацию о каждом поле, например:
- Имя (имя атрибута): должно ссылаться на поле в словаре данных.
- Тип использования (атрибут UsageType): определяет способ использования поля в модели. Типичные значения: активные, прогнозируемые и дополнительные. Прогнозируемые поля — это поля, значения которых прогнозируются моделью.
- Обработка выбросов (выбросы атрибутов): определяет используемую обработку выбросов. В PMML выбросы можно рассматривать как пропущенные значения, как экстремальные значения (на основе определения верхних и нижних значений для конкретного поля) или как есть.
- Политика замены отсутствующего значения (атрибут MissingValueReplacement): если этот атрибут указан, то отсутствующее значение автоматически заменяется заданными значениями.
- Обработка отсутствующих значений (атрибут MissingValueTreatment): указывает, как была получена замена отсутствующих значений (например, как значение, среднее значение или медиана).
- Цели : позволяет осуществлять постобработку прогнозируемого значения в формате масштабирования, если выходные данные модели непрерывны. Цели также можно использовать для задач классификации. В этом случае атрибут PriorProbability указывает вероятность по умолчанию для соответствующей целевой категории. Он используется, если сама логика прогнозирования не дала результата. Это может произойти, например, если входное значение отсутствует и нет другого метода обработки отсутствующих значений.
- Вывод : этот элемент можно использовать для обозначения всех желаемых полей вывода, ожидаемых от модели. Это характеристики прогнозируемого поля, как правило, само прогнозируемое значение, вероятность, сходство кластера (для моделей кластеризации), стандартная ошибка и т. д. Последняя версия PMML, PMML 4.1, расширенный вывод , позволяющий выполнять общую постобработку. выходных данных модели. В PMML 4.1 все встроенные и пользовательские функции, которые изначально были доступны только для предварительной обработки, стали доступны и для постобработки.
ПММЛ 4.0, 4.1, 4.2 и 4.3
[ редактировать ]PMML 4.0 был выпущен 16 июня 2009 г. [ 6 ] [ 7 ] [ 8 ]
Примеры новых функций:
- Улучшенные возможности предварительной обработки: дополнения к встроенным функциям включают ряд логических операций и функцию If-Then-Else .
- Модели временных рядов : новые экспоненциального сглаживания модели ; также заполнители для ARIMA , разложения сезонного тренда и оценки спектральной плотности , которые будут поддерживаться в ближайшем будущем.
- Пояснение модели: Сохранение оценок и показателей эффективности модели в самом файле PMML.
- Множественные модели: возможности для составления моделей, ансамблей и сегментации (например, объединение регрессии и деревьев решений).
- Расширения существующих элементов: добавление многоклассовой классификации для машин опорных векторов , улучшенное представление правил ассоциации и добавление моделей регрессии Кокса .
PMML 4.1 был выпущен 31 декабря 2011 года. [ 9 ] [ 10 ]
Новые функции включали:
- Новые элементы модели для представления карт показателей, k-ближайших соседей ( KNN ) и базовых моделей.
- Упрощение нескольких моделей. В PMML 4.1 один и тот же элемент используется для представления сегментации, ансамбля и цепочки модели.
- Общее определение области действия поля и имен полей.
- Новый атрибут, который определяет для каждого элемента модели, готова ли модель к производственному развертыванию.
- Расширенные возможности постобработки (через элемент Output).
PMML 4.2 был выпущен 28 февраля 2014 г. [ 11 ] [ 12 ]
Новые функции включают в себя:
- Преобразования: новые элементы для реализации интеллектуального анализа текста
- Новые встроенные функции для реализации регулярных выражений: совпадения, объединение и замена.
- Упрощенные выходные данные для постобработки
- Усовершенствования элементов модели Scorecard и Naive Bayes.
PMML 4.3 был выпущен 23 августа 2016 г. [ 13 ] [ 14 ]
Новые функции включают в себя:
- Новые типы моделей:
- Гауссов процесс
- Байесовская сеть
- Новые встроенные функции
- Разъяснения по использованию
- Улучшения документации
Версия 4.4 была выпущена в ноябре 2019 года. [ 15 ] [ 16 ]
История выпусков
[ редактировать ]Версия | Дата выпуска |
---|---|
Версия 0.7 | июль 1997 г. |
Версия 0.9 | июль 1998 г. |
Версия 1.0 | август 1999 г. |
Версия 1.1 | август 2000 г. |
Версия 2.0 | август 2001 г. |
Версия 2.1 | март 2003 г. |
Версия 3.0 | октябрь 2004 г. |
Версия 3.1 | декабрь 2005 г. |
Версия 3.2 | май 2007 г. |
Версия 4.0 | июнь 2009 г. |
Версия 4.1 | декабрь 2011 г. |
Версия 4.2 | февраль 2014 г. |
Версия 4.2.1 | Март 2015 г. |
Версия 4.3 | август 2016 г. |
Версия 4.4 | ноябрь 2019 г. |
Группа интеллектуального анализа данных
[ редактировать ]Data Mining Group — это консорциум, управляемый Центром компьютерных исследований, некоммерческой организацией, основанной в 2008 году. [ 17 ] Группа интеллектуального анализа данных также разработала стандарт под названием Portable Format for Analytics или PFA, который дополняет PMML.
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ «Управление и анализ нескольких прогнозных моделей с использованием языка разметки прогнозного моделирования» . Исследовательские ворота . дои : 10.1016/S0950-5849(99)00022-1 . Проверено 21 декабря 2015 г.
- ^ «Группа интеллектуального анализа данных» . Проверено 14 декабря 2017 г.
DMG с гордостью принимает у себя рабочие группы, которые разрабатывают язык разметки прогнозных моделей (PMML) и портативный формат для аналитики (PFA) — два взаимодополняющих стандарта, которые упрощают развертывание аналитических моделей.
- ^ «На базе PMML» . Группа интеллектуального анализа данных . Проверено 14 декабря 2017 г.
- ^ А. Гуаццелли, М. Зеллер, В. Чен и Г. Уильямс. PMML: открытый стандарт для совместного использования моделей . The R Journal , том 1/1, май 2009 г.
- ^ А. Гуазелли, В. Лин, Т. Йена (2010). PMML в действии (2-е издание): раскрытие возможностей открытых стандартов для интеллектуального анализа данных и прогнозной аналитики . CreateSpace.
- ^ Веб-сайт группы интеллектуального анализа данных | PMML 4.0 — Изменения по сравнению с PMML 3.2. Архивировано 28 июля 2012 г. на archive.today.
- ^ «Сайт Zementis | PMML 4.0 уже здесь!» . Архивировано из оригинала 3 октября 2011 г. Проверено 17 июня 2009 г.
- ^ Р. Пехтер. Что такое PMML и что нового в PMML 4.0? Информационный бюллетень ACM SIGKDD Explorations , том 11/1, июль 2009 г.
- ^ Веб-сайт группы интеллектуального анализа данных | PMML 4.1 — Изменения по сравнению с PMML 4.0
- ^ Веб-сайт с информацией о прогнозной аналитике | PMML 4.1 уже здесь!
- ^ Веб-сайт группы интеллектуального анализа данных | PMML 4.2 — Изменения по сравнению с PMML 4.1. Архивировано 20 мая 2014 г. на archive.today.
- ^ Веб-сайт с информацией о прогнозной аналитике | PMML 4.2 уже здесь!
- ^ Веб-сайт группы интеллектуального анализа данных | PMML 4.3 — Изменения по сравнению с PMML 4.2.1
- ^ Веб-сайт продукта языка прогнозной модели разметки | Проектная деятельность
- ^ «Группа интеллектуального анализа данных выпускает язык разметки прогнозных моделей v4.4» . Проверено 12 июля 2021 г.
- ^ «PMML 4.4.1 — Общая структура» . Группа интеллектуального анализа данных . Проверено 12 июля 2021 г.
- ^ «2008 ЭО 990» . Проверено 16 октября 2014 г.
Внешние ссылки
[ редактировать ]- Предварительная обработка данных в PMML и ADAPA — учебник для начинающих
- Видео презентации PMML Алекса Гуаццелли для группы интеллектуального анализа данных ACM (размещено на LinkedIn)
- Спецификация PMML 3.2
- Спецификация ПММЛ 4.0
- Спецификация ПММЛ 4.1
- PMML 4.2.1 Спецификация
- Спецификация PMML 4.4
- Представление прогнозных решений в PMML: переход от необработанных данных к прогнозам — статья, опубликованная на веб-сайте IBM DeveloperWorks.
- Прогнозная аналитика в здравоохранении: важность открытых стандартов — статья опубликована на веб-сайте IBM DeveloperWorks.