Jump to content

Язык разметки прогнозной модели

Язык разметки прогнозной модели
Разработано Роберт Ли Гроссман
Последний выпуск
4.4
ноябрь 2019 г .; 4 года назад ( 2019-11 )
Тип формата Прогнозное моделирование
Расширено с XML

Язык разметки прогнозных моделей ( PMML ) — это XML основанный на формат обмена прогнозными моделями, разработанный Робертом Ли Гроссманом , в то время директором Национального центра интеллектуального анализа данных в Университете Иллинойса в Чикаго . PMML предоставляет аналитическим приложениям возможность описывать и обмениваться прогнозными моделями, созданными с помощью алгоритмов интеллектуального анализа данных и машинного обучения . Он поддерживает распространенные модели, такие как логистическая регрессия и другие нейронные сети прямого распространения . Версия 0.9 была опубликована в 1998 году. [1] Последующие версии были разработаны Data Mining Group. [2]

Поскольку PMML — это стандарт, основанный на XML, спецификация представлена ​​в форме схемы XML . PMML сам по себе является зрелым стандартом: более 30 организаций анонсировали продукты, поддерживающие PMML. [3]

Компоненты PMML [ править ]

Файл PMML может быть описан следующими компонентами: [4] [5]

  • Заголовок : содержит общую информацию о документе PMML, например информацию об авторских правах на модель, ее описание и информацию о приложении, использованном для создания модели, например имя и версию. Он также содержит атрибут отметки времени, который можно использовать для указания даты создания модели.
  • Словарь данных : содержит определения для всех возможных полей, используемых моделью. Именно здесь поле определяется как непрерывное, категориальное или порядковое (оптип атрибута). В зависимости от этого определения затем определяются соответствующие диапазоны значений, а также тип данных (например, строка или двойное значение).
  • Преобразования данных : преобразования позволяют преобразовывать пользовательские данные в более желательную форму для использования в модели интеллектуального анализа данных. PMML определяет несколько видов простых преобразований данных.
    • Нормализация: сопоставляет значения с числами, ввод может быть непрерывным или дискретным.
    • Дискретизация: сопоставьте непрерывные значения с дискретными значениями.
    • Сопоставление значений: сопоставьте дискретные значения с дискретными значениями.
    • Функции (настраиваемые и встроенные): получают значение путем применения функции к одному или нескольким параметрам.
    • Агрегация: используется для суммирования или сбора групп значений.
  • Модель : содержит определение модели интеллектуального анализа данных. Например, многослойная нейронная сеть прямого распространения представлена ​​в PMML элементом NeuralNetwork, который содержит такие атрибуты, как:
    • Название модели (атрибут modelName)
    • Имя функции (атрибут functionName)
    • Имя алгоритма (атрибут имя_алгоритма)
    • Функция активации (атрибут activeFunction)
    • Количество слоев (атрибут NumberOfLayers)
Затем за этой информацией следуют три типа нейронных слоев, которые определяют архитектуру модели нейронной сети, представленной в документе PMML. Этими атрибутами являются NeuralInputs, NeuralLayer и NeuralOutputs. Помимо нейронных сетей, PMML позволяет представлять многие другие типы моделей, включая машины опорных векторов , правила ассоциации , наивный байесовский классификатор , модели кластеризации, текстовые модели , деревья решений и различные модели регрессии .
  • Схема интеллектуального анализа : список всех полей, используемых в модели. Это может быть подмножество полей, определенных в словаре данных. Он содержит конкретную информацию о каждом поле, например:
    • Имя (имя атрибута): должно ссылаться на поле в словаре данных.
    • Тип использования (атрибут UsageType): определяет способ использования поля в модели. Типичные значения: активные, прогнозируемые и дополнительные. Прогнозируемые поля — это поля, значения которых прогнозируются моделью.
    • Обработка выбросов (выбросы атрибутов): определяет используемую обработку выбросов. В PMML выбросы можно рассматривать как пропущенные значения, как крайние значения (на основе определения верхних и нижних значений для конкретного поля) или как есть.
    • Политика замены отсутствующего значения (атрибут MissingValueReplacement): если этот атрибут указан, то отсутствующее значение автоматически заменяется заданными значениями.
    • Обработка отсутствующих значений (атрибут MissingValueTreatment): указывает, как была получена замена отсутствующих значений (например, как значение, среднее значение или медиана).
  • Цели : позволяет осуществлять постобработку прогнозируемого значения в формате масштабирования, если выходные данные модели непрерывны. Цели также можно использовать для задач классификации. В этом случае атрибут PriorProbability указывает вероятность по умолчанию для соответствующей целевой категории. Он используется, если сама логика прогнозирования не дала результата. Это может произойти, например, если входное значение отсутствует и не существует другого метода обработки отсутствующих значений.
  • Вывод : этот элемент можно использовать для обозначения всех желаемых полей вывода, ожидаемых от модели. Это характеристики прогнозируемого поля, как правило, само прогнозируемое значение, вероятность, сходство кластера (для моделей кластеризации), стандартная ошибка и т. д. Последняя версия PMML, PMML 4.1, расширенный вывод , позволяющий выполнять общую постобработку. выходных данных модели. В PMML 4.1 все встроенные и пользовательские функции, которые изначально были доступны только для предварительной обработки, стали доступны и для постобработки.

PMML 4.0, 4.1, 4.2 и 4.3 [ править ]

PMML 4.0 был выпущен 16 июня 2009 г. [6] [7] [8]

Примеры новых функций:

PMML 4.1 был выпущен 31 декабря 2011 года. [9] [10]

Новые функции включали:

  • Новые элементы модели для представления карт показателей, k-ближайших соседей ( KNN ) и базовых моделей.
  • Упрощение нескольких моделей. В PMML 4.1 один и тот же элемент используется для представления сегментации, ансамбля и цепочки модели.
  • Общее определение области действия поля и имен полей.
  • Новый атрибут, который определяет для каждого элемента модели, готова ли модель к производственному развертыванию.
  • Расширенные возможности постобработки (через элемент Output).

PMML 4.2 был выпущен 28 февраля 2014 г. [11] [12]

Новые функции включают в себя:

  • Преобразования: новые элементы для реализации интеллектуального анализа текста
  • Новые встроенные функции для реализации регулярных выражений: совпадения, объединение и замена.
  • Упрощенные результаты для постобработки
  • Усовершенствования элементов модели Scorecard и Naive Bayes.

PMML 4.3 был выпущен 23 августа 2016 г. [13] [14]

Новые функции включают в себя:

  • Новые типы моделей:
    • Гауссов процесс
    • Байесовская сеть
  • Новые встроенные функции
  • Разъяснения по использованию
  • Улучшения документации

Версия 4.4 была выпущена в ноябре 2019 года. [15] [16]

История выпусков [ править ]

Версия Дата выпуска
Версия 0.7 июль 1997 г.
Версия 0.9 июль 1998 г.
Версия 1.0 август 1999 г.
Версия 1.1 август 2000 г.
Версия 2.0 август 2001 г.
Версия 2.1 март 2003 г.
Версия 3.0 Октябрь 2004 г.
Версия 3.1 декабрь 2005 г.
Версия 3.2 май 2007 г.
Версия 4.0 июнь 2009 г.
Версия 4.1 декабрь 2011 г.
Версия 4.2 февраль 2014 г.
Версия 4.2.1 Март 2015 г.
Версия 4.3 август 2016 г.
Версия 4.4 ноябрь 2019 г.

Группа данных анализа интеллектуального

Data Mining Group — это консорциум, управляемый Центром компьютерных исследований, некоммерческой организацией, основанной в 2008 году. [17] Группа интеллектуального анализа данных также разработала стандарт под названием Portable Format for Analytics или PFA, который дополняет PMML.

См. также [ править ]

Ссылки [ править ]

  1. ^ «Управление и анализ нескольких прогнозных моделей с использованием языка разметки прогнозного моделирования» . Исследовательские ворота . дои : 10.1016/S0950-5849(99)00022-1 . Проверено 21 декабря 2015 г.
  2. ^ «Группа интеллектуального анализа данных» . Проверено 14 декабря 2017 г. DMG с гордостью принимает у себя рабочие группы, которые разрабатывают язык разметки прогнозных моделей (PMML) и портативный формат для аналитики (PFA) — два взаимодополняющих стандарта, которые упрощают развертывание аналитических моделей.
  3. ^ «На базе PMML» . Группа интеллектуального анализа данных . Проверено 14 декабря 2017 г.
  4. ^ А. Гуаццелли, М. Зеллер, В. Чен и Г. Уильямс. PMML: открытый стандарт для совместного использования моделей . The R Journal , том 1/1, май 2009 г.
  5. ^ А. Гуазелли, В. Лин, Т. Йена (2010). PMML в действии (2-е издание): раскрытие возможностей открытых стандартов для интеллектуального анализа данных и прогнозной аналитики . CreateSpace.
  6. ^ Веб-сайт группы интеллектуального анализа данных | PMML 4.0 — Изменения по сравнению с PMML 3.2. Архивировано 28 июля 2012 г. на archive.today.
  7. ^ «Сайт Zementis | PMML 4.0 уже здесь!» . Архивировано из оригинала 3 октября 2011 г. Проверено 17 июня 2009 г.
  8. ^ Р. Пехтер. Что такое PMML и что нового в PMML 4.0? Информационный бюллетень ACM SIGKDD Explorations , том 11/1, июль 2009 г.
  9. ^ Веб-сайт группы интеллектуального анализа данных | PMML 4.1 — Изменения по сравнению с PMML 4.0
  10. ^ Веб-сайт с информацией о прогнозной аналитике | PMML 4.1 уже здесь!
  11. ^ Веб-сайт группы интеллектуального анализа данных | PMML 4.2 — Изменения по сравнению с PMML 4.1. Архивировано 20 мая 2014 г. на archive.today.
  12. ^ Веб-сайт с информацией о прогнозной аналитике | PMML 4.2 уже здесь!
  13. ^ Веб-сайт группы интеллектуального анализа данных | PMML 4.3 — Изменения по сравнению с PMML 4.2.1
  14. ^ Веб-сайт продукта языка прогнозной модели разметки | Проектная деятельность
  15. ^ «Группа интеллектуального анализа данных выпускает язык разметки прогнозных моделей v4.4» . Проверено 12 июля 2021 г.
  16. ^ «PMML 4.4.1 — Общая структура» . Группа интеллектуального анализа данных . Проверено 12 июля 2021 г.
  17. ^ «2008 ЭО 990» . Проверено 16 октября 2014 г.

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 82b5028df2f46c70913e85a1768e1c55__1718667540
URL1:https://arc.ask3.ru/arc/aa/82/55/82b5028df2f46c70913e85a1768e1c55.html
Заголовок, (Title) документа по адресу, URL1:
Predictive Model Markup Language - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)