Дискретизация непрерывных функций
В статистике и обучении машинном дискретизация относится к процессу преобразования или разделения непрерывных атрибутов , признаков или переменных на дискретизированные или номинальные атрибуты/признаки/переменные/ интервалы . Это может быть полезно при создании функций вероятностной массы – формально, при оценке плотности . Это форма дискретизации в целом, а также группирования , например, при построении гистограммы . Всякий раз, когда непрерывные данные дискретизируются, всегда возникает некоторая ошибка дискретизации . Цель состоит в том, чтобы уменьшить сумму до уровня, который считается незначительным для целей моделирования .
Обычно данные дискретизируются на разделы K равной длины/ширины (равные интервалы) или K% от общего объема данных (равные частоты). [1]
Механизмы дискретизации непрерывных данных включают метод MDL Файяда и Ирани, [2] который использует взаимную информацию для рекурсивного определения лучших бункеров, CAIM, CACC, Ameva и многие другие. [3]
Известно, что многие алгоритмы машинного обучения создают более качественные модели за счет дискретизации непрерывных атрибутов. [4]
Программное обеспечение
[ редактировать ]Это неполный список программного обеспечения, реализующего алгоритм MDL.
- Инструмент Discretize4crf , предназначенный для работы с популярными CRF реализациями ( C++ ).
- mdlp в дискретизации пакета R
- Дискретизация в пакете R RWeka
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Кларк, Э.Дж.; Бартон, бакалавр (2000). «Энтропия и MDL-дискретизация непрерывных переменных для байесовских сетей доверия» (PDF) . Международный журнал интеллектуальных систем . 15 : 61–92. doi : 10.1002/(SICI)1098-111X(200001)15:1<61::AID-INT4>3.0.CO;2-O . Проверено 10 июля 2008 г.
- ^ Файяд, Усама М.; Ирани, Кеки Б. (1993) «Многоинтервальная дискретизация атрибутов с непрерывным значением для классификационного обучения» (PDF) . 29 июля 2023 г. hdl : 2014/35171 . , учеб. 13-й Международный. Совместная конф. об искусственном интеллекте (Q334.I571 1993), стр. 1022–1027.
- ^ Догерти, Дж.; Кохави, Р.; Сахами, М. (1995). « Контролируемая и неконтролируемая дискретизация непрерывных функций ». В книге А. Приедитис и С. Дж. Рассел, ред. Работа . Морган Кауфманн, стр. 194–202.
- ^ Коциантис, С.; Канеллопулос, Д. (2006). «Методы дискретизации: недавний обзор». GESTS International Transactions по информатике и инженерии . 32 (1): 47–58. CiteSeerX 10.1.1.109.3084 .