Масштабирование функций
Часть серии о |
Машинное обучение и интеллектуальный анализ данных |
---|
Масштабирование признаков — это метод, используемый для нормализации диапазона независимых переменных или характеристик данных. В обработке данных это также известно как нормализация данных и обычно выполняется на этапе предварительной обработки данных .
Мотивация [ править ]
Поскольку диапазон значений необработанных данных сильно различается, в некоторых машинного обучения алгоритмах целевые функции не будут работать должным образом без нормализации . Например, многие классификаторы вычисляют расстояние между двумя точками по евклидову расстоянию . Если один из признаков имеет широкий диапазон значений, расстояние будет определяться этим конкретным признаком. Следовательно, диапазон всех функций должен быть нормализован таким образом, чтобы вклад каждого объекта в окончательное расстояние был примерно пропорционален.
Другая причина, по которой применяется масштабирование признаков, заключается в том, что градиентный спуск сходится гораздо быстрее при масштабировании признаков, чем без него. [1]
Также важно применять масштабирование признаков, если регуляризация используется как часть функции потерь (чтобы коэффициенты были соответствующим образом наказаны).
Методы [ править ]
Изменение масштаба (нормализация мин-макс) [ править ]
Изменение масштаба, также известное как мин-макс-масштабирование или мин-макс-нормализация, является самым простым методом и заключается в изменении масштаба диапазона признаков для масштабирования диапазона в [0, 1] или [-1, 1]. Выбор целевого диапазона зависит от характера данных. Общая формула для min-max [0, 1] задается как: [2]
где это исходное значение, является нормализованным значением. Например, предположим, что у нас есть данные о весе учащихся, а их вес варьируется [160 фунтов, 200 фунтов]. Чтобы изменить масштаб этих данных, мы сначала вычитаем 160 из веса каждого ученика и делим результат на 40 (разница между максимальным и минимальным весом).
Чтобы изменить масштаб диапазона между произвольным набором значений [a, b], формула принимает вид:
где это мин-макс значения.
Средняя нормализация
где это исходное значение, нормализованное значение, является средним значением этого вектора признаков. Существует еще одна форма нормализации среднего значения, которая делится на стандартное отклонение, которое также называется стандартизацией.
Z- Стандартизация ( нормализация показателя )
В машинном обучении мы можем обрабатывать различные типы данных, например аудиосигналы и значения пикселей для данных изображения, и эти данные могут включать в себя несколько измерений . Стандартизация признаков приводит к тому, что значения каждого признака в данных имеют нулевое среднее (при вычитании среднего значения в числителе) и единичную дисперсию. Этот метод широко используется для нормализации во многих алгоритмах машинного обучения (например, машинах опорных векторов , логистической регрессии и искусственных нейронных сетях ). [3] [4] Общий метод расчета заключается в определении среднего значения распределения и стандартного отклонения для каждого признака. Затем мы вычитаем среднее значение из каждого признака. Затем мы делим значения (среднее значение уже вычтено) каждого признака на его стандартное отклонение.
Где исходный вектор признаков, является средним значением этого вектора признаков, а это его стандартное отклонение.
Масштабирование до единицы длины [ править ]
Другой вариант, широко используемый в машинном обучении, — масштабировать компоненты вектора признаков так, чтобы длина полного вектора составляла единицу. Обычно это означает деление каждого компонента на евклидову длину вектора:
В некоторых приложениях (например, функции гистограммы) может быть более практично использовать норму L 1 (т. е. геометрию такси ) вектора признаков. Это особенно важно, если на следующих этапах обучения в качестве меры расстояния используется скалярная метрика. [ почему? ] Обратите внимание, что это работает только для .
Приложение [ править ]
При стохастическом градиентном спуске масштабирование признаков иногда может улучшить скорость сходимости алгоритма. В машинах опорных векторов [5] это может сократить время поиска векторов поддержки.
См. также [ править ]
- Нормализация (статистика)
- Стандартная оценка
- fMLLR , Пространство признаков Линейная регрессия максимального правдоподобия
Ссылки [ править ]
- ^ Иоффе, Сергей; Кристиан Сегеди (2015). «Пакетная нормализация: ускорение глубокого обучения сети за счет уменьшения внутреннего ковариатного сдвига». arXiv : 1502.03167 [ cs.LG ].
- ^ «Нормализация Мин Макс» . ml-concepts.com . Архивировано из оригинала 5 апреля 2023 г. Проверено 14 декабря 2022 г.
- ^ Грус, Джоэл (2015). Наука о данных с нуля . Севастополь, Калифорния: О'Рейли. стр. 99, 100. ISBN. 978-1-491-90142-7 .
- ^ Хасти, Тревор; Тибширани, Роберт; Фридман, Джером Х. (2009). Элементы статистического обучения: интеллектуальный анализ данных, логический вывод и прогнозирование . Спрингер. ISBN 978-0-387-84884-6 .
- ^ Ющак, П.; налог DMJ; РПВ Дуй (2002). «Масштабирование признаков в описаниях опорных векторных данных». Учеб. 8-й год. Конф. Адв. Школьный компьютер. Визуализация : 25–30. CiteSeerX 10.1.1.100.2524 .
Дальнейшее чтение [ править ]
- Хан, Цзявэй; Камбер, Мишлин; Пей, Цзянь (2011). «Преобразование данных и дискретизация данных» . Интеллектуальный анализ данных: концепции и методы . Эльзевир. стр. 111–118. ISBN 9780123814807 .